生成式人工智能的快速扩张标志着全球技术格局,正在接近一个可能重新定义创新步伐的关键障碍。行业专家和研究人员警告说,对于训练高级语言模型至关重要的高质量公共数据量正在耗尽。这种情况使公司与时间赛跑,寻找新的信息来源并开发更有效的学习方法。 当前的悖论是,虽然训练日益复杂的系统所需的数据需求每年翻一番,但互联网上新的高质量人类内容的增长速度却要慢得多,估计每年约 10%。这种差异有可能造成发展停滞,迫使范式转变超越简单的处理规模和信息量。 人工智能 – 照片:Owlie Productions/Shutterstock.com 面对这一挑战,OpenAI、谷歌和Meta等科技巨头正在加紧寻找创新解决方案。策略范围从生成合成数据到开发从更少示例中学习的算法,标志着人工智能发展的新阶段,重点关注现有资源的效率和优化。 关于训练数据耗尽的预测 最近的研究指出了一个令人担忧的前景,预测公开的高质量文本和图像的库存可能会在今年年底到 2032 年之间耗尽。目前的估计是,大约有 300 万亿个“令牌”(文本或代码单位)经过质量调整,这一数量正在被最先进的模型迅速消耗。尽管低质量的数据可以将这一前沿延伸到 2050 年,但不足以推动健康、金融和工程等复杂领域的重大进步,这些领域需要精确性和无偏见。由于版权而对内容访问的日益限制进一步加剧了这个问题,限制了可合法用于培训这些技术的信息范围。 基础设施和硬件方面的大量投资 为了应对不断增长的计算需求,包括亚马逊、微软和谷歌在内的主要市场参与者已宣布在数据中心基础设施方面的投资总额超过 3700 亿美元。此次大规模扩建不仅旨在提高处理能力,而且还通过在拥有风能和水力发电等可再生能源的地区建设新设施来优化能源效率。目标是支持实时处理大量数据,这是关键应用程序所必需的。 与此同时,黄仁勋领导的英伟达等公司将专用芯片的产量增加了四倍,利用自己的人工智能工具加速设计和制造。硬件方面的这些进步对于模型变得更加高效、以相应降低的数据和能源消耗获得更好的结果至关重要。算法优化和智能计算架构的开发补充了这些努力,寻求计算能力和可用资源之间的可持续平衡。 人工智能的综合进步和成熟...
人工智能的加速进步标志着去年全球技术领域的发展,现在面临着一个严峻的挑战,可能会限制其发展的极限。经过一段时间的大规模投资,亚马逊、微软和谷歌等巨头宣布合计投资 3700 亿美元用于基础设施,该行业面临着高质量公共数据的紧迫短缺,而高质量公共数据是训练日益复杂的模型的重要资源。这一瓶颈可能会减缓创新的步伐,而创新的步伐正是将人工智能定位为企业规模的变革工具,并导致《时代》杂志将该技术的架构师评为年度人物。 生成式人工智能与生产力、编码和数据分析工具的整合是一个里程碑,这是由 Nvidia 芯片等专用硬件的进步推动的,这些硬件的生产使用自己的人工智能工具进行了优化。模型开始在设备上本地运行,提高了处理速度并确保敏感信息的隐私。 然而,每年翻倍的训练数据需求呈指数级增长,与互联网上新公共内容的创建速度形成鲜明对比,后者每年仅以 10% 的速度增长。这种差异对更复杂和公正的系统的发展造成了根本障碍。 人工智能 – 照片:Owlie Productions/Shutterstock.com 巩固进步和新场景 过去的一年对于人工智能在实际应用中的成熟至关重要。有助于编写复杂代码和分析大量信息的工具已在企业环境中变得常见,从而显着提高了效率。直接在本地设备上运行高级模型的能力代表了性能和安全性的飞跃,减少了涉及机密数据的任务对云处理的依赖。这一进展是由 OpenAI 的 Sam Altman 和 Nvidia 的...
人工智能的加速发展标志着全球技术舞台,并最终导致其先驱者被《时代》杂志评选为年度人物,但现在面临着一个根本性的障碍:用于训练未来模型的高质量数据迫在眉睫。虽然 Nvidia、OpenAI 和 Meta 等公司已将人工智能提升到前所未有的商业生产力水平,但行业专家警告称,互联网上公开的文本和图像信息库(对于开发更复杂的系统至关重要)的消耗速度比预期更快。这种限制可能会减缓重新定义整个行业的创新步伐。 当前的悖论在于,尽管处理能力呈指数级增长,亚马逊、微软和谷歌等巨头在数据中心基础设施上的投资达到数千亿美元,但为这些系统提供动力的原材料数据却成为有限的资源。确保可再生能源和建设更高效的处理中心的竞赛凸显了运营规模,但并没有解决信息供应的核心问题。 科技行业发现自己正处于十字路口。对大量公共数据来训练语言和计算机视觉模型的依赖可能已经达到饱和点,迫使研究人员和公司寻求替代范例来支持人工智能的下一波发展。 人工智能 – 照片:Owlie Productions/Shutterstock.com 公共数据即将耗尽 人工智能研究机构最近的研究和预测指出了一个令人担忧的情况,即公开的高质量文本的库存可能在 2026 年至 2032 年间完全耗尽。供需之间的差异令人震惊:虽然训练尖端模型的数据需求每年大约增加一倍,但网络上新的高质量内容的生成每年仅以 10% 的速度增长。这种不可持续的轨迹意味着,除非开发出新的来源或方法,否则很快将不再有文本、文章、书籍和公共对话来推动下一代人工智能。模型日益复杂,需要信息的多样性和深度,而低质量的内容虽然更加丰富,但根本无法提供,从而面临技术进步停滞和系统引入有害偏见的风险。 质量是一个关键因素 高质量和低质量数据之间的区别已成为人工智能未来争论的中心点。虽然估计表明,未经审核的评论和自动生成的文本等低质量内容可能会持续到本世纪中叶,但它们的使用严重损害了模型准确无偏见地执行复杂任务的能力。对于医疗诊断、财务分析和科学研究等关键领域的培训系统来说,高质量、精心策划且真实正确的信息是必不可少的。 [[MVG_PROTECTED_BLOCK_0]...
2025 年,人工智能成为社会变革的力量,其主要架构师最终被《时代》杂志评为“年度人物”。 Nvidia 的 Jensen Huang、OpenAI 的 Sam Altman 和 Meta 的 Mark Zuckerberg 等人物因推动技术革命而受到赞誉,这场技术革命在从企业生产力到科学研究的多个行业中无处不在。 这一里程碑反映了在专用芯片和日益复杂的语言模型的重大进步的推动下,生成式人工智能在全球范围内达到了生产性成熟的时刻。公司已投资数千亿美元来扩展数据中心基础设施,以实时处理前所未有的大量信息并提高能源效率。 然而,当行业庆祝当前的成功时,一个严峻的挑战也随之出现。专家和研究机构的报告警告说,指数级的发展速度可能会遇到一个根本性的障碍:互联网上可用的高质量公共数据的耗尽,而这些数据是训练未来模型的重要资源。据预测,这种短缺最早将在 2026 年成为一个切实的问题,威胁到迄今为止创新速度的连续性。 人工智能 – 照片:Owlie...