News (CN)

训练数据质量成为人工智能未来的主要障碍

作者 Maria

发布于 2026年1月22日

inteligência artificial - Digineer Station/Shutterstock.com

在 Google 上关注 Mix Vale在 Google 搜索中查看全球新闻关注

人工智能的加速进步标志着去年全球技术领域的发展，现在面临着一个严峻的挑战，可能会限制其发展的极限。经过一段时间的大规模投资，亚马逊、微软和谷歌等巨头宣布合计投资 3700 亿美元用于基础设施，该行业面临着高质量公共数据的紧迫短缺，而高质量公共数据是训练日益复杂的模型的重要资源。这一瓶颈可能会减缓创新的步伐，而创新的步伐正是将人工智能定位为企业规模的变革工具，并导致《时代》杂志将该技术的架构师评为年度人物。

生成式人工智能与生产力、编码和数据分析工具的整合是一个里程碑，这是由 Nvidia 芯片等专用硬件的进步推动的，这些硬件的生产使用自己的人工智能工具进行了优化。模型开始在设备上本地运行，提高了处理速度并确保敏感信息的隐私。

然而，每年翻倍的训练数据需求呈指数级增长，与互联网上新公共内容的创建速度形成鲜明对比，后者每年仅以 10% 的速度增长。这种差异对更复杂和公正的系统的发展造成了根本障碍。

巩固进步和新场景

过去的一年对于人工智能在实际应用中的成熟至关重要。有助于编写复杂代码和分析大量信息的工具已在企业环境中变得常见，从而显着提高了效率。直接在本地设备上运行高级模型的能力代表了性能和安全性的飞跃，减少了涉及机密数据的任务对云处理的依赖。这一进展是由 OpenAI 的 Sam Altman 和 Nvidia 的 Jensen Huang 等人物领导的，他们的工作对该技术的传播发挥了重要作用。

拥有完善内部数据管理的公司是受益最多的公司，他们成功地实施了人工智能解决方案并取得了优异的成果。计算效率的进步使得模型在资源消耗不成比例增加的情况下变得更加强大，从而巩固了人工智能作为一项创新的影响力，其影响力可与历史上其他重大技术革命相媲美。重复性任务的自动化以及从以前未充分利用的信息中提取有价值的见解的能力已经改变了从医疗保健到金融等各个行业的运营。

[[MVG_PROTECTED_BLOCK_0]

数据稀缺预测

技术和市场分析机构最近的研究指出了一个令人担忧的情况，表明互联网上公开提供的高质量文本和图像的库存可能会在 2026 年至 2032 年间用于培训目的。目前的估计是，大约有 300 万亿个“令牌”（文本单位，如单词或其中的一部分）根据质量进行了调整，这一数量正在加速消耗。尖端的语言模型需要大量多样的信息来学习推理、避免偏见并在关键领域安全运行。内容平台施加的版权限制加剧了这种短缺，这些限制限制了对有价值数据的访问，并迫使该行业寻求新的来源以维持进步。

克服信息障碍的策略

为了规避公共数据的限制，科技公司正在积极探索合成数据的使用。这种方法包括使用人工智能本身来生成模拟现实世界数据的新信息，例如文本、图像或代码。该技术允许您为特定任务创建大量的个性化训练集，尽管它需要严格的谨慎以避免降低质量或放大原始模型中的现有偏差。

创新的另一个前沿是开发更高效的学习技术，这需要更少的数据。诸如迁移学习之类的方法正在获得越来越多的空间，其中将来自大量数据的预训练模型的知识应用于新的、更具体的任务。所谓的课程学习，按照从最简单到最复杂的逻辑顺序组织训练数据，也有助于模型以更少的信息更智能地建立连接。

寻找新的信息来源也会带来道德合作和战略伙伴关系。人工智能公司正在与研究机构、政府和其他组织合作，以获得公共互联网上无法提供的高质量私人或离线数据存储库。这些伙伴关系对于保证数据的多样性和代表性至关重要，特别是在医学和立法等敏感领域。

质量作为内部战略重点

迫在眉睫的外部数据危机迫使许多组织重新评估自己的信息资产。在过去的一年里，许多公司发现他们的内部数据库充满了冗余、过时或格式不良的信息，这已经成为有效实施人工智能的障碍。技术在提供解决方案的同时，也放大了杂乱数据中现有的缺陷，暴露出对更严格的治理的迫切需要。

这引发了企业内部的重大文化变革，企业现在优先考虑数据质量而不是数据数量。清理、标准化和管理信息已成为企业为人工智能的下一步发展做好准备的重要活动。

IT、合规和数据分析等以前孤立运作的部门正在整合。这种合作对于将原始数据转化为能够安全有效地为人工智能模型提供支持的战略性和有价值的资产至关重要。

投资强大且有弹性的数据管道已被视为一种竞争优势。能够确保高质量信息持续流动的公司更有能力开发和扩展能够产生真正商业价值的人工智能解决方案。

扩大计算效率

在寻找更多数据的同时，业界在提高计算效率方面投入了大量资金。专用芯片和算法优化的开发带来了显着的性能提升，使模型能够执行更复杂的任务，而无需成比例增加对训练数据的需求。硬件的这种发展对于实时处理大量信息至关重要，从而实现更快的医疗诊断和新药发现等关键应用。

支持这一需求的物理基础设施——数据中心——也在不断扩张，预测表明能源密度将持续增加。为了应对这种增长，该行业正在开发先进的制冷解决方案，并寻求风电场和水力发电厂等可再生能源，以更高效、更环保的方式维持其运营。计算能力和能耗之间的平衡已成为决定技术实际极限的主要因素之一。

模型训练的新兴替代方案

行业的重点正在从简单的可扩展性转向智能、低成本运营。未来几年人工智能的成熟度将取决于将其弹性、可持续地融入现实世界环境的能力。硬件和软件效率方面的创新将继续扩大进展，减少对新人类数据的唯一依赖，并标志着从实验到全球范围内实际实施的明确过渡。

标签人工智能, 人工智能培训, 技术, 数据稀缺, 综合数据