最新新闻 (CN)

Anthropic 推出 Claude Opus 4.8:人工智能、自主编码和更高系统诚实性方面的显着进步

Anthropic, Claude
照片: Anthropic, Claude - gguy / Shutterstock.com

Anthropic宣布发布其最新人工智能模型Claude Opus 4.8,标志着自主系统能力的重大进步。该公司强调了几个领域的关键改进,将模型转变为处理复杂任务的更有效、更可靠的协作者。本次更新旨在优化用户与AI的交互,拓展其在专业技术场景中的潜力。

除了改进智力工作和自主财务分析之外,新模型还融合了自主编码、多学科推理和自主计算机使用方面的创新。这些功能使 Claude Opus 4.8 成为一个强大的工具,可以应对需要高精度和信息处理能力的挑战。 Opus 4.8 的到来反映了人们不断努力改进人工智能的性能和完整性。

性能和可靠性改进

专家评估表明,Claude Opus 4.8在执行动作任务时的判断更加可靠和准确。 Anthropic 强调,诚实方面的进步是巨大的。早期用户报告称,Opus 4.8 更有可能表明其自身功能的不确定性,避免做出未经证实的声明。这种行为提高了与人工智能交互时的透明度和安全性标准。

该公司的内部评估证实了这一看法,表明与之前的版本相比,Opus 4.8 代码中的缺陷被忽视的可能性大约降低了四倍。这种自我检测错误的能力代表了系统的稳健性和可靠性的飞跃。因此,该模型旨在以更大的自主权运行,并降低传播不准确或不正确信息的风险。

一致性评估和亲社会特征

一致性评估的结果表明,Claude Opus 4.8 在亲社会特征的衡量方面达到了新的高度。这包括对用户自主权的更大支持以及始终以用户的最佳利益为出发点。该模型的架构旨在促进更加道德和以人为本的交互,确保其操作与用户的目标保持一致。

Opus 4.8 中欺骗等不当行为的发生率显着降低,低于 Opus 4.7 中的水平。这些数字与之前版本的克劳德神话类似。这种一致性表明了 Anthropic 致力于开发人工智能模型,这些模型不仅功能强大,而且交互时负责任且安全。

基准和速度优化

Anthropic发布的基准测试表明Claude Opus 4.8在编码测试中表现优异。该模型在 SWE-Bench Pro 中获得了 69.2% 的成绩,该指数使其在该基准测试和其他几个基准测试中优于 GPT-5.5 和 Gemini 3.1 Pro 等竞争对手。尽管GPT-5.5在终端编码基准测试中保持领先,但Opus 4.8的整体表现还是可圈可点的。

Claude Opus 4.8 的快速模式也得到了改进,可以以 2.5 倍的速度运行。此外,这种模式现在的成本比以前的模型低三倍。这种速度和成本效益的优化让更多的开发人员和公司能够使用先进的人工智能功能。 Anthropic 力求在高性能与运营效率之间取得平衡。

为开发者提供的新功能

Anthropic 正在为其产品线添加重要的新功能,以补充 Claude Opus 4.8 的发布。这些功能旨在为使用该平台的开发人员提供更大的灵活性和控制力。

  • 动态工作流程(搜索预览):克劳德现在可以在克劳德代码中完成更大的任务。它可以安排工作并在单个会话中并行运行数百个子代理。可以执行源代码规模的迁移,跨越数十万行代码。该功能适用​​于 Claude Code Enterprise、Team 和 Max 计划。
  • 努力控制:在 Claude.ai 和 Cowork 上,用户可以选择 Claude 在响应中投入的努力程度。设置较低时,克劳德的响应速度会更快,消耗速率限制也会更慢。 Opus 4.8 默认为高强度,Anthropic 表示这提供了质量和用户体验之间的最佳平衡。
  • 消息传递API:消息 API 在消息矩阵内接受来自系统的输入,允许开发人员在任务执行期间更新 Claude 的指令。

可用性和未来发展

Claude Opus 4.8 现已在所有地区推出,常规使用价格与之前版本 Opus 4.7 相比保持不变。该公司保证现有用户可以顺利过渡到新模式。

Anthropic 继续致力于开发具有与 Opus 4.8 相同功能但成本更低的模型。此外,该公司还专注于开发比 Opus 更智能的新型型号。克劳德神话模型的安全措施正在与少数组织一起开发和测试。预计 Mythos 级型号将在未来几周内向所有客户提供。