Anthropic宣布發布其最新人工智慧模型Claude Opus 4.8,標誌著自主系統能力的重大進步。該公司強調了幾個領域的關鍵改進,將模型轉變為處理複雜任務的更有效、更可靠的協作者。本次更新旨在優化使用者與AI的交互,拓展其在專業技術場景中的潛力。
除了改善智力工作和自主財務分析之外,新模型還整合了自主編碼、多學科推理和自主電腦使用方面的創新。這些功能使 Claude Opus 4.8 成為一個強大的工具,可以應對需要高精度和資訊處理能力的挑戰。 Opus 4.8 的到來反映了人們不斷努力改善人工智慧的效能和完整性。
性能和可靠性改進
專家評估表明,Claude Opus 4.8在執行動作任務時的判斷更加可靠和準確。 Anthropic 強調,誠實方面的進步是巨大的。早期用戶報告稱,Opus 4.8 更有可能表明其自身功能的不確定性,避免做出未經證實的聲明。這種行為提高了與人工智慧互動時的透明度和安全性標準。
該公司的內部評估證實了這一看法,表明與先前的版本相比,Opus 4.8 程式碼中的缺陷被忽視的可能性大約降低了四倍。這種自我檢測錯誤的能力代表了系統的穩健性和可靠性的飛躍。因此,該模型旨在以更大的自主權運行,並降低傳播不準確或不正確資訊的風險。
一致性評估和親社會特徵
一致性評估的結果表明,Claude Opus 4.8 在親社會特徵的衡量方面達到了新的高度。這包括對用戶自主權的更大支持以及始終以用戶的最佳利益為出發點。該模型的架構旨在促進更道德和以人為本的交互,確保其操作與使用者的目標保持一致。
Opus 4.8 中欺騙等不當行為的發生率顯著降低,低於 Opus 4.7 中的水平。這些數字與先前版本的克勞德神話類似。這種一致性表明了 Anthropic 致力於開發人工智慧模型,這些模型不僅功能強大,而且互動時負責任且安全。
基準和速度優化
Anthropic發布的基準測試顯示Claude Opus 4.8在編碼測試中表現優異。該模型在 SWE-Bench Pro 中獲得了 69.2% 的成績,該指數使其在該基準測試和其他幾個基準測試中優於 GPT-5.5 和 Gemini 3.1 Pro 等競爭對手。儘管GPT-5.5在終端編碼基準測試中保持領先,但Opus 4.8的整體表現還是可圈可點的。
Claude Opus 4.8 的快速模式也得到了改進,可以以 2.5 倍的速度運行。此外,這種模式現在的成本比以前的模型低三倍。這種速度和成本效益的最佳化讓更多的開發人員和公司能夠使用先進的人工智慧功能。 Anthropic 力求在高效能與營運效率之間取得平衡。
為開發者提供的新功能
Anthropic 正在為其產品線添加重要的新功能,以補充 Claude Opus 4.8 的發布。這些功能旨在為使用該平台的開發人員提供更大的靈活性和控制力。
- 動態工作流程(搜尋預覽):克勞德現在可以在克勞德代碼中完成更大的任務。它可以安排工作並在單一會話中並行運行數百個子代理程式。可以執行原始碼規模的遷移,跨越數十萬行程式碼。此功能適用於 Claude Code Enterprise、Team 和 Max 計劃。
- 努力控制:在 Claude.ai 和 Cowork 上,使用者可以選擇 Claude 在回應中投入的努力程度。設定較低時,克勞德的反應速度會更快,消耗速率限制也會更慢。 Opus 4.8 預設為高強度,Anthropic 表示這提供了品質和使用者體驗之間的最佳平衡。
- 訊息傳遞API:訊息 API 在訊息矩陣內接受來自系統的輸入,允許開發人員在任務執行期間更新 Claude 的指令。
可用性和未來發展
Claude Opus 4.8 現已在所有地區推出,常規使用價格與先前版本 Opus 4.7 相比保持不變。該公司保證現有用戶可以順利過渡到新模式。
Anthropic 繼續致力於開發具有與 Opus 4.8 相同功能但成本更低的模型。此外,該公司還專注於開發比 Opus 更智慧的新型型號。克勞德神話模型的安全措施正在與少數組織一起開發和測試。預計 Mythos 級型號將在未來幾週內向所有客戶提供。

