Tin Mới Nhất (VI)

Anthropic ra mắt Claude Opus 4.8: tăng đáng kể về AI, mã hóa tự động và tính trung thực của hệ thống cao hơn

Anthropic, Claude
Foto: Anthropic, Claude - gguy / Shutterstock.com

Anthropic công bố phát hành mẫu trí tuệ nhân tạo mới nhất của mình, Claude Opus 4.8, đánh dấu một bước tiến đáng kể về khả năng của các hệ thống tự trị. Công ty nhấn mạnh những cải tiến quan trọng trong một số lĩnh vực, biến mô hình này thành một cộng tác viên hiệu quả và đáng tin cậy hơn cho các nhiệm vụ phức tạp. Bản cập nhật này nhằm mục đích tối ưu hóa sự tương tác của người dùng với AI, mở rộng tiềm năng của nó trong các tình huống chuyên môn và kỹ thuật.

Mô hình mới kết hợp những đổi mới trong mã hóa tự động, lý luận đa ngành và sử dụng máy tính tự động, bên cạnh việc cải thiện công việc trí tuệ và phân tích tài chính tự chủ. Những tính năng này định vị Claude Opus 4.8 như một công cụ mạnh mẽ để đối mặt với những thách thức đòi hỏi khả năng xử lý thông tin và độ chính xác cao. Sự xuất hiện của Opus 4.8 phản ánh nỗ lực không ngừng nhằm cải tiến hiệu suất và tính toàn vẹn của trí tuệ nhân tạo.

Cải thiện hiệu suất và độ tin cậy

Các đánh giá được thực hiện bởi các chuyên gia cho thấy Claude Opus 4.8 chứng tỏ là một mô hình đáng tin cậy và chính xác hơn trong các phán đoán khi thực hiện các nhiệm vụ hành động. Anthropic nhấn mạnh rằng sự cải thiện về tính trung thực là rất đáng kể. Những người dùng ban đầu đã báo cáo rằng Opus 4.8 có nhiều khả năng báo hiệu những điều không chắc chắn về chức năng của chính nó, tránh đưa ra những tuyên bố vô căn cứ. Hành vi này nâng cao tiêu chuẩn về tính minh bạch và bảo mật khi tương tác với AI.

Các đánh giá nội bộ của công ty xác nhận nhận thức này, chỉ ra rằng Opus 4.8 có khả năng cho phép các sai sót trong mã của nó không được chú ý thấp hơn khoảng bốn lần so với phiên bản tiền nhiệm. Khả năng tự phát hiện lỗi này thể hiện bước nhảy vọt về độ bền và độ tin cậy của hệ thống. Do đó, mô hình này được thiết kế để hoạt động với tính tự chủ cao hơn và ít rủi ro hơn trong việc truyền bá thông tin không chính xác hoặc không chính xác.

Đánh giá sự phù hợp và đặc điểm xã hội

Kết quả từ các đánh giá liên kết cho thấy Claude Opus 4.8 đạt đến tầm cao mới trong việc đo lường các đặc điểm xã hội. Điều này bao gồm sự hỗ trợ lớn hơn cho quyền tự chủ của người dùng và hành động nhất quán vì lợi ích tốt nhất của người dùng. Kiến trúc của mô hình được thiết kế để thúc đẩy sự tương tác lấy con người làm trung tâm và có đạo đức hơn, đảm bảo rằng các hoạt động của nó phù hợp với mục tiêu của người dùng.

Tỷ lệ hành vi sai lệch như lừa dối đã giảm đáng kể trong Opus 4.8, cho thấy mức độ thấp hơn so với Opus 4.7. Những con số này giống với phiên bản trước của Claude Mythos. Sự nhất quán trong sự liên kết này thể hiện cam kết của Anthropic trong việc phát triển các mô hình AI không chỉ mạnh mẽ mà còn có trách nhiệm và an toàn trong các tương tác của chúng.

Điểm chuẩn và tối ưu hóa tốc độ

Điểm chuẩn do Anthropic đưa ra cho thấy hiệu suất vượt trội của Claude Opus 4.8 trong các bài kiểm tra mã hóa. Mô hình này đạt được 69,2% trong SWE-Bench Pro, một chỉ số giúp nó vượt lên trên các đối thủ cạnh tranh như GPT-5.5 và Gemini 3.1 Pro trong tiêu chuẩn này và một số điểm chuẩn khác. Mặc dù GPT-5.5 duy trì vị trí dẫn đầu trong tiêu chuẩn mã hóa thiết bị đầu cuối nhưng hiệu suất tổng thể của Opus 4.8 rất đáng chú ý.

Chế độ nhanh của Claude Opus 4.8 cũng được cải tiến để hoạt động với tốc độ gấp 2,5 lần. Ngoài ra, chế độ này hiện có giá thấp hơn ba lần so với các mẫu trước đó. Việc tối ưu hóa tốc độ và hiệu quả về chi phí này mở rộng khả năng tiếp cận các khả năng AI tiên tiến cho nhiều nhà phát triển và công ty hơn. Anthropic tìm cách cân bằng hiệu suất cao với hiệu quả hoạt động.

Tính năng mới dành cho nhà phát triển

Anthropic đang bổ sung thêm các tính năng mới quan trọng vào dòng sản phẩm của mình, bổ sung cho việc phát hành Claude Opus 4.8. Những tính năng này nhằm mục đích mang lại sự linh hoạt và khả năng kiểm soát cao hơn cho các nhà phát triển sử dụng nền tảng.

  • Quy trình công việc động (xem trước tìm kiếm):Claude giờ đây có thể hoàn thành các nhiệm vụ lớn hơn trong Bộ luật Claude. Nó có thể lên lịch làm việc và chạy song song hàng trăm tác nhân phụ trong một phiên. Có thể thực hiện di chuyển quy mô mã nguồn, trải dài hàng trăm nghìn dòng mã. Tính năng này có sẵn cho các gói Claude Code Enterprise, Team và Max.
  • Kiểm soát nỗ lực:Trên Claude.ai và Cowork, người dùng có thể chọn mức độ nỗ lực mà Claude bỏ ra để phản hồi. Với cài đặt thấp hơn, Claude sẽ phản hồi nhanh hơn và tiêu thụ giới hạn tốc độ chậm hơn. Opus 4.8 mặc định có nỗ lực cao, điều mà Anthropic cho biết mang lại sự cân bằng tốt nhất giữa chất lượng và trải nghiệm người dùng.
  • API nhắn tin:API Tin nhắn chấp nhận đầu vào từ hệ thống trong ma trận tin nhắn, cho phép các nhà phát triển cập nhật hướng dẫn của Claude trong quá trình thực hiện nhiệm vụ.

Sự sẵn có và sự phát triển trong tương lai

Claude Opus 4.8 hiện đã có mặt ở tất cả các khu vực, với mức giá sử dụng thông thường không thay đổi so với phiên bản trước đó là Opus 4.7. Công ty đảm bảo rằng việc chuyển đổi sang mô hình mới sẽ diễn ra suôn sẻ đối với người dùng hiện tại.

Anthropic tiếp tục công việc phát triển các mô hình có khả năng tương tự như Opus 4.8 nhưng với chi phí thấp hơn. Ngoài ra, công ty đang tập trung vào một loại mẫu mới thậm chí còn thông minh hơn Opus. Các biện pháp bảo mật cho mô hình Claude Mythos đang được phát triển và thử nghiệm với một số ít tổ chức. Dự kiến ​​các mẫu xe hạng Mythos sẽ được cung cấp cho tất cả khách hàng trong những tuần tới.

Veja Tambem em Tin Mới Nhất (VI)

Nvidia công bố chip Rtx Spark để tái phát minh PC và thách thức Intel và Apple

Nvidia công bố chip Rtx Spark để tái phát minh PC và thách thức Intel và Apple

Người đàn ông 44 tuổi định xâm hại bé gái 5 tuổi ở Tyumen và bị trẻ em ở Nga ngăn cản

Người đàn ông 44 tuổi định xâm hại bé gái 5 tuổi ở Tyumen và bị trẻ em ở Nga ngăn cản

Việc tái cơ cấu toàn cầu của nhà sản xuất OnePlus ảnh hưởng đến khả năng lãnh đạo và Robin Liu rời bỏ quyền chỉ huy ở Ấn Độ

Việc tái cơ cấu toàn cầu của nhà sản xuất OnePlus ảnh hưởng đến khả năng lãnh đạo và Robin Liu rời bỏ quyền chỉ huy ở Ấn Độ

Nintendo phát hành bản cập nhật kỹ thuật để ổn định mười trò chơi từ bảng điều khiển gốc trên Switch 2

Nintendo phát hành bản cập nhật kỹ thuật để ổn định mười trò chơi từ bảng điều khiển gốc trên Switch 2

Samsung loại bỏ công nghệ AES cho S Pen và duy trì hệ thống cổ điển trên Galaxy S27 Ultra

Samsung loại bỏ công nghệ AES cho S Pen và duy trì hệ thống cổ điển trên Galaxy S27 Ultra

Buổi hòa nhạc của Jay-Z tại sân vận động Yankee chứng kiến ​​vé khán giả được bán lại với giá 12.000 USD

Buổi hòa nhạc của Jay-Z tại sân vận động Yankee chứng kiến ​​vé khán giả được bán lại với giá 12.000 USD

Luồng xem trước đối tác Xbox tiết lộ những chi tiết chưa từng thấy về Stranger Than Heaven và S.T.A.L.K.E.R. 2

Luồng xem trước đối tác Xbox tiết lộ những chi tiết chưa từng thấy về Stranger Than Heaven và S.T.A.L.K.E.R. 2

Thiết bị Apple duy trì hiệu suất cao và thu hút người tiêu dùng với chip A18 và camera cao cấp vào năm 2026

Thiết bị Apple duy trì hiệu suất cao và thu hút người tiêu dùng với chip A18 và camera cao cấp vào năm 2026

EuroMillions cung cấp giải độc đắc trị giá 141 triệu euro cho kỳ quay thưởng vào thứ Ba

EuroMillions cung cấp giải độc đắc trị giá 141 triệu euro cho kỳ quay thưởng vào thứ Ba

Giải độc đắc SuperEnalotto đạt 173,2 triệu euro mà không có người chiến thắng trong lần rút thăm gần đây nhất

Giải độc đắc SuperEnalotto đạt 173,2 triệu euro mà không có người chiến thắng trong lần rút thăm gần đây nhất

Giải độc đắc Powerball đạt 180 triệu USD và thu hút người đặt cược quốc tế

Giải độc đắc Powerball đạt 180 triệu USD và thu hút người đặt cược quốc tế

Miranda Hope từ ‘Secret Lives of Mormon Wives’ và Pepe Garcia từ ‘Love Island’ gặp nhau ở Miami

Miranda Hope từ ‘Secret Lives of Mormon Wives’ và Pepe Garcia từ ‘Love Island’ gặp nhau ở Miami