Google đã công bố vào thứ Năm tuần này dòng Gemma 4, được tạo thành từ các mô hình trí tuệ nhân tạo nguồn mở mới với trọng số sẵn có. Bản cập nhật thể hiện bước tiến lớn đầu tiên của dòng sản phẩm này kể từ khi ra mắt Gemma 3 hơn một năm trước. Các nhà phát triển hiện có giấy phép Apache 2.0, giấy phép này loại bỏ các hạn chế thương mại có trong các phiên bản trước.
Các mô hình này hỗ trợ đầu vào văn bản, âm thanh và hình ảnh, với cửa sổ ngữ cảnh đạt tới 256 nghìn mã thông báo ở các biến thể lớn nhất. Chúng được thiết kế chủ yếu để chạy cục bộ trên phần cứng giá cả phải chăng, bao gồm GPU tiêu dùng và thiết bị di động. Việc thay đổi giấy phép tạo điều kiện thuận lợi cho việc sử dụng thương mại mà không có nghĩa vụ bổ sung do Google áp đặt.
Cải tiến kỹ thuật về lý luận và đa phương thức
Các mô hình mới mang lại những tiến bộ đáng kể về lý luận, toán học và làm theo hướng dẫn khi so sánh với thế hệ trước. Chúng kết hợp hỗ trợ gọi hàm gốc và tạo đầu ra có cấu trúc JSON, mang lại lợi ích cho quy trình làm việc tổng thể.
Khả năng xử lý mã đã được tối ưu hóa cho môi trường ngoại tuyến, đạt hiệu suất tương đương với các dịch vụ đám mây như Gemini Pro. Hỗ trợ đầu vào trực quan cho phép thực hiện các tác vụ như nhận dạng ký tự quang học và giải thích biểu đồ với độ chính xác cao hơn.
- Các biến thể bao gồm các mẫu 2B và 4B hiệu quả được tối ưu hóa cho độ trễ thấp trên điện thoại thông minh.
- Hợp tác với Qualcomm và MediaTek tạo điều kiện tích hợp vào thiết bị di động.
- Các mẫu lớn hơn chạy trên một GPU H100 80GB duy nhất mà không cần lượng tử hóa.
Các biến thể kích thước và hiệu quả năng lượng
Dòng Gemma 4 có bốn cấu hình kích thước chính. Phiên bản 26B Mixture of Experts và 31B Dense mang lại hiệu suất cao và chạy trên phần cứng máy chủ hoặc máy trạm. 2B và 4B hiệu quả ưu tiên hiệu quả thực thi trên các thiết bị biên.
Mô hình 26B MoE chỉ kích hoạt 3,8 tỷ tham số trong quá trình suy luận, giảm độ trễ và mức tiêu thụ điện năng. Tất cả các biến thể xử lý hơn 140 ngôn ngữ. Các nhà phát triển có thể tải xuống toàn bộ trọng lượng trên các nền tảng như Ôm mặt, Kaggle và Ollama.
Sẵn có ngay lập tức trên các nền tảng
Các mô hình 31B và 26B lớn hơn có sẵn trong AI Studio của Google. Các phiên bản E4B và E2B nhẹ có thể được truy cập trong Thư viện AI Edge. Trọng lượng hoàn chỉnh có sẵn để tải xuống ngay từ kho lưu trữ công cộng.
Các công ty và nhà nghiên cứu có thể tích hợp mô hình vào các ứng dụng cục bộ mà không phải trả chi phí API định kỳ. Google cũng chỉ ra rằng các biến thể 2B và 4B sẽ làm cơ sở cho Gemini Nano 4 sắp ra mắt trên các thiết bị Android.
Tác động của việc chuyển sang giấy phép Apache 2.0
Việc áp dụng giấy phép Apache 2.0 loại bỏ các hạn chế của giấy phép tùy chỉnh trước đó, bao gồm các chính sách không sử dụng có thể cập nhật đơn phương. Các nhà phát triển có được quyền kiểm soát tốt hơn đối với dữ liệu và việc triển khai kinh doanh.
Sự thay đổi này sẽ khuyến khích việc tạo ra các dự án mới trong cộng đồng, được gọi một cách không chính thức là Gemmaverse. Việc tập trung vào việc thực thi cục bộ củng cố chiến lược đưa ra các lựa chọn thay thế mở cho các mô hình khép kín của dòng Gemini.
Tối ưu hóa cho phần cứng cụ thể
Các phiên bản nhẹ hơn được phát triển với sự hợp tác của các nhà sản xuất chip di động. Chúng mang lại độ trễ gần như bằng 0 trong các tác vụ hàng ngày trong khi vẫn duy trì mức tiêu thụ pin giảm. Các thử nghiệm cho thấy hiệu năng tốt trên các bo mạch như Raspberry Pi và Jetson Nano.
Các mô hình lớn hơn duy trì hiệu quả ngay cả trong cấu hình dày đặc hoặc MoE. Giảm độ trễ trong quá trình xử lý cục bộ mang lại lợi ích thiết thực cho các ứng dụng yêu cầu quyền riêng tư và phản hồi nhanh mà không cần kết nối liên tục với máy chủ.
Hỗ trợ nhiều phương thức đầu vào
Ngoài văn bản, các mô hình còn xử lý âm thanh và hình ảnh một cách nguyên bản. Những cải tiến về tính năng nhận dạng giọng nói so với Gemma 3. Khả năng đa phương thức mở ra khả năng cho các ứng dụng kết hợp các loại dữ liệu khác nhau trong thời gian thực.
Các nhà phát triển có thể tạo nguyên mẫu các luồng tác nhân trực tiếp trong Bản xem trước dành cho nhà phát triển AI Core bằng cách sử dụng các biến thể nhẹ. Những triển khai này tương thích về phía trước với Gemini Nano 4 sắp ra mắt.
Dòng Gemma 4 củng cố cam kết của Google trong việc cung cấp các mô hình mở với trọng lượng có thể tiếp cận được. Sự kết hợp giữa hiệu suất được cải thiện, cấp phép dễ dàng và hỗ trợ phần cứng đa dạng sẽ mở rộng các tùy chọn cho những người đang tìm kiếm giải pháp AI có thể chạy cục bộ.

