Google цього четверга анонсував сімейство Gemma 4, що складається з нових моделей штучного інтелекту з відкритим кодом і доступними вагами. Оновлення є першим великим прогресом у лінійці з моменту запуску Gemma 3 понад рік тому. Тепер у розробників є ліцензія Apache 2.0, яка скасовує комерційні обмеження, наявні в попередніх версіях.
Моделі підтримують введення тексту, аудіо та зображень із контекстними вікнами, які досягають 256 тисяч токенів у найбільших варіантах. Eles в основному призначені для локальної роботи на доступному обладнанні, включаючи споживчі графічні процесори та мобільні пристрої. Зміна ліцензії полегшує комерційне використання без додаткових зобов’язань, накладених Google.
Технічні удосконалення міркувань і мультимодальності
Порівняно з попереднім поколінням, нові моделі приносять значний прогрес у міркуванні, математиці та виконанні інструкцій. Eles включають власну підтримку виклику функцій і генерування структурованого виводу JSON, що приносить переваги агентським робочим процесам.
Можливість обробки коду оптимізовано для офлайн-середовищ, завдяки чому досягається продуктивність, порівнянна з хмарними службами, такими як Gemini Pro. Підтримка візуального введення дозволяє виконувати такі завдання, як оптичне розпізнавання символів і інтерпретація графіків з більшою точністю.
- Варіанти включають моделі Effective 2B і 4B, оптимізовані для низької затримки на смартфонах.
- Співпраця з Qualcomm і MediaTek полегшує інтеграцію на мобільних пристроях.
- Більші моделі працюють на одному графічному процесорі H100 на 80 ГБ без квантування.
Варіанти розмірів та енергоефективності
Сімейство Gemma 4 має чотири основні конфігурації розміру. Версії 26B Mixture з Experts і 31B Dense пропонують високу продуктивність і працюють на апаратному забезпеченні сервера або робочої станції. Já як Effective 2B і 4B надають пріоритет ефективності для виконання на периферійних пристроях.
Модель 26B MoE активує лише 3,8 мільярда параметрів під час виведення, зменшуючи затримку та енергоспоживання. Todas варіанти обслуговують понад 140 мов. Розробники можуть завантажити повні ваги на таких платформах, як Hugging Face, Kaggle і Ollama.
Негайна доступність на всіх платформах
Більші моделі 31B і 26B доступні в AI Studio і Google. Полегшені версії E4B і E2B доступні в AI Edge Gallery. Повні ваги доступні для негайного завантаження з загальнодоступних сховищ.
Компанії та дослідники можуть інтегрувати моделі в локальні програми без повторних витрат на API. Google також вказав, що варіанти 2B і 4B стануть основою для майбутніх Gemini Nano 4 на пристроях Android.
Наслідки переходу на ліцензію Apache 2.0
Прийняття ліцензії Apache 2.0 скасовує обмеження попередньої спеціальної ліцензії, яка включала політику заборони використання з можливістю одностороннього оновлення. Desenvolvedores Отримайте кращий контроль над даними та розгортанням бізнесу.
Ця зміна має сприяти створенню нових проектів у спільноті, неофіційно відомих як Gemmaverse. Зосередженість на локальному виконанні підсилює стратегію пропозиції відкритих альтернатив закритим моделям лінії Gemini.
Оптимізація для конкретного обладнання
Полегшені версії були розроблені в партнерстві з виробниками мобільних мікросхем. Elas забезпечує майже нульову затримку в повсякденних завданнях, зберігаючи при цьому мінімальне споживання батареї. Testes вказує на хорошу продуктивність таких карток, як Raspberry Pi і Jetson Nano.
Більші моделі зберігають ефективність навіть у щільній конфігурації або MoE. Зменшення затримки в локальній обробці є практичним перевагою для програм, які потребують конфіденційності та швидкої реакції без постійного підключення до серверів.
Підтримка кількох модальностей введення
Крім тексту, моделі обробляють аудіо та зображення нативно. Розпізнавання мовлення покращилося порівняно з Gemma 3. Мультимодальна здатність відкриває можливості для програм, які поєднують різні типи даних у реальному часі.
Розробники можуть створити прототип агентських потоків безпосередньо в AI Core Developer Preview, використовуючи полегшені варіанти. Essas реалізації сумісні з майбутнім Gemini Nano 4.
Сімейство Gemma 4 підтверджує прагнення Google пропонувати відкриті моделі з доступною вагою. Поєднання покращеної продуктивності, дозволеного ліцензування та різноманітної апаратної підтримки розширює можливості для тих, хто шукає локальні рішення AI.

