В этот четверг Google анонсировала семейство Gemma 4, состоящее из новых моделей искусственного интеллекта с открытым исходным кодом и доступным весом. Обновление представляет собой первое значительное достижение в линейке с момента запуска Gemma 3 более года назад. Теперь у разработчиков есть лицензия Apache 2.0, которая снимает коммерческие ограничения, существовавшие в предыдущих версиях.
Модели поддерживают ввод текста, аудио и изображений, а контекстные окна достигают 256 тысяч токенов в самых больших вариантах. Они в первую очередь предназначены для локальной работы на доступном оборудовании, включая потребительские графические процессоры и мобильные устройства. Изменение лицензии облегчает коммерческое использование без дополнительных обязательств, налагаемых Google.
Технические улучшения в рассуждениях и мультимодальных
Новые модели привносят значительный прогресс в рассуждениях, математике и следовании инструкциям по сравнению с предыдущим поколением. Они включают в себя встроенную поддержку вызова функций и генерацию структурированного вывода JSON, что улучшает рабочие процессы агентов.
Возможности обработки кода были оптимизированы для автономных сред, обеспечивая производительность, сравнимую с облачными сервисами, такими как Gemini Pro. Поддержка визуального ввода позволяет выполнять такие задачи, как оптическое распознавание символов и интерпретация графиков, с большей точностью.
- Варианты включают модели «Эффективные 2B» и «4B», оптимизированные для низкой задержки на смартфонах.
- Сотрудничество с Qualcomm и MediaTek облегчает интеграцию в мобильные устройства.
- Более крупные модели работают на одном графическом процессоре H100 емкостью 80 ГБ без квантования.
Варианты размеров и энергоэффективность
Семейство Gemma 4 имеет четыре основные размерные конфигурации. Версии 26B Mixture of Experts и 31B Dense обеспечивают высокую производительность и работают на оборудовании сервера или рабочей станции. В эффективных 2B и 4B приоритет отдается эффективности выполнения на периферийных устройствах.
Модель 26B MoE активирует всего 3,8 миллиарда параметров во время вывода, сокращая задержку и энергопотребление. Все варианты поддерживают более 140 языков. Разработчики могут загружать полные веса на такие платформы, как Hugging Face, Kaggle и Ollama.
Мгновенная доступность на всех платформах
Более крупные модели 31B и 26B доступны в Google AI Studio. Доступ к облегченным версиям E4B и E2B можно получить в галерее AI Edge. Полные веса доступны для немедленной загрузки из общедоступных репозиториев.
Компании и исследователи могут интегрировать модели в локальные приложения без постоянных затрат на API. Google также сообщил, что варианты 2B и 4B послужат основой для будущего Gemini Nano 4 на устройствах Android.
Влияние перехода на лицензию Apache 2.0
Принятие лицензии Apache 2.0 устраняет ограничения предыдущей специальной лицензии, которая включала обновляемые в одностороннем порядке политики неиспользования. Разработчики получают больший контроль над данными и бизнес-развертываниями.
Это изменение должно стимулировать создание новых проектов в сообществе, неофициально известных как Gemmaverse. Ориентация на локальное исполнение усиливает стратегию предложения открытых альтернатив закрытым моделям линейки Gemini.
Оптимизации для конкретного оборудования
Облегченные версии были разработаны в сотрудничестве с производителями мобильных чипов. Они обеспечивают практически нулевую задержку при выполнении повседневных задач, сохраняя при этом низкий расход заряда батареи. Тесты показывают хорошую производительность на таких платах, как Raspberry Pi и Jetson Nano.
Более крупные модели сохраняют эффективность даже в плотной конфигурации или в режиме MoE. Уменьшение задержки при локальной обработке представляет собой практическую выгоду для приложений, которым требуется конфиденциальность и быстрый отклик без постоянного подключения к серверам.
Поддержка нескольких модальностей ввода
Помимо текста, модели изначально обрабатывают аудио и изображения. Распознавание речи имеет улучшения по сравнению с Gemma 3. Мультимодальные возможности открывают возможности для приложений, которые объединяют различные типы данных в реальном времени.
Разработчики могут создавать прототипы агентных потоков непосредственно в AI Core Developer Preview, используя облегченные варианты. Эти реализации совместимы с предстоящим Gemini Nano 4.
Семейство Gemma 4 подтверждает стремление Google предлагать открытые модели с доступным весом. Сочетание улучшенной производительности, разрешенного лицензирования и разнообразной поддержки оборудования расширяет возможности для тех, кто ищет локально запускаемые решения искусственного интеллекта.

