Google анонсирует Gemma 4 с лицензией Apache 2.0 и шаблонами для локальных устройств

Gemma 4

Gemma 4 - Google

В этот четверг Google анонсировала семейство Gemma 4, состоящее из новых моделей искусственного интеллекта с открытым исходным кодом и доступным весом. Обновление представляет собой первое значительное достижение в линейке с момента запуска Gemma 3 более года назад. Теперь у разработчиков есть лицензия Apache 2.0, которая снимает коммерческие ограничения, существовавшие в предыдущих версиях.

Модели поддерживают ввод текста, аудио и изображений, а контекстные окна достигают 256 тысяч токенов в самых больших вариантах. Они в первую очередь предназначены для локальной работы на доступном оборудовании, включая потребительские графические процессоры и мобильные устройства. Изменение лицензии облегчает коммерческое использование без дополнительных обязательств, налагаемых Google.

Технические улучшения в рассуждениях и мультимодальных

Новые модели привносят значительный прогресс в рассуждениях, математике и следовании инструкциям по сравнению с предыдущим поколением. Они включают в себя встроенную поддержку вызова функций и генерацию структурированного вывода JSON, что улучшает рабочие процессы агентов.

Возможности обработки кода были оптимизированы для автономных сред, обеспечивая производительность, сравнимую с облачными сервисами, такими как Gemini Pro. Поддержка визуального ввода позволяет выполнять такие задачи, как оптическое распознавание символов и интерпретация графиков, с большей точностью.

  • Варианты включают модели «Эффективные 2B» и «4B», оптимизированные для низкой задержки на смартфонах.
  • Сотрудничество с Qualcomm и MediaTek облегчает интеграцию в мобильные устройства.
  • Более крупные модели работают на одном графическом процессоре H100 емкостью 80 ГБ без квантования.

Варианты размеров и энергоэффективность

Семейство Gemma 4 имеет четыре основные размерные конфигурации. Версии 26B Mixture of Experts и 31B Dense обеспечивают высокую производительность и работают на оборудовании сервера или рабочей станции. В эффективных 2B и 4B приоритет отдается эффективности выполнения на периферийных устройствах.

Модель 26B MoE активирует всего 3,8 миллиарда параметров во время вывода, сокращая задержку и энергопотребление. Все варианты поддерживают более 140 языков. Разработчики могут загружать полные веса на такие платформы, как Hugging Face, Kaggle и Ollama.

Мгновенная доступность на всех платформах

Более крупные модели 31B и 26B доступны в Google AI Studio. Доступ к облегченным версиям E4B и E2B можно получить в галерее AI Edge. Полные веса доступны для немедленной загрузки из общедоступных репозиториев.

Компании и исследователи могут интегрировать модели в локальные приложения без постоянных затрат на API. Google также сообщил, что варианты 2B и 4B послужат основой для будущего Gemini Nano 4 на устройствах Android.

Влияние перехода на лицензию Apache 2.0

Принятие лицензии Apache 2.0 устраняет ограничения предыдущей специальной лицензии, которая включала обновляемые в одностороннем порядке политики неиспользования. Разработчики получают больший контроль над данными и бизнес-развертываниями.

Это изменение должно стимулировать создание новых проектов в сообществе, неофициально известных как Gemmaverse. Ориентация на локальное исполнение усиливает стратегию предложения открытых альтернатив закрытым моделям линейки Gemini.

Оптимизации для конкретного оборудования

Облегченные версии были разработаны в сотрудничестве с производителями мобильных чипов. Они обеспечивают практически нулевую задержку при выполнении повседневных задач, сохраняя при этом низкий расход заряда батареи. Тесты показывают хорошую производительность на таких платах, как Raspberry Pi и Jetson Nano.

Более крупные модели сохраняют эффективность даже в плотной конфигурации или в режиме MoE. Уменьшение задержки при локальной обработке представляет собой практическую выгоду для приложений, которым требуется конфиденциальность и быстрый отклик без постоянного подключения к серверам.

Поддержка нескольких модальностей ввода

Помимо текста, модели изначально обрабатывают аудио и изображения. Распознавание речи имеет улучшения по сравнению с Gemma 3. Мультимодальные возможности открывают возможности для приложений, которые объединяют различные типы данных в реальном времени.

Разработчики могут создавать прототипы агентных потоков непосредственно в AI Core Developer Preview, используя облегченные варианты. Эти реализации совместимы с предстоящим Gemini Nano 4.

Семейство Gemma 4 подтверждает стремление Google предлагать открытые модели с доступным весом. Сочетание улучшенной производительности, разрешенного лицензирования и разнообразной поддержки оборудования расширяет возможности для тех, кто ищет локально запускаемые решения искусственного интеллекта.