Google выпускает обновление Gemini с прорывом в логике и созданием автономных визуальных систем

Gemini

Gemini - Mehaniq/shutterstock.com

Подразделение Google DeepMind официально объявило в этот четверг (19) о появлении новой версии своего основного семейства моделей искусственного интеллекта. Обновление, получившее название Gemini 3.1 Pro, было разработано с приоритетным упором на расширение возможностей сложного рассуждения, обещая преодолеть ограничения предыдущих версий в задачах, требующих синтеза данных и развитой логики.

Запуск происходит в стратегический момент для технологического сектора, где простая генерация текста уступает место спросу на агентов, способных выполнять полные рабочие процессы. Новый инструмент теперь доступен на этапе предварительной версии для разработчиков и подписчиков расширенного плана, что вносит значительные улучшения в мультимодальную обработку, которая варьируется от программных кодов до интерпретации видео и аудио.

Искусственный интеллект Близнецов – Джу Джэ Ён/ Shutterstock.com

Эксперты отмечают, что отличие этой версии заключается в ее оптимизированной архитектуре для решения новых задач, уходе от исключительной зависимости от шаблонов, запоминаемых во время обучения. Технология была разработана для обслуживания как конечных пользователей (через собственное приложение компании), так и корпоративных сред, требующих надежной автоматизации через API.

Внутренние проверочные тесты показали, что модель может поддерживать последовательность в длинных цепочках мыслей, что является важной характеристикой для разработки функциональных автономных агентов. Немедленная доступность направлена ​​на ускорение интеграции этих возможностей в сторонние продукты и облачные платформы компании.

Скачок производительности в логических тестах

Самый важный показатель, представленный во время анонса, относится к производительности в тесте ARC-AGI-2, строгом тесте, предназначенном для оценки способности ИИ решать ранее невиданные логические закономерности. Gemini 3.1 Pro зафиксировал в этом отношении оценку 77,1%, что более чем вдвое превышает производительность его предшественника Gemini 3 Pro, который достиг 31,1% в той же оценке.

Помимо развития абстрактной логики, модель была подвергнута прямым сравнительным оценкам с другими передовыми технологиями, доступными на рынке. В тесте, известном как «Последний экзамен человечества», новая версия набрала 44,4%, превзойдя конкурирующие решения, разработанные Anthropic и OpenAI, и укрепив свои позиции в сценариях, требующих глубоких технических знаний.

Такая последовательность логических рассуждений позволяет применять этот инструмент в ситуациях, когда простого поиска информации недостаточно. Целью обновления является обеспечение того, чтобы система могла решать многогранные проблемы, не теряя контекста и не вызывая галлюцинаций в ответах, поднимая планку надежности для профессионального и академического использования.

Автономность в навигации и виртуальных агентах

В этом обновлении значительно расширены возможности работы в качестве автономного агента, что дает впечатляющие результаты в тестах, имитирующих реальную профессиональную деятельность. В тесте APEX-Agents, который измеряет эффективность в долгосрочных задачах, модель достигла отметки 33,5%, что указывает на превосходную способность управлять задачами, требующими выполнения нескольких шагов.

Еще одним важным моментом стала производительность в BrowseComp — оценке, ориентированной на агентный поиск в Интернете в сочетании с использованием таких инструментов программирования, как Python. Gemini 3.1 Pro достиг эффективности 85,9%, продемонстрировав способность автономно искать, фильтровать и извлекать соответствующую информацию из Интернета, интегрируя эти данные непосредственно в рабочие процессы.

Чтобы проиллюстрировать улучшенные возможности новой системы, компания выделила три фундаментальных принципа, которые поддерживают работу агентов в этой версии:

  • Способность сохранять фокус на сложных целях во время масштабных действий, не отклоняясь от цели.
  • Плавная интеграция веб-поиска и выполнения кода для проверки данных в реальном времени.
  • Приоритизация рабочих процессов, требующих скоординированного использования нескольких цифровых инструментов одновременно.

Создание визуальных систем и кодирование

Универсальность модели распространяется на синтез сложных визуальных систем из простых текстовых команд. Во время технических демонстраций искусственный интеллект смог генерировать масштабируемую и легкую анимацию в формате SVG, предлагая эффективную альтернативу традиционным видеоформатам для веб-интерфейсов и мобильных приложений.

Один из показанных практических примеров включал настройку информационной панели телеметрии в реальном времени. Модель обработала общедоступные API и необработанные данные для создания с нуля функционального интерфейса, визуализирующего орбиту Международной космической станции. Процесс включал в себя все: от интерпретации входных данных до написания окончательного графического интерфейса.

В области творческой интерпретации система превратила классические литературные описания в современные цифровые продукты. Обработав отрывки из «Грозового перевала», ИИ уловил повествовательную атмосферу книги и разработал современный веб-сайт-портфолио, переводя абстрактные и художественные концепции в исполняемый код и функциональный дизайн.

Инструмент также продемонстрировал компетентность в создании интерактивного опыта в трех измерениях. Была представлена ​​симуляция, в которой стая виртуальных птиц динамически реагировала на отслеживание рук пользователя, доказывая способность модели интегрировать компьютерное зрение со сложной логикой анимации.

Подробности о корпоративном доступе и интеграции

Распространение Gemini 3.1 Pro осуществляется по поэтапной модели, в которой на данном этапе приоритет отдается разработчикам и корпоративным клиентам. Версия доступна через такие платформы, как AI Studio и Vertex AI, что позволяет компаниям тестировать технологию в своих собственных средах и адаптировать свои продукты для использования нового механизма рассуждений.

Для индивидуальных пользователей доступ открыт для подписчиков планов Google AI Pro и Ultra, у которых увеличены лимиты использования. Этот инструмент также был интегрирован с NotebookLM, что улучшило функции синтеза документов и получения аналитической информации для платных пользователей, которые используют платформу для исследований и исследований.

Соответствующим техническим моментом является поддержка контекстного окна на 1 миллион токенов, функция, унаследованная от предыдущих поколений серии 3. Это гарантирует, что модель по-прежнему сможет анализировать большие объемы данных, такие как целые книги или обширные репозитории кода, без потери возможности ссылаться на конкретную информацию в обрабатываемом контенте.