Google анонсирует обновление Gemini 3.1 Flash Live в Gemini Live

    Categories: News (RU)
Gemini

Gemini - Mehaniq/shutterstock.com

В четверг Google объявила Gemini 3.1 Flash Live как модель аудио и голоса высочайшего качества на сегодняшний день. В этом выпуске внесен ряд значительных улучшений в Gemini Live и Search Live. Модель теперь доступна в предварительной версии через Gemini Live API в Google AI Studio. Он отличается меньшей задержкой по сравнению с предыдущей версией и большей эффективностью в распознавании акустических нюансов, таких как тон и ритм.

Разработчики могут немедленно протестировать новую модель для создания приложений с мультимодальными диалогами в реальном времени. Gemini 3.1 Flash Live более точно фильтрует фоновый шум и может лучше различать нужную речь среди звуков окружающей среды, таких как движение транспорта или телевидение. Кроме того, система поддерживает более 90 языков, что расширяет возможности живого взаимодействия.

  • Улучшенное распознавание акустических нюансов, таких как высота звука и ритм.
  • Уменьшение задержки при разговорах в реальном времени
  • Более эффективная фильтрация фонового шума и звуков окружающей среды.
  • Поддержка более 90 языков для мультимодального взаимодействия.

Технические улучшения аудиомодели

Новая модель значительно улучшает возможность запуска внешних инструментов во время живых разговоров. Он также обеспечивает лучшее выполнение сложных инструкций, удерживая агента в рабочих пределах, даже когда разговор принимает неожиданный поворот. Эти изменения приводят к более надежным и естественным реакциям.

В Gemini Live для устройств Android и iOS Flash Live 3.1 обеспечивает более быструю реакцию с меньшим количеством пауз. Система может следить за ходом разговора в два раза больше, чем в предыдущий раз. Это позволяет проводить более длительные сеансы мозгового штурма, не теряя при этом ход мыслей.

Gemini Live динамически регулирует продолжительность и тон ответов в соответствии с контекстом момента. Пользователи сообщают о более плавном взаимодействии и меньшем количестве прерываний во время ежедневного использования. Интеграция с новой моделью способствует более единообразному общему опыту.

Глобальное расширение Search Live

Google использует Gemini 3.1 Flash Live для запуска Search Live по всему миру в более чем 200 странах. Расширение охватывает все языки и локации, где в настоящее время доступен режим AI. Эта функция позволяет вести интерактивное общение с помощью Google Search, включая аудио и видео через Google Lens.

Теперь пользователи могут выполнять диалоговый поиск в режиме реального времени с большей точностью в разных регионах. Система более эффективно обрабатывает мультимодальные запросы в различных средах. Эта доступность расширяет доступ к голосовой информации в глобальном масштабе.

Search Live напрямую выигрывает от улучшений в распознавании речи и сокращении задержек. Разговоры с поиском становятся более естественными и контекстуализированными. Интеграция аудио и видео облегчает взаимодействие в практических повседневных ситуациях.

Google — daily_creativity/shutterstock.com

Подробности о языковой и мультимодальной поддержке

Поддержка более 90 языков позволяет вести высококачественные мультимодальные разговоры в режиме реального времени. Модель лучше учитывает региональные различия в произношении и акцентах. Это делает Gemini Live более доступным для пользователей в разных странах.

Разработчики получают инструменты для создания персонализированного опыта на основе новой модели. API упрощает интеграцию в приложения, требующие богатого голосового взаимодействия. Акцент на низкую задержку помогает поддерживать естественное течение разговоров.

Практическое применение в повседневном использовании

В повседневной жизни Gemini Live с новой моделью быстрее реагирует на сложные команды и вопросы. Система сохраняет контекст в течение более длительных периодов времени, не возобновляя рассуждения. Пользователи могут непрерывно изучать идеи во время расширенных сеансов.

Возможность фильтровать окружающий шум повышает производительность в оживленных местах или при наличии фоновых звуков. Разговоры на улице или в комнате с телевизором становятся более четкими. Динамическая регулировка тона и продолжительности ответов подстраивается под стиль взаимодействия.

Avanços na integração com ferramentas externas

Улучшенная модель более эффективно активирует внешние инструменты во время разговоров. Он более последовательно следует системным инструкциям даже в ветвящихся диалогах. Эта стабильность способствует более предсказуемым результатам в практических приложениях.

Разработчики и конечные пользователи получают выгоду от более надежного взаимодействия. Gemini Live становится более надежным инструментом для задач, требующих выполнения нескольких шагов. Сочетание усовершенствованного звука и расширенных возможностей рассуждения расширяет возможности использования.

Google продолжает инвестировать в аудиомодели, чтобы сделать взаимодействие с искусственным интеллектом более естественным. Выпуск Gemini 3.1 Flash Live представляет собой важный шаг в этом направлении. Пользователи Android и iOS могут испытать новые функции непосредственно в приложении Gemini Live.

Сопутствующие обновления экосистемы Gemini

Анонс включает в себя дополнительные улучшения плавающей панели Gemini Live на Android. Эти изменения направлены на облегчение быстрого доступа к голосовым функциям. Набор обновлений усиливает стремление к расширенным возможностям общения.

Search Live теперь охватывает более широкую аудиторию благодаря интегрированным возможностям аудио и видео. Глобальная экспансия демократизирует доступ к интерактивному голосовому поиску. Пользователи в разных регионах получают более мощный инструмент для запросов в реальном времени.

Gemini 3.1 Flash Live знаменует собой заметную эволюцию качества звука и голоса в моделях Google. Улучшения в задержке, фильтрации шума и отслеживании инструкций поднимают планку живого взаимодействия. Предварительная версия позволяет разработчикам исследовать новые приложения уже сейчас.