Google ogłosił w ten czwartek Gemini 3.1 Flash Live jako model o najwyższej jakości dźwięku i głosu w dotychczasowej historii. Wersja Essa zawiera wiele znaczących ulepszeń w porównaniu z Gemini Live i Search Live. Model jest teraz dostępny w wersji zapoznawczej za pośrednictwem interfejsu API Gemini Live na platformie Google AI Studio. Ele wyróżnia się niższym opóźnieniem w porównaniu do poprzedniej wersji i większą skutecznością w rozpoznawaniu niuansów akustycznych, takich jak ton i rytm.
Programiści mogą natychmiast przetestować nowy model, aby tworzyć aplikacje za pomocą multimodalnych rozmów w czasie rzeczywistym. Gemini 3.1 Flash Live dokładniej filtruje szumy tła i lepiej rozróżnia odpowiednią mowę wśród dźwięków otoczenia, takich jak ruch uliczny lub telewizja. Além Ponadto system obsługuje ponad 90 języków, co zwiększa zasięg interakcji na żywo.
- Lepsze rozpoznawanie niuansów akustycznych, takich jak wysokość i rytm
- Zmniejszone opóźnienia w rozmowach w czasie rzeczywistym
- Bardziej efektywne filtrowanie szumów tła i dźwięków otoczenia
- Obsługa ponad 90 języków dla interakcji multimodalnych
Ulepszenia techniczne modelu audio
Nowy model znacznie poprawia możliwość wyzwalania narzędzi zewnętrznych podczas rozmów na żywo. Ele zapewnia również lepszą realizację złożonych instrukcji, utrzymując agenta w granicach operacyjnych, nawet gdy rozmowy przybierają nieoczekiwany obrót. Zmiany Essas skutkują bardziej niezawodnymi i naturalnymi reakcjami.
Na Gemini Live dla urządzeń Android i iOS Flash Live 3.1 zapewnia szybsze odpowiedzi z mniejszą liczbą przerw. System może dwukrotnie śledzić uzasadnienie rozmowy. Isso pozwala na dłuższe sesje burzy mózgów bez utraty toku myślenia.
Gemini Live dynamicznie dostosowuje czas trwania i ton odpowiedzi, aby dopasować je do kontekstu chwili. Usuários report smoother interactions and fewer interruptions during daily use. Integracja z nowym modelem przyczynia się do bardziej spójnego ogólnego doświadczenia.
Globalna ekspansja Search Live
Google używa Gemini 3.1 Flash Live do wprowadzenia Search Live na całym świecie w ponad 200 krajach. Rozszerzenie obejmuje wszystkie języki i lokalizacje, w których obecnie dostępny jest Modo IA. Ta funkcja umożliwia interaktywne rozmowy z Busca z Google, w tym audio i wideo za pośrednictwem Google Lens.
Użytkownicy mogą teraz z większą dokładnością wyszukiwać konwersacje w różnych regionach. System efektywniej przetwarza zapytania multimodalne w zróżnicowanych środowiskach. Dostępność Essa rozszerza dostęp do informacji głosowych w skali globalnej.
Search Live bezpośrednio czerpie korzyści z ulepszeń w rozpoznawaniu mowy i redukcji opóźnień. Conversas wraz z wyszukiwaniem staje się bardziej naturalne i kontekstowe. Integracja audio i wideo ułatwia interakcję w praktycznych, codziennych scenariuszach.

Szczegóły dotyczące języka i obsługi multimodalnej
Obsługa ponad 90 języków pozwala na wysokiej jakości rozmowy multimodalne w czasie rzeczywistym. Model lepiej radzi sobie z regionalnymi różnicami w wymowie i akcentach. Isso sprawia, że Gemini Live jest bardziej dostępny dla użytkowników w różnych krajach.
Deweloperzy zyskują narzędzia do tworzenia spersonalizowanych doświadczeń w oparciu o nowy model. Interfejs API ułatwia integrację z aplikacjami wymagającymi bogatych interakcji głosowych. Skoncentrowanie się na małych opóźnieniach pomaga w naturalnym toku rozmów.
Praktyczne zastosowania w codziennym użytkowaniu
W życiu codziennym Gemini Live z nowym modelem szybciej reaguje na złożone polecenia i pytania. System utrzymuje kontekst przez dłuższy czas bez ponownego uruchamiania rozumowania. Usuários może w sposób ciągły badać pomysły podczas dłuższych sesji.
Możliwość filtrowania szumów otoczenia poprawia wydajność w ruchliwych lokalizacjach lub przy dźwiękach tła. Conversas w miejscach takich jak ulice lub pomieszczenia z telewizorem stają się jaśniejsze. Dynamiczna regulacja tonu i czasu trwania odpowiedzi dostosowuje się do stylu interakcji.
Postępy w integracji z narzędziami zewnętrznymi
The improved model triggers external tools more effectively during conversations. Ele postępuje zgodnie z instrukcjami systemowymi nawet w rozgałęzionych oknach dialogowych. Stabilność Essa przyczynia się do bardziej przewidywalnych wyników w praktycznych zastosowaniach.
Programiści i użytkownicy końcowi korzystają z bardziej niezawodnych interakcji. Gemini Live staje się bardziej niezawodnym narzędziem do zadań obejmujących wiele etapów. Połączenie zaawansowanego dźwięku i rozszerzonych możliwości wnioskowania poszerza możliwości wykorzystania.
Google nadal inwestuje w modele audio, aby interakcje AI były bardziej naturalne. Wydanie Gemini 3.1 Flash Live stanowi ważny krok w tym kierunku. Usuários firmy Android i systemu iOS mogą wypróbować nowe funkcje bezpośrednio w aplikacji Gemini Live.
Atualizações powiązane w ekosystemie Gemini
Ogłoszenie obejmuje dodatkowe ulepszenia pływającego panelu Gemini Live na Android. Zmiany Essas mają na celu ułatwienie szybkiego dostępu do funkcji głosowych. Zestaw aktualizacji zwiększa zaangażowanie w zaawansowane doświadczenia konwersacyjne.
Search Live dociera teraz do szerszej publiczności dzięki zintegrowanym funkcjom audio i wideo. Globalna ekspansja demokratyzuje dostęp do interaktywnych wyszukiwań głosowych. Usuários w różnych regionach zyskuje potężniejsze narzędzie do zapytań w czasie rzeczywistym.
Gemini 3.1 Flash Live oznacza zauważalną ewolucję w jakości dźwięku i głosu modeli Google. Ulepszenia w zakresie opóźnień, filtrowania szumów i podążania za instrukcjami podnoszą poprzeczkę w zakresie interakcji na żywo. Wersja zapoznawcza umożliwia programistom już teraz eksplorowanie nowych aplikacji.