News (CA)

Google canvia el sistema de veu a l’aplicació Gemini Live i modifica la cadència dels accents regionals

Gemini
Foto: Gemini - Primakov / Shutterstock.com

Els usuaris de l’assistent virtual de Google van començar a informar d’inestabilitats importants en la configuració d’àudio durant les interaccions en temps real. Les modificacions afecten directament l’experiència de l’usuari, canviant les característiques fonamentals de les opcions seleccionades a l’aplicació.

El problema es manifesta principalment en la cadència de la parla, el to de les respostes i la consistència dels accents regionals. Essas es produeixen variacions de manera imprevisible, transformant el patró de comunicació del sistema d’intel·ligència artificial durant els diàlegs continus.

Bessons
Bessons – mundissima/ Shutterstock.com

Els defectes es van fer evidents després de la implementació de les recents actualitzacions dels models lingüístics de l’empresa. La discrepància entre la mostra d’àudio que s’ofereix a la configuració i el so reproduït a la pràctica s’ha convertit en el principal objectiu de les queixes als fòrums tecnològics centrats en dispositius mòbils.

Incoherències de so i experiència d’usuari

L’opció de veu coneguda com Capella, caracteritzada per un accent femení britànic, té les distorsions més evidents des del seu llançament. Els consumidors noten que la personalitat original de l’àudio es perd ràpidament després de les primeres ordres.

Durant converses prolongades, el sistema mostra dificultats per mantenir el patró regional escollit per l’individu. Les respostes de l’assistent comencen a alternar de manera autònoma entre accents australians i variacions més neutres de l’anglès americà, creant una experiència d’escolta fragmentada i confusa per a aquells que confien en l’eina per a les tasques o estudis quotidians.

El comportament de l’aplicació suggereix que el processament en temps real s’enfronta a colls d’ampolla quan s’intenta mantenir la complexa modulació de veu requerida per les noves versions del model d’intel·ligència artificial. Quando l’usuari realitza un reinici forçat del programari, es restaura l’accent original, però aquesta correcció només té un efecte temporal. Após Després d’uns minuts d’interacció contínua, la veu es torna a transformar en una versió híbrida, demostrant que el sistema de síntesi de veu no pot mantenir l’estabilitat en sessions que requereixen un major processament contextual i respostes llargues.

  • La velocitat de la parla disminueix considerablement en respostes complexes.
  • Els tons aguts originals es redueixen notablement durant l’ús.
  • Es barregen diferents accents en una mateixa frase sense voler.
  • Reiniciar l’aplicació només ofereix una solució al problema.

Artefactes d’àudio en sessions prolongades

A més dels canvis en la identitat vocal, l’assistent va començar a presentar sorolls no desitjats durant la reproducció de les respostes. Els sons Artefatos, com ara pops, petits pops i xiulets de fons, apareixen esporàdicament mentre el sistema processa i lliura la informació sol·licitada.

Aquestes interferències acústiques no tenen una connexió directa amb el canvi d’accents, però empitjoren la percepció de caiguda de la qualitat del servei. La freqüència dels sorolls varia molt segons l’opció de veu activada i el dispositiu utilitzat per accedir a la plataforma.

Variacions de rendiment per plataforma

Les proves pràctiques demostren que l’estabilitat de l’àudio depèn molt del context d’ús i de l’entorn del maquinari. Comandos Ràpida i objectiva, que requereixen respostes breus, poques vegades desencadenen els buits de cadència o les confusions d’accent que informen els consumidors.

La integració de l’assistent amb sistemes d’automoció, com ara Android Auto, mostra un comportament notablement superior. Nesses, les característiques originals de les veus seleccionades es conserven de manera més eficaç, fins i tot en interaccions que requereixen un temps de processament més llarg.

Aquesta diferència de rendiment indica que la gestió de recursos de l’aplicació mòbil pot estar influint en la representació d’àudio. La compressió de dades o l’assignació de memòria als telèfons intel·ligents sembla interferir directament amb la capacitat del model de mantenir la fidelitat vocal.

Opcions de personalització i ajustos disponibles

El tauler de configuració de l’assistent ofereix un catàleg divers de perfils vocals per personalitzar-los. L’objectiu de l’empresa és que cada individu trobi un to, un ritme i un accent que faci la interacció amb la màquina més natural i agradable.

Els perfils van des de timbres més seriosos i formals fins a opcions més agudes i relaxades. La selecció es fa simplement a través del menú principal, on es reprodueix una breu mostra d’àudio per ajudar el consumidor a triar.

A la vista dels problemes recents, molts usuaris han adoptat l’estratègia de canviar constantment entre aquests perfils per intentar trobar una opció que sigui menys susceptible de fallar. Tanmateix, el canvi de veu només actua com una solució temporal per a la inestabilitat del sistema.

L’arrel del problema segueix lligada a la manera com el programari processa el llenguatge natural en temps real. Les actualitzacions contínues als servidors de l’empresa afecten el comportament de totes les opcions disponibles al catàleg, independentment del to escollit.

Impacte de les actualitzacions d’intel·ligència artificial

Els canvis no desitjats en el comportament de l’àudio coincideixen amb el període d’implementació de noves versions dels models de llenguatge Google, concretament la transició a arquitectures enfocades a la velocitat, com la versió Flash Live. L’objectiu principal d’aquestes actualitzacions és reduir el temps de latència entre la pregunta de l’usuari i la resposta de la màquina, fent que el diàleg sigui més fluid i proper a la conversa humana.

Tanmateix, l’optimització dels guanys de velocitat sembla haver generat efectes secundaris en la representació de la síntesi de veu. Quan es prioritza l’entrega ràpida del text generat, el sistema d’àudio pot estar rebent paquets de dades de manera fragmentada, la qual cosa explicaria la pèrdua de cadència, la baixada de tons aguts i la incapacitat de mantenir accents regionals complexos durant paràgrafs molt llargs.

Accessibilitat i confiança en estàndards coherents

La coherència en la reproducció de veus sintètiques va més enllà de la qüestió de la preferència estètica i afecta directament l’àmbit de l’accessibilitat digital. Indivíduos Les persones amb discapacitat visual, dificultats lectores o afeccions neurològiques específiques solen confiar en assistents virtuals per navegar per Internet, llegir documents i organitzar les rutines diàries. Para Per a aquest públic, la familiaritat amb el to, la velocitat i la claredat de la veu escollida és essencial per entendre eficaçment la informació. Quando el sistema canvia bruscament de cadència, insereix sorolls o canvia l’accent al mig d’una frase, la càrrega cognitiva necessària per interpretar el missatge augmenta considerablement. Essa Trencar les expectatives converteix una eina útil en una font de frustració, posant de manifest la necessitat crítica de les empreses tecnològiques d’implementar rutines de prova més rigoroses centrades en l’estabilitat de l’àudio abans de llançar actualitzacions d’intel·ligència artificial al públic en general.

Posicionament i seguiment continus

Fins ara, el desenvolupador de programari no ha emès declaracions oficials que detallin un calendari per a la correcció definitiva d’aquestes anomalies vocals. La comunitat tecnològica continua supervisant el comportament de l’aplicació amb cada nova actualització silenciosa que s’envia als dispositius.

Evolució del processament del llenguatge natural

L’enginyeria darrere de la síntesi de veu en temps real representa un dels majors reptes actuals en el camp de l’aprenentatge automàtic. El sistema ha d’interpretar el text generat, aplicar l’entonació correcta segons el context i renderitzar l’àudio a l’instant.

Malgrat els defectes actuals de cadència i accents, la tecnologia de converses en directe continua avançant ràpidament. Ajustes en algorismes de compressió i processament d’àudio hauria d’estabilitzar el rendiment de les veus personalitzades a totes les plataformes mòbils.