News (FI)

Google muuttaa äänijärjestelmää Gemini Live -sovelluksessa ja muuttaa alueellisten aksenttien poljinnopeutta

Gemini
Foto: Gemini - Primakov / Shutterstock.com

Google:n virtuaaliassistentin käyttäjät alkoivat raportoida merkittävistä ääniasetusten epävakaudesta reaaliaikaisen vuorovaikutuksen aikana. Muutokset vaikuttavat suoraan käyttökokemukseen ja muuttavat sovelluksessa valittujen vaihtoehtojen perusominaisuuksia.

Ongelma ilmenee pääasiassa puheen poljinnoissa, vastausten sävyssä ja alueellisten aksenttien johdonmukaisuudessa. Essas vaihtelua esiintyy arvaamattomasti, mikä muuttaa tekoälyjärjestelmän kommunikaatiomallia jatkuvan dialogin aikana.

Kaksoset
Kaksoset – mundissima/ Shutterstock.com

Virheet tulivat ilmi, kun yhtiön kielimalleihin tehtiin viimeisimmät päivitykset. Asetuksissa tarjotun ääninäytteen ja käytännössä toistetun äänen välinen ristiriita on noussut mobiililaitteisiin keskittyneiden teknologiafoorumeiden pääasialliseksi valitusten kohteeksi.

Äänen epäjohdonmukaisuudet ja käyttökokemus

Äänivaihtoehdolla, joka tunnetaan nimellä Capella, jolle on ominaista brittiläinen naisaksentti, on ilmeisimpiä vääristymiä sen julkaisun jälkeen. Kuluttajat huomaavat, että äänen alkuperäinen persoonallisuus katoaa nopeasti muutaman ensimmäisen komennon jälkeen.

Pitkien keskustelujen aikana järjestelmällä on vaikeuksia säilyttää yksilön valitsema alueellinen malli. Assistentin vastaukset alkavat vaihdella itsenäisesti australialaisten aksenttien ja amerikkalaisen englannin neutraalimpien muunnelmien välillä, mikä luo hajanaisen ja hämmentävän kuuntelukokemuksen niille, jotka luottavat työkaluun päivittäisiin tehtäviin tai opiskeluun.

Sovelluksen käyttäytyminen viittaa siihen, että reaaliaikainen käsittely kohtaa pullonkauloja yritettäessä ylläpitää tekoälymallin uusien versioiden vaatimaa monimutkaista äänimodulaatiota. Quando käyttäjä suorittaa ohjelmiston pakotetun uudelleenkäynnistyksen, alkuperäinen korostus palautetaan, mutta tällä korjauksella on vain väliaikainen vaikutus. Após Muutaman minuutin jatkuvan vuorovaikutuksen jälkeen ääni muuttuu takaisin hybridiversioksi, mikä osoittaa, että puhesynteesijärjestelmä ei pysty ylläpitämään vakautta istunnoissa, jotka vaativat suurempaa kontekstuaalista käsittelyä ja pitkiä vastauksia.

  • Puheen nopeus laskee huomattavasti monimutkaisissa vastauksissa.
  • Alkuperäiset diskanttiäänet heikkenevät huomattavasti käytön aikana.
  • Eri aksentit sekoittuvat samaan lauseeseen tahattomasti.
  • Sovelluksen uudelleenkäynnistys tarjoaa vain ratkaisun ongelmaan.

Ääniartefaktit pidennetyissä istunnoissa

Lauluidentiteetin muutosten lisäksi assistentti alkoi tuottaa ei-toivottuja ääniä vastausten toiston aikana. Artefatos äänet, kuten ponnahdukset, pienet ponnahdukset ja taustasuhinat, esiintyvät satunnaisesti, kun järjestelmä käsittelee ja toimittaa pyydetyt tiedot.

Näillä akustisilla häiriöillä ei ole suoraa yhteyttä aksenttien muutokseen, mutta ne huonontavat käsitystä palvelun laadun heikkenemisestä. Äänien taajuus vaihtelee suuresti riippuen aktivoidusta äänivaihtoehdosta ja laitteesta, jota käytetään alustalle.

Suorituskykyvaihtelut alustan mukaan

Käytännön testit osoittavat, että äänen vakaus riippuu suuresti käyttöympäristöstä ja laitteistoympäristöstä. Comandos Nopeat ja objektiiviset, jotka vaativat lyhyitä vastauksia, laukaisevat harvoin kuluttajien ilmoittamia poljinnopeuseroja tai aksenttisekoituksia.

Assistentin integrointi autoteollisuuden järjestelmiin, kuten Android Auto, osoittaa huomattavasti ylivoimaista käyttäytymistä. Nesses ympäristöissä valittujen äänien alkuperäiset ominaisuudet säilyvät tehokkaammin myös pidempää käsittelyaikaa vaativissa vuorovaikutuksissa.

Tämä ero suorituskyvyssä osoittaa, että mobiilisovelluksen resurssien hallinta saattaa vaikuttaa äänen toistoon. Tietojen pakkaus tai muistin varaaminen älypuhelimissa näyttää suoraan häiritsevän mallin kykyä ylläpitää äänen uskollisuutta.

Mukautusvaihtoehdot ja säädöt käytettävissä

Assistentin asetuspaneeli tarjoaa monipuolisen luettelon ääniprofiileista muokattavaksi. Yrityksen tavoitteena on antaa jokaiselle mahdollisuus löytää sävy, rytmi ja aksentti, joka tekee vuorovaikutuksesta koneen kanssa luonnollisempaa ja nautinnollisempaa.

Profiilit vaihtelevat vakavammista ja muodollisista sointisävelistä korkeampiin ja rennompiin vaihtoehtoihin. Valinta tehdään yksinkertaisesti päävalikon kautta, jossa toistetaan lyhyt ääninäyte auttamaan kuluttajaa valinnassa.

Viimeaikaisten ongelmien valossa monet käyttäjät ovat omaksuneet strategian vaihtaa jatkuvasti näiden profiilien välillä yrittääkseen löytää vaihtoehdon, joka on vähemmän herkkä epäonnistumiselle. Äänikytkentä toimii kuitenkin vain väliaikaisena kiertotapana järjestelmän epävakaudelle.

Ongelman ydin liittyy edelleen siihen, miten ohjelmisto prosessoi luonnollista kieltä reaaliajassa. Jatkuvat päivitykset yrityksen palvelimilla vaikuttavat kaikkien luettelossa olevien vaihtoehtojen toimintaan valitusta sävystä riippumatta.

Tekoälypäivitysten vaikutus

Ei-toivotut muutokset äänikäyttäytymisessä osuvat Google-kielimallien uusien versioiden käyttöönottovaiheeseen, erityisesti siirtymiseen nopeuskeskeisiin arkkitehtuureihin, kuten versioon Flash Live. Näiden päivitysten päätavoite on lyhentää käyttäjän kysymyksen ja koneen vastauksen välistä latenssiaikaa, mikä tekee dialogista entistä sujuvampaa ja läheisempää inhimilliseen keskusteluun.

Nopeuslisäysten optimointi näyttää kuitenkin aiheuttaneen sivuvaikutuksia puhesynteesin toistossa. Priorisoitaessa luodun tekstin nopeaa toimittamista audiojärjestelmä saattaa vastaanottaa datapaketteja pirstoutuneesti, mikä selittäisi poljinnopeuden menetyksen, korkeiden äänien alenemisen ja kyvyttömyyden ylläpitää monimutkaisia ​​alueellisia aksentteja erittäin pitkien kappaleiden aikana.

Helppokäyttöisyys ja johdonmukaisiin standardeihin luottaminen

Synteettisten äänten toiston johdonmukaisuus ylittää esteettisen mieltymyksen ja vaikuttaa suoraan digitaalisen saavutettavuuden piiriin. Indivíduos ihmistä, joilla on näkövamma, lukuvaikeuksia tai erityisiä neurologisia sairauksia, luottaa usein virtuaalisiin avustajiin Internetin selaamiseen, asiakirjojen lukemiseen ja päivittäisten rutiinien järjestämiseen. Para Tälle yleisölle valitun äänen sävyn, nopeuden ja selkeyden tuntemus on olennaista tiedon tehokkaan ymmärtämisen kannalta. Quando järjestelmä muuttaa äkillisesti poljinnopeustaan, lisää ääniä tai muuttaa aksenttia lauseen keskelle, viestin tulkitsemiseen tarvittava kognitiivinen kuormitus kasvaa huomattavasti. Essa Odotusten rikkominen muuttaa hyödyllisen työkalun turhautumisen lähteeksi, mikä korostaa teknologiayritysten kriittistä tarvetta ottaa käyttöön tiukempia äänenvakauteen keskittyviä testausrutiineja ennen tekoälypäivitysten julkaisemista suurelle yleisölle.

Jatkuva paikannus ja valvonta

Toistaiseksi ohjelmistokehittäjä ei ole antanut virallisia lausuntoja yksityiskohtaisesti aikataulusta näiden äänipoikkeamien lopulliselle korjaamiselle. Teknologiayhteisö seuraa edelleen sovellusten toimintaa jokaisen uuden pienen hiljaisen päivityksen yhteydessä laitteille.

Luonnollisen kielen käsittelyn evoluutio

Reaaliaikaisen puhesynteesin takana oleva suunnittelu on yksi tämän päivän suurimmista haasteista koneoppimisen alalla. Järjestelmän on tulkittava luotu teksti, käytettävä oikeaa intonaatiota kontekstin perusteella ja renderöitävä ääni välittömästi.

Huolimatta nykyisistä poljinnopeuden ja aksenttien puutteista livekeskustelutekniikka kehittyy edelleen nopeasti. Ajustes äänen pakkaus- ja käsittelyalgoritmeissa pitäisi lopulta vakauttaa mukautettujen äänien suorituskykyä kaikilla mobiilialustoilla.