News (LT)

„Google naujinys modifikuoja „Gemini Live balsus ir sukelia asistento garso skirtumus

Gemini
Gemini - Primakov / Shutterstock.com

Technologijų milžino dirbtinio intelekto programa neseniai buvo modifikuota, pakeitusi jos realiojo laiko pokalbio sąsajos garsą. Usuários pranešė, kad turimos garso parinktys rodo didelį neatitikimą tarp bandomojo pavyzdžio ir praktinio vykdymo dialogų metu. Pakeitimas tiesiogiai veikia kalbos ritmą, intonaciją ir į pagalbos programinę įrangą integruotų regioninių akcentų aiškumą.

Pakeitimai sutampa su naujų natūralios kalbos apdorojimo modelio versijų, konkrečiai susijusių su pagrindinės sistemos infrastruktūros atnaujinimais, diegimu. Netikėtas balsų elgesys sukėlė diskusijas technologijų forumuose, kur vartotojai detalizavo pastebimus mašinos generuojamų atsakymų tonų ir ritmo skirtumus. Šis neatitikimas kenkia įrankio nuspėjamumui tiems, kurie kasdien priklauso nuo konkrečių garso nustatymų.

ジェミニ
双子座 – mundissima/ Shutterstock.com

Technologijų ekspertai pabrėžia, kad nuolatiniai mašininio mokymosi platformų koregavimai dažnai sukelia šalutinį poveikį vartotojo sąsajai. Garso modifikacija kelia klausimų dėl atnaujinimų, platinamų visame pasaulyje milijonams mobiliųjų įrenginių, kokybės kontrolės. Įmonė, atsakinga už asistento kūrimą, palaiko atnaujinimo ciklą, orientuotą į greičio optimizavimą, o tai gali paaiškinti balso sintezės pokyčius sudėtingų sąveikų metu.

Tiesioginis poveikis nuolatiniam pokalbio patirčiai

Pagrindinis vartotojų užregistruotas skundas yra susijęs su emocinių ir natūralių savybių praradimu ilgai sąveikaujant su sistema. Nustatymų meniu pasirinktas balsas skamba draugiškai, tačiau įjungiant nuolatinio dialogo režimą, tonas tampa pastebimai aukštesnis ir pagreitėja. Essa Lūkesčių laužymas kenkia ieškančių virtualaus asistento, turinčio daugiau žmogiškų ir mažiau mechanizuotų savybių, patirčiai.

Šis variantas kenkia asistento pasinėrimui ir naudingumui atliekant užduotis, kurioms reikia ilgo klausytojo dėmesio. Pessoas, kurie naudojasi įrankiu studijuodami, skaitydami ilgus dokumentus ar kasdienę pagalbą, pastebėjo drastišką dikcijos kokybės kritimą. Dėl sklandumo trūkumo klausymasis vargina vos po kelių minučių nuolatinio naudojimo.

Moteriškas britų akcentas, viduje žinomas pagal specifinę nomenklatūrą, buvo vienas iš labiausiai paveiktų pastarojo meto techninių pokyčių. Relatos rodo, kad kalbos natūralumas išnyksta po pirmųjų sąveikos sekundžių, jį iš karto pakeičia mechaninis ritmas ir be imituojamų kvėpavimo pauzių. Vartotojo pasirinkta balso tapatybė praranda pagrindines charakteristikas atsakymo apdorojimo metu.

Garso nenuoseklumas verčia vartotojus nustoti jį naudoti arba ieškoti alternatyvų pačioje programoje, ieškant stabilumo. Tai, kad iš anksto nebuvo pranešta apie kalbos sintezės pokyčius, nuvylė aktyviausią dirbtinio intelekto platformos vartotojų bazę. Muitos laukia oficialaus pataisymo, kuris atkurs pradinę garso paketų kokybę.

Techniniai garso pasikeitimo veiksniai

Norint sukurti sintetinius balsus, reikalinga sudėtinga pusiausvyra tarp apdorojimo debesyje ir vietinio vykdymo mobiliuosiuose įrenginiuose. Atrodo, kad neseniai atlikus serverio greičio optimizavimą, skirtą virtualaus asistento atsako laikui sumažinti, vartotojams buvo siunčiami agresyviai suspausti garso paketai. Essa Dėl suspaudimo prarandami žemųjų dažnių dažniai ir dirbtinai pagreitinami žodžiai, pašalinamos natūralios pauzės, būdingos žmogaus kalbai. Sąveika tampa labiau robotizuota, nei tikėjosi programinės įrangos inžinieriai, o tai sužlugdo sklandaus dialogo lūkesčius. Sistema teikia pirmenybę greitam informacijos pateikimui, paaukodama balso moduliaciją, kuri dirbtiniam intelektui suteikė tikroviškumo.

Be to, pasikeitė aukštis ir greitis, atkuriant garsą įvairiose kasdienėse aplinkose, iškilo ir papildomų techninių problemų. Ruídos fonas, traškėjimas ir nedideli ryšio gedimai buvo nustatyti intensyvaus naudojimo seansuose. Situacija žymiai pablogėja, kai aplikacija integruojama į automobilių sistemas arba belaides ausines per Bluetooth. Sistemos architektūra bando kompensuoti interneto delsą dinamiškai reguliuodama garsą, tačiau šis pritaikymas realiuoju laiku nuolatos nepavyksta. Rezultatas yra balso nuoseklumo pertrauka, kurią vartotojas iš pradžių pasirinko programos valdymo skydelyje.

Iššūkiai integruojantis su automobilių sistemomis

Naudojant virtualųjį asistentą vartotojui vairuojant, yra kritinis apdoroto garso stabilumo scenarijus. Conexões su transporto priemonės prietaisų skydeliais reikalauja maksimalaus aiškumo, kad būtų išvengta blaškymosi eisme ir būtų užtikrintas greitas navigacijos komandų supratimas. Qualquer triukšmas ar balso pagreitis kenkia įrankio saugai ir efektyvumui transporto priemonės aplinkoje.

Garso atkūrimo spragos ir staigūs garsumo ar akcento pokyčiai sumažina įrankio, kaip naršyklės ar tekstinių pranešimų skaitytuvo, patikimumą. Transporto priemonių integracijai reikalingas griežtas standartizavimas, kuriam šiuo metu kyla pavojus dėl naujausių serverio atnaujinimų. Motoristas praneša, kad jiems reikia išjungti skaitymo garsiai funkciją dėl prastos balso sintezės kokybės.

Kūrėjų bendruomenės reakcijos

Profesionalai, sekantys natūralios kalbos modelių raidą, pabrėžia, kad labai didelės apimties sistemose sunku išlaikyti vokalinį tapatumą. Šiuo metu didelių technologijų kompanijų prioritetas yra reagavimo greitis, dažnai kenkiantis estetinei generuojamo garso kokybei. Techninis iššūkis yra apdoroti milijardus parametrų neatidėliojant balso perdavimo galutiniam vartotojui.

Specializuotuose forumuose dokumentuojami bandymai apeiti problemą išvalant talpyklą arba iš naujo įdiegiant programą – taktika, kuri pasirodė esanti visiškai neveiksminga. Pokyčių pagrindas yra įmonės centriniai serveriai, neleidžiantys išmaniųjų telefonų savininkams priimti vietinius sprendimus. Techninė bendruomenė reikalauja didesnio skaidrumo apie kodo užkulisiuose įgyvendintus pakeitimus.

Prieinamumo vaidmuo balso technologijose

Balso sintezės nuoseklumas pranoksta vien estetinį pasirinkimą ir tampa pagrindiniu skaitmeninio prieinamumo elementu žmonėms, turintiems regėjimo sutrikimų arba skaitymo sunkumų. Quando virtualus asistentas keičia savo kalbos modelį nenuspėjamai, o naudotojai, kurie priklauso tik nuo garso sąsajos, susiduria su kliūtimis, kurios riboja jų savarankiškumą naudojant mobilųjį įrenginį. Aiškus tarimas, pagarba gramatinėms pauzėms ir malonaus tembro išlaikymas yra esminiai techniniai reikalavimai pagalbinių technologijų priemonėms. Nestabilumas, pastebėtas naujausiose programinės įrangos versijose, rodo naudojimo tinkamumo testų, skirtų konkrečioms auditorijoms, spragą. Profissionais iš skaitmeninės įtraukimo srities įspėja, kad staigūs balso sąsajų pokyčiai gali sukelti dezorientaciją ir klausos nuovargį dažniems naudotojams. Todėl plėtojant dirbtinį intelektą algoritminės naujovės turi būti suderintos su galutiniam vartotojui siūlomu jutimo stabilumu. Atnaujinimo atšaukimo galimybių trūkumas pablogina padėtį tiems, kurie jau buvo pripratę prie ankstesnio ritmo. Kokybės užtikrinimas turi apimti ne tik tekstinių atsakymų tikslumą, bet ir šios informacijos įgarsinimo būdą. Ferramentas Realaus laiko ryšio sistemoms reikalingas kompetencijos standartas, kuris palaiko vartotojų pasitikėjimą pasirinkta platforma.

Dirbtinio intelekto atnaujinimų istorija

Virtualių asistentų rinka išgyvena pagreitintą pereinamąjį etapą, kai įmonės konkuruoja, kad pasiūlytų greičiausius ir tiksliausius atsakymus vartotojams. Esse aukšto slėgio aplinka lemia trumpus kūrimo ciklus ir nuolatinį kodo diegimą tiesiai į serverius. Technologinės lenktynės verčia išleisti išteklius, kuriems dar reikia techninio šlifavimo.

Istoriškai didelius dirbtinio intelekto loginio apdorojimo pajėgumo šuolius lydi laikinas antrinių funkcijų, tokių kaip grafinė ar garso sąsaja, regresija. Mašininio samprotavimo prioritetų nustatymas paveikia skaičiavimo išteklius, skirtus kalbos atvaizdavimui realiuoju laiku. Tai įprastas modelis programinės įrangos pramonėje žlugdančių naujovių laikotarpiais.

Norint tiksliai suderinti sintetinius balsus, reikia didelių garso duomenų bazių ir pažangaus neuroninio apdorojimo, kad jie skambėtų natūraliai. Senesnių modelių pakeitimas lengvesnėmis ir greitesnėmis versijomis paaiškina emocinių niuansų praradimą, apie kurį pastarosiomis savaitėmis pranešė vartotojai. Tikimasi, kad būsimos korekcijos stabilizuos balso moduliaciją neprarandant reakcijos greičio.

Nustatymų skydelio koregavimai

Vartotojai ir toliau išbando įvairius kalbų ir akcentų derinius programos meniu ieškodami parinkties, kuri išlaikytų stabilumą ilgą laiką naudojant. Naršydami po nustatymus matote, kad visos balso alternatyvos didesniu ar mažesniu mastu kenčia nuo to paties garso suspaudimo ir natūralumo praradimo. Programos sąsaja lieka nepakitusi, užmaskuojant gilius pokyčius, įvykusius apdorojant debesį.

To Top