Binabago ng Google ang voice system sa Gemini Live na application at binabago ang cadence ng mga regional accent

Gemini

Gemini - Primakov / Shutterstock.com

Ang mga user ng virtual assistant ng Google ay nagsimulang mag-ulat ng mga makabuluhang kawalan ng katatagan sa mga setting ng audio sa panahon ng mga real-time na pakikipag-ugnayan. Direktang nakakaapekto ang mga pagbabago sa karanasan ng user, binabago ang mga pangunahing katangian ng mga pagpipiliang pinili sa application.

Ang problema ay nagpapakita ng sarili pangunahin sa ritmo ng pagsasalita, tono ng mga tugon at pagkakapare-pareho ng mga panrehiyong punto. Essas ang mga pagkakaiba-iba ay nagaganap nang hindi mahuhulaan, na binabago ang pattern ng komunikasyon ng sistema ng artificial intelligence sa patuloy na mga dialogue.

Gemini – mundissima/ Shutterstock.com

Ang mga bahid ay naging maliwanag pagkatapos ng pagpapatupad ng mga kamakailang update sa mga modelo ng wika ng kumpanya. Ang pagkakaiba sa pagitan ng audio sample na inaalok sa mga setting at ang tunog na ginawa sa pagsasanay ay naging pangunahing target ng mga reklamo sa mga forum ng teknolohiya na nakatuon sa mga mobile device.

Mga tunog na hindi pagkakapare-pareho at ang karanasan ng user

Ang pagpipiliang boses na kilala bilang Capella, na nailalarawan sa pamamagitan ng isang British na babaeng accent, ay may mga pinaka-halatang distortion mula noong ilunsad ito. Napansin ng mga mamimili na ang orihinal na personalidad ng audio ay mabilis na nawala pagkatapos ng ilang unang utos.

Sa panahon ng matagal na pag-uusap, ang sistema ay nagpapakita ng kahirapan sa pagpapanatili ng rehiyonal na pattern na pinili ng indibidwal. Ang mga tugon ng katulong ay nagsisimula nang magsalit-salit sa pagitan ng mga Australian accent at mas neutral na variation ng American English, na lumilikha ng isang pira-piraso at nakakalito na karanasan sa pakikinig para sa mga umaasa sa tool para sa pang-araw-araw na gawain o pag-aaral.

Ang pag-uugali ng application ay nagmumungkahi na ang real-time na pagproseso ay nahaharap sa mga bottleneck kapag sinusubukang ipagpatuloy ang kumplikadong modulasyon ng boses na kinakailangan ng mga bagong bersyon ng modelo ng artificial intelligence. Quando ang user ay nagsasagawa ng sapilitang pag-restart ng software, ang orihinal na accent ay naibalik, ngunit ang pag-aayos na ito ay may pansamantalang epekto lamang. Após Pagkatapos ng ilang minuto ng tuluy-tuloy na pakikipag-ugnayan, ang boses ay magbabalik sa isang hybrid na bersyon, na nagpapakita na ang speech synthesis system ay hindi maaaring mapanatili ang katatagan sa mga session na nangangailangan ng higit na kontekstwal na pagproseso at mahabang tugon.

  • Ang bilis ng pagsasalita ay makabuluhang nababawasan sa mga kumplikadong tugon.
  • Ang orihinal na treble tone ay kapansin-pansing nababawasan habang ginagamit.
  • Ang iba’t ibang accent ay pinaghalo sa parehong pangungusap nang hindi sinasadya.
  • Ang pag-restart ng application ay nag-aalok lamang ng solusyon sa problema.

Mga artifact ng audio sa mga pinahabang session

Bilang karagdagan sa mga pagbabago sa vocal identity, ang katulong ay nagsimulang magpakita ng mga hindi gustong ingay sa panahon ng pagpaparami ng mga tugon. Artefatos na mga tunog, tulad ng mga pop, maliliit na pop at background hiss, ay lumalabas nang paminsan-minsan habang pinoproseso at inihahatid ng system ang hiniling na impormasyon.

Ang mga acoustic interference na ito ay walang direktang koneksyon sa pagbabago ng mga accent, ngunit pinalala nila ang pang-unawa ng pagbaba sa kalidad ng serbisyo. Ang dalas ng mga ingay ay nag-iiba-iba depende sa na-activate na opsyon sa boses at sa device na ginamit para ma-access ang platform.

Mga pagkakaiba-iba ng pagganap ayon sa platform

Ipinapakita ng mga praktikal na pagsubok na ang katatagan ng audio ay lubos na nakadepende sa konteksto ng paggamit at sa kapaligiran ng hardware. Comandos Mabilis at layunin, na nangangailangan ng maiikling tugon, bihirang mag-trigger ng mga cadence gaps o accent mix-up na iniulat ng mga consumer.

Ang pagsasama ng assistant sa mga automotive system, gaya ng Android Auto, ay nagpapakita ng kapansin-pansing mahusay na pag-uugali. Nesses na kapaligiran, ang mga orihinal na katangian ng mga napiling boses ay pinapanatili nang mas epektibo, kahit na sa mga pakikipag-ugnayan na nangangailangan ng mas mahabang oras ng pagproseso.

Ang pagkakaiba sa performance na ito ay nagpapahiwatig na ang pamamahala ng mapagkukunan ng mobile app ay maaaring nakakaimpluwensya sa pag-render ng audio. Ang data compression o memory allocation sa mga smartphone ay lumilitaw na direktang nakakasagabal sa kakayahan ng modelo na mapanatili ang vocal fidelity.

Available ang mga opsyon sa pagpapasadya at pagsasaayos

Nagbibigay ang panel ng mga setting ng assistant ng magkakaibang katalogo ng mga vocal profile para sa pag-customize. Layunin ng kumpanya na bigyang-daan ang bawat indibidwal na makahanap ng tono, ritmo at accent na ginagawang mas natural at kasiya-siya ang pakikipag-ugnayan sa makina.

Ang mga profile ay mula sa mas seryoso at pormal na timbre hanggang sa mas mataas na tono at nakakarelaks na mga opsyon. Ang pagpili ay ginagawa lamang sa pamamagitan ng pangunahing menu, kung saan ang isang maikling audio sample ay nilalaro upang tulungan ang mamimili sa pagpili.

Sa liwanag ng mga kamakailang problema, maraming mga gumagamit ang nagpatibay ng diskarte ng patuloy na paglipat sa pagitan ng mga profile na ito sa pagtatangkang makahanap ng isang opsyon na hindi gaanong madaling kapitan ng pagkabigo. Gayunpaman, ang pagpapalit ng boses ay gumaganap lamang bilang isang pansamantalang solusyon para sa kawalang-tatag ng system.

Ang ugat ng isyu ay nananatiling nakatali sa paraan ng pagpoproseso ng software ng natural na wika sa real time. Ang patuloy na pag-update sa mga server ng kumpanya ay nakakaapekto sa pag-uugali ng lahat ng mga opsyon na available sa catalog, anuman ang napiling tono.

Epekto ng Mga Update sa Artipisyal na Katalinuhan

Ang mga hindi gustong pagbabago sa gawi ng audio ay kasabay ng panahon ng pagpapatupad ng mga bagong bersyon ng Google na mga modelo ng wika, partikular na ang paglipat sa mga arkitektura na nakatuon sa bilis, gaya ng bersyon Flash Live. Ang pangunahing layunin ng mga update na ito ay bawasan ang oras ng latency sa pagitan ng tanong ng user at ng mas tuluy-tuloy na pagtugon ng machine, at gawing mas malapit ang pag-uusap sa pag-uusap ng tao.

Gayunpaman, ang pag-optimize para sa mga pagtaas ng bilis ay tila nakabuo ng mga side effect sa pag-render ng speech synthesis. Kapag inuuna ang mabilis na paghahatid ng nabuong text, maaaring tumatanggap ang audio system ng mga data packet sa isang pira-pirasong paraan, na magpapaliwanag sa pagkawala ng cadence, pagbaba ng matataas na tono at kawalan ng kakayahan na mapanatili ang mga kumplikadong regional accent sa napakahabang talata.

Accessibility at ang pag-asa sa pare-parehong mga pamantayan

Ang pagkakapare-pareho sa pagpaparami ng mga synthetic na boses ay higit pa sa isyu ng aesthetic preference at direktang nakakaapekto sa globo ng digital accessibility. Indivíduos ang mga taong may kapansanan sa paningin, kahirapan sa pagbabasa o mga partikular na kondisyon ng neurological ay kadalasang umaasa sa mga virtual na katulong upang mag-browse sa internet, magbasa ng mga dokumento at mag-ayos ng mga pang-araw-araw na gawain. Para Para sa madlang ito, ang pagiging pamilyar sa tono, bilis at kalinawan ng piniling boses ay mahalaga para sa epektibong pag-unawa sa impormasyon. Quando biglang binabago ng system ang cadence nito, naglalagay ng mga ingay o binabago ang accent sa gitna ng isang pangungusap, ang cognitive load na kinakailangan upang bigyang-kahulugan ang mensahe ay tumataas nang malaki. Essa Ang pagsira sa mga inaasahan ay nagiging isang kapaki-pakinabang na tool sa isang mapagkukunan ng pagkabigo, na itinatampok ang kritikal na pangangailangan para sa mga kumpanya ng teknolohiya na magpatupad ng mas mahigpit na mga gawain sa pagsubok na nakatuon sa katatagan ng audio bago ilabas ang mga update sa artificial intelligence sa pangkalahatang publiko.

Patuloy na pagpoposisyon at pagsubaybay

Sa ngayon, ang software developer ay hindi naglabas ng mga opisyal na pahayag na nagdedetalye ng timeline para sa tiyak na pagwawasto ng mga vocal anomalya na ito. Patuloy na sinusubaybayan ng komunidad ng teknolohiya ang gawi ng app sa bawat bagong maliit na tahimik na update na itinutulak sa mga device.

Ebolusyon ng natural na pagproseso ng wika

Ang engineering sa likod ng real-time na speech synthesis ay kumakatawan sa isa sa mga pinakamalaking hamon ngayon sa larangan ng machine learning. Kailangang bigyang-kahulugan ng system ang nabuong teksto, ilapat ang tamang intonasyon batay sa konteksto, at i-render kaagad ang audio.

Sa kabila ng kasalukuyang mga depekto sa cadence at accent, ang teknolohiya ng live na pakikipag-usap ay patuloy na sumusulong nang mabilis. Ang Ajustes sa audio compression at mga algorithm sa pagpoproseso ay dapat na tuluyang patatagin ang pagganap ng mga custom na boses sa lahat ng mga mobile platform.