News (CEB)

Giusab sa Google ang voice system sa Gemini Live nga aplikasyon ug giusab ang cadence sa regional accent

Gemini
Foto: Gemini - Primakov / Shutterstock.com

Ang mga tiggamit sa virtual nga katabang sa Google nagsugod sa pagreport sa hinungdanon nga mga kawalay kalig-on sa mga setting sa audio sa panahon sa mga interaksyon sa tinuud nga oras. Ang mga pagbag-o direkta nga nakaapekto sa kasinatian sa gumagamit, nagbag-o sa sukaranan nga mga kinaiya sa mga kapilian nga gipili sa aplikasyon.

Ang problema nagpakita sa iyang kaugalingon nag-una sa cadence sa pagsulti, ang tono sa mga tubag ug ang pagkamakanunayon sa rehiyonal nga mga accent. Essas nga mga kalainan mahitabo nga dili matag-an, nga nagbag-o sa pattern sa komunikasyon sa artificial intelligence system atol sa padayon nga mga dayalogo.

Gemini
Gemini – mundissima/ Shutterstock.com

Ang mga sayup nahimong dayag pagkahuman sa pagpatuman sa bag-ong mga update sa mga modelo sa pinulongan sa kompanya. Ang kalainan tali sa audio sample nga gitanyag sa mga setting ug ang tingog nga gi-reproduce sa praktis nahimong nag-unang target sa mga reklamo sa mga forum sa teknolohiya nga naka-focus sa mga mobile device.

Sound inconsistencies ug ang user experience

Ang kapilian sa tingog nga nailhan nga Capella, nga gihulagway sa usa ka British nga babaye nga accent, adunay labing klaro nga pagtuis sukad sa paglansad niini. Namatikdan sa mga konsumedor nga ang orihinal nga personalidad sa audio dali nga nawala pagkahuman sa una nga pipila nga mga mando.

Atol sa dugay nga mga panag-istoryahanay, ang sistema nagpakita sa kalisud sa pagpadayon sa rehiyonal nga sumbanan nga gipili sa indibidwal. Ang mga tubag sa katabang nagsugod sa pagpuli-puli nga awtonomiya tali sa mga accent sa Australia ug mas neyutral nga mga kalainan sa American English, nga nagmugna og usa ka tipik ug makalibog nga kasinatian sa pagpaminaw alang niadtong nagsalig sa himan alang sa adlaw-adlaw nga buluhaton o pagtuon.

Ang pamatasan sa aplikasyon nagsugyot nga ang pagproseso sa tinuud nga oras nag-atubang sa mga bottleneck kung gisulayan nga mapadayon ang komplikado nga modulasyon sa tingog nga gikinahanglan sa mga bag-ong bersyon sa modelo sa artipisyal nga paniktik. Quando ang user naghimo sa usa ka pinugos nga pag-restart sa software, ang orihinal nga accent gipahiuli, apan kini nga pag-ayo adunay temporaryo nga epekto. Após Human sa pipila ka minuto sa padayon nga interaksyon, ang tingog mausab balik ngadto sa hybrid nga bersyon, nga nagpakita nga ang speech synthesis system dili makapadayon sa kalig-on sa mga sesyon nga nagkinahanglan og mas dako nga konteksto nga pagproseso ug taas nga mga tubag.

  • Ang katulin sa pagsulti mokunhod pag-ayo sa komplikadong mga tubag.
  • Ang orihinal nga treble tones mamatikdan nga pagkunhod sa panahon sa paggamit.
  • Ang lainlaing mga accent gisagol sa parehas nga sentence nga wala tuyoa.
  • Ang pag-restart sa aplikasyon nagtanyag lamang usa ka solusyon sa problema.

Mga artifact sa audio sa gipalawig nga mga sesyon

Dugang sa mga pagbag-o sa vocal identity, ang katabang nagsugod sa pagpresentar sa dili gusto nga mga kasaba sa panahon sa pagkopya sa mga tubag. Ang Artefatos nga mga tingog, sama sa mga pop, gagmay nga mga pop ug background hiss, makita nga panagsa samtang ang sistema nagproseso ug naghatag sa gipangayo nga impormasyon.

Kini nga mga acoustic interference walay direktang koneksyon sa pagbag-o sa mga accent, apan kini nagpasamot sa panglantaw sa usa ka pagkunhod sa kalidad sa serbisyo. Ang kasubsob sa mga kasaba magkalahi kaayo depende sa opsyon sa tingog nga gi-activate ug ang device nga gigamit sa pag-access sa plataporma.

Mga kalainan sa pasundayag sa plataporma

Ang praktikal nga mga pagsulay nagpakita nga ang kalig-on sa audio nagdepende sa konteksto sa paggamit ug sa palibot sa hardware. Comandos Dali ug tumong, nga nagkinahanglan ug mugbo nga mga tubag, panagsa ra nga mag-trigger sa cadence gaps o accent mix-up nga gitaho sa mga konsumidor.

Ang panagsama sa katabang sa mga sistema sa awto, sama sa Android Auto, nagpakita nga labi ka maayo nga pamatasan. Nesses nga mga palibot, ang orihinal nga mga kinaiya sa pinili nga mga tingog gipreserbar nga mas epektibo, bisan sa mga interaksyon nga nagkinahanglan og mas taas nga oras sa pagproseso.

Kini nga kalainan sa pasundayag nagpakita nga ang pagdumala sa kapanguhaan sa mobile app mahimong makaimpluwensya sa paghubad sa audio. Ang data compression o memory alokasyon sa mga smartphone makita nga direktang makabalda sa abilidad sa modelo sa pagpadayon sa vocal fidelity.

Anaa ang mga kapilian sa pag-customize ug pag-adjust

Ang panel sa mga setting sa katabang naghatag usa ka lainlaing katalogo sa mga profile sa vocal alang sa pag-customize. Ang katuyoan sa kompanya mao ang paghimo sa matag indibidwal nga makit-an ang usa ka tono, ritmo ug accent nga naghimo sa pagpakig-uban sa makina nga mas natural ug makalingaw.

Ang mga profile gikan sa labi ka seryoso ug pormal nga mga timbre hangtod sa labi ka taas nga tunog ug relaks nga mga kapilian. Ang pagpili gihimo lamang pinaagi sa main menu, diin ang usa ka mubo nga audio sample gipatokar aron matabangan ang konsumidor sa pagpili.

Tungod sa bag-o nga mga problema, daghang mga tiggamit ang nagsagop sa estratehiya sa kanunay nga pagbalhin tali sa kini nga mga profile sa pagsulay sa pagpangita sa usa ka kapilian nga dili kaayo dali nga mapakyas. Bisan pa, ang pagbalhin sa tingog naglihok lamang ingon usa ka temporaryo nga solusyon alang sa pagkawalay kalig-on sa sistema.

Ang ugat sa isyu nagpabilin nga nahigot sa paagi sa pagproseso sa software sa natural nga sinultian sa tinuud nga oras. Ang padayon nga pag-update sa mga server sa kompanya makaapekto sa pamatasan sa tanan nga mga kapilian nga magamit sa katalogo, bisan unsa pa ang tono nga gipili.

Epekto sa Artipisyal nga Intelligence Updates

Ang dili gusto nga mga pagbag-o sa pamatasan sa audio nahiuyon sa yugto sa pagpatuman sa mga bag-ong bersyon sa Google nga mga modelo sa lengguwahe, labi na ang pagbalhin sa mga arkitektura nga naka-focus sa tulin, sama sa bersyon Flash Live. Ang panguna nga katuyoan sa kini nga mga pag-update mao ang pagpakunhod sa oras sa latency tali sa pangutana sa gumagamit ug ang labi ka likido nga tubag sa makina, ug himuon nga labi ka duol ang panag-istoryahanay sa tawo.

Bisan pa, ang pag-optimize alang sa mga kadaugan sa tulin ingon og nakamugna og mga side effect sa paghubad sa speech synthesis. Kung unahon ang paspas nga paghatud sa namugna nga teksto, ang sistema sa audio mahimong makadawat mga pakete sa datos sa usa ka tipik nga paagi, nga magpatin-aw sa pagkawala sa cadence, pagpaubos sa taas nga mga tono ug ang kawalay katakus sa pagpadayon sa mga komplikado nga rehiyonal nga accent sa taas kaayo nga mga parapo.

Accessibility ug ang pagsalig sa makanunayon nga mga sumbanan

Ang pagkamakanunayon sa pagkopya sa sintetikong mga tingog lapas pa sa isyu sa aesthetic nga kagustuhan ug direkta nga makaapekto sa sphere sa digital accessibility. Indivíduos ang mga tawo nga adunay kapansanan sa panan-aw, mga kalisud sa pagbasa o mga piho nga kahimtang sa neurological kanunay nga nagsalig sa mga virtual nga katabang sa pag-browse sa internet, pagbasa sa mga dokumento ug pag-organisar sa mga adlaw-adlaw nga rutina. Para Alang niini nga mamiminaw, ang pagkapamilyar sa tono, katulin ug katin-aw sa pinili nga tingog kinahanglanon para sa epektibong pagsabot sa impormasyon. Quando ang sistema kalit nga nag-usab sa cadence niini, nagsal-ot sa mga kasaba o nag-usab sa accent sa tunga-tunga sa usa ka sentence, ang cognitive load nga gikinahanglan sa paghubad sa mensahe nagdugang pag-ayo. Essa Ang paglapas sa mga gilauman nahimo nga usa ka makatabang nga himan nga gigikanan sa kahigawad, nga nagpasiugda sa kritikal nga panginahanglan alang sa mga kompanya sa teknolohiya nga ipatuman ang labi ka higpit nga mga rutina sa pagsulay nga nakapunting sa kalig-on sa audio sa wala pa ipagawas ang mga update sa artipisyal nga paniktik sa publiko.

Padayon nga positioning ug monitoring

Hangtud karon, ang software developer wala pa nag-isyu sa opisyal nga mga pahayag nga nagdetalye sa usa ka timeline alang sa depinitibo nga pagtul-id niining mga vocal anomalies. Ang komunidad sa teknolohiya nagpadayon sa pag-monitor sa pamatasan sa app sa matag bag-ong gamay nga hilom nga pag-update nga giduso sa mga aparato.

Ebolusyon sa natural nga pagproseso sa pinulongan

Ang engineering luyo sa real-time nga speech synthesis nagrepresentar sa usa sa pinakadako nga mga hagit karon sa natad sa pagkat-on sa makina. Kinahanglang hubaron sa sistema ang namugna nga teksto, ipadapat ang saktong intonasyon base sa konteksto, ug i-render dayon ang audio.

Bisan pa sa karon nga mga sayup sa cadence ug accent, ang teknolohiya sa live nga panag-istoryahanay nagpadayon nga paspas nga nag-uswag. Ang Ajustes sa audio compression ug mga algorithm sa pagproseso kinahanglan nga sa katapusan mapalig-on ang paghimo sa naandan nga mga tingog sa tanan nga mga mobile platform.