ഗൂഗിൾ ജെമിനി ലൈവ് ആപ്ലിക്കേഷനിലെ വോയ്‌സ് സിസ്റ്റം മാറ്റുകയും പ്രാദേശിക ഉച്ചാരണത്തിൻ്റെ കേഡൻസ് പരിഷ്‌ക്കരിക്കുകയും ചെയ്യുന്നു

Gemini

Gemini - Primakov / Shutterstock.com

Google-ൻ്റെ വെർച്വൽ അസിസ്റ്റൻ്റിൻ്റെ ഉപയോക്താക്കൾ തത്സമയ ഇടപെടലുകളിൽ ഓഡിയോ ക്രമീകരണങ്ങളിൽ കാര്യമായ അസ്ഥിരതകൾ റിപ്പോർട്ട് ചെയ്യാൻ തുടങ്ങി. പരിഷ്‌ക്കരണങ്ങൾ ഉപയോക്തൃ അനുഭവത്തെ നേരിട്ട് ബാധിക്കുന്നു, ആപ്ലിക്കേഷനിൽ തിരഞ്ഞെടുത്ത ഓപ്ഷനുകളുടെ അടിസ്ഥാന സവിശേഷതകൾ മാറ്റുന്നു.

സംസാരത്തിൻ്റെ വ്യാപ്തി, പ്രതികരണങ്ങളുടെ സ്വരം, പ്രാദേശിക ഉച്ചാരണങ്ങളുടെ സ്ഥിരത എന്നിവയിലാണ് പ്രശ്നം പ്രധാനമായും പ്രകടമാകുന്നത്. Essas വ്യതിയാനങ്ങൾ പ്രവചനാതീതമായി സംഭവിക്കുന്നു, തുടർച്ചയായ സംഭാഷണങ്ങളിൽ ആർട്ടിഫിഷ്യൽ ഇൻ്റലിജൻസ് സിസ്റ്റത്തിൻ്റെ ആശയവിനിമയ രീതിയെ പരിവർത്തനം ചെയ്യുന്നു.

ജെമിനി – mundissima/ Shutterstock.com

കമ്പനിയുടെ ഭാഷാ മോഡലുകളുടെ സമീപകാല അപ്‌ഡേറ്റുകൾ നടപ്പിലാക്കിയതിന് ശേഷമാണ് പിഴവുകൾ വ്യക്തമായത്. ക്രമീകരണങ്ങളിൽ വാഗ്ദാനം ചെയ്യുന്ന ഓഡിയോ സാമ്പിളും പ്രായോഗികമായി പുനർനിർമ്മിക്കുന്ന ശബ്ദവും തമ്മിലുള്ള പൊരുത്തക്കേടാണ് മൊബൈൽ ഉപകരണങ്ങളിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്ന സാങ്കേതിക ഫോറങ്ങളിലെ പരാതികളുടെ പ്രധാന ലക്ഷ്യം.

ശബ്ദ പൊരുത്തക്കേടുകളും ഉപയോക്തൃ അനുഭവവും

Capella എന്നറിയപ്പെടുന്ന വോയ്‌സ് ഓപ്‌ഷൻ, ഒരു ബ്രിട്ടീഷ് സ്‌ത്രീ ഉച്ചാരണത്തിൻ്റെ സവിശേഷതയാണ്, ലോഞ്ച് ചെയ്‌തതിന് ശേഷമുള്ള ഏറ്റവും വ്യക്തമായ വികലങ്ങൾ. ആദ്യത്തെ കുറച്ച് കമാൻഡുകൾക്ക് ശേഷം ഓഡിയോയുടെ യഥാർത്ഥ വ്യക്തിത്വം പെട്ടെന്ന് നഷ്ടപ്പെടുന്നത് ഉപഭോക്താക്കൾ ശ്രദ്ധിക്കുന്നു.

നീണ്ട സംഭാഷണങ്ങളിൽ, വ്യക്തി തിരഞ്ഞെടുത്ത പ്രാദേശിക പാറ്റേൺ നിലനിർത്തുന്നതിൽ സിസ്റ്റം ബുദ്ധിമുട്ട് കാണിക്കുന്നു. അസിസ്റ്റൻ്റിൻ്റെ പ്രതികരണങ്ങൾ ഓസ്‌ട്രേലിയൻ ഉച്ചാരണങ്ങളും അമേരിക്കൻ ഇംഗ്ലീഷിൻ്റെ കൂടുതൽ നിഷ്പക്ഷ വ്യതിയാനങ്ങളും തമ്മിൽ മാറിമാറി തുടങ്ങുന്നു, ഇത് ദൈനംദിന ജോലികൾക്കോ ​​പഠനങ്ങൾക്കോ ​​ടൂളിനെ ആശ്രയിക്കുന്നവർക്ക് വിഘടിച്ചതും ആശയക്കുഴപ്പമുണ്ടാക്കുന്നതുമായ ശ്രവണ അനുഭവം സൃഷ്ടിക്കുന്നു.

ആർട്ടിഫിഷ്യൽ ഇൻ്റലിജൻസ് മോഡലിൻ്റെ പുതിയ പതിപ്പുകൾക്ക് ആവശ്യമായ സങ്കീർണ്ണമായ വോയ്‌സ് മോഡുലേഷൻ നിലനിർത്താൻ ശ്രമിക്കുമ്പോൾ തത്സമയ പ്രോസസ്സിംഗ് തടസ്സങ്ങൾ നേരിടുന്നുവെന്ന് ആപ്ലിക്കേഷൻ്റെ പെരുമാറ്റം സൂചിപ്പിക്കുന്നു. Quando ഉപയോക്താവ് സോഫ്‌റ്റ്‌വെയറിൻ്റെ നിർബന്ധിത പുനരാരംഭം നടത്തുന്നു, യഥാർത്ഥ ആക്സൻ്റ് പുനഃസ്ഥാപിച്ചു, എന്നാൽ ഈ പരിഹാരത്തിന് ഒരു താൽക്കാലിക പ്രഭാവം മാത്രമേ ഉള്ളൂ. Após കുറച്ച് മിനിറ്റ് തുടർച്ചയായ ഇടപെടലിന് ശേഷം, ശബ്ദം വീണ്ടും ഒരു ഹൈബ്രിഡ് പതിപ്പിലേക്ക് മാറുന്നു, കൂടുതൽ സന്ദർഭോചിതമായ പ്രോസസ്സിംഗും നീണ്ട പ്രതികരണങ്ങളും ആവശ്യമുള്ള സെഷനുകളിൽ സംഭാഷണ സിന്തസിസ് സിസ്റ്റത്തിന് സ്ഥിരത നിലനിർത്താൻ കഴിയില്ലെന്ന് കാണിക്കുന്നു.

  • സങ്കീർണ്ണമായ പ്രതികരണങ്ങളിൽ സംസാര വേഗത ഗണ്യമായി കുറയുന്നു.
  • ഉപയോഗ സമയത്ത് യഥാർത്ഥ ട്രെബിൾ ടോണുകൾ ഗണ്യമായി കുറയുന്നു.
  • വ്യത്യസ്‌ത ഉച്ചാരണങ്ങൾ ഒരേ വാക്യത്തിൽ അവിചാരിതമായി കലർത്തിയിരിക്കുന്നു.
  • ആപ്ലിക്കേഷൻ പുനരാരംഭിക്കുന്നത് പ്രശ്‌നത്തിന് ഒരു പരിഹാരമേ തരൂ.

വിപുലമായ സെഷനുകളിലെ ഓഡിയോ ആർട്ടിഫാക്‌റ്റുകൾ

വോക്കൽ ഐഡൻ്റിറ്റിയിലെ മാറ്റങ്ങൾക്ക് പുറമേ, പ്രതികരണങ്ങളുടെ പുനർനിർമ്മാണ സമയത്ത് അസിസ്റ്റൻ്റ് അനാവശ്യമായ ശബ്ദങ്ങൾ അവതരിപ്പിക്കാൻ തുടങ്ങി. Artefatos പോപ്‌സ്, സ്‌മോൾ പോപ്‌സ്, ബാക്ക്‌ഗ്രൗണ്ട് ഹിസ് എന്നിവ പോലുള്ള ശബ്‌ദങ്ങൾ സിസ്റ്റം പ്രോസസ്സ് ചെയ്യുകയും അഭ്യർത്ഥിച്ച വിവരങ്ങൾ നൽകുകയും ചെയ്യുമ്പോൾ ഇടയ്‌ക്കിടെ ദൃശ്യമാകും.

ഈ ശബ്‌ദ ഇടപെടലുകൾക്ക് ആക്സൻ്റുകളുടെ മാറ്റവുമായി നേരിട്ട് ബന്ധമില്ല, എന്നാൽ സേവനത്തിൻ്റെ ഗുണനിലവാരം കുറയുന്നു എന്ന ധാരണയെ അവ വഷളാക്കുന്നു. പ്രവർത്തനക്ഷമമാക്കിയ വോയ്‌സ് ഓപ്‌ഷനും പ്ലാറ്റ്‌ഫോം ആക്‌സസ് ചെയ്യാൻ ഉപയോഗിക്കുന്ന ഉപകരണവും അനുസരിച്ച് ശബ്‌ദങ്ങളുടെ ആവൃത്തി വളരെയധികം വ്യത്യാസപ്പെടുന്നു.

പ്ലാറ്റ്ഫോം അനുസരിച്ച് പ്രകടന വ്യതിയാനങ്ങൾ

ഓഡിയോ സ്ഥിരത ഉപയോഗത്തിൻ്റെ സന്ദർഭത്തെയും ഹാർഡ്‌വെയർ പരിതസ്ഥിതിയെയും ആശ്രയിച്ചിരിക്കുന്നുവെന്ന് പ്രായോഗിക പരിശോധനകൾ തെളിയിക്കുന്നു. Comandos ഹ്രസ്വമായ പ്രതികരണങ്ങൾ ആവശ്യമുള്ള വേഗമേറിയതും വസ്തുനിഷ്ഠവുമായവ, ഉപഭോക്താക്കൾ റിപ്പോർട്ട് ചെയ്യുന്ന കേഡൻസ് വിടവുകളോ ആക്സൻ്റ് മിക്സ്-അപ്പുകളോ അപൂർവ്വമായി ട്രിഗർ ചെയ്യുന്നു.

Android Auto പോലുള്ള ഓട്ടോമോട്ടീവ് സിസ്റ്റങ്ങളുമായുള്ള അസിസ്റ്റൻ്റിൻ്റെ സംയോജനം ശ്രദ്ധേയമായ മികച്ച പെരുമാറ്റം കാണിക്കുന്നു. Nesses പരിതസ്ഥിതികൾ, കൂടുതൽ പ്രോസസ്സിംഗ് സമയം ആവശ്യമായ ഇടപെടലുകളിൽപ്പോലും, തിരഞ്ഞെടുത്ത ശബ്ദങ്ങളുടെ യഥാർത്ഥ സവിശേഷതകൾ കൂടുതൽ ഫലപ്രദമായി സംരക്ഷിക്കപ്പെടുന്നു.

പ്രകടനത്തിലെ ഈ വ്യത്യാസം സൂചിപ്പിക്കുന്നത് മൊബൈൽ ആപ്പിൻ്റെ റിസോഴ്സ് മാനേജ്മെൻ്റ് ഓഡിയോ റെൻഡറിംഗിനെ സ്വാധീനിച്ചേക്കാം എന്നാണ്. സ്‌മാർട്ട്‌ഫോണുകളിലെ ഡാറ്റ കംപ്രഷൻ അല്ലെങ്കിൽ മെമ്മറി അലോക്കേഷൻ വോക്കൽ വിശ്വസ്തത നിലനിർത്താനുള്ള മോഡലിൻ്റെ കഴിവിനെ നേരിട്ട് തടസ്സപ്പെടുത്തുന്നതായി തോന്നുന്നു.

ഇഷ്‌ടാനുസൃതമാക്കൽ ഓപ്ഷനുകളും ക്രമീകരണങ്ങളും ലഭ്യമാണ്

അസിസ്റ്റൻ്റിൻ്റെ ക്രമീകരണ പാനൽ ഇഷ്‌ടാനുസൃതമാക്കലിനായി വോക്കൽ പ്രൊഫൈലുകളുടെ വൈവിധ്യമാർന്ന കാറ്റലോഗ് നൽകുന്നു. മെഷീനുമായി ഇടപഴകുന്നത് കൂടുതൽ സ്വാഭാവികവും ആസ്വാദ്യകരവുമാക്കുന്ന സ്വരവും താളവും ഉച്ചാരണവും കണ്ടെത്താൻ ഓരോ വ്യക്തിയെയും പ്രാപ്തരാക്കുക എന്നതാണ് കമ്പനിയുടെ ലക്ഷ്യം.

പ്രൊഫൈലുകൾ കൂടുതൽ ഗൗരവമേറിയതും ഔപചാരികവുമായ തടികൾ മുതൽ ഉയർന്ന പിച്ചുള്ളതും വിശ്രമിക്കുന്നതുമായ ഓപ്ഷനുകൾ വരെയാണ്. തിരഞ്ഞെടുക്കുന്നതിൽ ഉപഭോക്താവിനെ സഹായിക്കുന്നതിന് ഒരു ഹ്രസ്വ ഓഡിയോ സാമ്പിൾ പ്ലേ ചെയ്യുന്ന പ്രധാന മെനുവിലൂടെയാണ് തിരഞ്ഞെടുക്കുന്നത്.

സമീപകാല പ്രശ്‌നങ്ങളുടെ വെളിച്ചത്തിൽ, പരാജയപ്പെടാൻ സാധ്യതയില്ലാത്ത ഒരു ഓപ്ഷൻ കണ്ടെത്താനുള്ള ശ്രമത്തിൽ ഈ പ്രൊഫൈലുകൾക്കിടയിൽ നിരന്തരം മാറുന്ന തന്ത്രം പല ഉപയോക്താക്കളും സ്വീകരിച്ചിട്ടുണ്ട്. എന്നിരുന്നാലും, വോയ്സ് സ്വിച്ചിംഗ് സിസ്റ്റം അസ്ഥിരതയ്ക്കുള്ള ഒരു താൽക്കാലിക പരിഹാരമായി മാത്രമേ പ്രവർത്തിക്കൂ.

സോഫ്‌റ്റ്‌വെയർ തത്സമയം സ്വാഭാവിക ഭാഷ പ്രോസസ്സ് ചെയ്യുന്ന രീതിയുമായി ബന്ധപ്പെട്ടതാണ് പ്രശ്നത്തിൻ്റെ റൂട്ട്. കമ്പനിയുടെ സെർവറുകളിലെ തുടർച്ചയായ അപ്‌ഡേറ്റുകൾ തിരഞ്ഞെടുത്ത ടോൺ പരിഗണിക്കാതെ തന്നെ കാറ്റലോഗിൽ ലഭ്യമായ എല്ലാ ഓപ്ഷനുകളുടെയും സ്വഭാവത്തെ ബാധിക്കുന്നു.

ആർട്ടിഫിഷ്യൽ ഇൻ്റലിജൻസ് അപ്‌ഡേറ്റുകളുടെ സ്വാധീനം

ഓഡിയോ സ്വഭാവത്തിലെ അനാവശ്യ മാറ്റങ്ങൾ Google ഭാഷാ മോഡലുകളുടെ പുതിയ പതിപ്പുകളുടെ നിർവഹണ കാലയളവുമായി പൊരുത്തപ്പെടുന്നു, പ്രത്യേകിച്ചും പതിപ്പ് Flash Live പോലെയുള്ള വേഗത-കേന്ദ്രീകൃത ആർക്കിടെക്ചറുകളിലേക്കുള്ള മാറ്റം. ഈ അപ്‌ഡേറ്റുകളുടെ പ്രധാന ലക്ഷ്യം ഉപയോക്താവിൻ്റെ കൂടുതൽ ചോദ്യങ്ങളുടെ ലേറ്റൻസി സമയം കുറയ്ക്കുക, മെഷീൻ കൂടുതൽ സംഭാഷണം എന്നിവയ്ക്കിടയിലുള്ള ലേറ്റൻസി സമയം കുറയ്ക്കുക എന്നതാണ്. സംഭാഷണം.

എന്നിരുന്നാലും, സ്പീഡ് നേട്ടങ്ങൾക്കായുള്ള ഒപ്റ്റിമൈസേഷൻ സ്പീച്ച് സിന്തസിസിൻ്റെ റെൻഡറിംഗിൽ പാർശ്വഫലങ്ങൾ സൃഷ്ടിച്ചതായി തോന്നുന്നു. ജനറേറ്റ് ചെയ്‌ത ടെക്‌സ്‌റ്റിൻ്റെ വേഗത്തിലുള്ള ഡെലിവറിക്ക് മുൻഗണന നൽകുമ്പോൾ, ഓഡിയോ സിസ്റ്റത്തിന് ഡാറ്റാ പാക്കറ്റുകൾ വിഘടിച്ച് ലഭിച്ചേക്കാം, അത് കേഡൻസ് നഷ്ടപ്പെടുന്നതും ഉയർന്ന ടോണുകളുടെ കുറവും വളരെ നീണ്ട ഖണ്ഡികകളിൽ സങ്കീർണ്ണമായ പ്രാദേശിക ഉച്ചാരണങ്ങൾ നിലനിർത്താനുള്ള കഴിവില്ലായ്മയും വിശദീകരിക്കും.

പ്രവേശനക്ഷമതയും സ്ഥിരമായ മാനദണ്ഡങ്ങളെ ആശ്രയിക്കലും

സിന്തറ്റിക് വോയ്‌സുകളുടെ പുനരുൽപാദനത്തിലെ സ്ഥിരത സൗന്ദര്യാത്മക മുൻഗണനയുടെ പ്രശ്‌നത്തിന് അപ്പുറത്തേക്ക് പോകുകയും ഡിജിറ്റൽ പ്രവേശനക്ഷമതയുടെ മേഖലയെ നേരിട്ട് ബാധിക്കുകയും ചെയ്യുന്നു. Indivíduos കാഴ്ച വൈകല്യമോ വായനാ ബുദ്ധിമുട്ടുകളോ പ്രത്യേക ന്യൂറോളജിക്കൽ അവസ്ഥകളോ ഉള്ള ആളുകൾ പലപ്പോഴും ഇൻ്റർനെറ്റ് ബ്രൗസ് ചെയ്യുന്നതിനും ഡോക്യുമെൻ്റുകൾ വായിക്കുന്നതിനും ദൈനംദിന ദിനചര്യകൾ ക്രമീകരിക്കുന്നതിനും വെർച്വൽ അസിസ്റ്റൻ്റുകളെ ആശ്രയിക്കുന്നു. Para ഈ പ്രേക്ഷകർക്ക്, വിവരങ്ങൾ ഫലപ്രദമായി മനസ്സിലാക്കുന്നതിന്, തിരഞ്ഞെടുത്ത ശബ്ദത്തിൻ്റെ സ്വരവും വേഗതയും വ്യക്തതയും പരിചയപ്പെടേണ്ടത് അത്യാവശ്യമാണ്. Quando സിസ്റ്റം പെട്ടെന്ന് അതിൻ്റെ കേഡൻസ് മാറ്റുന്നു, ശബ്ദങ്ങൾ ചേർക്കുന്നു അല്ലെങ്കിൽ ഒരു വാക്യത്തിൻ്റെ മധ്യത്തിൽ ഉച്ചാരണം മാറ്റുന്നു, സന്ദേശം വ്യാഖ്യാനിക്കാൻ ആവശ്യമായ കോഗ്നിറ്റീവ് ലോഡ് ഗണ്യമായി വർദ്ധിക്കുന്നു. Essa പ്രതീക്ഷകൾ തകർക്കുന്നത് സഹായകരമായ ഒരു ടൂളിനെ നിരാശയുടെ ഉറവിടമാക്കി മാറ്റുന്നു, ആർട്ടിഫിഷ്യൽ ഇൻ്റലിജൻസ് അപ്‌ഡേറ്റുകൾ പൊതുജനങ്ങൾക്ക് റിലീസ് ചെയ്യുന്നതിന് മുമ്പ് ഓഡിയോ സ്ഥിരതയിൽ ശ്രദ്ധ കേന്ദ്രീകരിച്ച് സാങ്കേതിക കമ്പനികൾ കൂടുതൽ കർശനമായ പരിശോധനാ ദിനചര്യകൾ നടപ്പിലാക്കേണ്ടതിൻ്റെ നിർണായക ആവശ്യകതയെ എടുത്തുകാണിക്കുന്നു.

തുടർച്ചയായ സ്ഥാനനിർണ്ണയവും നിരീക്ഷണവും

നാളിതുവരെ, സോഫ്‌റ്റ്‌വെയർ ഡെവലപ്പർ ഈ സ്വര വൈകല്യങ്ങളുടെ കൃത്യമായ തിരുത്തലിനുള്ള ഒരു ടൈംലൈൻ വിശദീകരിക്കുന്ന ഔദ്യോഗിക പ്രസ്താവനകൾ പുറപ്പെടുവിച്ചിട്ടില്ല. ഓരോ പുതിയ ചെറിയ നിശബ്‌ദ അപ്‌ഡേറ്റ് ഉപകരണങ്ങളിലേക്ക് തള്ളുമ്പോഴും സാങ്കേതിക സമൂഹം ആപ്പ് പെരുമാറ്റം നിരീക്ഷിക്കുന്നത് തുടരുന്നു.

സ്വാഭാവിക ഭാഷാ സംസ്കരണത്തിൻ്റെ പരിണാമം

തത്സമയ സംഭാഷണ സമന്വയത്തിന് പിന്നിലെ എഞ്ചിനീയറിംഗ് മെഷീൻ ലേണിംഗ് മേഖലയിലെ ഇന്നത്തെ ഏറ്റവും വലിയ വെല്ലുവിളികളിലൊന്നാണ്. സൃഷ്‌ടിച്ച ടെക്‌സ്‌റ്റ് വ്യാഖ്യാനിക്കുകയും സന്ദർഭത്തെ അടിസ്ഥാനമാക്കി ശരിയായ സ്വരസംവിധാനം പ്രയോഗിക്കുകയും ഓഡിയോ തൽക്ഷണം റെൻഡർ ചെയ്യുകയും ചെയ്യേണ്ടതുണ്ട്.

കേഡൻസിലും ഉച്ചാരണത്തിലും നിലവിലെ പോരായ്മകൾ ഉണ്ടെങ്കിലും, തത്സമയ സംഭാഷണ സാങ്കേതികവിദ്യ അതിവേഗം പുരോഗമിക്കുന്നു. Ajustes ഓഡിയോ കംപ്രഷൻ, പ്രോസസ്സിംഗ് അൽഗോരിതങ്ങൾ എല്ലാ മൊബൈൽ പ്ലാറ്റ്‌ഫോമുകളിലെയും ഇഷ്‌ടാനുസൃത ശബ്‌ദങ്ങളുടെ പ്രകടനം ഒടുവിൽ സ്ഥിരപ്പെടുത്തും.