Google જેમિની લાઇવ એપ્લિકેશનમાં વૉઇસ સિસ્ટમમાં ફેરફાર કરે છે અને પ્રાદેશિક ઉચ્ચારોની લયમાં ફેરફાર કરે છે

Gemini

Gemini - Primakov / Shutterstock.com

Google ના વર્ચ્યુઅલ સહાયકના વપરાશકર્તાઓએ રીઅલ-ટાઇમ ક્રિયાપ્રતિક્રિયાઓ દરમિયાન ઑડિઓ સેટિંગ્સમાં નોંધપાત્ર અસ્થિરતાની જાણ કરવાનું શરૂ કર્યું. ફેરફારો એપ્લિકેશનમાં પસંદ કરેલા વિકલ્પોની મૂળભૂત લાક્ષણિકતાઓને બદલીને, વપરાશકર્તાના અનુભવને સીધી અસર કરે છે.

સમસ્યા મુખ્યત્વે ભાષણની લહેર, પ્રતિભાવોના સ્વર અને પ્રાદેશિક ઉચ્ચારોની સુસંગતતામાં પ્રગટ થાય છે. Essas ભિન્નતાઓ અણધારી રીતે થાય છે, જે સતત સંવાદો દરમિયાન આર્ટિફિશિયલ ઇન્ટેલિજન્સ સિસ્ટમની કોમ્યુનિકેશન પેટર્નમાં પરિવર્તન લાવે છે.

જેમિની – mundissima/ Shutterstock.com

કંપનીના લેંગ્વેજ મોડલ્સમાં તાજેતરના અપડેટ્સના અમલીકરણ પછી ખામીઓ સ્પષ્ટ થઈ. સેટિંગ્સમાં ઓફર કરવામાં આવેલ ઓડિયો નમૂના અને વ્યવહારમાં પુનઃઉત્પાદિત અવાજ વચ્ચેની વિસંગતતા એ મોબાઇલ ઉપકરણો પર કેન્દ્રિત ટેક્નોલોજી ફોરમ પરની ફરિયાદોનું મુખ્ય લક્ષ્ય બની ગયું છે.

અવાજની અસંગતતાઓ અને વપરાશકર્તા અનુભવ

Capella તરીકે ઓળખાતો અવાજ વિકલ્પ, જે બ્રિટિશ સ્ત્રી ઉચ્ચારણ દ્વારા વર્ગીકૃત થયેલ છે, તે લોન્ચ થયા પછી સૌથી વધુ સ્પષ્ટ વિકૃતિઓ ધરાવે છે. ઉપભોક્તા નોંધે છે કે પ્રથમ થોડા આદેશો પછી ઓડિયોનું મૂળ વ્યક્તિત્વ ઝડપથી ખોવાઈ જાય છે.

લાંબી વાતચીત દરમિયાન, સિસ્ટમ વ્યક્તિ દ્વારા પસંદ કરાયેલ પ્રાદેશિક પેટર્નને જાળવવામાં મુશ્કેલી દર્શાવે છે. સહાયકના પ્રતિભાવો ઓસ્ટ્રેલિયન ઉચ્ચારો અને અમેરિકન અંગ્રેજીના વધુ તટસ્થ ભિન્નતા વચ્ચે વૈકલ્પિક રીતે સ્વાયત્ત રીતે શરૂ થાય છે, જેઓ દૈનિક કાર્યો અથવા અભ્યાસ માટે સાધન પર આધાર રાખે છે તેમના માટે ખંડિત અને મૂંઝવણભર્યો સાંભળવાનો અનુભવ બનાવે છે.

એપ્લિકેશનની વર્તણૂક સૂચવે છે કે કૃત્રિમ બુદ્ધિમત્તા મોડેલના નવા સંસ્કરણો દ્વારા જરૂરી જટિલ વૉઇસ મોડ્યુલેશનને ટકાવી રાખવાનો પ્રયાસ કરતી વખતે રીઅલ-ટાઇમ પ્રોસેસિંગમાં અવરોધોનો સામનો કરવો પડે છે. Quando વપરાશકર્તા સૉફ્ટવેરને ફરજિયાત પુનઃપ્રારંભ કરે છે, મૂળ ઉચ્ચારણ પુનઃસ્થાપિત થાય છે, પરંતુ આ સુધારાની માત્ર અસ્થાયી અસર હોય છે. Após થોડી મિનિટોની સતત ક્રિયાપ્રતિક્રિયા પછી, અવાજ ફરીથી હાઇબ્રિડ સંસ્કરણમાં રૂપાંતરિત થાય છે, જે દર્શાવે છે કે વાણી સંશ્લેષણ સિસ્ટમ એવા સત્રોમાં સ્થિરતા જાળવી શકતી નથી કે જેને વધુ સંદર્ભિત પ્રક્રિયા અને લાંબા પ્રતિસાદની જરૂર હોય.

  • જટિલ પ્રતિભાવોમાં વાણીની ઝડપ નોંધપાત્ર રીતે ઘટી જાય છે.
  • ઉપયોગ દરમિયાન મૂળ ટ્રબલ ટોન નોંધપાત્ર રીતે ઘટાડવામાં આવે છે.
  • એક જ વાક્યમાં અજાણતાં વિવિધ ઉચ્ચારો ભળી જાય છે.
  • એપ્લિકેશનને પુનઃપ્રારંભ કરવાથી માત્ર સમસ્યાનો ઉકેલ મળે છે.

વિસ્તૃત સત્રોમાં ઑડિઓ કલાકૃતિઓ

અવાજની ઓળખમાં ફેરફાર ઉપરાંત, મદદનીશ પ્રતિભાવોના પ્રજનન દરમિયાન અનિચ્છનીય અવાજો રજૂ કરવાનું શરૂ કર્યું. Artefatos અવાજો, જેમ કે પોપ્સ, સ્મોલ પોપ્સ અને બેકગ્રાઉન્ડ હિસ, જ્યારે સિસ્ટમ પ્રક્રિયા કરે છે અને વિનંતી કરેલ માહિતી પહોંચાડે છે ત્યારે છૂટાછવાયા દેખાય છે.

આ એકોસ્ટિક હસ્તક્ષેપનો ઉચ્ચારોના ફેરફાર સાથે સીધો સંબંધ નથી, પરંતુ તેઓ સેવાની ગુણવત્તામાં ઘટાડો થવાની ધારણાને વધુ ખરાબ કરે છે. અવાજની આવર્તન સક્રિય કરેલ વૉઇસ વિકલ્પ અને પ્લેટફોર્મને ઍક્સેસ કરવા માટે ઉપયોગમાં લેવાતા ઉપકરણના આધારે મોટા પ્રમાણમાં બદલાય છે.

પ્લેટફોર્મ દ્વારા પ્રદર્શન ભિન્નતા

પ્રાયોગિક પરીક્ષણો દર્શાવે છે કે ઓડિયો સ્થિરતા ઉપયોગના સંદર્ભ અને હાર્ડવેર પર્યાવરણ પર ખૂબ આધાર રાખે છે. Comandos ઝડપી અને ઉદ્દેશ્ય, જેને ટૂંકા પ્રતિસાદની જરૂર હોય છે, ગ્રાહકો દ્વારા નોંધાયેલા કેડન્સ ગેપ અથવા એક્સેન્ટ મિક્સ-અપ્સને ભાગ્યે જ ટ્રિગર કરે છે.

સહાયકનું ઓટોમોટિવ સિસ્ટમ્સ સાથે એકીકરણ, જેમ કે Android Auto, નોંધપાત્ર રીતે શ્રેષ્ઠ વર્તન દર્શાવે છે. Nesses વાતાવરણમાં, પસંદ કરેલા અવાજોની મૂળ લાક્ષણિકતાઓ વધુ અસરકારક રીતે સાચવવામાં આવે છે, ક્રિયાપ્રતિક્રિયાઓમાં પણ લાંબા સમય સુધી પ્રક્રિયા કરવાની જરૂર હોય છે.

પ્રદર્શનમાં આ તફાવત સૂચવે છે કે મોબાઇલ એપ્લિકેશનનું સંસાધન સંચાલન ઑડિયો રેન્ડરિંગને પ્રભાવિત કરી રહ્યું છે. સ્માર્ટફોન પર ડેટા કમ્પ્રેશન અથવા મેમરી ફાળવણી, અવાજની વફાદારી જાળવવાની મોડેલની ક્ષમતામાં સીધો દખલ કરે છે.

કસ્ટમાઇઝેશન વિકલ્પો અને ગોઠવણો ઉપલબ્ધ છે

સહાયકની સેટિંગ્સ પેનલ કસ્ટમાઇઝેશન માટે વોકલ પ્રોફાઇલ્સની વિવિધ સૂચિ પ્રદાન કરે છે. કંપનીનો ધ્યેય દરેક વ્યક્તિને સ્વર, લય અને ઉચ્ચાર શોધવા માટે સક્ષમ બનાવવાનો છે જે મશીન સાથે ક્રિયાપ્રતિક્રિયાને વધુ કુદરતી અને આનંદપ્રદ બનાવે છે.

રૂપરેખાઓ વધુ ગંભીર અને ઔપચારિક ટિમ્બર્સથી લઈને વધુ ઊંચા અને હળવા વિકલ્પો સુધીની છે. પસંદગી ફક્ત મુખ્ય મેનૂ દ્વારા કરવામાં આવે છે, જ્યાં ઉપભોક્તાને પસંદગી કરવામાં મદદ કરવા માટે સંક્ષિપ્ત ઑડિઓ નમૂના વગાડવામાં આવે છે.

તાજેતરની સમસ્યાઓના પ્રકાશમાં, ઘણા વપરાશકર્તાઓએ નિષ્ફળતા માટે ઓછા સંવેદનશીલ વિકલ્પ શોધવાના પ્રયાસમાં આ પ્રોફાઇલ્સ વચ્ચે સતત સ્વિચ કરવાની વ્યૂહરચના અપનાવી છે. જો કે, વૉઇસ સ્વિચિંગ માત્ર સિસ્ટમ અસ્થિરતા માટે કામચલાઉ ઉકેલ તરીકે કામ કરે છે.

સમસ્યાનું મૂળ સોફ્ટવેર જે રીતે કુદરતી ભાષાને વાસ્તવિક સમયમાં પ્રક્રિયા કરે છે તેની સાથે જોડાયેલું રહે છે. કંપનીના સર્વર પર સતત અપડેટ્સ, પસંદ કરેલ ટોનને ધ્યાનમાં લીધા વિના, સૂચિમાં ઉપલબ્ધ તમામ વિકલ્પોના વર્તનને અસર કરે છે.

આર્ટિફિશિયલ ઇન્ટેલિજન્સ અપડેટ્સની અસર

ઑડિયો વર્તણૂકમાં અનિચ્છનીય ફેરફારો Google ભાષા મૉડલના નવા સંસ્કરણોના અમલીકરણના સમયગાળા સાથે સુસંગત છે, ખાસ કરીને Flash Live સંસ્કરણ જેવા સ્પીડ-કેન્દ્રિત આર્કિટેક્ચરમાં સંક્રમણ. આ અપડેટ્સનો મુખ્ય ઉદ્દેશ્ય વપરાશકર્તાના પ્રશ્ન અને મશીનની પ્રતિક્રિયા વચ્ચેના વિલંબના સમયને ઘટાડવાનો છે અને મશીનની પ્રતિક્રિયાને વધુ નજીક બનાવવાનો છે. માનવ વાતચીત.

જો કે, સ્પીડ ગેઈન્સ માટેના ઓપ્ટિમાઈઝેશનથી વાણી સંશ્લેષણના રેન્ડરીંગમાં આડ અસરો થઈ હોય તેવું લાગે છે. જનરેટ કરેલા ટેક્સ્ટની ઝડપી ડિલિવરીને પ્રાથમિકતા આપતી વખતે, ઑડિઓ સિસ્ટમ ખંડિત રીતે ડેટા પેકેટ્સ પ્રાપ્ત કરી રહી હોઈ શકે છે, જે કેડન્સની ખોટ, ઉચ્ચ ટોનના ઘટાડાને અને ખૂબ લાંબા ફકરા દરમિયાન જટિલ પ્રાદેશિક ઉચ્ચારોને ટકાવી રાખવાની અસમર્થતાને સમજાવશે.

સુલભતા અને સુસંગત ધોરણો પર નિર્ભરતા

કૃત્રિમ અવાજોના પ્રજનનમાં સુસંગતતા સૌંદર્યલક્ષી પસંદગીના મુદ્દાથી આગળ વધે છે અને ડિજિટલ સુલભતાના ક્ષેત્રને સીધી અસર કરે છે. Indivíduos દૃષ્ટિની ક્ષતિ ધરાવતા લોકો, વાંચવામાં મુશ્કેલીઓ અથવા ચોક્કસ ન્યુરોલોજીકલ પરિસ્થિતિઓ ઘણીવાર ઇન્ટરનેટ બ્રાઉઝ કરવા, દસ્તાવેજો વાંચવા અને દૈનિક દિનચર્યાઓ ગોઠવવા માટે વર્ચ્યુઅલ સહાયકો પર આધાર રાખે છે. Para આ પ્રેક્ષકો માટે, માહિતીને અસરકારક રીતે સમજવા માટે પસંદ કરેલા અવાજના સ્વર, ઝડપ અને સ્પષ્ટતા સાથે પરિચિતતા જરૂરી છે. Quando સિસ્ટમ અચાનક તેની લહેર બદલી નાખે છે, અવાજ દાખલ કરે છે અથવા વાક્યની મધ્યમાં ઉચ્ચાર બદલે છે, સંદેશનું અર્થઘટન કરવા માટે જરૂરી જ્ઞાનાત્મક ભાર નોંધપાત્ર રીતે વધે છે. Essa અપેક્ષાઓ તોડવી એ મદદરૂપ સાધનને હતાશાના સ્ત્રોતમાં ફેરવે છે, જે સામાન્ય લોકો માટે આર્ટિફિશિયલ ઇન્ટેલિજન્સ અપડેટ્સ રિલીઝ કરતા પહેલા ઓડિયો સ્ટેબિલિટી પર કેન્દ્રિત વધુ સખત ટેસ્ટિંગ દિનચર્યાઓ અમલમાં મૂકવા માટે ટેક્નોલોજી કંપનીઓની નિર્ણાયક જરૂરિયાતને પ્રકાશિત કરે છે.

સતત સ્થિતિ અને દેખરેખ

આજની તારીખે, સોફ્ટવેર ડેવલપરે આ વોકલ વિસંગતતાઓના ચોક્કસ સુધારા માટે સમયરેખાની વિગતો આપતા સત્તાવાર નિવેદનો જારી કર્યા નથી. ટેક્નોલોજી સમુદાય દરેક નવા નાના સાયલન્ટ અપડેટ સાથે એપની વર્તણૂક પર દેખરેખ રાખવાનું ચાલુ રાખે છે.

કુદરતી ભાષા પ્રક્રિયાની ઉત્ક્રાંતિ

રિયલ-ટાઇમ સ્પીચ સિન્થેસિસ પાછળનું એન્જિનિયરિંગ મશીન લર્નિંગના ક્ષેત્રમાં આજે સૌથી મોટા પડકારો પૈકીનું એક રજૂ કરે છે. સિસ્ટમને જનરેટ કરેલા ટેક્સ્ટનું અર્થઘટન કરવાની, સંદર્ભના આધારે યોગ્ય સ્વરૃપ લાગુ કરવાની અને ઑડિયોને તરત જ રેન્ડર કરવાની જરૂર છે.

કેડન્સ અને ઉચ્ચારોમાં વર્તમાન ખામીઓ હોવા છતાં, લાઇવ વાર્તાલાપ ટેકનોલોજી ઝડપથી આગળ વધી રહી છે. Ajustes ઑડિયો કમ્પ્રેશન અને પ્રોસેસિંગ એલ્ગોરિધમ્સમાં આખરે તમામ મોબાઇલ પ્લેટફોર્મ પર કસ્ટમ વૉઇસના પ્રદર્શનને સ્થિર કરવું જોઈએ.