News (GU)

Google જેમિની લાઇવ એપ્લિકેશનમાં વૉઇસ સિસ્ટમમાં ફેરફાર કરે છે અને પ્રાદેશિક ઉચ્ચારોની લયમાં ફેરફાર કરે છે

Gemini
Foto: Gemini - Primakov / Shutterstock.com

Google ના વર્ચ્યુઅલ સહાયકના વપરાશકર્તાઓએ રીઅલ-ટાઇમ ક્રિયાપ્રતિક્રિયાઓ દરમિયાન ઑડિઓ સેટિંગ્સમાં નોંધપાત્ર અસ્થિરતાની જાણ કરવાનું શરૂ કર્યું. ફેરફારો એપ્લિકેશનમાં પસંદ કરેલા વિકલ્પોની મૂળભૂત લાક્ષણિકતાઓને બદલીને, વપરાશકર્તાના અનુભવને સીધી અસર કરે છે.

સમસ્યા મુખ્યત્વે ભાષણની લહેર, પ્રતિભાવોના સ્વર અને પ્રાદેશિક ઉચ્ચારોની સુસંગતતામાં પ્રગટ થાય છે. Essas ભિન્નતાઓ અણધારી રીતે થાય છે, જે સતત સંવાદો દરમિયાન આર્ટિફિશિયલ ઇન્ટેલિજન્સ સિસ્ટમની કોમ્યુનિકેશન પેટર્નમાં પરિવર્તન લાવે છે.

મિથુન
જેમિની – mundissima/ Shutterstock.com

કંપનીના લેંગ્વેજ મોડલ્સમાં તાજેતરના અપડેટ્સના અમલીકરણ પછી ખામીઓ સ્પષ્ટ થઈ. સેટિંગ્સમાં ઓફર કરવામાં આવેલ ઓડિયો નમૂના અને વ્યવહારમાં પુનઃઉત્પાદિત અવાજ વચ્ચેની વિસંગતતા એ મોબાઇલ ઉપકરણો પર કેન્દ્રિત ટેક્નોલોજી ફોરમ પરની ફરિયાદોનું મુખ્ય લક્ષ્ય બની ગયું છે.

અવાજની અસંગતતાઓ અને વપરાશકર્તા અનુભવ

Capella તરીકે ઓળખાતો અવાજ વિકલ્પ, જે બ્રિટિશ સ્ત્રી ઉચ્ચારણ દ્વારા વર્ગીકૃત થયેલ છે, તે લોન્ચ થયા પછી સૌથી વધુ સ્પષ્ટ વિકૃતિઓ ધરાવે છે. ઉપભોક્તા નોંધે છે કે પ્રથમ થોડા આદેશો પછી ઓડિયોનું મૂળ વ્યક્તિત્વ ઝડપથી ખોવાઈ જાય છે.

લાંબી વાતચીત દરમિયાન, સિસ્ટમ વ્યક્તિ દ્વારા પસંદ કરાયેલ પ્રાદેશિક પેટર્નને જાળવવામાં મુશ્કેલી દર્શાવે છે. સહાયકના પ્રતિભાવો ઓસ્ટ્રેલિયન ઉચ્ચારો અને અમેરિકન અંગ્રેજીના વધુ તટસ્થ ભિન્નતા વચ્ચે વૈકલ્પિક રીતે સ્વાયત્ત રીતે શરૂ થાય છે, જેઓ દૈનિક કાર્યો અથવા અભ્યાસ માટે સાધન પર આધાર રાખે છે તેમના માટે ખંડિત અને મૂંઝવણભર્યો સાંભળવાનો અનુભવ બનાવે છે.

એપ્લિકેશનની વર્તણૂક સૂચવે છે કે કૃત્રિમ બુદ્ધિમત્તા મોડેલના નવા સંસ્કરણો દ્વારા જરૂરી જટિલ વૉઇસ મોડ્યુલેશનને ટકાવી રાખવાનો પ્રયાસ કરતી વખતે રીઅલ-ટાઇમ પ્રોસેસિંગમાં અવરોધોનો સામનો કરવો પડે છે. Quando વપરાશકર્તા સૉફ્ટવેરને ફરજિયાત પુનઃપ્રારંભ કરે છે, મૂળ ઉચ્ચારણ પુનઃસ્થાપિત થાય છે, પરંતુ આ સુધારાની માત્ર અસ્થાયી અસર હોય છે. Após થોડી મિનિટોની સતત ક્રિયાપ્રતિક્રિયા પછી, અવાજ ફરીથી હાઇબ્રિડ સંસ્કરણમાં રૂપાંતરિત થાય છે, જે દર્શાવે છે કે વાણી સંશ્લેષણ સિસ્ટમ એવા સત્રોમાં સ્થિરતા જાળવી શકતી નથી કે જેને વધુ સંદર્ભિત પ્રક્રિયા અને લાંબા પ્રતિસાદની જરૂર હોય.

  • જટિલ પ્રતિભાવોમાં વાણીની ઝડપ નોંધપાત્ર રીતે ઘટી જાય છે.
  • ઉપયોગ દરમિયાન મૂળ ટ્રબલ ટોન નોંધપાત્ર રીતે ઘટાડવામાં આવે છે.
  • એક જ વાક્યમાં અજાણતાં વિવિધ ઉચ્ચારો ભળી જાય છે.
  • એપ્લિકેશનને પુનઃપ્રારંભ કરવાથી માત્ર સમસ્યાનો ઉકેલ મળે છે.

વિસ્તૃત સત્રોમાં ઑડિઓ કલાકૃતિઓ

અવાજની ઓળખમાં ફેરફાર ઉપરાંત, મદદનીશ પ્રતિભાવોના પ્રજનન દરમિયાન અનિચ્છનીય અવાજો રજૂ કરવાનું શરૂ કર્યું. Artefatos અવાજો, જેમ કે પોપ્સ, સ્મોલ પોપ્સ અને બેકગ્રાઉન્ડ હિસ, જ્યારે સિસ્ટમ પ્રક્રિયા કરે છે અને વિનંતી કરેલ માહિતી પહોંચાડે છે ત્યારે છૂટાછવાયા દેખાય છે.

આ એકોસ્ટિક હસ્તક્ષેપનો ઉચ્ચારોના ફેરફાર સાથે સીધો સંબંધ નથી, પરંતુ તેઓ સેવાની ગુણવત્તામાં ઘટાડો થવાની ધારણાને વધુ ખરાબ કરે છે. અવાજની આવર્તન સક્રિય કરેલ વૉઇસ વિકલ્પ અને પ્લેટફોર્મને ઍક્સેસ કરવા માટે ઉપયોગમાં લેવાતા ઉપકરણના આધારે મોટા પ્રમાણમાં બદલાય છે.

પ્લેટફોર્મ દ્વારા પ્રદર્શન ભિન્નતા

પ્રાયોગિક પરીક્ષણો દર્શાવે છે કે ઓડિયો સ્થિરતા ઉપયોગના સંદર્ભ અને હાર્ડવેર પર્યાવરણ પર ખૂબ આધાર રાખે છે. Comandos ઝડપી અને ઉદ્દેશ્ય, જેને ટૂંકા પ્રતિસાદની જરૂર હોય છે, ગ્રાહકો દ્વારા નોંધાયેલા કેડન્સ ગેપ અથવા એક્સેન્ટ મિક્સ-અપ્સને ભાગ્યે જ ટ્રિગર કરે છે.

સહાયકનું ઓટોમોટિવ સિસ્ટમ્સ સાથે એકીકરણ, જેમ કે Android Auto, નોંધપાત્ર રીતે શ્રેષ્ઠ વર્તન દર્શાવે છે. Nesses વાતાવરણમાં, પસંદ કરેલા અવાજોની મૂળ લાક્ષણિકતાઓ વધુ અસરકારક રીતે સાચવવામાં આવે છે, ક્રિયાપ્રતિક્રિયાઓમાં પણ લાંબા સમય સુધી પ્રક્રિયા કરવાની જરૂર હોય છે.

પ્રદર્શનમાં આ તફાવત સૂચવે છે કે મોબાઇલ એપ્લિકેશનનું સંસાધન સંચાલન ઑડિયો રેન્ડરિંગને પ્રભાવિત કરી રહ્યું છે. સ્માર્ટફોન પર ડેટા કમ્પ્રેશન અથવા મેમરી ફાળવણી, અવાજની વફાદારી જાળવવાની મોડેલની ક્ષમતામાં સીધો દખલ કરે છે.

કસ્ટમાઇઝેશન વિકલ્પો અને ગોઠવણો ઉપલબ્ધ છે

સહાયકની સેટિંગ્સ પેનલ કસ્ટમાઇઝેશન માટે વોકલ પ્રોફાઇલ્સની વિવિધ સૂચિ પ્રદાન કરે છે. કંપનીનો ધ્યેય દરેક વ્યક્તિને સ્વર, લય અને ઉચ્ચાર શોધવા માટે સક્ષમ બનાવવાનો છે જે મશીન સાથે ક્રિયાપ્રતિક્રિયાને વધુ કુદરતી અને આનંદપ્રદ બનાવે છે.

રૂપરેખાઓ વધુ ગંભીર અને ઔપચારિક ટિમ્બર્સથી લઈને વધુ ઊંચા અને હળવા વિકલ્પો સુધીની છે. પસંદગી ફક્ત મુખ્ય મેનૂ દ્વારા કરવામાં આવે છે, જ્યાં ઉપભોક્તાને પસંદગી કરવામાં મદદ કરવા માટે સંક્ષિપ્ત ઑડિઓ નમૂના વગાડવામાં આવે છે.

તાજેતરની સમસ્યાઓના પ્રકાશમાં, ઘણા વપરાશકર્તાઓએ નિષ્ફળતા માટે ઓછા સંવેદનશીલ વિકલ્પ શોધવાના પ્રયાસમાં આ પ્રોફાઇલ્સ વચ્ચે સતત સ્વિચ કરવાની વ્યૂહરચના અપનાવી છે. જો કે, વૉઇસ સ્વિચિંગ માત્ર સિસ્ટમ અસ્થિરતા માટે કામચલાઉ ઉકેલ તરીકે કામ કરે છે.

સમસ્યાનું મૂળ સોફ્ટવેર જે રીતે કુદરતી ભાષાને વાસ્તવિક સમયમાં પ્રક્રિયા કરે છે તેની સાથે જોડાયેલું રહે છે. કંપનીના સર્વર પર સતત અપડેટ્સ, પસંદ કરેલ ટોનને ધ્યાનમાં લીધા વિના, સૂચિમાં ઉપલબ્ધ તમામ વિકલ્પોના વર્તનને અસર કરે છે.

આર્ટિફિશિયલ ઇન્ટેલિજન્સ અપડેટ્સની અસર

ઑડિયો વર્તણૂકમાં અનિચ્છનીય ફેરફારો Google ભાષા મૉડલના નવા સંસ્કરણોના અમલીકરણના સમયગાળા સાથે સુસંગત છે, ખાસ કરીને Flash Live સંસ્કરણ જેવા સ્પીડ-કેન્દ્રિત આર્કિટેક્ચરમાં સંક્રમણ. આ અપડેટ્સનો મુખ્ય ઉદ્દેશ્ય વપરાશકર્તાના પ્રશ્ન અને મશીનની પ્રતિક્રિયા વચ્ચેના વિલંબના સમયને ઘટાડવાનો છે અને મશીનની પ્રતિક્રિયાને વધુ નજીક બનાવવાનો છે. માનવ વાતચીત.

જો કે, સ્પીડ ગેઈન્સ માટેના ઓપ્ટિમાઈઝેશનથી વાણી સંશ્લેષણના રેન્ડરીંગમાં આડ અસરો થઈ હોય તેવું લાગે છે. જનરેટ કરેલા ટેક્સ્ટની ઝડપી ડિલિવરીને પ્રાથમિકતા આપતી વખતે, ઑડિઓ સિસ્ટમ ખંડિત રીતે ડેટા પેકેટ્સ પ્રાપ્ત કરી રહી હોઈ શકે છે, જે કેડન્સની ખોટ, ઉચ્ચ ટોનના ઘટાડાને અને ખૂબ લાંબા ફકરા દરમિયાન જટિલ પ્રાદેશિક ઉચ્ચારોને ટકાવી રાખવાની અસમર્થતાને સમજાવશે.

સુલભતા અને સુસંગત ધોરણો પર નિર્ભરતા

કૃત્રિમ અવાજોના પ્રજનનમાં સુસંગતતા સૌંદર્યલક્ષી પસંદગીના મુદ્દાથી આગળ વધે છે અને ડિજિટલ સુલભતાના ક્ષેત્રને સીધી અસર કરે છે. Indivíduos દૃષ્ટિની ક્ષતિ ધરાવતા લોકો, વાંચવામાં મુશ્કેલીઓ અથવા ચોક્કસ ન્યુરોલોજીકલ પરિસ્થિતિઓ ઘણીવાર ઇન્ટરનેટ બ્રાઉઝ કરવા, દસ્તાવેજો વાંચવા અને દૈનિક દિનચર્યાઓ ગોઠવવા માટે વર્ચ્યુઅલ સહાયકો પર આધાર રાખે છે. Para આ પ્રેક્ષકો માટે, માહિતીને અસરકારક રીતે સમજવા માટે પસંદ કરેલા અવાજના સ્વર, ઝડપ અને સ્પષ્ટતા સાથે પરિચિતતા જરૂરી છે. Quando સિસ્ટમ અચાનક તેની લહેર બદલી નાખે છે, અવાજ દાખલ કરે છે અથવા વાક્યની મધ્યમાં ઉચ્ચાર બદલે છે, સંદેશનું અર્થઘટન કરવા માટે જરૂરી જ્ઞાનાત્મક ભાર નોંધપાત્ર રીતે વધે છે. Essa અપેક્ષાઓ તોડવી એ મદદરૂપ સાધનને હતાશાના સ્ત્રોતમાં ફેરવે છે, જે સામાન્ય લોકો માટે આર્ટિફિશિયલ ઇન્ટેલિજન્સ અપડેટ્સ રિલીઝ કરતા પહેલા ઓડિયો સ્ટેબિલિટી પર કેન્દ્રિત વધુ સખત ટેસ્ટિંગ દિનચર્યાઓ અમલમાં મૂકવા માટે ટેક્નોલોજી કંપનીઓની નિર્ણાયક જરૂરિયાતને પ્રકાશિત કરે છે.

સતત સ્થિતિ અને દેખરેખ

આજની તારીખે, સોફ્ટવેર ડેવલપરે આ વોકલ વિસંગતતાઓના ચોક્કસ સુધારા માટે સમયરેખાની વિગતો આપતા સત્તાવાર નિવેદનો જારી કર્યા નથી. ટેક્નોલોજી સમુદાય દરેક નવા નાના સાયલન્ટ અપડેટ સાથે એપની વર્તણૂક પર દેખરેખ રાખવાનું ચાલુ રાખે છે.

કુદરતી ભાષા પ્રક્રિયાની ઉત્ક્રાંતિ

રિયલ-ટાઇમ સ્પીચ સિન્થેસિસ પાછળનું એન્જિનિયરિંગ મશીન લર્નિંગના ક્ષેત્રમાં આજે સૌથી મોટા પડકારો પૈકીનું એક રજૂ કરે છે. સિસ્ટમને જનરેટ કરેલા ટેક્સ્ટનું અર્થઘટન કરવાની, સંદર્ભના આધારે યોગ્ય સ્વરૃપ લાગુ કરવાની અને ઑડિયોને તરત જ રેન્ડર કરવાની જરૂર છે.

કેડન્સ અને ઉચ્ચારોમાં વર્તમાન ખામીઓ હોવા છતાં, લાઇવ વાર્તાલાપ ટેકનોલોજી ઝડપથી આગળ વધી રહી છે. Ajustes ઑડિયો કમ્પ્રેશન અને પ્રોસેસિંગ એલ્ગોરિધમ્સમાં આખરે તમામ મોબાઇલ પ્લેટફોર્મ પર કસ્ટમ વૉઇસના પ્રદર્શનને સ્થિર કરવું જોઈએ.

Veja Tambem em News (GU)

નવી Apple સિસ્ટમ અપડેટ iPhone વપરાશકર્તાઓ માટે તાત્કાલિક કાર્ય વ્યવસ્થાપનને શ્રેષ્ઠ બનાવે છે

નવી Apple સિસ્ટમ અપડેટ iPhone વપરાશકર્તાઓ માટે તાત્કાલિક કાર્ય વ્યવસ્થાપનને શ્રેષ્ઠ બનાવે છે

નવો Xiaomi 18 Pro Max સ્માર્ટફોન બે 200 MP કેમેરા અને નવીનતમ જનરેશન પ્રોસેસરને સંકલિત કરે છે

નવો Xiaomi 18 Pro Max સ્માર્ટફોન બે 200 MP કેમેરા અને નવીનતમ જનરેશન પ્રોસેસરને સંકલિત કરે છે

Apple નવા ફોલ્ડેબલ iPhone વિકસાવે છે અને બ્રાન્ડના 20 વર્ષની ઉજવણી કરવા માટે વિશેષ આવૃત્તિ તૈયાર કરે છે

Apple નવા ફોલ્ડેબલ iPhone વિકસાવે છે અને બ્રાન્ડના 20 વર્ષની ઉજવણી કરવા માટે વિશેષ આવૃત્તિ તૈયાર કરે છે

વોલ્ટ ડિઝની ડિજિટલ ગેમ્સ માર્કેટમાં વર્ચસ્વ વધારવા માટે એપિક ગેમ્સના સંપૂર્ણ સંપાદનનો અભ્યાસ કરે છે

વોલ્ટ ડિઝની ડિજિટલ ગેમ્સ માર્કેટમાં વર્ચસ્વ વધારવા માટે એપિક ગેમ્સના સંપૂર્ણ સંપાદનનો અભ્યાસ કરે છે

Xiaomi TV Stick HD 2 નું લોન્ચિંગ Google TV અને ટેલિવિઝનને પરિવર્તિત કરવા માટે શ્રેષ્ઠ પ્રદર્શન લાવે છે

Xiaomi TV Stick HD 2 નું લોન્ચિંગ Google TV અને ટેલિવિઝનને પરિવર્તિત કરવા માટે શ્રેષ્ઠ પ્રદર્શન લાવે છે

નવું વૈશ્વિક નેવિગેશન મોડલ પૃથ્વીના ચુંબકીય ધ્રુવના 36 કિમીના વાર્ષિક વિસ્થાપનને સુધારે છે

નવું વૈશ્વિક નેવિગેશન મોડલ પૃથ્વીના ચુંબકીય ધ્રુવના 36 કિમીના વાર્ષિક વિસ્થાપનને સુધારે છે

નિન્ટેન્ડો સ્વિચ 2 મફત ગેમચેટ સમાપ્ત કરે છે અને એપ્રિલમાં ઑનલાઇન સેવા માટે સબ્સ્ક્રિપ્શનની જરૂર છે

નિન્ટેન્ડો સ્વિચ 2 મફત ગેમચેટ સમાપ્ત કરે છે અને એપ્રિલમાં ઑનલાઇન સેવા માટે સબ્સ્ક્રિપ્શનની જરૂર છે

NVIDIA બીટા એપ્લિકેશન અપડેટ RTX 50 માટે ડાયનેમિક ફ્રેમ જનરેશન સાથે DLSS 4.5 રજૂ કરે છે

NVIDIA બીટા એપ્લિકેશન અપડેટ RTX 50 માટે ડાયનેમિક ફ્રેમ જનરેશન સાથે DLSS 4.5 રજૂ કરે છે

કલાકારો કાઝુનારી નિનોમિયા અને એલાઇઝા ઇકેડાએ મારુગેમ સીમેનની નવી વાનગી માટે ઝુંબેશ હાથ ધરી છે

કલાકારો કાઝુનારી નિનોમિયા અને એલાઇઝા ઇકેડાએ મારુગેમ સીમેનની નવી વાનગી માટે ઝુંબેશ હાથ ધરી છે

બ્રોડકાસ્ટર નવી હેરી પોટર શ્રેણીમાં જાતિવાદી હુમલાઓ સામે પાપા એસીડુના રક્ષણને વધુ મજબૂત બનાવે છે

બ્રોડકાસ્ટર નવી હેરી પોટર શ્રેણીમાં જાતિવાદી હુમલાઓ સામે પાપા એસીડુના રક્ષણને વધુ મજબૂત બનાવે છે

નવા પોર્ટેબલ પ્લેસ્ટેશનના એક્સબોક્સ સિરીઝ એસના શ્રેષ્ઠ ગ્રાફિક્સ સાથેના હાર્ડવેરની વિગતો લીક કરો

નવા પોર્ટેબલ પ્લેસ્ટેશનના એક્સબોક્સ સિરીઝ એસના શ્રેષ્ઠ ગ્રાફિક્સ સાથેના હાર્ડવેરની વિગતો લીક કરો

ફોલ્ડેબલ સ્માર્ટફોનની નવી આવૃત્તિ વિન્ટર ગેમ્સના સ્પર્ધકો માટે ગોલ્ડ ફિનિશ લાવે છે

ફોલ્ડેબલ સ્માર્ટફોનની નવી આવૃત્તિ વિન્ટર ગેમ્સના સ્પર્ધકો માટે ગોલ્ડ ફિનિશ લાવે છે