Google जेमिनी लाइव एप्लिकेशन में ध्वनि प्रणाली को बदलता है और क्षेत्रीय लहजे के ताल को संशोधित करता है

Gemini

Gemini - Primakov / Shutterstock.com

Google के वर्चुअल असिस्टेंट के उपयोगकर्ताओं ने वास्तविक समय की बातचीत के दौरान ऑडियो सेटिंग्स में महत्वपूर्ण अस्थिरता की रिपोर्ट करना शुरू कर दिया। संशोधन सीधे उपयोगकर्ता अनुभव को प्रभावित करते हैं, एप्लिकेशन में चयनित विकल्पों की मूलभूत विशेषताओं को बदलते हैं।

समस्या मुख्य रूप से भाषण की लय, प्रतिक्रियाओं के लहजे और क्षेत्रीय लहजे की स्थिरता में प्रकट होती है। ये विविधताएँ अप्रत्याशित रूप से घटित होती हैं, जो निरंतर संवाद के दौरान कृत्रिम बुद्धिमत्ता प्रणाली के संचार पैटर्न को बदल देती हैं।

मिथुन – मुंडिस्सिमा/ शटरस्टॉक.कॉम

कंपनी के भाषा मॉडल में हालिया अपडेट के कार्यान्वयन के बाद खामियां स्पष्ट हो गईं। सेटिंग्स में पेश किए गए ऑडियो नमूने और व्यवहार में पुनरुत्पादित ध्वनि के बीच विसंगति मोबाइल उपकरणों पर केंद्रित प्रौद्योगिकी मंचों पर शिकायतों का मुख्य लक्ष्य बन गई है।

ध्वनि विसंगतियाँ और उपयोगकर्ता अनुभव

कैपेला के नाम से जाना जाने वाला आवाज विकल्प, जो एक ब्रिटिश महिला उच्चारण की विशेषता है, अपने लॉन्च के बाद से सबसे स्पष्ट विकृतियां प्रस्तुत करता है। उपभोक्ताओं ने देखा कि पहले कुछ आदेशों के बाद ऑडियो का मूल व्यक्तित्व जल्दी ही खो जाता है।

लंबी बातचीत के दौरान, सिस्टम व्यक्ति द्वारा चुने गए क्षेत्रीय पैटर्न को बनाए रखने में कठिनाई दिखाता है। सहायक की प्रतिक्रियाएँ ऑस्ट्रेलियाई लहजे और अमेरिकी अंग्रेजी के अधिक तटस्थ रूपों के बीच स्वायत्त रूप से वैकल्पिक होने लगती हैं, जिससे उन लोगों के लिए एक खंडित और भ्रमित करने वाला सुनने का अनुभव बनता है जो दैनिक कार्यों या अध्ययन के लिए उपकरण पर भरोसा करते हैं।

एप्लिकेशन के व्यवहार से पता चलता है कि कृत्रिम बुद्धिमत्ता मॉडल के नए संस्करणों के लिए आवश्यक जटिल आवाज मॉड्यूलेशन को बनाए रखने की कोशिश करते समय वास्तविक समय प्रसंस्करण में बाधाओं का सामना करना पड़ता है। जब उपयोगकर्ता सॉफ़्टवेयर को जबरन पुनरारंभ करता है, तो मूल उच्चारण बहाल हो जाता है, लेकिन इस सुधार का केवल अस्थायी प्रभाव होता है। कुछ मिनटों की निरंतर बातचीत के बाद, आवाज़ वापस एक हाइब्रिड संस्करण में बदल जाती है, जिससे पता चलता है कि भाषण संश्लेषण प्रणाली उन सत्रों में स्थिरता बनाए रखने में असमर्थ है जिनके लिए अधिक प्रासंगिक प्रसंस्करण और लंबी प्रतिक्रियाओं की आवश्यकता होती है।

  • जटिल प्रतिक्रियाओं में भाषण की गति काफी कम हो जाती है।
  • उपयोग के दौरान मूल तिहरा स्वर काफ़ी कम हो जाते हैं।
  • एक ही वाक्य में अनायास ही अलग-अलग लहज़े मिल जाते हैं।
  • एप्लिकेशन को पुनरारंभ करने से केवल समस्या का समाधान मिलता है।

विस्तारित सत्रों में ऑडियो कलाकृतियाँ

स्वर पहचान में बदलाव के अलावा, सहायक ने प्रतिक्रियाओं के पुनरुत्पादन के दौरान अवांछित शोर प्रस्तुत करना शुरू कर दिया। ध्वनि कलाकृतियाँ, जैसे क्रैकल, छोटे पॉप और बैकग्राउंड हिस, छिटपुट रूप से दिखाई देते हैं क्योंकि सिस्टम प्रक्रिया करता है और अनुरोधित जानकारी प्रदान करता है।

इन ध्वनिक हस्तक्षेपों का उच्चारण के परिवर्तन से सीधा संबंध नहीं है, लेकिन वे सेवा की गुणवत्ता में गिरावट की धारणा को खराब करते हैं। शोर की आवृत्ति सक्रिय आवाज विकल्प और प्लेटफ़ॉर्म तक पहुंचने के लिए उपयोग किए जाने वाले डिवाइस के आधार पर काफी भिन्न होती है।

प्लेटफ़ॉर्म के अनुसार प्रदर्शन भिन्नताएँ

व्यावहारिक परीक्षण दर्शाते हैं कि ऑडियो स्थिरता दृढ़ता से उपयोग के संदर्भ और हार्डवेयर वातावरण पर निर्भर करती है। त्वरित, टू-द-प्वाइंट कमांड जिनके लिए संक्षिप्त प्रतिक्रियाओं की आवश्यकता होती है, उपभोक्ताओं द्वारा रिपोर्ट किए गए ताल अंतराल या उच्चारण मिश्रण को शायद ही कभी ट्रिगर करते हैं।

एंड्रॉइड ऑटो जैसे ऑटोमोटिव सिस्टम के साथ सहायक का एकीकरण, उल्लेखनीय रूप से बेहतर व्यवहार प्रस्तुत करता है। इन वातावरणों में, चयनित आवाज़ों की मूल विशेषताओं को अधिक प्रभावी ढंग से संरक्षित किया जाता है, यहां तक ​​कि उन इंटरैक्शन में भी जिन्हें लंबे समय तक प्रसंस्करण समय की आवश्यकता होती है।

प्रदर्शन में यह अंतर इंगित करता है कि मोबाइल ऐप का संसाधन प्रबंधन ऑडियो रेंडरिंग को प्रभावित कर सकता है। स्मार्टफ़ोन पर डेटा संपीड़न या मेमोरी आवंटन सीधे तौर पर मॉडल की स्वर निष्ठा बनाए रखने की क्षमता में हस्तक्षेप करता प्रतीत होता है।

अनुकूलन विकल्प और समायोजन उपलब्ध हैं

सहायक का सेटिंग पैनल अनुकूलन के लिए वोकल प्रोफाइल की एक विविध सूची प्रदान करता है। कंपनी का लक्ष्य प्रत्येक व्यक्ति को एक स्वर, लय और उच्चारण ढूंढने में सक्षम बनाना है जो मशीन के साथ बातचीत को अधिक स्वाभाविक और आनंददायक बना दे।

प्रोफ़ाइल में अधिक गंभीर और औपचारिक समय से लेकर अधिक ऊंचे स्वर और आरामदायक विकल्प शामिल हैं। चयन केवल मुख्य मेनू के माध्यम से किया जाता है, जहां उपभोक्ता को चयन करने में सहायता के लिए एक संक्षिप्त ऑडियो नमूना चलाया जाता है।

हाल की समस्याओं के आलोक में, कई उपयोगकर्ताओं ने एक विकल्प खोजने के प्रयास में इन प्रोफाइलों के बीच लगातार स्विच करने की रणनीति अपनाई है जो विफलता के प्रति कम संवेदनशील है। हालाँकि, वॉयस स्विचिंग केवल सिस्टम अस्थिरता के लिए एक अस्थायी समाधान के रूप में कार्य करता है।

समस्या की जड़ सॉफ्टवेयर द्वारा वास्तविक समय में प्राकृतिक भाषा को संसाधित करने के तरीके से जुड़ी हुई है। कंपनी के सर्वर पर लगातार अपडेट कैटलॉग में उपलब्ध सभी विकल्पों के व्यवहार को प्रभावित करते हैं, भले ही टोन कोई भी चुना गया हो।

आर्टिफिशियल इंटेलिजेंस अपडेट का प्रभाव

ऑडियो व्यवहार में अवांछित परिवर्तन Google के भाषा मॉडल के नए संस्करणों के कार्यान्वयन की अवधि के साथ मेल खाते हैं, विशेष रूप से फ्लैश लाइव संस्करण जैसे गति-केंद्रित आर्किटेक्चर में संक्रमण। इन अद्यतनों का मुख्य उद्देश्य उपयोगकर्ता के प्रश्न और मशीन की प्रतिक्रिया के बीच विलंब समय को कम करना है, जिससे संवाद अधिक तरल और वास्तविक मानव वार्तालाप के करीब हो सके।

हालाँकि, गति लाभ के लिए अनुकूलन ने वाक् संश्लेषण के प्रतिपादन में दुष्प्रभाव उत्पन्न किए हैं। जेनरेट किए गए टेक्स्ट की तेजी से डिलीवरी को प्राथमिकता देते समय, ऑडियो सिस्टम खंडित तरीके से डेटा पैकेट प्राप्त कर सकता है, जो ताल के नुकसान, उच्च टोन की कमी और बहुत लंबे पैराग्राफ के दौरान जटिल क्षेत्रीय उच्चारण को बनाए रखने में असमर्थता को समझाएगा।

पहुंच और सुसंगत मानकों पर निर्भरता

सिंथेटिक आवाजों के पुनरुत्पादन में निरंतरता सौंदर्य संबंधी प्राथमिकता के मुद्दे से परे जाती है और सीधे डिजिटल पहुंच के क्षेत्र को प्रभावित करती है। दृश्य हानि, पढ़ने में कठिनाई या विशिष्ट न्यूरोलॉजिकल स्थितियों वाले व्यक्ति अक्सर इंटरनेट ब्राउज़ करने, दस्तावेज़ पढ़ने और दैनिक दिनचर्या व्यवस्थित करने के लिए आभासी सहायकों पर भरोसा करते हैं। इस श्रोतागण के लिए, जानकारी को प्रभावी ढंग से समझने के लिए चुनी गई आवाज़ के स्वर, गति और स्पष्टता से परिचित होना आवश्यक है। जब सिस्टम अचानक अपनी ताल बदलता है, शोर डालता है या वाक्य के बीच में उच्चारण बदलता है, तो संदेश की व्याख्या करने के लिए आवश्यक संज्ञानात्मक भार काफी बढ़ जाता है। अपेक्षा का यह उल्लंघन एक सहायक उपकरण को हताशा के स्रोत में बदल देता है, जो आम जनता के लिए कृत्रिम बुद्धिमत्ता अपडेट जारी करने से पहले ऑडियो स्थिरता पर केंद्रित अधिक कठोर परीक्षण दिनचर्या को लागू करने के लिए प्रौद्योगिकी कंपनियों की महत्वपूर्ण आवश्यकता को उजागर करता है।

सतत स्थिति और निगरानी

आज तक, सॉफ़्टवेयर डेवलपर ने इन स्वर संबंधी विसंगतियों के निश्चित सुधार के लिए कोई समयसीमा बताते हुए आधिकारिक बयान जारी नहीं किया है। प्रौद्योगिकी समुदाय उपकरणों पर भेजे जाने वाले प्रत्येक नए छोटे साइलेंट अपडेट के साथ ऐप व्यवहार की निगरानी करना जारी रखता है।

प्राकृतिक भाषा प्रसंस्करण का विकास

वास्तविक समय भाषण संश्लेषण के पीछे की इंजीनियरिंग मशीन लर्निंग के क्षेत्र में आज सबसे बड़ी चुनौतियों में से एक का प्रतिनिधित्व करती है। सिस्टम को उत्पन्न पाठ की व्याख्या करने, संदर्भ के आधार पर सही स्वर-शैली लागू करने और ऑडियो को तुरंत प्रस्तुत करने की आवश्यकता है।

ताल और उच्चारण में मौजूदा खामियों के बावजूद, लाइव वार्तालाप तकनीक तेजी से आगे बढ़ रही है। संपीड़न और ऑडियो प्रोसेसिंग एल्गोरिदम में समायोजन से अंततः सभी मोबाइल प्लेटफ़ॉर्म पर कस्टम आवाज़ों का प्रदर्शन स्थिर हो जाना चाहिए।