Google जेमिनी लाइव्ह ऍप्लिकेशनमध्ये व्हॉइस सिस्टम बदलते आणि प्रादेशिक उच्चारांची लय सुधारते

Gemini

Gemini - Primakov / Shutterstock.com

Google च्या व्हर्च्युअल असिस्टंटच्या वापरकर्त्यांनी रिअल-टाइम परस्परसंवाद दरम्यान ऑडिओ सेटिंग्जमध्ये महत्त्वपूर्ण अस्थिरतेची तक्रार करण्यास सुरुवात केली. अनुप्रयोगामध्ये निवडलेल्या पर्यायांची मूलभूत वैशिष्ट्ये बदलून बदल थेट वापरकर्त्याच्या अनुभवावर परिणाम करतात.

समस्या प्रामुख्याने भाषणाच्या तालावर, प्रतिसादांचा टोन आणि प्रादेशिक उच्चारणांच्या सुसंगततेमध्ये प्रकट होते. हे बदल अप्रत्याशितपणे घडतात, सतत संवादादरम्यान कृत्रिम बुद्धिमत्ता प्रणालीच्या संप्रेषण पद्धतीत बदल घडवून आणतात.

मिथुन – mundissima/ Shutterstock.com

कंपनीच्या भाषा मॉडेल्सच्या अलीकडील अद्यतनांच्या अंमलबजावणीनंतर त्रुटी स्पष्ट झाल्या. सेटिंग्जमध्ये ऑफर केलेला ऑडिओ नमुना आणि सरावामध्ये पुनरुत्पादित केलेला ध्वनी यांच्यातील तफावत हे मोबाइल डिव्हाइसवर केंद्रित तंत्रज्ञान मंचांवरील तक्रारींचे मुख्य लक्ष्य बनले आहे.

ध्वनी विसंगती आणि वापरकर्ता अनुभव

कॅपेला म्हणून ओळखला जाणारा व्हॉईस पर्याय, ब्रिटीश महिला उच्चारणाद्वारे वैशिष्ट्यीकृत, लॉन्च झाल्यापासून सर्वात स्पष्ट विकृती सादर करतो. ग्राहकांच्या लक्षात येते की पहिल्या काही आदेशांनंतर ऑडिओचे मूळ व्यक्तिमत्व पटकन नष्ट होते.

प्रदीर्घ संभाषणादरम्यान, व्यक्तीने निवडलेला प्रादेशिक पॅटर्न राखण्यात सिस्टमला अडचण येते. सहाय्यकाचे प्रतिसाद ऑस्ट्रेलियन उच्चार आणि अमेरिकन इंग्रजीच्या अधिक तटस्थ भिन्नता दरम्यान स्वायत्तपणे बदलू लागतात, जे दैनंदिन कार्ये किंवा अभ्यासासाठी साधनावर अवलंबून असतात त्यांच्यासाठी एक खंडित आणि गोंधळात टाकणारा ऐकण्याचा अनुभव तयार करतात.

ॲप्लिकेशनचे वर्तन सूचित करते की कृत्रिम बुद्धिमत्ता मॉडेलच्या नवीन आवृत्त्यांसाठी आवश्यक असलेले जटिल व्हॉइस मॉड्युलेशन टिकवून ठेवण्याचा प्रयत्न करताना रिअल-टाइम प्रोसेसिंगमध्ये अडथळे येतात. जेव्हा वापरकर्ता सॉफ्टवेअरचा सक्तीने रीस्टार्ट करतो तेव्हा मूळ उच्चारण पुनर्संचयित केला जातो, परंतु या निराकरणाचा केवळ तात्पुरता प्रभाव असतो. काही मिनिटांच्या सततच्या परस्परसंवादानंतर, आवाज पुन्हा संकरित आवृत्तीमध्ये रूपांतरित होतो, हे दर्शविते की उच्चार संश्लेषण प्रणाली सत्रांमध्ये स्थिरता राखण्यात अक्षम आहे ज्यासाठी अधिक संदर्भात्मक प्रक्रिया आणि दीर्घ प्रतिसाद आवश्यक आहेत.

  • जटिल प्रतिसादांमध्ये बोलण्याचा वेग बराच कमी होतो.
  • वापरताना मूळ तिहेरी टोन लक्षणीयरीत्या कमी होतात.
  • एकाच वाक्यात नकळत वेगवेगळे उच्चार मिसळले जातात.
  • अनुप्रयोग रीस्टार्ट केल्याने केवळ समस्येचे निराकरण होते.

विस्तारित सत्रांमध्ये ऑडिओ कलाकृती

स्वर ओळखीतील बदलांव्यतिरिक्त, सहाय्यकाने प्रतिसादांच्या पुनरुत्पादनादरम्यान अवांछित आवाज सादर करण्यास सुरुवात केली. ध्वनी कलाकृती, जसे की क्रॅकल्स, लहान पॉप आणि पार्श्वभूमी हिस, सिस्टम प्रक्रिया करते आणि विनंती केलेली माहिती वितरीत करते तेव्हा तुरळकपणे दिसून येते.

या ध्वनिक हस्तक्षेपांचा उच्चारांच्या बदलाशी थेट संबंध नाही, परंतु ते सेवेच्या गुणवत्तेत घट झाल्याची धारणा बिघडवतात. व्हॉईस ऑप्शन सक्रिय केलेला आणि प्लॅटफॉर्मवर प्रवेश करण्यासाठी वापरल्या जाणाऱ्या डिव्हाइसवर अवलंबून आवाजांची वारंवारता मोठ्या प्रमाणात बदलते.

प्लॅटफॉर्मनुसार कार्यप्रदर्शन भिन्नता

व्यावहारिक चाचण्या हे दाखवतात की ऑडिओ स्थिरता वापराच्या संदर्भावर आणि हार्डवेअर वातावरणावर अवलंबून असते. जलद, टू-द-पॉइंट कमांड्स ज्यांना लहान प्रतिसादांची आवश्यकता असते ते क्वचितच ग्राहकांनी नोंदवलेले कॅडेन्स गॅप किंवा उच्चारण मिश्रण ट्रिगर करतात.

Android Auto सारख्या ऑटोमोटिव्ह सिस्टीमसह असिस्टंटचे एकत्रीकरण विशेषत: उत्कृष्ट वर्तन सादर करते. या वातावरणात, निवडलेल्या आवाजांची मूळ वैशिष्ट्ये अधिक प्रभावीपणे जतन केली जातात, अगदी दीर्घ प्रक्रियेसाठी आवश्यक असलेल्या परस्परसंवादांमध्येही.

कार्यप्रदर्शनातील हा फरक सूचित करतो की मोबाइल ॲपचे संसाधन व्यवस्थापन कदाचित ऑडिओ रेंडरिंगवर प्रभाव टाकत आहे. स्मार्टफोनवरील डेटा कॉम्प्रेशन किंवा मेमरी वाटप मॉडेलच्या आवाजाची निष्ठा राखण्याच्या क्षमतेमध्ये थेट हस्तक्षेप करत असल्याचे दिसते.

सानुकूलित पर्याय आणि समायोजन उपलब्ध

सहाय्यकाचे सेटिंग्ज पॅनेल सानुकूलित करण्यासाठी व्होकल प्रोफाइलची विविध कॅटलॉग प्रदान करते. प्रत्येक व्यक्तीला स्वर, लय आणि उच्चारण शोधण्यात सक्षम करणे हे कंपनीचे ध्येय आहे जे मशीनशी संवाद साधणे अधिक नैसर्गिक आणि आनंददायक बनवते.

प्रोफाइलमध्ये अधिक गंभीर आणि औपचारिक लाकडापासून ते अधिक उच्च-पिच आणि आरामशीर पर्याय आहेत. निवड फक्त मुख्य मेनूद्वारे केली जाते, जिथे ग्राहकांना निवडण्यात मदत करण्यासाठी एक संक्षिप्त ऑडिओ नमुना प्ले केला जातो.

अलीकडील समस्यांच्या प्रकाशात, अनेक वापरकर्त्यांनी अयशस्वी होण्यास कमी संवेदनाक्षम पर्याय शोधण्याच्या प्रयत्नात या प्रोफाइलमध्ये सतत स्विच करण्याचे धोरण स्वीकारले आहे. तथापि, व्हॉइस स्विचिंग सिस्टम अस्थिरतेसाठी तात्पुरते उपाय म्हणून कार्य करते.

समस्येचे मूळ सॉफ्टवेअर नैसर्गिक भाषेवर रिअल टाइममध्ये ज्या पद्धतीने प्रक्रिया करते त्याच्याशी जोडलेले आहे. कंपनीच्या सर्व्हरवरील सतत अद्यतने निवडलेल्या टोनकडे दुर्लक्ष करून, कॅटलॉगमध्ये उपलब्ध असलेल्या सर्व पर्यायांच्या वर्तनावर परिणाम करतात.

कृत्रिम बुद्धिमत्ता अद्यतनांचा प्रभाव

ऑडिओ वर्तनातील अवांछित बदल Google च्या भाषा मॉडेल्सच्या नवीन आवृत्त्यांच्या अंमलबजावणीच्या कालावधीशी जुळतात, विशेषत: फ्लॅश लाइव्ह आवृत्तीसारख्या वेग-केंद्रित आर्किटेक्चरमध्ये संक्रमण. या अद्यतनांचा मुख्य उद्देश वापरकर्त्याचा प्रश्न आणि मशीनचा प्रतिसाद यांच्यातील विलंब वेळ कमी करणे, संवाद अधिक प्रवाही आणि वास्तविक मानवी संभाषणाच्या जवळ करणे हा आहे.

तथापि, स्पीड नफ्यासाठी ऑप्टिमायझेशनने स्पीच सिंथेसिसच्या रेंडरिंगमध्ये साइड इफेक्ट्स व्युत्पन्न केल्याचे दिसते. व्युत्पन्न केलेल्या मजकूराच्या जलद वितरणास प्राधान्य देताना, ऑडिओ सिस्टमला खंडित पद्धतीने डेटा पॅकेट्स प्राप्त होऊ शकतात, जे कॅडेन्सचे नुकसान, उच्च टोन कमी होणे आणि खूप लांब परिच्छेद दरम्यान जटिल प्रादेशिक उच्चारण टिकवून ठेवण्यास असमर्थता स्पष्ट करेल.

प्रवेशयोग्यता आणि सातत्यपूर्ण मानकांवर अवलंबून राहणे

सिंथेटिक आवाजाच्या पुनरुत्पादनातील सुसंगतता सौंदर्यविषयक प्राधान्याच्या समस्येच्या पलीकडे जाते आणि थेट डिजिटल प्रवेशयोग्यतेच्या क्षेत्रावर परिणाम करते. दृष्टीदोष असलेल्या व्यक्ती, वाचण्यात अडचणी किंवा विशिष्ट न्यूरोलॉजिकल परिस्थिती इंटरनेट ब्राउझ करण्यासाठी, कागदपत्रे वाचण्यासाठी आणि दैनंदिन दिनचर्या व्यवस्थित करण्यासाठी व्हर्च्युअल असिस्टंटवर अवलंबून असतात. या श्रोत्यांसाठी, माहिती प्रभावीपणे समजून घेण्यासाठी निवडलेल्या आवाजाचा स्वर, वेग आणि स्पष्टता यांची ओळख आवश्यक आहे. जेव्हा प्रणाली अचानकपणे त्याची लय बदलते, आवाज घालते किंवा वाक्याच्या मध्यभागी उच्चारण बदलते, तेव्हा संदेशाचा अर्थ लावण्यासाठी आवश्यक संज्ञानात्मक भार मोठ्या प्रमाणात वाढतो. अपेक्षेचा हा भंग हे एक उपयुक्त साधन निराशेच्या स्त्रोतामध्ये बदलते, जे तंत्रज्ञान कंपन्यांसाठी कृत्रिम बुद्धिमत्ता अद्यतने सामान्य लोकांसाठी रिलीझ करण्यापूर्वी ऑडिओ स्थिरतेवर अधिक कठोर चाचणी दिनचर्या लागू करण्याची गंभीर गरज अधोरेखित करते.

सतत स्थिती आणि देखरेख

आजपर्यंत, सॉफ्टवेअर डेव्हलपरने या व्होकल विसंगतींच्या निश्चित दुरुस्तीसाठी टाइमलाइन तपशीलवार अधिकृत विधाने जारी केलेली नाहीत. तंत्रज्ञान समुदाय डिव्हाइसवर ढकलल्या गेलेल्या प्रत्येक नवीन लहान मूक अपडेटसह ॲप वर्तनाचे परीक्षण करणे सुरू ठेवतो.

नैसर्गिक भाषा प्रक्रियेची उत्क्रांती

रिअल-टाइम स्पीच सिंथेसिसमागील अभियांत्रिकी हे आज मशीन लर्निंगच्या क्षेत्रात सर्वात मोठे आव्हान आहे. सिस्टीमने व्युत्पन्न केलेल्या मजकुराचा अर्थ लावणे, संदर्भावर आधारित योग्य स्वररचना लागू करणे आणि ऑडिओ त्वरित रेंडर करणे आवश्यक आहे.

कॅडेन्स आणि उच्चारांमध्ये सध्याच्या त्रुटी असूनही, थेट संभाषण तंत्रज्ञान वेगाने पुढे जात आहे. कॉम्प्रेशन आणि ऑडिओ प्रोसेसिंग अल्गोरिदममधील ऍडजस्टमेंटने अखेरीस सर्व मोबाइल प्लॅटफॉर्मवर कस्टम व्हॉईसचे कार्यप्रदर्शन स्थिर केले पाहिजे.