News (MR)

Google जेमिनी लाइव्ह ऍप्लिकेशनमध्ये व्हॉइस सिस्टम बदलते आणि प्रादेशिक उच्चारांची लय सुधारते

Gemini
Foto: Gemini - Primakov / Shutterstock.com

Google च्या व्हर्च्युअल असिस्टंटच्या वापरकर्त्यांनी रिअल-टाइम परस्परसंवाद दरम्यान ऑडिओ सेटिंग्जमध्ये महत्त्वपूर्ण अस्थिरतेची तक्रार करण्यास सुरुवात केली. अनुप्रयोगामध्ये निवडलेल्या पर्यायांची मूलभूत वैशिष्ट्ये बदलून बदल थेट वापरकर्त्याच्या अनुभवावर परिणाम करतात.

समस्या प्रामुख्याने भाषणाच्या तालावर, प्रतिसादांचा टोन आणि प्रादेशिक उच्चारणांच्या सुसंगततेमध्ये प्रकट होते. हे बदल अप्रत्याशितपणे घडतात, सतत संवादादरम्यान कृत्रिम बुद्धिमत्ता प्रणालीच्या संप्रेषण पद्धतीत बदल घडवून आणतात.

मिथुन
मिथुन – mundissima/ Shutterstock.com

कंपनीच्या भाषा मॉडेल्सच्या अलीकडील अद्यतनांच्या अंमलबजावणीनंतर त्रुटी स्पष्ट झाल्या. सेटिंग्जमध्ये ऑफर केलेला ऑडिओ नमुना आणि सरावामध्ये पुनरुत्पादित केलेला ध्वनी यांच्यातील तफावत हे मोबाइल डिव्हाइसवर केंद्रित तंत्रज्ञान मंचांवरील तक्रारींचे मुख्य लक्ष्य बनले आहे.

ध्वनी विसंगती आणि वापरकर्ता अनुभव

कॅपेला म्हणून ओळखला जाणारा व्हॉईस पर्याय, ब्रिटीश महिला उच्चारणाद्वारे वैशिष्ट्यीकृत, लॉन्च झाल्यापासून सर्वात स्पष्ट विकृती सादर करतो. ग्राहकांच्या लक्षात येते की पहिल्या काही आदेशांनंतर ऑडिओचे मूळ व्यक्तिमत्व पटकन नष्ट होते.

प्रदीर्घ संभाषणादरम्यान, व्यक्तीने निवडलेला प्रादेशिक पॅटर्न राखण्यात सिस्टमला अडचण येते. सहाय्यकाचे प्रतिसाद ऑस्ट्रेलियन उच्चार आणि अमेरिकन इंग्रजीच्या अधिक तटस्थ भिन्नता दरम्यान स्वायत्तपणे बदलू लागतात, जे दैनंदिन कार्ये किंवा अभ्यासासाठी साधनावर अवलंबून असतात त्यांच्यासाठी एक खंडित आणि गोंधळात टाकणारा ऐकण्याचा अनुभव तयार करतात.

ॲप्लिकेशनचे वर्तन सूचित करते की कृत्रिम बुद्धिमत्ता मॉडेलच्या नवीन आवृत्त्यांसाठी आवश्यक असलेले जटिल व्हॉइस मॉड्युलेशन टिकवून ठेवण्याचा प्रयत्न करताना रिअल-टाइम प्रोसेसिंगमध्ये अडथळे येतात. जेव्हा वापरकर्ता सॉफ्टवेअरचा सक्तीने रीस्टार्ट करतो तेव्हा मूळ उच्चारण पुनर्संचयित केला जातो, परंतु या निराकरणाचा केवळ तात्पुरता प्रभाव असतो. काही मिनिटांच्या सततच्या परस्परसंवादानंतर, आवाज पुन्हा संकरित आवृत्तीमध्ये रूपांतरित होतो, हे दर्शविते की उच्चार संश्लेषण प्रणाली सत्रांमध्ये स्थिरता राखण्यात अक्षम आहे ज्यासाठी अधिक संदर्भात्मक प्रक्रिया आणि दीर्घ प्रतिसाद आवश्यक आहेत.

  • जटिल प्रतिसादांमध्ये बोलण्याचा वेग बराच कमी होतो.
  • वापरताना मूळ तिहेरी टोन लक्षणीयरीत्या कमी होतात.
  • एकाच वाक्यात नकळत वेगवेगळे उच्चार मिसळले जातात.
  • अनुप्रयोग रीस्टार्ट केल्याने केवळ समस्येचे निराकरण होते.

विस्तारित सत्रांमध्ये ऑडिओ कलाकृती

स्वर ओळखीतील बदलांव्यतिरिक्त, सहाय्यकाने प्रतिसादांच्या पुनरुत्पादनादरम्यान अवांछित आवाज सादर करण्यास सुरुवात केली. ध्वनी कलाकृती, जसे की क्रॅकल्स, लहान पॉप आणि पार्श्वभूमी हिस, सिस्टम प्रक्रिया करते आणि विनंती केलेली माहिती वितरीत करते तेव्हा तुरळकपणे दिसून येते.

या ध्वनिक हस्तक्षेपांचा उच्चारांच्या बदलाशी थेट संबंध नाही, परंतु ते सेवेच्या गुणवत्तेत घट झाल्याची धारणा बिघडवतात. व्हॉईस ऑप्शन सक्रिय केलेला आणि प्लॅटफॉर्मवर प्रवेश करण्यासाठी वापरल्या जाणाऱ्या डिव्हाइसवर अवलंबून आवाजांची वारंवारता मोठ्या प्रमाणात बदलते.

प्लॅटफॉर्मनुसार कार्यप्रदर्शन भिन्नता

व्यावहारिक चाचण्या हे दाखवतात की ऑडिओ स्थिरता वापराच्या संदर्भावर आणि हार्डवेअर वातावरणावर अवलंबून असते. जलद, टू-द-पॉइंट कमांड्स ज्यांना लहान प्रतिसादांची आवश्यकता असते ते क्वचितच ग्राहकांनी नोंदवलेले कॅडेन्स गॅप किंवा उच्चारण मिश्रण ट्रिगर करतात.

Android Auto सारख्या ऑटोमोटिव्ह सिस्टीमसह असिस्टंटचे एकत्रीकरण विशेषत: उत्कृष्ट वर्तन सादर करते. या वातावरणात, निवडलेल्या आवाजांची मूळ वैशिष्ट्ये अधिक प्रभावीपणे जतन केली जातात, अगदी दीर्घ प्रक्रियेसाठी आवश्यक असलेल्या परस्परसंवादांमध्येही.

कार्यप्रदर्शनातील हा फरक सूचित करतो की मोबाइल ॲपचे संसाधन व्यवस्थापन कदाचित ऑडिओ रेंडरिंगवर प्रभाव टाकत आहे. स्मार्टफोनवरील डेटा कॉम्प्रेशन किंवा मेमरी वाटप मॉडेलच्या आवाजाची निष्ठा राखण्याच्या क्षमतेमध्ये थेट हस्तक्षेप करत असल्याचे दिसते.

सानुकूलित पर्याय आणि समायोजन उपलब्ध

सहाय्यकाचे सेटिंग्ज पॅनेल सानुकूलित करण्यासाठी व्होकल प्रोफाइलची विविध कॅटलॉग प्रदान करते. प्रत्येक व्यक्तीला स्वर, लय आणि उच्चारण शोधण्यात सक्षम करणे हे कंपनीचे ध्येय आहे जे मशीनशी संवाद साधणे अधिक नैसर्गिक आणि आनंददायक बनवते.

प्रोफाइलमध्ये अधिक गंभीर आणि औपचारिक लाकडापासून ते अधिक उच्च-पिच आणि आरामशीर पर्याय आहेत. निवड फक्त मुख्य मेनूद्वारे केली जाते, जिथे ग्राहकांना निवडण्यात मदत करण्यासाठी एक संक्षिप्त ऑडिओ नमुना प्ले केला जातो.

अलीकडील समस्यांच्या प्रकाशात, अनेक वापरकर्त्यांनी अयशस्वी होण्यास कमी संवेदनाक्षम पर्याय शोधण्याच्या प्रयत्नात या प्रोफाइलमध्ये सतत स्विच करण्याचे धोरण स्वीकारले आहे. तथापि, व्हॉइस स्विचिंग सिस्टम अस्थिरतेसाठी तात्पुरते उपाय म्हणून कार्य करते.

समस्येचे मूळ सॉफ्टवेअर नैसर्गिक भाषेवर रिअल टाइममध्ये ज्या पद्धतीने प्रक्रिया करते त्याच्याशी जोडलेले आहे. कंपनीच्या सर्व्हरवरील सतत अद्यतने निवडलेल्या टोनकडे दुर्लक्ष करून, कॅटलॉगमध्ये उपलब्ध असलेल्या सर्व पर्यायांच्या वर्तनावर परिणाम करतात.

कृत्रिम बुद्धिमत्ता अद्यतनांचा प्रभाव

ऑडिओ वर्तनातील अवांछित बदल Google च्या भाषा मॉडेल्सच्या नवीन आवृत्त्यांच्या अंमलबजावणीच्या कालावधीशी जुळतात, विशेषत: फ्लॅश लाइव्ह आवृत्तीसारख्या वेग-केंद्रित आर्किटेक्चरमध्ये संक्रमण. या अद्यतनांचा मुख्य उद्देश वापरकर्त्याचा प्रश्न आणि मशीनचा प्रतिसाद यांच्यातील विलंब वेळ कमी करणे, संवाद अधिक प्रवाही आणि वास्तविक मानवी संभाषणाच्या जवळ करणे हा आहे.

तथापि, स्पीड नफ्यासाठी ऑप्टिमायझेशनने स्पीच सिंथेसिसच्या रेंडरिंगमध्ये साइड इफेक्ट्स व्युत्पन्न केल्याचे दिसते. व्युत्पन्न केलेल्या मजकूराच्या जलद वितरणास प्राधान्य देताना, ऑडिओ सिस्टमला खंडित पद्धतीने डेटा पॅकेट्स प्राप्त होऊ शकतात, जे कॅडेन्सचे नुकसान, उच्च टोन कमी होणे आणि खूप लांब परिच्छेद दरम्यान जटिल प्रादेशिक उच्चारण टिकवून ठेवण्यास असमर्थता स्पष्ट करेल.

प्रवेशयोग्यता आणि सातत्यपूर्ण मानकांवर अवलंबून राहणे

सिंथेटिक आवाजाच्या पुनरुत्पादनातील सुसंगतता सौंदर्यविषयक प्राधान्याच्या समस्येच्या पलीकडे जाते आणि थेट डिजिटल प्रवेशयोग्यतेच्या क्षेत्रावर परिणाम करते. दृष्टीदोष असलेल्या व्यक्ती, वाचण्यात अडचणी किंवा विशिष्ट न्यूरोलॉजिकल परिस्थिती इंटरनेट ब्राउझ करण्यासाठी, कागदपत्रे वाचण्यासाठी आणि दैनंदिन दिनचर्या व्यवस्थित करण्यासाठी व्हर्च्युअल असिस्टंटवर अवलंबून असतात. या श्रोत्यांसाठी, माहिती प्रभावीपणे समजून घेण्यासाठी निवडलेल्या आवाजाचा स्वर, वेग आणि स्पष्टता यांची ओळख आवश्यक आहे. जेव्हा प्रणाली अचानकपणे त्याची लय बदलते, आवाज घालते किंवा वाक्याच्या मध्यभागी उच्चारण बदलते, तेव्हा संदेशाचा अर्थ लावण्यासाठी आवश्यक संज्ञानात्मक भार मोठ्या प्रमाणात वाढतो. अपेक्षेचा हा भंग हे एक उपयुक्त साधन निराशेच्या स्त्रोतामध्ये बदलते, जे तंत्रज्ञान कंपन्यांसाठी कृत्रिम बुद्धिमत्ता अद्यतने सामान्य लोकांसाठी रिलीझ करण्यापूर्वी ऑडिओ स्थिरतेवर अधिक कठोर चाचणी दिनचर्या लागू करण्याची गंभीर गरज अधोरेखित करते.

सतत स्थिती आणि देखरेख

आजपर्यंत, सॉफ्टवेअर डेव्हलपरने या व्होकल विसंगतींच्या निश्चित दुरुस्तीसाठी टाइमलाइन तपशीलवार अधिकृत विधाने जारी केलेली नाहीत. तंत्रज्ञान समुदाय डिव्हाइसवर ढकलल्या गेलेल्या प्रत्येक नवीन लहान मूक अपडेटसह ॲप वर्तनाचे परीक्षण करणे सुरू ठेवतो.

नैसर्गिक भाषा प्रक्रियेची उत्क्रांती

रिअल-टाइम स्पीच सिंथेसिसमागील अभियांत्रिकी हे आज मशीन लर्निंगच्या क्षेत्रात सर्वात मोठे आव्हान आहे. सिस्टीमने व्युत्पन्न केलेल्या मजकुराचा अर्थ लावणे, संदर्भावर आधारित योग्य स्वररचना लागू करणे आणि ऑडिओ त्वरित रेंडर करणे आवश्यक आहे.

कॅडेन्स आणि उच्चारांमध्ये सध्याच्या त्रुटी असूनही, थेट संभाषण तंत्रज्ञान वेगाने पुढे जात आहे. कॉम्प्रेशन आणि ऑडिओ प्रोसेसिंग अल्गोरिदममधील ऍडजस्टमेंटने अखेरीस सर्व मोबाइल प्लॅटफॉर्मवर कस्टम व्हॉईसचे कार्यप्रदर्शन स्थिर केले पाहिजे.

Veja Tambem em News (MR)

लॉस एंजेलिसमधील सोफी स्टेडियममध्ये विक्रमी रात्री 18 दशलक्षाहून अधिक कमावले

लॉस एंजेलिसमधील सोफी स्टेडियममध्ये विक्रमी रात्री 18 दशलक्षाहून अधिक कमावले

PlayStation 5 Pro किमतीतील घट डिजिटल रिटेल विक्रीला गती देते आणि जागतिक स्टॉक काढून टाकते

PlayStation 5 Pro किमतीतील घट डिजिटल रिटेल विक्रीला गती देते आणि जागतिक स्टॉक काढून टाकते

नवीन Apple सिस्टम अपडेट आयफोन वापरकर्त्यांसाठी तातडीचे कार्य व्यवस्थापन अनुकूल करते

नवीन Apple सिस्टम अपडेट आयफोन वापरकर्त्यांसाठी तातडीचे कार्य व्यवस्थापन अनुकूल करते

लीकने एप्रिलच्या पीएस प्लस अत्यावश्यक कॅटलॉगमध्ये लॉर्ड्स ऑफ द फॉलन आणि स्वॉर्ड आर्ट ऑनलाइन प्रकट केले

लीकने एप्रिलच्या पीएस प्लस अत्यावश्यक कॅटलॉगमध्ये लॉर्ड्स ऑफ द फॉलन आणि स्वॉर्ड आर्ट ऑनलाइन प्रकट केले

उत्पादक झूम आणि कृत्रिम बुद्धिमत्तेवर लक्ष केंद्रित करून प्रीमियम स्मार्टफोन फोटो सेन्सर अपडेट करतात

उत्पादक झूम आणि कृत्रिम बुद्धिमत्तेवर लक्ष केंद्रित करून प्रीमियम स्मार्टफोन फोटो सेन्सर अपडेट करतात

निर्माता OPPO ने कॅमेऱ्यांवर लक्ष केंद्रित करून नवीन Find X9 अल्ट्रा आणि प्रो स्मार्टफोन्स उघड करण्यासाठी अधिकृत तारखेची पुष्टी केली

निर्माता OPPO ने कॅमेऱ्यांवर लक्ष केंद्रित करून नवीन Find X9 अल्ट्रा आणि प्रो स्मार्टफोन्स उघड करण्यासाठी अधिकृत तारखेची पुष्टी केली

नवीन Xiaomi 18 Pro Max स्मार्टफोन दोन 200 MP कॅमेरे आणि नवीनतम जनरेशन प्रोसेसर एकत्रित करतो

नवीन Xiaomi 18 Pro Max स्मार्टफोन दोन 200 MP कॅमेरे आणि नवीनतम जनरेशन प्रोसेसर एकत्रित करतो

Apple ने नवीन फोल्डेबल आयफोन विकसित केला आणि ब्रँडची 20 वर्षे साजरी करण्यासाठी विशेष आवृत्ती तयार केली

Apple ने नवीन फोल्डेबल आयफोन विकसित केला आणि ब्रँडची 20 वर्षे साजरी करण्यासाठी विशेष आवृत्ती तयार केली

नवीन पोर्टेबल प्लेस्टेशनचे Xbox Series S वर उत्कृष्ट ग्राफिक्ससह तपशील हार्डवेअर लीक करा

नवीन पोर्टेबल प्लेस्टेशनचे Xbox Series S वर उत्कृष्ट ग्राफिक्ससह तपशील हार्डवेअर लीक करा

फोल्डेबल स्मार्टफोनची नवीन आवृत्ती हिवाळी गेम्सच्या स्पर्धकांसाठी गोल्ड फिनिश आणते

फोल्डेबल स्मार्टफोनची नवीन आवृत्ती हिवाळी गेम्सच्या स्पर्धकांसाठी गोल्ड फिनिश आणते

Oppo ने अधिकृतपणे हॅसलब्लॅड लेन्स आणि मजबूत बॅटरीसह Find X9 अल्ट्रा जगभरात लाँच केले

Oppo ने अधिकृतपणे हॅसलब्लॅड लेन्स आणि मजबूत बॅटरीसह Find X9 अल्ट्रा जगभरात लाँच केले

ऍपलच्या पन्नासाव्या वर्धापन दिनानिमित्त टीम कुकने नवीन आयफोन आणि आयपॉड प्रोटोटाइप उघड केले

ऍपलच्या पन्नासाव्या वर्धापन दिनानिमित्त टीम कुकने नवीन आयफोन आणि आयपॉड प्रोटोटाइप उघड केले