नई Google तकनीक भारत में दस से अधिक क्षेत्रीय भाषाओं में ध्वनि खोज को अनलॉक करती है

Google

Google - jetcityimage/ istockphoto.com

प्रौद्योगिकी कंपनी Google ने अपने खोज सिस्टम में एक अपडेट लागू किया है जो उपयोगकर्ताओं को भारत में दस से अधिक क्षेत्रीय भाषाओं में ध्वनि क्वेरी करने की अनुमति देता है। यह उपाय आबादी के उन हिस्सों के लिए इंटरनेट ब्राउजिंग की गतिशीलता को बदल देता है जो दैनिक आधार पर अंग्रेजी को अपनी मुख्य भाषा के रूप में उपयोग नहीं करते हैं।

यह सुविधा मोबाइल उपकरणों और कंप्यूटरों से ऑडियो कैप्चर करने के लिए उन्नत प्राकृतिक भाषा प्रसंस्करण का उपयोग करती है, जो सटीक भाषण को खोज इंजनों के लिए टेक्स्ट में परिवर्तित करती है। कार्यक्षमता विभिन्न अक्षरों के लिए अनुकूलित कीबोर्ड पर टाइप करने की आवश्यकता को समाप्त करती है, जिससे खोज प्रक्रिया सरल हो जाती है।

यह पहल एशिया के प्रमुख शहरी केंद्रों से दूर ग्रामीण क्षेत्रों और क्षेत्रों में स्थित उपयोगकर्ताओं को शामिल करने पर केंद्रित है। कृत्रिम बुद्धिमत्ता द्वारा संचालित प्रणाली का उद्देश्य उन संचार बाधाओं को दूर करना है जो ऐतिहासिक रूप से इन समुदायों द्वारा बुनियादी डिजिटल सेवाओं के उपयोग को सीमित करती हैं।

एशियाई बोलियों के अनुकूलन की संरचना

भारत में बाईस आधिकारिक तौर पर मान्यता प्राप्त भाषाएँ और विभिन्न समूहों द्वारा बोली जाने वाली सैकड़ों बोलियाँ हैं। इस भाषाई बहुलता के लिए इंजीनियरिंग टीम को प्रत्येक क्षेत्र की ध्वन्यात्मक विविधताओं को मैप करने और स्वर पहचान की सटीकता की गारंटी देने के लिए एक विशिष्ट तकनीकी दृष्टिकोण अपनाने की आवश्यकता थी।

सॉफ़्टवेयर के विकास में वास्तविक दुनिया की परिस्थितियों में वाक् पहचान एल्गोरिदम को प्रशिक्षित करने के लिए विशाल ऑडियो डेटाबेस एकत्र करना शामिल था। इंजीनियरों को स्थानीय लहजे, भाषण की गति और अंग्रेजी शब्दों के साथ क्षेत्रीय शब्दों के मिश्रण पर विचार करने की आवश्यकता है, जो देश के दैनिक संचार में एक सामान्य घटना है। प्रसंस्करण क्षमता को अस्थिर इंटरनेट कनेक्शन पर भी संचालित करने के लिए समायोजित किया गया है, जो अभी भी भारतीय क्षेत्र में एक वास्तविकता है।

परिणामों की प्रभावशीलता सुनिश्चित करने के लिए, प्लेटफ़ॉर्म ने सबसे अधिक बोलने वालों वाली भाषाओं को वर्गीकृत किया और एक सतत एकीकरण कार्यक्रम स्थापित किया। वर्तमान प्रणाली जटिल व्याकरण संबंधी बारीकियों को समझ सकती है और पूछे गए प्रश्न की भाषा में ही सीधे उत्तर दे सकती है। Among the technical characteristics of the new interface, the following operational points stand out:

  • हिंदी, बंगाली, तमिल, तेलुगु और मराठी के लिए मूल और अनुकूलित समर्थन।
  • मुख्य प्रसंस्करण डेटाबेस में गुजराती, कन्नड़, मलयालम और पंजाबी को शामिल करना।
  • सार्वजनिक और व्यस्त स्थानों में स्वच्छ ऑडियो कैप्चर करने के लिए परिवेशी शोर कम करने वाले फ़िल्टर।
  • पढ़ने में कठिनाई या दृश्य हानि वाले उपयोगकर्ताओं की सहायता के लिए संश्लेषित ऑडियो प्रतिक्रियाएं।

आर्टिफिशियल इंटेलिजेंस कैसे काम करता है

विशुद्ध रूप से पाठ्य इंटरफ़ेस से मौखिक अनुभव में परिवर्तन गहरे तंत्रिका नेटवर्क पर निर्भर करता है जो प्लेटफ़ॉर्म पर किए गए प्रत्येक इंटरैक्शन से सीखते हैं। सिस्टम समय के साथ विशिष्ट शब्दों की पहचान में सुधार करने के लिए उपयोगकर्ताओं द्वारा स्वयं किए गए सुधारों को रिकॉर्ड करता है।

यह मशीन लर्निंग दैनिक ट्रांसक्रिप्शन में त्रुटि दर को कम करती है और परिणाम पृष्ठ पर प्रस्तुत लिंक की प्रासंगिकता में सुधार करती है। प्रौद्योगिकी जानबूझकर खोज आदेशों को डिवाइस के समान भौतिक वातावरण में होने वाली समानांतर बातचीत से अलग कर सकती है।

क्षेत्रीय सामग्री के उत्पादन को प्रोत्साहित करना

मातृभाषाओं में शोध की उपलब्धता इन्हीं भाषाओं में प्रारूपित पृष्ठों, वीडियो और लेखों की सीधी मांग उत्पन्न करती है। स्थानीय सामग्री उत्पादकों को एक नया दर्शक वर्ग मिलता है जो पहले अंग्रेजी भाषा की बाधा के कारण उनकी सामग्री तक पहुंचने में असमर्थ था।

शिक्षक और स्वास्थ्य देखभाल पेशेवर क्षेत्रीय बोलियों में महत्वपूर्ण जानकारी उपलब्ध कराने के लिए आगे बढ़े हैं, यह जानते हुए कि खोज इंजन अब इस सामग्री को कुशलतापूर्वक अनुक्रमित और वितरित करते हैं। यह उपाय रचनात्मक अर्थव्यवस्था को प्रमुख महानगरीय क्षेत्रों से बाहर ले जाता है।

स्थानीय कंपनियों के लिए बाज़ार का विस्तार

ई-कॉमर्स और छोटे सेवा प्रदाता वॉयस एल्गोरिदम अपडेट के साथ तत्काल दृश्यता प्राप्त करते हैं। किसी ग्रामीण गांव के व्यापारी को आस-पास के ग्राहक आसानी से ढूंढ सकते हैं जो अपनी मूल भाषा में बोलकर खोज करते हैं।

डिजिटल विज्ञापन भी इस नई तकनीकी वास्तविकता को अपनाता है, जिससे विज्ञापनों को क्वेरी की सटीक भाषा के आधार पर लक्षित किया जा सकता है। यह उन कंपनियों के लिए विपणन निवेश को अनुकूलित करता है जो अत्यधिक विशिष्ट भौगोलिक क्षेत्रों में काम करते हैं।

जियोलोकेशन सेवाओं के साथ ध्वनि खोज के एकीकरण से पड़ोस की दुकानों में मार्गों, खुलने का समय और उत्पाद की उपलब्धता की खोज करना आसान हो जाता है। उपयोगकर्ता केवल अपनी आवश्यकता को मौखिक रूप से बताकर स्थानीय वाणिज्य के बारे में सटीक डेटा प्राप्त करता है।

बुनियादी ढांचे की बाधाओं पर काबू पाना

छोटे स्मार्टफोन स्क्रीन पर टाइप करने से हाथ से काम करने वाले श्रमिकों और बुजुर्ग लोगों के लिए काफी शारीरिक बाधा उत्पन्न होती है। वॉइस कमांड द्रव वेब ब्राउज़िंग के लिए फाइन मोटर प्रिसिजन की आवश्यकता को समाप्त कर देता है।

एशियाई भाषाओं में वर्चुअल कीबोर्ड को एकल जटिल वर्ण बनाने के लिए अक्सर कई कुंजी संयोजनों की आवश्यकता होती है। प्रत्यक्ष भाषण तकनीकी प्रक्रिया को सरल बनाता है, जिससे एक साधारण प्रश्न पूछने में लगने वाला समय काफी कम हो जाता है।

मौखिक इंटरफ़ेस औपचारिक साक्षरता के निम्न स्तर वाली आबादी की भी सेवा करता है, जो खुद को मौखिक रूप से पूरी तरह से व्यक्त कर सकते हैं, लेकिन लिखने में कठिनाइयों का सामना करते हैं। इंटरनेट एक उपयोगितावादी उपकरण बन गया है, न कि केवल लंबे पाठ पढ़ने के लिए एक प्रतिबंधित वातावरण।

सरकारी सेवाओं, चिकित्सा नियुक्तियों और सामाजिक लाभ परामर्शों तक पहुंच तब अधिक प्रत्यक्ष हो जाती है जब नागरिक अपने सेल फोन पर अपने अधिकारों और कर्तव्यों के बारे में आसानी से पूछ सकते हैं।

भाषा मॉडलों को लगातार अद्यतन करना

बहुभाषी खोज पारिस्थितिकी तंत्र को बनाए रखने के लिए सर्वर बुनियादी ढांचे और भाषाविदों की विशेष टीमों में स्थायी निवेश की आवश्यकता होती है। भाषाएँ जीवित संरचनाएँ हैं जिनमें नित नई-नई कठबोली भाषाएँ, मुहावरेदार अभिव्यक्तियाँ और तकनीकी शब्द शामिल होते हैं। कंपनी इन भाषाई विकासों की निगरानी करने और कृत्रिम बुद्धिमत्ता के आंतरिक शब्दकोशों को लगातार अद्यतन करने के लिए भारतीय विश्वविद्यालयों और अनुसंधान संस्थानों के साथ साझेदारी बनाए रखती है।

जब कोई नया शब्द किसी दिए गए प्रांत में लोकप्रिय हो जाता है, तो शब्द को पहचानने और उसे सही खोज संदर्भ के साथ जोड़ने के लिए एल्गोरिदम को जल्दी से कैलिब्रेट करने की आवश्यकता होती है। यह सावधानीपूर्वक क्यूरेशन कार्य सिस्टम को अप्रासंगिक परिणाम या शाब्दिक अनुवाद देने से रोकता है जिनका स्थानीय संस्कृति में कोई मतलब नहीं है। सिमेंटिक सटीकता मुख्य कारक है जो लंबी अवधि में टूल में उपयोगकर्ता के भरोसे को निर्धारित करती है।

बड़े पैमाने पर डेटा प्रोसेसिंग

दस से अधिक एक साथ भाषाओं में लाखों ध्वनि प्रश्नों का दैनिक संचालन भारी मात्रा में डेटा उत्पन्न करता है जिसे एक सेकंड के अंशों में संसाधित करने की आवश्यकता होती है। इस कार्य के लिए जिम्मेदार डेटा केंद्र वास्तविक समय में विशेष रूप से ऑडियो डिकोडिंग और प्राकृतिक भाषा व्याख्या के लिए समर्पित प्रोसेसर का उपयोग करते हैं। सिस्टम आर्किटेक्चर को प्रतिक्रिया गति को प्राथमिकता देने के लिए डिज़ाइन किया गया था, यह सुनिश्चित करते हुए कि उपयोगकर्ता का अनुभव आमने-सामने की मानव बातचीत के समान तरल और प्राकृतिक है। एक्सेस शिखर के दौरान, ऑडियो ट्रांसक्रिप्शन में मंदी या विफलताओं से बचने के लिए नेटवर्क विभिन्न क्षेत्रीय सर्वरों के बीच प्रोसेसिंग लोड वितरित करता है। वॉयस रिकॉर्डिंग की सुरक्षा और गोपनीयता भी सख्त ऑपरेटिंग प्रोटोकॉल का हिस्सा है, जिसमें टेक्स्ट में रूपांतरण के तुरंत बाद ऑडियो फाइलों को अज्ञात कर दिया जाता है। यह पूरा तकनीकी तंत्र पर्दे के पीछे काम करता है ताकि अंतिम उपयोगकर्ता बस एक बटन दबाए, एक प्रश्न पूछे और बातचीत के लिए चुनी गई बोली की परवाह किए बिना तुरंत वांछित जानकारी प्राप्त कर सके।

डिजिटल नेविगेशन को पुनः परिभाषित करना

उभरते बाजारों में मौखिक अनुसंधान का समेकन ऑनलाइन वातावरण में मनुष्यों और मशीनों के बीच बातचीत का एक नया मानक स्थापित करता है। वॉयस तकनीक एक द्वितीयक पहुंच संसाधन नहीं रह गई है और वर्ल्ड वाइड वेब के मुख्य प्रवेश द्वार के रूप में अग्रणी हो गई है।