গুগল জেমিনি লাইভ অ্যাপ্লিকেশনে ভয়েস সিস্টেম পরিবর্তন করে এবং আঞ্চলিক উচ্চারণের ক্যাডেন্স পরিবর্তন করে

Gemini

Gemini - Primakov / Shutterstock.com

Google এর ভার্চুয়াল সহকারীর ব্যবহারকারীরা রিয়েল-টাইম ইন্টারঅ্যাকশনের সময় অডিও সেটিংসে উল্লেখযোগ্য অস্থিরতার রিপোর্ট করতে শুরু করে। পরিবর্তনগুলি সরাসরি ব্যবহারকারীর অভিজ্ঞতাকে প্রভাবিত করে, অ্যাপ্লিকেশনটিতে নির্বাচিত বিকল্পগুলির মৌলিক বৈশিষ্ট্যগুলি পরিবর্তন করে৷

সমস্যাটি প্রধানত বক্তৃতা, প্রতিক্রিয়ার স্বর এবং আঞ্চলিক উচ্চারণের ধারাবাহিকতায় নিজেকে প্রকাশ করে। এই বৈচিত্রগুলি অপ্রত্যাশিতভাবে ঘটে, ক্রমাগত কথোপকথনের সময় কৃত্রিম বুদ্ধিমত্তা সিস্টেমের যোগাযোগের ধরণকে রূপান্তরিত করে।

মিথুন – মুন্ডিসিমা/ শাটারস্টক ডটকম

কোম্পানির ভাষার মডেলগুলিতে সাম্প্রতিক আপডেটগুলি বাস্তবায়নের পরে ত্রুটিগুলি স্পষ্ট হয়ে ওঠে৷ সেটিংসে দেওয়া অডিও নমুনা এবং অনুশীলনে পুনরুত্পাদিত শব্দের মধ্যে পার্থক্য মোবাইল ডিভাইসগুলিতে ফোকাস করা প্রযুক্তি ফোরামগুলিতে অভিযোগের প্রধান লক্ষ্য হয়ে উঠেছে।

শব্দ অসঙ্গতি এবং ব্যবহারকারীর অভিজ্ঞতা

ক্যাপেলা নামে পরিচিত ভয়েস বিকল্পটি, একটি ব্রিটিশ মহিলা উচ্চারণ দ্বারা চিহ্নিত করা হয়েছে, এটি চালু হওয়ার পর থেকে সবচেয়ে স্পষ্ট বিকৃতি উপস্থাপন করে। গ্রাহকরা লক্ষ্য করেছেন যে প্রথম কয়েকটি কমান্ডের পরে অডিওর আসল ব্যক্তিত্ব দ্রুত হারিয়ে গেছে।

দীর্ঘ কথোপকথনের সময়, সিস্টেমটি ব্যক্তির দ্বারা নির্বাচিত আঞ্চলিক প্যাটার্ন বজায় রাখতে অসুবিধা দেখায়। সহকারীর প্রতিক্রিয়াগুলি অস্ট্রেলিয়ান উচ্চারণ এবং আমেরিকান ইংরেজির আরও নিরপেক্ষ ভিন্নতার মধ্যে স্বায়ত্তশাসিতভাবে শুরু হয়, যারা দৈনন্দিন কাজ বা অধ্যয়নের জন্য টুলের উপর নির্ভর করে তাদের জন্য একটি খণ্ডিত এবং বিভ্রান্তিকর শোনার অভিজ্ঞতা তৈরি করে।

অ্যাপ্লিকেশনটির আচরণ পরামর্শ দেয় যে কৃত্রিম বুদ্ধিমত্তা মডেলের নতুন সংস্করণগুলির জন্য প্রয়োজনীয় জটিল ভয়েস মড্যুলেশন বজায় রাখার চেষ্টা করার সময় রিয়েল-টাইম প্রক্রিয়াকরণ বাধার সম্মুখীন হয়। যখন ব্যবহারকারী সফ্টওয়্যারটির জোরপূর্বক পুনঃসূচনা করেন, তখন মূল অ্যাকসেন্টটি পুনরুদ্ধার করা হয়, তবে এই ফিক্সটি শুধুমাত্র একটি অস্থায়ী প্রভাব ফেলে। কয়েক মিনিটের ক্রমাগত মিথস্ক্রিয়া করার পরে, ভয়েসটি আবার একটি হাইব্রিড সংস্করণে রূপান্তরিত হয়, যা দেখায় যে বক্তৃতা সংশ্লেষণ সিস্টেমটি সেশনগুলিতে স্থিতিশীলতা বজায় রাখতে অক্ষম যার জন্য আরও বেশি প্রাসঙ্গিক প্রক্রিয়াকরণ এবং দীর্ঘ প্রতিক্রিয়া প্রয়োজন।

  • জটিল প্রতিক্রিয়ায় কথার গতি অনেক কমে যায়।
  • ব্যবহারের সময় মূল ট্রিবল টোনগুলি লক্ষণীয়ভাবে হ্রাস পায়।
  • একই বাক্যে অনিচ্ছাকৃতভাবে বিভিন্ন উচ্চারণ মিশ্রিত হয়।
  • অ্যাপ্লিকেশন পুনঃসূচনা শুধুমাত্র সমস্যা সমাধানের প্রস্তাব দেয়।

বর্ধিত সেশনে অডিও শিল্পকর্ম

কণ্ঠস্বর পরিচয়ের পরিবর্তন ছাড়াও, সহকারী প্রতিক্রিয়াগুলির পুনরুত্পাদনের সময় অবাঞ্ছিত শব্দ উপস্থাপন করতে শুরু করে। শব্দ নিদর্শন, যেমন ক্র্যাকলস, ছোট পপস এবং ব্যাকগ্রাউন্ড হিস, সিস্টেম প্রক্রিয়াকরণ এবং অনুরোধ করা তথ্য সরবরাহ করার সাথে সাথে বিক্ষিপ্তভাবে প্রদর্শিত হয়।

এই শাব্দিক হস্তক্ষেপগুলির উচ্চারণ পরিবর্তনের সাথে সরাসরি সংযোগ নেই, তবে তারা পরিষেবার মানের হ্রাসের ধারণাকে আরও খারাপ করে। ভয়েস বিকল্প সক্রিয় করা এবং প্ল্যাটফর্ম অ্যাক্সেস করতে ব্যবহৃত ডিভাইসের উপর নির্ভর করে শব্দের ফ্রিকোয়েন্সি ব্যাপকভাবে পরিবর্তিত হয়।

প্ল্যাটফর্ম দ্বারা কর্মক্ষমতা বৈচিত্র্য

ব্যবহারিক পরীক্ষাগুলি দেখায় যে অডিও স্থায়িত্ব দৃঢ়ভাবে ব্যবহারের প্রেক্ষাপট এবং হার্ডওয়্যার পরিবেশের উপর নির্ভর করে। দ্রুত, টু-দ্য-পয়েন্ট কমান্ড যার জন্য সংক্ষিপ্ত প্রতিক্রিয়া প্রয়োজন তা খুব কমই ভোক্তাদের দ্বারা রিপোর্ট করা ক্যাডেন্স ফাঁক বা উচ্চারণ মিশ্রণগুলিকে ট্রিগার করে।

অ্যানড্রয়েড অটোর মতো স্বয়ংচালিত সিস্টেমের সাথে সহকারীর একীকরণ উল্লেখযোগ্যভাবে উচ্চতর আচরণ উপস্থাপন করে। এই পরিবেশে, নির্বাচিত কণ্ঠের মূল বৈশিষ্ট্যগুলি আরও কার্যকরভাবে সংরক্ষিত হয়, এমনকি মিথস্ক্রিয়াগুলিতেও দীর্ঘ প্রক্রিয়াকরণের সময় প্রয়োজন।

পারফরম্যান্সের এই পার্থক্যটি নির্দেশ করে যে মোবাইল অ্যাপের সংস্থান ব্যবস্থাপনা অডিও রেন্ডারিংকে প্রভাবিত করতে পারে। স্মার্টফোনে ডেটা সংকোচন বা মেমরি বরাদ্দ সরাসরি মডেলের কণ্ঠস্বর বজায় রাখার ক্ষমতাতে হস্তক্ষেপ করে বলে মনে হয়।

কাস্টমাইজেশন বিকল্প এবং সমন্বয় উপলব্ধ

সহকারীর সেটিংস প্যানেল কাস্টমাইজেশনের জন্য ভোকাল প্রোফাইলের একটি বৈচিত্র্যময় ক্যাটালগ প্রদান করে। কোম্পানির লক্ষ্য হল প্রতিটি ব্যক্তিকে একটি সুর, ছন্দ এবং উচ্চারণ খুঁজে পেতে সক্ষম করা যা মেশিনের সাথে যোগাযোগকে আরও স্বাভাবিক এবং আনন্দদায়ক করে তোলে।

প্রোফাইলগুলি আরও গুরুতর এবং আনুষ্ঠানিক টিমব্রেস থেকে আরও উচ্চ-পিচ এবং শিথিল বিকল্পগুলির মধ্যে রয়েছে। নির্বাচন সহজভাবে প্রধান মেনুর মাধ্যমে করা হয়, যেখানে একটি সংক্ষিপ্ত অডিও নমুনা ভোক্তাকে বেছে নিতে সহায়তা করার জন্য চালানো হয়।

সাম্প্রতিক সমস্যার আলোকে, অনেক ব্যবহারকারী এই প্রোফাইলগুলির মধ্যে ক্রমাগত পরিবর্তন করার কৌশল অবলম্বন করেছেন যাতে ব্যর্থতার জন্য কম সংবেদনশীল একটি বিকল্প খুঁজে বের করার চেষ্টা করা হয়। যাইহোক, ভয়েস স্যুইচিং শুধুমাত্র সিস্টেম অস্থিরতার জন্য একটি অস্থায়ী সমাধান হিসাবে কাজ করে।

সমস্যার মূলটি সফ্টওয়্যার যেভাবে প্রাকৃতিক ভাষাকে বাস্তব সময়ে প্রক্রিয়া করে তার সাথে আবদ্ধ থাকে। কোম্পানির সার্ভারে ক্রমাগত আপডেটগুলি ক্যাটালগে উপলব্ধ সমস্ত বিকল্পের আচরণকে প্রভাবিত করে, নির্বাচিত টোন নির্বিশেষে।

কৃত্রিম বুদ্ধিমত্তা আপডেটের প্রভাব

অডিও আচরণের অবাঞ্ছিত পরিবর্তনগুলি Google-এর ভাষা মডেলের নতুন সংস্করণগুলি বাস্তবায়নের সময়কালের সাথে মিলে যায়, বিশেষ করে ফ্ল্যাশ লাইভ সংস্করণের মতো গতি-কেন্দ্রিক আর্কিটেকচারে রূপান্তর। এই আপডেটগুলির মূল উদ্দেশ্য হল ব্যবহারকারীর প্রশ্ন এবং মেশিনের প্রতিক্রিয়ার মধ্যে লেটেন্সি সময় কমানো, সংলাপকে আরও তরল করা এবং সত্যিকারের মানুষের কথোপকথনের কাছাকাছি করা।

যাইহোক, গতি লাভের জন্য অপ্টিমাইজেশান বক্তৃতা সংশ্লেষণের রেন্ডারিংয়ে পার্শ্ব প্রতিক্রিয়া তৈরি করেছে বলে মনে হয়। উৎপন্ন পাঠ্যের দ্রুত বিতরণকে অগ্রাধিকার দেওয়ার সময়, অডিও সিস্টেম একটি খণ্ডিত পদ্ধতিতে ডেটা প্যাকেটগুলি গ্রহণ করতে পারে, যা ক্যাডেন্সের ক্ষতি, উচ্চ টোন হ্রাস এবং খুব দীর্ঘ অনুচ্ছেদের সময় জটিল আঞ্চলিক উচ্চারণ বজায় রাখতে অক্ষমতা ব্যাখ্যা করবে।

অ্যাক্সেসযোগ্যতা এবং সামঞ্জস্যপূর্ণ মান উপর নির্ভরতা

কৃত্রিম কণ্ঠের পুনরুৎপাদনে সামঞ্জস্যতা নান্দনিক পছন্দের ইস্যুকে অতিক্রম করে এবং সরাসরি ডিজিটাল অ্যাক্সেসযোগ্যতার ক্ষেত্রকে প্রভাবিত করে। দৃষ্টি প্রতিবন্ধী, পড়ার অসুবিধা বা নির্দিষ্ট স্নায়বিক অবস্থার ব্যক্তিরা প্রায়শই ভার্চুয়াল সহকারীর উপর নির্ভর করে ইন্টারনেট ব্রাউজ করতে, নথিপত্র পড়তে এবং দৈনন্দিন রুটিনগুলি সংগঠিত করতে। এই শ্রোতাদের জন্য, তথ্যটি কার্যকরভাবে বোঝার জন্য নির্বাচিত কণ্ঠের স্বর, গতি এবং স্বচ্ছতার সাথে পরিচিতি অপরিহার্য। যখন সিস্টেমটি হঠাৎ করে তার ক্যাডেন্স পরিবর্তন করে, শব্দ সন্নিবেশ করে বা বাক্যের মাঝখানে উচ্চারণ পরিবর্তন করে, তখন বার্তাটি ব্যাখ্যা করার জন্য প্রয়োজনীয় জ্ঞানীয় লোড যথেষ্ট বৃদ্ধি পায়। প্রত্যাশার এই লঙ্ঘন একটি সহায়ক হাতিয়ারকে হতাশার উৎসে পরিণত করে, যা সাধারণ জনগণের কাছে কৃত্রিম বুদ্ধিমত্তার আপডেট প্রকাশ করার আগে অডিও স্থিতিশীলতার উপর দৃষ্টি নিবদ্ধ করে আরও কঠোর পরীক্ষার রুটিন বাস্তবায়নের জন্য প্রযুক্তি কোম্পানিগুলির জন্য গুরুত্বপূর্ণ প্রয়োজনীয়তা তুলে ধরে।

ক্রমাগত অবস্থান এবং পর্যবেক্ষণ

আজ অবধি, সফ্টওয়্যার বিকাশকারী এই ভোকাল অসঙ্গতির সুনির্দিষ্ট সংশোধনের জন্য একটি টাইমলাইনের বিশদ বিবরণ দিয়ে অফিসিয়াল বিবৃতি জারি করেনি। প্রযুক্তি সম্প্রদায় ডিভাইসগুলিতে ঠেলে প্রতিটি নতুন ছোট নীরব আপডেটের সাথে অ্যাপের আচরণ পর্যবেক্ষণ করে চলেছে।

প্রাকৃতিক ভাষা প্রক্রিয়াকরণের বিবর্তন

রিয়েল-টাইম স্পিচ সংশ্লেষণের পিছনে ইঞ্জিনিয়ারিং মেশিন লার্নিং এর ক্ষেত্রে আজকে সবচেয়ে বড় চ্যালেঞ্জগুলির একটি প্রতিনিধিত্ব করে। সিস্টেমটিকে জেনারেট করা পাঠ্যের ব্যাখ্যা করতে হবে, প্রসঙ্গের উপর ভিত্তি করে সঠিক স্বর প্রয়োগ করতে হবে এবং অডিওটি অবিলম্বে রেন্ডার করতে হবে।

ক্যাডেন্স এবং উচ্চারণে বর্তমান ত্রুটি থাকা সত্ত্বেও, লাইভ কথোপকথন প্রযুক্তি দ্রুত অগ্রসর হতে থাকে। কম্প্রেশন এবং অডিও প্রসেসিং অ্যালগরিদমগুলির সামঞ্জস্যগুলি অবশেষে সমস্ত মোবাইল প্ল্যাটফর্মে কাস্টম ভয়েসের কর্মক্ষমতা স্থিতিশীল করবে।