گوگل کے ورچوئل اسسٹنٹ کے صارفین نے ریئل ٹائم بات چیت کے دوران آڈیو سیٹنگز میں نمایاں عدم استحکام کی اطلاع دینا شروع کی۔ تبدیلیاں براہ راست صارف کے تجربے کو متاثر کرتی ہیں، ایپلی کیشن میں منتخب کردہ اختیارات کی بنیادی خصوصیات کو تبدیل کرتی ہیں۔
مسئلہ خود کو بنیادی طور پر تقریر کے انداز، ردعمل کے لہجے اور علاقائی لہجوں کی مستقل مزاجی سے ظاہر ہوتا ہے۔ یہ تغیرات غیر متوقع طور پر واقع ہوتے ہیں، مسلسل مکالموں کے دوران مصنوعی ذہانت کے نظام کے مواصلاتی انداز کو تبدیل کرتے ہیں۔
کمپنی کے لینگویج ماڈلز میں حالیہ اپ ڈیٹس کے نفاذ کے بعد خامیاں واضح ہو گئیں۔ سیٹنگز میں پیش کردہ آڈیو سیمپل اور عملی طور پر دوبارہ پیدا ہونے والی آواز کے درمیان فرق موبائل آلات پر مرکوز ٹیکنالوجی فورمز پر شکایات کا بنیادی ہدف بن گیا ہے۔
صوتی تضادات اور صارف کا تجربہ
کیپیلا کے نام سے جانا جانے والا صوتی آپشن، جس کی خصوصیت برطانوی خواتین کے لہجے سے ہوتی ہے، اپنے آغاز کے بعد سے سب سے زیادہ واضح تحریفات پیش کرتی ہے۔ صارفین نوٹ کرتے ہیں کہ ابتدائی چند کمانڈز کے بعد آڈیو کی اصل شخصیت تیزی سے ختم ہو جاتی ہے۔
طویل گفتگو کے دوران، نظام فرد کے منتخب کردہ علاقائی طرز کو برقرار رکھنے میں دشواری کا مظاہرہ کرتا ہے۔ اسسٹنٹ کے جوابات آسٹریلوی لہجوں اور امریکی انگریزی کے زیادہ غیر جانبدار تغیرات کے درمیان متبادل طور پر خود مختار ہونا شروع ہو جاتے ہیں، جس سے ان لوگوں کے لیے سننے کا ایک منقسم اور الجھا ہوا تجربہ ہوتا ہے جو روزمرہ کے کاموں یا مطالعے کے لیے ٹول پر انحصار کرتے ہیں۔
ایپلی کیشن کے رویے سے پتہ چلتا ہے کہ مصنوعی ذہانت کے ماڈل کے نئے ورژن کے لیے درکار پیچیدہ آواز کی ماڈیولیشن کو برقرار رکھنے کی کوشش کرتے وقت ریئل ٹائم پروسیسنگ کو رکاوٹوں کا سامنا کرنا پڑتا ہے۔ جب صارف سافٹ ویئر کو زبردستی دوبارہ شروع کرتا ہے، تو اصل لہجہ بحال ہوجاتا ہے، لیکن اس اصلاح کا صرف ایک عارضی اثر ہوتا ہے۔ چند منٹوں کے مسلسل تعامل کے بعد، آواز دوبارہ ایک ہائبرڈ ورژن میں تبدیل ہو جاتی ہے، جس سے یہ ظاہر ہوتا ہے کہ تقریر کی ترکیب کا نظام ان سیشنز میں استحکام برقرار رکھنے سے قاصر ہے جس کے لیے زیادہ سیاق و سباق کی پروسیسنگ اور طویل ردعمل کی ضرورت ہوتی ہے۔
- پیچیدہ ردعمل میں تقریر کی رفتار کافی کم ہو جاتی ہے۔
- استعمال کے دوران اصل ٹریبل ٹونز نمایاں طور پر کم ہو جاتے ہیں۔
- ایک ہی جملے میں غیر ارادی طور پر مختلف لہجے مل جاتے ہیں۔
- ایپلیکیشن کو دوبارہ شروع کرنا صرف اس مسئلے کا حل پیش کرتا ہے۔
توسیعی سیشنز میں آڈیو نمونے
آواز کی شناخت میں تبدیلیوں کے علاوہ، اسسٹنٹ نے جوابات کی تولید کے دوران ناپسندیدہ آوازیں پیش کرنا شروع کر دیں۔ صوتی نمونے، جیسے کریکلز، چھوٹے پاپس اور بیک گراؤنڈ ہِس، وقتاً فوقتاً ظاہر ہوتے ہیں جب سسٹم پراسیس کرتا ہے اور مطلوبہ معلومات فراہم کرتا ہے۔
ان صوتی مداخلتوں کا لہجوں کی تبدیلی کے ساتھ براہ راست تعلق نہیں ہے، لیکن یہ خدمت کے معیار میں کمی کے تاثر کو خراب کرتے ہیں۔ آواز کی فریکوئنسی ایکٹیویٹ شدہ آواز کے آپشن اور پلیٹ فارم تک رسائی کے لیے استعمال ہونے والے آلے کے لحاظ سے بہت زیادہ مختلف ہوتی ہے۔
پلیٹ فارم کے لحاظ سے کارکردگی کے تغیرات
عملی ٹیسٹ یہ ظاہر کرتے ہیں کہ آڈیو استحکام استعمال کے سیاق و سباق اور ہارڈ ویئر کے ماحول پر مضبوطی سے منحصر ہے۔ فوری، ٹو دی پوائنٹ کمانڈز جن کے لیے مختصر جوابات کی ضرورت ہوتی ہے شاذ و نادر ہی صارفین کی طرف سے اطلاع دی گئی کیڈینس گیپس یا لہجے کے مرکب کو متحرک کرتے ہیں۔
اسسٹنٹ کا آٹوموٹیو سسٹمز کے ساتھ انضمام، جیسے کہ Android Auto، خاص طور پر اعلیٰ رویہ پیش کرتا ہے۔ ان ماحول میں، منتخب آوازوں کی اصل خصوصیات کو زیادہ مؤثر طریقے سے محفوظ کیا جاتا ہے، یہاں تک کہ ان تعاملات میں بھی جو طویل پروسیسنگ وقت کی ضرورت ہوتی ہے۔
کارکردگی میں یہ فرق ظاہر کرتا ہے کہ موبائل ایپ کے وسائل کا انتظام آڈیو رینڈرنگ کو متاثر کر رہا ہے۔ اسمارٹ فونز پر ڈیٹا کمپریشن یا میموری مختص کرنا ماڈل کی آواز کی مخلصی کو برقرار رکھنے کی صلاحیت میں براہ راست مداخلت کرتا ہے۔
حسب ضرورت کے اختیارات اور ایڈجسٹمنٹ دستیاب ہیں۔
اسسٹنٹ کا سیٹنگز پینل حسب ضرورت کے لیے مخر پروفائلز کا متنوع کیٹلاگ فراہم کرتا ہے۔ کمپنی کا مقصد ہر فرد کو ایک لہجہ، تال اور لہجہ تلاش کرنے کے قابل بنانا ہے جو مشین کے ساتھ بات چیت کو زیادہ قدرتی اور خوشگوار بناتا ہے۔
پروفائلز زیادہ سنجیدہ اور رسمی ٹمبروں سے لے کر زیادہ اونچی اور آرام دہ اختیارات تک ہیں۔ انتخاب صرف مین مینو کے ذریعے کیا جاتا ہے، جہاں ایک مختصر آڈیو نمونہ چلایا جاتا ہے تاکہ صارف کو انتخاب میں مدد ملے۔
حالیہ مسائل کی روشنی میں، بہت سے صارفین نے ان پروفائلز کے درمیان مسلسل سوئچ کرنے کی حکمت عملی اپنائی ہے تاکہ ایسا آپشن تلاش کیا جا سکے جو ناکامی کے لیے کم حساس ہو۔ تاہم، صوتی سوئچنگ سسٹم کے عدم استحکام کے لیے صرف ایک عارضی حل کے طور پر کام کرتی ہے۔
مسئلے کی جڑ اس طرح سے جڑی ہوئی ہے جس طرح سافٹ ویئر قدرتی زبان کو حقیقی وقت میں پروسیس کرتا ہے۔ کمپنی کے سرورز پر مسلسل اپ ڈیٹس کیٹلاگ میں دستیاب تمام آپشنز کے رویے کو متاثر کرتی ہیں، قطع نظر اس کے کہ منتخب کردہ ٹون کچھ بھی ہو۔
مصنوعی ذہانت کی تازہ کاریوں کا اثر
آڈیو رویے میں ناپسندیدہ تبدیلیاں گوگل کے لینگویج ماڈلز کے نئے ورژن کے نفاذ کی مدت کے ساتھ مطابقت رکھتی ہیں، خاص طور پر اسپیڈ فوکسڈ آرکیٹیکچرز، جیسے کہ فلیش لائیو ورژن۔ ان اپڈیٹس کا بنیادی مقصد صارف کے سوال اور مشین کے جواب کے درمیان تاخیر کے وقت کو کم کرنا ہے، جس سے مکالمے کو مزید روانی اور حقیقی انسانی گفتگو کے قریب تر بنانا ہے۔
تاہم، ایسا لگتا ہے کہ رفتار کے حصول کے لیے اصلاح نے تقریر کی ترکیب کی انجام دہی میں ضمنی اثرات پیدا کیے ہیں۔ تخلیق شدہ متن کی تیز ترسیل کو ترجیح دیتے وقت، آڈیو سسٹم بکھرے ہوئے انداز میں ڈیٹا پیکٹ حاصل کر رہا ہو سکتا ہے، جو کہ بہت طویل پیراگراف کے دوران کیڈینس کے نقصان، اونچی آواز کے کم ہونے اور پیچیدہ علاقائی لہجوں کو برقرار رکھنے میں ناکامی کی وضاحت کرے گا۔
قابل رسائی اور مستقل معیارات پر انحصار
مصنوعی آوازوں کے پنروتپادن میں مستقل مزاجی جمالیاتی ترجیح کے مسئلے سے باہر ہے اور ڈیجیٹل رسائی کے دائرے کو براہ راست متاثر کرتی ہے۔ بصارت سے محروم افراد، پڑھنے کی مشکلات یا مخصوص اعصابی حالات اکثر انٹرنیٹ براؤز کرنے، دستاویزات پڑھنے اور روزمرہ کے معمولات کو منظم کرنے کے لیے ورچوئل اسسٹنٹ پر انحصار کرتے ہیں۔ اس سامعین کے لیے، معلومات کو مؤثر طریقے سے سمجھنے کے لیے منتخب آواز کے لہجے، رفتار اور وضاحت سے واقفیت ضروری ہے۔ جب نظام اچانک اپنی رفتار کو تبدیل کرتا ہے، کسی جملے کے بیچ میں شور ڈالتا ہے یا لہجہ بدلتا ہے، تو پیغام کی تشریح کے لیے ضروری علمی بوجھ کافی بڑھ جاتا ہے۔ توقعات کی یہ خلاف ورزی ایک مددگار ٹول کو مایوسی کا ذریعہ بناتی ہے، جو ٹیکنالوجی کمپنیوں کے لیے عام لوگوں کے لیے مصنوعی ذہانت کے اپ ڈیٹس جاری کرنے سے پہلے آڈیو استحکام پر مرکوز زیادہ سخت ٹیسٹنگ روٹینز کو نافذ کرنے کی اہم ضرورت کو اجاگر کرتی ہے۔
مسلسل پوزیشننگ اور نگرانی
آج تک، سافٹ ویئر ڈویلپر نے ان صوتی بے ضابطگیوں کی قطعی اصلاح کے لیے ٹائم لائن کی تفصیل سے متعلق سرکاری بیانات جاری نہیں کیے ہیں۔ ٹیکنالوجی کمیونٹی ہر نئی چھوٹی خاموش اپ ڈیٹ کے ساتھ ایپ کے رویے کی نگرانی کرتی رہتی ہے۔
قدرتی زبان کی پروسیسنگ کا ارتقاء
ریئل ٹائم اسپیچ سنتھیسز کے پیچھے انجینئرنگ مشین لرننگ کے میدان میں آج کے سب سے بڑے چیلنجوں میں سے ایک کی نمائندگی کرتی ہے۔ سسٹم کو تیار کردہ متن کی تشریح کرنے، سیاق و سباق کی بنیاد پر درست لہجے کو لاگو کرنے اور آڈیو کو فوری طور پر پیش کرنے کی ضرورت ہے۔
کیڈنس اور لہجے میں موجودہ خامیوں کے باوجود، لائیو گفتگو کی ٹیکنالوجی تیزی سے آگے بڑھ رہی ہے۔ کمپریشن اور آڈیو پروسیسنگ الگورتھم میں ایڈجسٹمنٹ کو بالآخر تمام موبائل پلیٹ فارمز پر حسب ضرورت آوازوں کی کارکردگی کو مستحکم کرنا چاہیے۔

