تقوم Google بتغيير النظام الصوتي في تطبيق Gemini Live وتعديل إيقاع اللهجات الإقليمية
بدأ مستخدمو مساعد Google الافتراضي في الإبلاغ عن حالات عدم استقرار كبيرة في إعدادات الصوت أثناء التفاعلات في الوقت الفعلي. تؤثر التعديلات بشكل مباشر على تجربة المستخدم، وتغير الخصائص الأساسية للخيارات المحددة في التطبيق.
تتجلى المشكلة بشكل رئيسي في إيقاع الكلام، ونبرة الردود واتساق اللهجات الإقليمية. تحدث هذه الاختلافات بشكل غير متوقع، مما يؤدي إلى تحويل نمط الاتصال في نظام الذكاء الاصطناعي أثناء الحوارات المستمرة.
وأصبحت العيوب واضحة بعد تطبيق التحديثات الأخيرة على نماذج اللغة الخاصة بالشركة. أصبح التناقض بين عينة الصوت المقدمة في الإعدادات والصوت الناتج عمليًا هو الهدف الرئيسي للشكاوى في منتديات التكنولوجيا التي تركز على الأجهزة المحمولة.
تناقضات الصوت وتجربة المستخدم
يقدم خيار الصوت المعروف باسم كابيلا، والذي يتميز بلكنة أنثوية بريطانية، التشوهات الأكثر وضوحًا منذ إطلاقه. يلاحظ المستهلكون أن الشخصية الأصلية للصوت تُفقد بسرعة بعد الأوامر القليلة الأولى.
أثناء المحادثات المطولة، يظهر النظام صعوبة في الحفاظ على النمط الإقليمي الذي اختاره الفرد. تبدأ استجابات المساعد بالتناوب بشكل مستقل بين اللهجات الأسترالية والاختلافات الأكثر حيادية للغة الإنجليزية الأمريكية، مما يخلق تجربة استماع مجزأة ومربكة لأولئك الذين يعتمدون على الأداة في المهام أو الدراسات اليومية.
يشير سلوك التطبيق إلى أن المعالجة في الوقت الفعلي تواجه اختناقات عند محاولة الحفاظ على تعديل الصوت المعقد الذي تتطلبه الإصدارات الجديدة من نموذج الذكاء الاصطناعي. عندما يقوم المستخدم بإعادة تشغيل إجبارية للبرنامج، تتم استعادة اللكنة الأصلية، ولكن هذا الإصلاح له تأثير مؤقت فقط. وبعد بضع دقائق من التفاعل المستمر، يتحول الصوت مرة أخرى إلى نسخة هجينة، مما يدل على أن نظام تركيب الكلام غير قادر على الحفاظ على الاستقرار في الجلسات التي تتطلب معالجة سياقية أكبر واستجابات طويلة.
- تنخفض سرعة الكلام بشكل كبير في الاستجابات المعقدة.
- يتم تقليل النغمات الثلاثية الأصلية بشكل ملحوظ أثناء الاستخدام.
- يتم خلط لهجات مختلفة في نفس الجملة دون قصد.
- توفر إعادة تشغيل التطبيق حلاً بديلاً للمشكلة فقط.
التحف الصوتية في جلسات موسعة
بالإضافة إلى التغييرات في الهوية الصوتية، بدأ المساعد في تقديم أصوات غير مرغوب فيها أثناء إعادة إنتاج الاستجابات. تظهر المؤثرات الصوتية، مثل الطقطقة والفرقعات الصغيرة والهسهسة في الخلفية، بشكل متقطع أثناء قيام النظام بمعالجة المعلومات المطلوبة وتقديمها.
هذه التداخلات الصوتية ليس لها علاقة مباشرة بتغيير اللهجات، لكنها تزيد من سوء تصور انخفاض جودة الخدمة. يختلف تردد الضوضاء بشكل كبير اعتمادًا على خيار الصوت المنشط والجهاز المستخدم للوصول إلى المنصة.
اختلافات الأداء حسب النظام الأساسي
تثبت الاختبارات العملية أن استقرار الصوت يعتمد بشدة على سياق الاستخدام وبيئة الأجهزة. نادرًا ما تؤدي الأوامر السريعة والدقيقة التي تتطلب استجابات قصيرة إلى حدوث فجوات في الإيقاع أو مزيج من اللكنات التي أبلغ عنها المستهلكون.
يقدم تكامل المساعد مع أنظمة السيارات، مثل Android Auto، سلوكًا متميزًا بشكل ملحوظ. في هذه البيئات، يتم الحفاظ على الخصائص الأصلية للأصوات المختارة بشكل أكثر فعالية، حتى في التفاعلات التي تتطلب وقتًا أطول للمعالجة.
يشير هذا الاختلاف في الأداء إلى أن إدارة موارد تطبيق الهاتف المحمول قد تؤثر على عرض الصوت. يبدو أن ضغط البيانات أو تخصيص الذاكرة على الهواتف الذكية يتداخل بشكل مباشر مع قدرة النموذج على الحفاظ على الإخلاص الصوتي.
خيارات التخصيص والتعديلات المتاحة
توفر لوحة إعدادات المساعد كتالوجًا متنوعًا للملفات الصوتية للتخصيص. هدف الشركة هو تمكين كل فرد من العثور على النغمة والإيقاع واللهجة التي تجعل التفاعل مع الآلة أكثر طبيعية وممتعة.
تتراوح الملامح من الأخشاب الأكثر جدية ورسمية إلى الخيارات الأكثر استرخاءً واسترخاءً. يتم الاختيار ببساطة من خلال القائمة الرئيسية، حيث يتم تشغيل عينة صوتية مختصرة لمساعدة المستهلك في الاختيار.
وفي ظل المشاكل الأخيرة، اعتمد العديد من المستخدمين استراتيجية التبديل المستمر بين هذه الملفات الشخصية في محاولة للعثور على خيار أقل عرضة للفشل. ومع ذلك، يعمل تبديل الصوت فقط كحل مؤقت لعدم استقرار النظام.
يظل جذر المشكلة مرتبطًا بالطريقة التي تعالج بها البرامج اللغة الطبيعية في الوقت الفعلي. تؤثر التحديثات المستمرة على خوادم الشركة على سلوك جميع الخيارات المتاحة في الكتالوج، بغض النظر عن النغمة المختارة.
تأثير تحديثات الذكاء الاصطناعي
وتتزامن التغييرات غير المرغوب فيها في السلوك الصوتي مع فترة تنفيذ الإصدارات الجديدة من نماذج اللغات الخاصة بجوجل، وتحديدًا الانتقال إلى البنى التي تركز على السرعة، مثل إصدار Flash Live. الهدف الرئيسي من هذه التحديثات هو تقليل وقت الاستجابة بين سؤال المستخدم وإجابة الجهاز، مما يجعل الحوار أكثر مرونة وأقرب إلى محادثة بشرية حقيقية.
ومع ذلك، يبدو أن تحسين مكاسب السرعة قد أدى إلى آثار جانبية في تقديم تركيب الكلام. عند إعطاء الأولوية للتسليم السريع للنص الذي تم إنشاؤه، قد يتلقى النظام الصوتي حزم البيانات بطريقة مجزأة، وهو ما يفسر فقدان الإيقاع، وانخفاض النغمات العالية وعدم القدرة على الحفاظ على اللهجات الإقليمية المعقدة خلال الفقرات الطويلة جدًا.
إمكانية الوصول والاعتماد على معايير متسقة
إن الاتساق في إعادة إنتاج الأصوات الاصطناعية يتجاوز مسألة التفضيل الجمالي ويؤثر بشكل مباشر على مجال الوصول الرقمي. غالبًا ما يعتمد الأفراد الذين يعانون من إعاقات بصرية أو صعوبات في القراءة أو حالات عصبية معينة على مساعدين افتراضيين لتصفح الإنترنت وقراءة المستندات وتنظيم الأعمال الروتينية اليومية. بالنسبة لهذا الجمهور، تعد الإلمام بنبرة الصوت المختار وسرعته ووضوحه أمرًا ضروريًا لفهم المعلومات بشكل فعال. عندما يغير النظام إيقاعه فجأة، أو يُدخل ضوضاء أو يغير اللهجة في منتصف الجملة، فإن الحمل المعرفي المطلوب لتفسير الرسالة يزداد بشكل كبير. يؤدي هذا الخرق للتوقعات إلى تحويل أداة مفيدة إلى مصدر للإحباط، مما يسلط الضوء على الحاجة الماسة لشركات التكنولوجيا لتنفيذ إجراءات اختبار أكثر صرامة تركز على استقرار الصوت قبل إطلاق تحديثات الذكاء الاصطناعي لعامة الناس.
تحديد المواقع والرصد المستمر
حتى الآن، لم يصدر مطور البرنامج بيانات رسمية توضح بالتفصيل جدولًا زمنيًا للتصحيح النهائي لهذه الحالات الشاذة الصوتية. يواصل مجتمع التكنولوجيا مراقبة سلوك التطبيق مع كل تحديث صامت صغير جديد يتم دفعه إلى الأجهزة.
تطور معالجة اللغة الطبيعية
تمثل الهندسة وراء تركيب الكلام في الوقت الفعلي أحد أكبر التحديات اليوم في مجال التعلم الآلي. يحتاج النظام إلى تفسير النص الذي تم إنشاؤه، وتطبيق التنغيم الصحيح بناءً على السياق، وتقديم الصوت على الفور.
على الرغم من العيوب الحالية في الإيقاع واللهجات، تستمر تكنولوجيا المحادثة المباشرة في التقدم بسرعة. يجب أن تعمل التعديلات على خوارزميات الضغط ومعالجة الصوت في النهاية على تثبيت أداء الأصوات المخصصة على جميع الأنظمة الأساسية المحمولة.
Veja Tambem em News (AR)
خصم كبير على هاتف Galaxy S25 Plus يخفض قيمته إلى أقل من 4500 ريال في المتجر الإلكتروني
يتجاهل Resident Evil الجديد من Zach Cregger الألعاب ويركز على قصة غير مسبوقة بشخصيات جديدة
تشير الشائعات إلى أن Nintendo تقوم بإعداد إصدار خاص من Switch 2 مع طبعة جديدة من Ocarina of Time
يؤدي انخفاض أسعار PlayStation 5 Pro إلى تسريع مبيعات التجزئة الرقمية وإزالة المخزونات العالمية
يعمل التحديث الجديد لنظام Apple على تحسين إدارة المهام العاجلة لمستخدمي iPhone
تسرب تفاصيل أجهزة جهاز PlayStation المحمول الجديد مع رسومات متفوقة على Xbox Series S
تطلق شركة أوبو هاتف Find X9 Ultra رسميًا في جميع أنحاء العالم مع عدسات Hasselblad وبطارية قوية
يكشف تيم كوك عن نماذج أولية جديدة لأجهزة iPhone و iPod احتفالاً بالذكرى الخمسين لشركة Apple
الإصدار الجديد من الهاتف الذكي القابل للطي يضفي لمسة نهائية ذهبية على المنافسين في الألعاب الشتوية
تقوم سامسونج بتحديث وحدة QuickStar وتوسع التحكم البصري باللوحة في واجهة One UI 8.5
يتلقى نظام Android تكامل Gemini Nano 4 الأصلي للمعالجة في وضع عدم الاتصال على الهواتف الذكية