Google سیستم صوتی را در برنامه Gemini Live تغییر میدهد و آهنگ لهجههای منطقهای را تغییر میدهد
کاربران دستیار مجازی گوگل شروع به گزارش بی ثباتی های قابل توجه در تنظیمات صوتی در طول تعاملات بلادرنگ کردند. تغییرات به طور مستقیم بر تجربه کاربر تأثیر می گذارد و ویژگی های اساسی گزینه های انتخاب شده در برنامه را تغییر می دهد.
مشکل خود را عمدتاً در آهنگ گفتار، لحن پاسخها و سازگاری لهجههای منطقهای نشان میدهد. این تغییرات به طور غیرقابل پیش بینی رخ می دهد و الگوی ارتباطی سیستم هوش مصنوعی را در طول گفتگوهای مداوم تغییر می دهد.
این نقص ها پس از اجرای به روز رسانی های اخیر در مدل های زبان این شرکت آشکار شد. اختلاف بین نمونه صوتی ارائه شده در تنظیمات و صدای بازتولید شده در عمل به هدف اصلی شکایات در انجمن های فناوری متمرکز بر دستگاه های تلفن همراه تبدیل شده است.
ناهماهنگی صدا و تجربه کاربر
گزینه صوتی معروف به Capella، که با لهجه زنانه بریتانیایی مشخص می شود، مشهودترین اعوجاج ها را از زمان راه اندازی خود ارائه می دهد. مصرف کنندگان متوجه می شوند که شخصیت اصلی صدا پس از چند دستور اول به سرعت از بین می رود.
در طول مکالمات طولانی، سیستم در حفظ الگوی منطقه ای انتخاب شده توسط فرد مشکل نشان می دهد. پاسخهای دستیار به طور مستقل بین لهجههای استرالیایی و تغییرات خنثیتر انگلیسی آمریکایی تغییر میکند و تجربه گوش دادن تکهتکه و گیجکننده را برای کسانی که برای کارهای روزانه یا مطالعات به ابزار تکیه میکنند، ایجاد میکند.
رفتار این برنامه نشان میدهد که پردازش بلادرنگ هنگام تلاش برای حفظ مدولاسیون صدای پیچیده مورد نیاز نسخههای جدید مدل هوش مصنوعی با تنگناهایی روبرو میشود. هنگامی که کاربر یک راه اندازی مجدد اجباری نرم افزار را انجام می دهد، لهجه اصلی بازیابی می شود، اما این اصلاح فقط یک اثر موقت دارد. پس از چند دقیقه تعامل مداوم، صدا دوباره به یک نسخه ترکیبی تبدیل میشود و نشان میدهد که سیستم سنتز گفتار قادر به حفظ ثبات در جلساتی نیست که نیاز به پردازش متنی بیشتر و پاسخهای طولانی دارند.
- سرعت گفتار در پاسخ های پیچیده به طور قابل توجهی کاهش می یابد.
- صدای سه گانه اصلی در حین استفاده به میزان قابل توجهی کاهش می یابد.
- لهجه های مختلف ناخواسته در یک جمله مخلوط می شوند.
- راه اندازی مجدد برنامه فقط یک راه حل برای مشکل ارائه می دهد.
مصنوعات صوتی در جلسات طولانی
علاوه بر تغییرات در هویت صوتی، دستیار شروع به ارائه صداهای ناخواسته در طول بازتولید پاسخ ها کرد. مصنوعات صدا، مانند ترقه، صداهای کوچک و صدای خش خش پس زمینه، به صورت پراکنده در هنگام پردازش و ارائه اطلاعات درخواستی توسط سیستم ظاهر می شوند.
این تداخلهای صوتی ارتباط مستقیمی با تغییر لهجهها ندارند، اما درک افت کیفیت خدمات را بدتر میکنند. فرکانس نویزها بسته به گزینه صوتی فعال شده و دستگاه مورد استفاده برای دسترسی به پلت فرم بسیار متفاوت است.
تغییرات عملکرد بر اساس پلت فرم
آزمایش های عملی نشان می دهد که پایداری صدا به شدت به زمینه استفاده و محیط سخت افزاری بستگی دارد. دستورات سریع و دقیق که به پاسخهای کوتاه نیاز دارند، به ندرت باعث ایجاد شکافهای آهنگ یا ترکیبهای تاکیدی گزارششده توسط مصرفکنندگان میشوند.
ادغام دستیار با سیستمهای خودرو، مانند Android Auto، رفتار فوقالعادهای را نشان میدهد. در این محیطها، ویژگیهای اصلی صداهای انتخابشده، حتی در تعاملهایی که به زمان پردازش طولانیتری نیاز دارند، به طور مؤثرتری حفظ میشوند.
این تفاوت در عملکرد نشان می دهد که مدیریت منابع برنامه تلفن همراه ممکن است بر رندر صدا تأثیر بگذارد. به نظر می رسد فشرده سازی داده یا تخصیص حافظه در تلفن های هوشمند مستقیماً با توانایی مدل در حفظ وفاداری صوتی تداخل دارد.
گزینه های سفارشی سازی و تنظیمات موجود است
پانل تنظیمات دستیار کاتالوگ متنوعی از پروفایل های صوتی را برای سفارشی سازی فراهم می کند. هدف این شرکت این است که هر فرد را قادر سازد لحن، ریتم و لهجه ای را بیابد که تعامل با دستگاه را طبیعی تر و لذت بخش تر می کند.
پروفیل ها از زنگ های جدی تر و رسمی تر تا گزینه های با صدای بلندتر و آرامش بخش هستند. انتخاب به سادگی از طریق منوی اصلی انجام می شود، جایی که یک نمونه صوتی مختصر برای کمک به مصرف کننده در انتخاب پخش می شود.
با توجه به مشکلات اخیر، بسیاری از کاربران استراتژی جابجایی مداوم بین این پروفایلها را در تلاش برای یافتن گزینهای که کمتر مستعد شکست است، اتخاذ کردهاند. با این حال، تغییر صدا تنها به عنوان یک راه حل موقت برای بی ثباتی سیستم عمل می کند.
ریشه مشکل همچنان به نحوه پردازش زبان طبیعی در زمان واقعی توسط نرم افزار بستگی دارد. به روز رسانی های مداوم در سرورهای شرکت بر رفتار همه گزینه های موجود در کاتالوگ، صرف نظر از لحن انتخاب شده، تأثیر می گذارد.
تاثیر بهروزرسانیهای هوش مصنوعی
تغییرات ناخواسته در رفتار صوتی همزمان با دوره اجرای نسخه های جدید مدل های زبان گوگل، به ویژه انتقال به معماری های متمرکز بر سرعت، مانند نسخه Flash Live است. هدف اصلی این بهروزرسانیها کاهش زمان تأخیر بین سؤال کاربر و پاسخ دستگاه است و گفتوگو را روانتر و به یک مکالمه واقعی انسانی نزدیکتر میکند.
با این حال، به نظر می رسد بهینه سازی برای افزایش سرعت، عوارض جانبی در ارائه سنتز گفتار ایجاد کرده است. هنگامی که تحویل سریع متن تولید شده را در اولویت قرار می دهیم، سیستم صوتی ممکن است بسته های داده را به صورت تکه تکه دریافت کند، که از دست دادن آهنگ، کاهش آهنگ های بالا و ناتوانی در حفظ لهجه های منطقه ای پیچیده در طول پاراگراف های بسیار طولانی را توضیح می دهد.
دسترسی و تکیه بر استانداردهای ثابت
ثبات در بازتولید صداهای مصنوعی فراتر از موضوع ترجیح زیبایی شناختی است و مستقیماً بر حوزه دسترسی دیجیتال تأثیر می گذارد. افرادی که دارای اختلالات بینایی، مشکلات خواندن یا شرایط خاص عصبی هستند، اغلب برای مرور اینترنت، خواندن اسناد و سازماندهی کارهای روزمره به دستیاران مجازی متکی هستند. برای این مخاطب، آشنایی با لحن، سرعت و وضوح صدای انتخابی برای درک مؤثر اطلاعات ضروری است. هنگامی که سیستم به طور ناگهانی آهنگ خود را تغییر می دهد، نویز وارد می کند یا لهجه را در وسط جمله تغییر می دهد، بار شناختی مورد نیاز برای تفسیر پیام به میزان قابل توجهی افزایش می یابد. این نقض انتظارات، ابزار مفیدی را به منبعی برای ناامیدی تبدیل میکند و نیاز حیاتی شرکتهای فناوری را برای اجرای روالهای آزمایش دقیقتر متمرکز بر پایداری صدا قبل از انتشار بهروزرسانیهای هوش مصنوعی برای عموم، برجسته میکند.
موقعیت یابی و نظارت مستمر
تا به امروز، توسعهدهنده نرمافزار بیانیهای رسمی مبنی بر جزئیات جدول زمانی برای اصلاح قطعی این ناهنجاریهای صوتی صادر نکرده است. جامعه فناوری با هر بهروزرسانی بیصدا جدید که به دستگاهها ارسال میشود، به نظارت بر رفتار برنامهها ادامه میدهد.
تکامل پردازش زبان طبیعی
مهندسی پشت سنتز گفتار بلادرنگ یکی از بزرگترین چالشهای امروزی در زمینه یادگیری ماشینی است. سیستم باید متن تولید شده را تفسیر کند، لحن صحیح را بر اساس زمینه اعمال کند و صدا را فوراً ارائه دهد.
با وجود نقصهای فعلی در آهنگ و لهجه، فناوری مکالمه زنده به سرعت در حال پیشرفت است. تنظیمات فشرده سازی و الگوریتم های پردازش صدا در نهایت باید عملکرد صداهای سفارشی را در همه سیستم عامل های تلفن همراه تثبیت کند.
Veja Tambem em News (FA)
Ye در یک شب رکورددار در استادیوم SoFi در لس آنجلس بیش از 18 میلیون درآمد کسب می کند
پلتفرم اپیک گیمز دوازده بازی پر هزینه را بدون هزینه دائمی برای کاربران رایانه شخصی منتشر می کند
کاهش قیمت پلی استیشن 5 پرو فروش خرده فروشی دیجیتال را تسریع می کند و سهام جهانی را حذف می کند
Leak بازی Lords of the Fallen و Sword Art Online را در کاتالوگ ماه آوریل PS Plus Essential نشان می دهد.
به روز رسانی سیستم جدید اپل مدیریت وظایف فوری را برای کاربران آیفون بهینه می کند
سازندگان حسگرهای عکس گوشی های هوشمند برتر را با تمرکز بر زوم و هوش مصنوعی به روز می کنند
سازنده OPPO تاریخ رسمی معرفی گوشی های هوشمند جدید Find X9 Ultra و Pro را با تمرکز بر دوربین تایید کرد.
گوشی هوشمند جدید شیائومی 18 پرو مکس دارای دو دوربین 200 مگاپیکسلی و آخرین نسل پردازنده است
اپل آیفون تاشو جدیدی تولید کرده و نسخه ویژه ای را برای جشن 20 سالگی این برند آماده می کند
والت دیزنی خرید کامل Epic Games را مطالعه می کند تا تسلط خود را در بازار بازی های دیجیتال گسترش دهد
مدل جدید ناوبری جهانی جابجایی سالانه 36 کیلومتری قطب مغناطیسی زمین را تصحیح می کند