News (FA)

Google سیستم صوتی را در برنامه Gemini Live تغییر می‌دهد و آهنگ لهجه‌های منطقه‌ای را تغییر می‌دهد

Gemini
Foto: Gemini - Primakov / Shutterstock.com

کاربران دستیار مجازی گوگل شروع به گزارش بی ثباتی های قابل توجه در تنظیمات صوتی در طول تعاملات بلادرنگ کردند. تغییرات به طور مستقیم بر تجربه کاربر تأثیر می گذارد و ویژگی های اساسی گزینه های انتخاب شده در برنامه را تغییر می دهد.

مشکل خود را عمدتاً در آهنگ گفتار، لحن پاسخ‌ها و سازگاری لهجه‌های منطقه‌ای نشان می‌دهد. این تغییرات به طور غیرقابل پیش بینی رخ می دهد و الگوی ارتباطی سیستم هوش مصنوعی را در طول گفتگوهای مداوم تغییر می دهد.

جوزا
جمینی – mundissima/ Shutterstock.com

این نقص ها پس از اجرای به روز رسانی های اخیر در مدل های زبان این شرکت آشکار شد. اختلاف بین نمونه صوتی ارائه شده در تنظیمات و صدای بازتولید شده در عمل به هدف اصلی شکایات در انجمن های فناوری متمرکز بر دستگاه های تلفن همراه تبدیل شده است.

ناهماهنگی صدا و تجربه کاربر

گزینه صوتی معروف به Capella، که با لهجه زنانه بریتانیایی مشخص می شود، مشهودترین اعوجاج ها را از زمان راه اندازی خود ارائه می دهد. مصرف کنندگان متوجه می شوند که شخصیت اصلی صدا پس از چند دستور اول به سرعت از بین می رود.

در طول مکالمات طولانی، سیستم در حفظ الگوی منطقه ای انتخاب شده توسط فرد مشکل نشان می دهد. پاسخ‌های دستیار به طور مستقل بین لهجه‌های استرالیایی و تغییرات خنثی‌تر انگلیسی آمریکایی تغییر می‌کند و تجربه گوش دادن تکه‌تکه و گیج‌کننده را برای کسانی که برای کارهای روزانه یا مطالعات به ابزار تکیه می‌کنند، ایجاد می‌کند.

رفتار این برنامه نشان می‌دهد که پردازش بلادرنگ هنگام تلاش برای حفظ مدولاسیون صدای پیچیده مورد نیاز نسخه‌های جدید مدل هوش مصنوعی با تنگناهایی روبرو می‌شود. هنگامی که کاربر یک راه اندازی مجدد اجباری نرم افزار را انجام می دهد، لهجه اصلی بازیابی می شود، اما این اصلاح فقط یک اثر موقت دارد. پس از چند دقیقه تعامل مداوم، صدا دوباره به یک نسخه ترکیبی تبدیل می‌شود و نشان می‌دهد که سیستم سنتز گفتار قادر به حفظ ثبات در جلساتی نیست که نیاز به پردازش متنی بیشتر و پاسخ‌های طولانی دارند.

  • سرعت گفتار در پاسخ های پیچیده به طور قابل توجهی کاهش می یابد.
  • صدای سه گانه اصلی در حین استفاده به میزان قابل توجهی کاهش می یابد.
  • لهجه های مختلف ناخواسته در یک جمله مخلوط می شوند.
  • راه اندازی مجدد برنامه فقط یک راه حل برای مشکل ارائه می دهد.

مصنوعات صوتی در جلسات طولانی

علاوه بر تغییرات در هویت صوتی، دستیار شروع به ارائه صداهای ناخواسته در طول بازتولید پاسخ ها کرد. مصنوعات صدا، مانند ترقه، صداهای کوچک و صدای خش خش پس زمینه، به صورت پراکنده در هنگام پردازش و ارائه اطلاعات درخواستی توسط سیستم ظاهر می شوند.

این تداخل‌های صوتی ارتباط مستقیمی با تغییر لهجه‌ها ندارند، اما درک افت کیفیت خدمات را بدتر می‌کنند. فرکانس نویزها بسته به گزینه صوتی فعال شده و دستگاه مورد استفاده برای دسترسی به پلت فرم بسیار متفاوت است.

تغییرات عملکرد بر اساس پلت فرم

آزمایش های عملی نشان می دهد که پایداری صدا به شدت به زمینه استفاده و محیط سخت افزاری بستگی دارد. دستورات سریع و دقیق که به پاسخ‌های کوتاه نیاز دارند، به ندرت باعث ایجاد شکاف‌های آهنگ یا ترکیب‌های تاکیدی گزارش‌شده توسط مصرف‌کنندگان می‌شوند.

ادغام دستیار با سیستم‌های خودرو، مانند Android Auto، رفتار فوق‌العاده‌ای را نشان می‌دهد. در این محیط‌ها، ویژگی‌های اصلی صداهای انتخاب‌شده، حتی در تعامل‌هایی که به زمان پردازش طولانی‌تری نیاز دارند، به طور مؤثرتری حفظ می‌شوند.

این تفاوت در عملکرد نشان می دهد که مدیریت منابع برنامه تلفن همراه ممکن است بر رندر صدا تأثیر بگذارد. به نظر می رسد فشرده سازی داده یا تخصیص حافظه در تلفن های هوشمند مستقیماً با توانایی مدل در حفظ وفاداری صوتی تداخل دارد.

گزینه های سفارشی سازی و تنظیمات موجود است

پانل تنظیمات دستیار کاتالوگ متنوعی از پروفایل های صوتی را برای سفارشی سازی فراهم می کند. هدف این شرکت این است که هر فرد را قادر سازد لحن، ریتم و لهجه ای را بیابد که تعامل با دستگاه را طبیعی تر و لذت بخش تر می کند.

پروفیل ها از زنگ های جدی تر و رسمی تر تا گزینه های با صدای بلندتر و آرامش بخش هستند. انتخاب به سادگی از طریق منوی اصلی انجام می شود، جایی که یک نمونه صوتی مختصر برای کمک به مصرف کننده در انتخاب پخش می شود.

با توجه به مشکلات اخیر، بسیاری از کاربران استراتژی جابجایی مداوم بین این پروفایل‌ها را در تلاش برای یافتن گزینه‌ای که کمتر مستعد شکست است، اتخاذ کرده‌اند. با این حال، تغییر صدا تنها به عنوان یک راه حل موقت برای بی ثباتی سیستم عمل می کند.

ریشه مشکل همچنان به نحوه پردازش زبان طبیعی در زمان واقعی توسط نرم افزار بستگی دارد. به روز رسانی های مداوم در سرورهای شرکت بر رفتار همه گزینه های موجود در کاتالوگ، صرف نظر از لحن انتخاب شده، تأثیر می گذارد.

تاثیر به‌روزرسانی‌های هوش مصنوعی

تغییرات ناخواسته در رفتار صوتی همزمان با دوره اجرای نسخه های جدید مدل های زبان گوگل، به ویژه انتقال به معماری های متمرکز بر سرعت، مانند نسخه Flash Live است. هدف اصلی این به‌روزرسانی‌ها کاهش زمان تأخیر بین سؤال کاربر و پاسخ دستگاه است و گفت‌وگو را روان‌تر و به یک مکالمه واقعی انسانی نزدیک‌تر می‌کند.

با این حال، به نظر می رسد بهینه سازی برای افزایش سرعت، عوارض جانبی در ارائه سنتز گفتار ایجاد کرده است. هنگامی که تحویل سریع متن تولید شده را در اولویت قرار می دهیم، سیستم صوتی ممکن است بسته های داده را به صورت تکه تکه دریافت کند، که از دست دادن آهنگ، کاهش آهنگ های بالا و ناتوانی در حفظ لهجه های منطقه ای پیچیده در طول پاراگراف های بسیار طولانی را توضیح می دهد.

دسترسی و تکیه بر استانداردهای ثابت

ثبات در بازتولید صداهای مصنوعی فراتر از موضوع ترجیح زیبایی شناختی است و مستقیماً بر حوزه دسترسی دیجیتال تأثیر می گذارد. افرادی که دارای اختلالات بینایی، مشکلات خواندن یا شرایط خاص عصبی هستند، اغلب برای مرور اینترنت، خواندن اسناد و سازماندهی کارهای روزمره به دستیاران مجازی متکی هستند. برای این مخاطب، آشنایی با لحن، سرعت و وضوح صدای انتخابی برای درک مؤثر اطلاعات ضروری است. هنگامی که سیستم به طور ناگهانی آهنگ خود را تغییر می دهد، نویز وارد می کند یا لهجه را در وسط جمله تغییر می دهد، بار شناختی مورد نیاز برای تفسیر پیام به میزان قابل توجهی افزایش می یابد. این نقض انتظارات، ابزار مفیدی را به منبعی برای ناامیدی تبدیل می‌کند و نیاز حیاتی شرکت‌های فناوری را برای اجرای روال‌های آزمایش دقیق‌تر متمرکز بر پایداری صدا قبل از انتشار به‌روزرسانی‌های هوش مصنوعی برای عموم، برجسته می‌کند.

موقعیت یابی و نظارت مستمر

تا به امروز، توسعه‌دهنده نرم‌افزار بیانیه‌ای رسمی مبنی بر جزئیات جدول زمانی برای اصلاح قطعی این ناهنجاری‌های صوتی صادر نکرده است. جامعه فناوری با هر به‌روزرسانی بی‌صدا جدید که به دستگاه‌ها ارسال می‌شود، به نظارت بر رفتار برنامه‌ها ادامه می‌دهد.

تکامل پردازش زبان طبیعی

مهندسی پشت سنتز گفتار بلادرنگ یکی از بزرگترین چالش‌های امروزی در زمینه یادگیری ماشینی است. سیستم باید متن تولید شده را تفسیر کند، لحن صحیح را بر اساس زمینه اعمال کند و صدا را فوراً ارائه دهد.

با وجود نقص‌های فعلی در آهنگ و لهجه، فناوری مکالمه زنده به سرعت در حال پیشرفت است. تنظیمات فشرده سازی و الگوریتم های پردازش صدا در نهایت باید عملکرد صداهای سفارشی را در همه سیستم عامل های تلفن همراه تثبیت کند.

Veja Tambem em News (FA)

Ye در یک شب رکورددار در استادیوم SoFi در لس آنجلس بیش از 18 میلیون درآمد کسب می کند

Ye در یک شب رکورددار در استادیوم SoFi در لس آنجلس بیش از 18 میلیون درآمد کسب می کند

پلتفرم اپیک گیمز دوازده بازی پر هزینه را بدون هزینه دائمی برای کاربران رایانه شخصی منتشر می کند

پلتفرم اپیک گیمز دوازده بازی پر هزینه را بدون هزینه دائمی برای کاربران رایانه شخصی منتشر می کند

کاهش قیمت پلی استیشن 5 پرو فروش خرده فروشی دیجیتال را تسریع می کند و سهام جهانی را حذف می کند

کاهش قیمت پلی استیشن 5 پرو فروش خرده فروشی دیجیتال را تسریع می کند و سهام جهانی را حذف می کند

Leak بازی Lords of the Fallen و Sword Art Online را در کاتالوگ ماه آوریل PS Plus Essential نشان می دهد.

Leak بازی Lords of the Fallen و Sword Art Online را در کاتالوگ ماه آوریل PS Plus Essential نشان می دهد.

به روز رسانی سیستم جدید اپل مدیریت وظایف فوری را برای کاربران آیفون بهینه می کند

به روز رسانی سیستم جدید اپل مدیریت وظایف فوری را برای کاربران آیفون بهینه می کند

سازندگان حسگرهای عکس گوشی های هوشمند برتر را با تمرکز بر زوم و هوش مصنوعی به روز می کنند

سازندگان حسگرهای عکس گوشی های هوشمند برتر را با تمرکز بر زوم و هوش مصنوعی به روز می کنند

سازنده OPPO تاریخ رسمی معرفی گوشی های هوشمند جدید Find X9 Ultra و Pro را با تمرکز بر دوربین تایید کرد.

سازنده OPPO تاریخ رسمی معرفی گوشی های هوشمند جدید Find X9 Ultra و Pro را با تمرکز بر دوربین تایید کرد.

گوشی هوشمند جدید شیائومی 18 پرو مکس دارای دو دوربین 200 مگاپیکسلی و آخرین نسل پردازنده است

گوشی هوشمند جدید شیائومی 18 پرو مکس دارای دو دوربین 200 مگاپیکسلی و آخرین نسل پردازنده است

اپل آیفون تاشو جدیدی تولید کرده و نسخه ویژه ای را برای جشن 20 سالگی این برند آماده می کند

اپل آیفون تاشو جدیدی تولید کرده و نسخه ویژه ای را برای جشن 20 سالگی این برند آماده می کند

والت دیزنی خرید کامل Epic Games را مطالعه می کند تا تسلط خود را در بازار بازی های دیجیتال گسترش دهد

والت دیزنی خرید کامل Epic Games را مطالعه می کند تا تسلط خود را در بازار بازی های دیجیتال گسترش دهد

مدل جدید ناوبری جهانی جابجایی سالانه 36 کیلومتری قطب مغناطیسی زمین را تصحیح می کند

مدل جدید ناوبری جهانی جابجایی سالانه 36 کیلومتری قطب مغناطیسی زمین را تصحیح می کند

جزئیات سخت افزار جدید پلی استیشن قابل حمل با گرافیک برتر نسبت به Xbox Series S فاش شد

جزئیات سخت افزار جدید پلی استیشن قابل حمل با گرافیک برتر نسبت به Xbox Series S فاش شد