News (BG)

Google променя гласовата система в приложението Gemini Live и променя ритъма на регионалните акценти

Gemini
Foto: Gemini - Primakov / Shutterstock.com

Потребителите на виртуалния асистент на Google започнаха да съобщават за значителни нестабилности в аудио настройките по време на взаимодействия в реално време. Модификациите влияят пряко на потребителското изживяване, променяйки основните характеристики на опциите, избрани в приложението.

Проблемът се проявява главно в ритъма на речта, тона на отговорите и последователността на регионалните акценти. Essas вариации възникват непредвидимо, трансформирайки комуникационния модел на системата с изкуствен интелект по време на непрекъснати диалози.

Близнаци
Близнаци – мундисима/ Shutterstock.com

Недостатъците станаха очевидни след внедряването на последните актуализации на езиковите модели на компанията. Несъответствието между предлагания в настройките аудио образец и възпроизвеждания на практика звук се превърна в основна цел на оплаквания на технологични форуми, фокусирани върху мобилни устройства.

Несъответствия в звука и потребителското изживяване

Гласовата опция, известна като Capella, характеризираща се с британски женски акцент, има най-очевидните изкривявания от стартирането си. Потребителите забелязват, че оригиналната индивидуалност на звука бързо се губи след първите няколко команди.

По време на продължителни разговори системата показва трудности при поддържането на регионалния модел, избран от индивида. Отговорите на асистента започват да се редуват автономно между австралийски акценти и по-неутрални вариации на американски английски, създавайки фрагментирано и объркващо слушане за тези, които разчитат на инструмента за ежедневни задачи или учене.

Поведението на приложението предполага, че обработката в реално време е изправена пред затруднения, когато се опитва да поддържа сложната гласова модулация, изисквана от новите версии на модела на изкуствения интелект. Quando потребителят извършва принудително рестартиране на софтуера, оригиналният акцент се възстановява, но тази корекция има само временен ефект. Após След няколко минути непрекъснато взаимодействие гласът се трансформира обратно в хибридна версия, което показва, че системата за синтез на реч не може да поддържа стабилност в сесии, които изискват по-голяма контекстуална обработка и дълги отговори.

  • Скоростта на речта намалява значително при сложни отговори.
  • Оригиналните високи тонове са забележимо намалени по време на употреба.
  • В едно и също изречение неволно се смесват различни акценти.
  • Рестартирането на приложението предлага само решение на проблема.

Аудио артефакти при продължителни сесии

В допълнение към промените във вокалната идентичност, асистентът започна да представя нежелани шумове по време на възпроизвеждането на отговорите. Artefatos звуци, като пукане, тихо пукане и съскане на фона, се появяват спорадично, докато системата обработва и доставя исканата информация.

Тези акустични смущения нямат пряка връзка със смяната на акцентите, но влошават усещането за спад в качеството на услугата. Честотата на шумовете варира значително в зависимост от активираната гласова опция и устройството, използвано за достъп до платформата.

Вариации на производителността според платформата

Практическите тестове показват, че аудио стабилността силно зависи от контекста на използване и хардуерната среда. Comandos Бързи и обективни, които изискват кратки отговори, рядко предизвикват пропуски в ритъма или объркване на акцентите, докладвани от потребителите.

Интеграцията на асистента с автомобилни системи, като Android Auto, показва значително превъзходно поведение. Nesses среди, оригиналните характеристики на избраните гласове се запазват по-ефективно дори при взаимодействия, които изискват по-дълго време за обработка.

Тази разлика в производителността показва, че управлението на ресурсите на мобилното приложение може да влияе върху изобразяването на звука. Компресирането на данни или разпределението на паметта на смартфони изглежда пряко пречат на способността на модела да поддържа гласова вярност.

Налични опции за персонализиране и корекции

Панелът за настройки на асистента предоставя разнообразен каталог от вокални профили за персонализиране. Целта на компанията е да даде възможност на всеки индивид да намери тон, ритъм и акцент, които правят взаимодействието с машината по-естествено и приятно.

Профилите варират от по-сериозни и официални тембри до по-високи и спокойни опции. Изборът се прави просто през главното меню, където се възпроизвежда кратка аудио извадка, за да помогне на потребителя при избора.

В светлината на скорошните проблеми, много потребители са възприели стратегията за постоянно превключване между тези профили в опит да намерят опция, която е по-малко податлива на провал. Превключването на глас обаче действа само като временно решение за нестабилност на системата.

Коренът на проблема остава свързан с начина, по който софтуерът обработва естествения език в реално време. Непрекъснатите актуализации на сървърите на компанията засягат поведението на всички опции, налични в каталога, независимо от избрания тон.

Въздействие на актуализациите на изкуствения интелект

Нежеланите промени в аудио поведението съвпадат с периода на внедряване на новите версии на езиковите модели Google, по-специално прехода към архитектури, фокусирани върху скоростта, като версия Flash Live. Основната цел на тези актуализации е да се намали времето за забавяне между въпроса на потребителя и отговора на машината, правейки диалога по-течен и по-близо до истински човешки разговор.

Въпреки това оптимизирането за увеличаване на скоростта изглежда е генерирало странични ефекти при изобразяването на синтеза на реч. Когато дава приоритет на бързото доставяне на генерирания текст, аудиосистемата може да получава пакети данни по фрагментиран начин, което би обяснило загубата на каданс, понижаването на високите тонове и невъзможността да се поддържат сложни регионални акценти по време на много дълги абзаци.

Достъпност и разчитане на последователни стандарти

Последователността при възпроизвеждането на синтетични гласове надхвърля въпроса за естетическите предпочитания и пряко засяга сферата на цифровата достъпност. Indivíduos хора със зрителни увреждания, затруднения в четенето или специфични неврологични състояния често разчитат на виртуални асистенти, за да сърфират в интернет, да четат документи и да организират ежедневието. Para За тази аудитория познаването на тона, скоростта и яснотата на избрания глас е от съществено значение за ефективното разбиране на информацията. Quando системата внезапно променя своя каданс, вмъква шумове или променя акцента в средата на изречението, когнитивното натоварване, необходимо за интерпретиране на съобщението, се увеличава значително. Essa Разбиването на очакванията превръща полезен инструмент в източник на разочарование, подчертавайки критичната необходимост за технологичните компании да прилагат по-стриктни рутинни тестове, фокусирани върху аудио стабилността, преди да пуснат актуализации за изкуствен интелект за широката публика.

Непрекъснато позициониране и наблюдение

Към днешна дата разработчикът на софтуера не е издал официални изявления, в които подробно се описва графикът за окончателната корекция на тези гласови аномалии. Технологичната общност продължава да наблюдава поведението на приложенията с всяка нова малка безшумна актуализация, насочена към устройствата.

Еволюция на обработката на естествен език

Инженерството зад синтеза на реч в реално време представлява едно от най-големите предизвикателства днес в областта на машинното обучение. Системата трябва да интерпретира генерирания текст, да приложи правилната интонация въз основа на контекста и незабавно да изобрази аудиото.

Въпреки настоящите недостатъци в ритъма и акцентите, технологията за разговор на живо продължава да се развива бързо. Ajustes в алгоритмите за аудио компресия и обработка трябва в крайна сметка да стабилизират производителността на персонализирани гласове на всички мобилни платформи.

Veja Tambem em News (BG)

Безжичният CarPlay адаптер на Amazon има 50% отстъпка и високи рейтинги на одобрение от шофьорите

Безжичният CarPlay адаптер на Amazon има 50% отстъпка и високи рейтинги на одобрение от шофьорите

Apple ускорява производството на iPhone 17e и разработва нов модел Air със система с двойна камера

Apple ускорява производството на iPhone 17e и разработва нов модел Air със система с двойна камера

Платформата Epic Games пуска дванадесет високобюджетни игри без постоянни разходи за потребителите на компютри

Платформата Epic Games пуска дванадесет високобюджетни игри без постоянни разходи за потребителите на компютри

Спадът в цената на PlayStation 5 Pro ускорява дигиталните продажби на дребно и елиминира глобалните запаси

Спадът в цената на PlayStation 5 Pro ускорява дигиталните продажби на дребно и елиминира глобалните запаси

Новата системна актуализация на Apple оптимизира управлението на спешни задачи за потребителите на iPhone

Новата системна актуализация на Apple оптимизира управлението на спешни задачи за потребителите на iPhone

Leak разкрива Lords of the Fallen и Sword Art Online в априлския каталог на PS Plus Essential

Leak разкрива Lords of the Fallen и Sword Art Online в априлския каталог на PS Plus Essential

Производителите актуализират премиум сензори за снимки на смартфони с акцент върху мащабирането и изкуствения интелект

Производителите актуализират премиум сензори за снимки на смартфони с акцент върху мащабирането и изкуствения интелект

Производителят OPPO потвърждава официалната дата за представяне на нови смартфони Find X9 Ultra и Pro с акцент върху камерите

Производителят OPPO потвърждава официалната дата за представяне на нови смартфони Find X9 Ultra и Pro с акцент върху камерите

Новият смартфон Xiaomi 18 Pro Max интегрира две 200 MP камери и процесор от последно поколение

Новият смартфон Xiaomi 18 Pro Max интегрира две 200 MP камери и процесор от последно поколение

Apple разработва нов сгъваем iPhone и подготвя специално издание за отбелязване на 20 години на марката

Apple разработва нов сгъваем iPhone и подготвя специално издание за отбелязване на 20 години на марката

Изтичане на подробности за хардуера на новата преносима PlayStation с превъзходна графика спрямо Xbox Series S

Изтичане на подробности за хардуера на новата преносима PlayStation с превъзходна графика спрямо Xbox Series S

Ново издание на сгъваем смартфон носи златно покритие на състезателите на Зимните игри

Ново издание на сгъваем смартфон носи златно покритие на състезателите на Зимните игри