News (TW)

谷歌改變了Gemini Live應用程式中的語音系統並修改了地區口音的節奏

Gemini
Foto: Gemini - Primakov / Shutterstock.com

Google 虛擬助理的使用者開始報告即時互動過程中音訊設定明顯不穩定。修改直接影響使用者體驗,改變應用程式中所選選項的基本特徵。

問題主要表現在說話的節奏、回答的語氣和地方口音的一致性。 Essas 變化的發生不可預測,改變了人工智慧系統在連續對話過程中的通訊模式。

雙子座
雙子座 – mundissima/ Shutterstock.com

在公司語言模型最近更新後,這些缺陷變得明顯。設定中提供的音訊樣本與實際再現的聲音之間的差異已成為專注於行動裝置的技術論壇上投訴的主要目標。

聲音不一致和使用者體驗

名為 Capella 的語音選項具有英國女性口音,自推出以來出現了最明顯的失真。消費者註意到,在最初的幾個命令之後,音訊的原始個性很快就消失了。

在長時間的對話中,系統很難維持個人選擇的區域模式。助理的反應開始在澳洲口音和更中性的美式英語之間自動交替,為那些依賴該工具完成日常任務或學習的人帶來支離破碎且令人困惑的聽力體驗。

該應用程式的行為表明,在嘗試維持新版本人工智慧模型所需的複雜語音調製時,即時處理面臨瓶頸。 Quando 使用者執行了軟體的強制重啟,原來的口音被恢復,但是這個修復僅具有暫時的效果。 Após 經過幾分鐘的連續交互,語音又變回混合版本,這表明語音合成系統無法在需要更多上下文處理和長時間響應的會話中保持穩定性。

  • 在複雜的反應中,語速會大大降低。
  • Os tons agudos originais sofrem uma redução perceptível durante o uso.
  • 不同的口音無意中混合在同一個句子中。
  • O reinício do aplicativo oferece apenas uma solução paliativa para o problema.

Artefatos de áudio em sessões prolongadas

除了聲音特徵的變化之外,助手在再現反應過程中也開始出現不必要的噪音。 Artefatos 聲音,例如爆裂聲、小爆裂聲和背景嘶嘶聲,在系統處理和傳遞所請求的訊息時偶爾出現。

這些聲音幹擾與口音的變化沒有直接關係,但它們會加劇服務品質下降的感覺。噪音的頻率根據啟動的語音選項和用於存取平台的設備而有很大差異。

不同平台的效能差異

實際測試表明,音訊穩定性很大程度上取決於使用環境和硬體環境。 Comandos 快速、客觀,需要簡短的回答,很少會引發消費者報告的節奏差距或口音混淆。

該助手與汽車系統(例如 Android Auto)的整合表現出明顯優越的行為。 Nesses 環境中,即使在需要較長處理時間的互動中,也可以更有效地保留所選語音的原始特徵。

這種效能差異表明行動應用程式的資源管理可能會影響音訊渲染。智慧型手機上的資料壓縮或記憶體分配似乎直接幹擾模型保持聲音保真度的能力。

提供客製化選項和調整

助手的設定面板提供了多種聲音設定檔目錄以供自訂。該公司的目標是讓每個人都能找到一種語氣、節奏和口音,使與機器的互動更加自然和愉快。

設定檔範圍從更嚴肅和正式的音色到更高音調和輕鬆的選擇。只需透過主選單即可進行選擇,其中會播放簡短的音訊樣本以幫助消費者進行選擇。

鑑於最近出現的問題,許多用戶採取了在這些設定檔之間不斷切換的策略,試圖找到一個不易失敗的選項。然而,語音切換只能作為系統不穩定的臨時解決方法。

問題的根源仍然與軟體即時處理自然語言的方式有關。公司伺服器上的持續更新會影響目錄中所有可用選項的行為,無論選擇何種語氣。

人工智慧更新的影響

音訊行為的不必要變化與新版本 Google 語言模型的實施期相吻合,特別是向注重速度的架構的過渡,例如版本 Flash Live。這些更新的主要目標是減少使用者問題和機器回應之間的延遲時間,使對話更加流暢,更接近真實的人類對話。

然而,速度增益的最佳化似乎在語音合成的渲染中產生了副作用。當優先考慮生成文字的快速傳遞時,音訊系統可能會以碎片的方式接收資料包,這可以解釋節奏的損失、高音調的降低以及在很長的段落中無法維持複雜的地區口音。

可訪問性和對一致標準的依賴

合成聲音再現的一致性超出了美學偏好的問題,直接影響數位可訪問性領域。 Indivíduos 有視力障礙、閱讀困難或特定神經系統疾病的人通常依靠虛擬助理瀏覽網路、閱讀文件和組織日常生活。 Para 對於此類受眾來說,熟悉所選語音的語氣、速度和清晰度對於有效理解訊息至關重要。 Quando 系統突然改變節奏、在句子中間插入噪音或改變重音,解釋訊息所需的認知負荷大大增加。 Essa 打破期望將一個有用的工具變成了挫敗感的根源,突顯了科技公司在向公眾發佈人工智能更新之前迫切需要實施更嚴格的測試例程,重點關注音頻穩定性。

連續定位和監控

迄今為止,該軟體開發商尚未發布正式聲明,詳細說明最終糾正這些聲音異常的時間表。科技社群將繼續監控應用程式的行為,並將每個新的小靜默更新推送到裝置。

自然語言處理的演變

即時語音合成背後的工程是當今機器學習領域面臨的最大挑戰之一。系統需要解釋生成的文本,根據上下文應用正確的語調,並立即渲染音訊。

儘管目前在節奏和口音方面存在缺陷,但即時對話技術仍在快速發展。音訊壓縮和處理演算法中的Ajustes最終應該能夠穩定所有行動平台上自訂語音的效能。