News (TW)

推出 Gemini 3.1 Flash Live 優化語音對話並覆蓋 200 多個國家

作者 Maria • 2026年3月26日 • 1 min de leitura

WhatsApp Twitter Facebook Seguir no Google E-mail

Foto: Gemini - Mehaniq/shutterstock.com

這家北美科技巨頭正式宣布推出最新、最先進的音訊處理架構，標誌著即時互動的重大演進。新的多模式語言模型旨在提高語音對話的質量，為全球範圍內的用戶提供更快、更準確的回應。

該技術最初透過專用程式介面向開發人員提供預覽版，有望改變系統理解語音命令的方式。此次更新的重點是解決人與機器之間通訊延遲的歷史問題，為虛擬助理市場建立新的流動性標準。

Google – daily_creativity/shutterstock.com

最近推出的系統以其前所未有的能力來解釋複雜的聲音細微差別，不僅可以理解所說的話，還可以理解對話者聲音的節奏和語氣。 Essa 改進的靈敏度允許人工智慧動態調整其回應，使用戶體驗更加自然和直觀。

聲音處理架構的進步

新版本音訊系統背後的工程技術進行了結構修改，大大縮短了連續對話期間的反應時間。 Essa 技術最佳化可確保互動發生時不會出現人為停頓，而在先前的語音平台版本中，這種停頓會打破對話的節奏。

該模型可以在兩倍的時間內遵循使用者的推理，即使在長時間的想法交換會話中也能保持上下文活躍。 Essa 技術特性消除了不斷重複資訊的需要，有利於複雜思維的發展和多步驟任務的規劃。

擴展的處理能力直接有利於分支命令的執行，系統需要遵循詳細的指令而不失去操作焦點。本次更新實現的穩定性可以防止人工智慧在對話出現意外轉折或收到新變數時偏離主要話題。

城市環境中的聲學過濾

最顯著的技術改進之一在於其聲音隔離系統，該系統是為在噪音污染嚴重的情況下高效運作而開發的。該演算法可以將主要語音與常見的外圍噪音（例如車輛交通、側面談話或背景中的電視機聲音）分開。

這種過濾精度確保即使使用者沿著繁忙的街道行走或使用公共交通工具時也能正確理解命令。音訊擷取的清晰度降低了解釋錯誤率，使該工具能夠在任何有聲音幹擾的外部或內部環境中可靠地日常使用。

互動式搜尋系統的全球擴張

新語言模型的實施是在全球範圍內推出即時語音搜尋功能的基礎。更新後的基礎設施使資源能夠同時到達兩百多個國家，涵蓋先進人工智慧功能已經商業運作的所有地區。

這種大規模擴展使多模式查詢的存取民主化，允許來自不同地區的用戶使用語音和行動裝置的攝影機執行複雜的搜尋。視覺和聽覺的整合改變了從物理環境中提取資訊並在數位生態系統中處理資訊的方式。

即時查詢處理透過新架構提高了效率，幾乎立即提供上下文化結果。與搜尋引擎對話的能力改變了傳統的鍵入關鍵字的方式，取而代之的是用自然對話語言提出的問題。

大規模可用性考驗的是伺服器的穩健性以及演算法適應全球不同網路基礎設施的能力。跨多個地點一致地提供快速響應證明了本次重大系統升級中採用的分散式處理技術的成熟度。

用於建立自訂應用程式的工具

專業開發環境中應用程式介面的發布使軟體創建者有機會將先進的語音技術整合到自己的專案中。 Profissionais 技術現在可以利用新模型提供的低延遲和高精度聲學辨識來建立需要即時多模式互動的解決方案。 Essa 開放生態系統刺激了依賴自動化服務、可訪問性和語音命令介面的行業的創新，從而可以創建高度響應和客製化的虛擬助手，以滿足企業和大眾消費市場的特定需求。

為開發人員提供的技術支援包括有關如何在自動對話期間有效觸發外部工具的詳細文件。改進後的系統始終遵循程式設計指南，確保虛擬代理嚴格在其創建者定義的參數內運作。 Essa 操作可靠性是金融、醫療保健或公共服務應用中技術實施的基礎，其中資訊的準確性和交互的穩定性是日常依賴這些平台的最終用戶的安全性和滿意度的不可妥協的要求。

語言支援和區域差異

該平台的通訊能力已擴展，可以理解和處理 90 多種不同的語言，鞏固了其作為真正具有全球影響力的工具的地位。訓練演算法需要接觸廣泛的聲學數據，從而具有處理傳統上對語音識別系統提出挑戰的口音、方言和地區發音變化的卓越能力。 Essa 語言覆蓋消除了溝通障礙，讓來自不同文化背景的使用者能夠以自然的方式與技術互動，而無需調整自己的說話方式或採用人為的中性語氣。人工智慧動態調整其聆聽參數以捕捉每種語言的微妙之處，確保正確解釋單字背後的意圖，無論互動中使用的語言的語法或語音複雜性如何，從而促進虛擬助理領域前所未有的數位包容性。