最新新聞 (TW)

人工智慧將音訊轉換為手機上的結構化文本,這並不是什麼新鮮事

Nothing phone 3
Foto: Nothing phone 3 - Reprodução Youtube

智慧型手機製造商Nothing已開始為其最新設備發布基於人工智慧的新工具。這項前所未有的功能有望改變用戶在小螢幕上打字的互動方式。新功能首先透過作業系統更新出現在 Phone (3) 型號上。

該技術稱為“基本語音”,可將語音命令轉換為可立即發送的結構化文字。該系統與設備上安裝的應用程式以整合方式運作。與傳統聽寫不同的是,該機制可以過濾語言缺陷並自動組織句子。該公司計劃在未來幾週內將該功能擴展到其他產品線。

沒什麼電話
沒有電話 – 照片:複製品

人工智慧如何將音訊轉化為乾淨的文本

Essential Voice 的運作是 Essential Space 創新方案的一部分。該平台使用Gemini 3 Flash語言模型來處理手機麥克風所捕捉的資訊。當使用者說話時,系統會先了解訊息的一般上下文,然後再將單字轉錄到螢幕上。人類語言中常見的猶豫表情在最終結果中消失了。

製造商的核心目標是使語音通訊成為可行且專業的替代方案。一個人在街上行走時可以口述一封很長的電子郵件。軟體應用正確的語法規則並插入適當的標點符號,而不需要特定的命令。在某些情況下,系統本身會將內容格式化為有組織的段落。

激活系統有兩種簡單直接的方式。使用者可以按住實體基本鍵或點擊虛擬鍵盤底角的專用圖示。一旦該人停止說話,錄音就會結束。處理後的文字立即出現在開啟的應用程式的輸入欄位中。

該品牌設備的更新時間表

資源逐步釋放,確保作業系統的穩定性。 Nothing Phone (3) 使用者現在可以透過裝置的設定選單下載新功能。安裝套件的內部版本號碼為 Metroid-B4.1-260408-​​1909-IND。下載並重新啟動裝置後,該工具即可立即使用。

該品牌近期產品組合中的其他設備也明確了接收該技術的日期。 Phone (4a) Pro 型號預定於 2026 年 4 月底更新。 Standard Phone (4a) 用戶需要等到 5 月初。該公司沒有提供有關與前幾代智慧型手機的兼容性的資訊。

軟體更新也為 Nothing OS 介面帶來了其他小改進。 Glyph 後照明系統的調整隨主套件一起提供。然而,該版本的主要亮點仍然集中在新語音工具所產生的生產力上。

該工具在日常使用中的主要優點

製造商的官方文件詳細介紹了新轉錄技術中內建的一系列功能。該機制旨在消除在觸控螢幕上頻繁手動校正所浪費的時間。

  • 原生支援一百多種語言,具有自動語音偵測系統。
  • 將捕獲的音訊同步翻譯成外語,無需使用輔助應用程式。
  • 建立自訂語音快捷方式來填寫表格或插入重複連結。
  • 智慧結構化能夠將連續聽寫轉換為任務清單或特定筆記。
  • 普遍適用於任何具有文字輸入欄位的第三方應用程式。

這些功能使該工具與常見的虛擬助理處於不同的類別。重點仍然嚴格放在生產力和產生高度準確的書面內容上。

資料隱私和處理要求

系統架構需要持續的網際網路連線才能正常運作。大量的人工智慧處理發生在雲端的伺服器上,而不是手機的本地硬體上。如果無法存取行動網路或 Wi-Fi,智慧聽寫按鈕將保持不活動狀態。轉錄速度直接取決於使用時可用訊號的品質。

資訊安全問題在專案開發過程中受到特別關注。無法保證轉換後資料庫中不會保留任何音訊檔案。聲音傳輸到雲端,經過 Gemini 模型解碼,並以文字形式返回智慧型手機。整個過程只需幾分之一秒即可完成。

該設備的麥克風大部分時間保持關閉。僅當使用者手動觸發命令時才開始主動監聽。這種方法可以避免不必要的電池消耗,並防止在私人環境中意外捕獲對話。

與傳統鍵盤的實際差異

傳統的虛擬鍵盤對麥克風捕獲的所有內容進行文字轉錄。如果該人結巴或重複一個單詞,錯誤將以完全相同的方式顯示在螢幕上。 Essential Voice 透過充當即時校對者打破了這種模式。該演算法理解句子的意圖並提供完美的結果。

測試了初始版本的技術專家報告說,對進一步版本的需求大幅減少。文字輸出自然具有更正式和直接的語氣。這項功能非常有利於企業文件、專業電子郵件和工作報告的撰寫。當說話者在安靜的環境中清晰地發音時,其精確度令人印象深刻。即使有輕微的背景噪音,人工智慧也可以識別上下文。

然而,過於正式可能需要在日常交流的特定環境中進行調整。如果系統刪除所有俚語和自然停頓,那麼在訊息應用程式上與家人輕鬆交談可能聽起來很不自然。製造商認識到演算法的這種行為特徵。公司工程師建議未來的軟體更新可能包括手動語氣調整,以使書寫適應不同類型的社交互動。

↓ Continue lendo ↓