人工智慧 Google Gemini 開始透過語音指令控制 Android 上的 WhatsApp

Aplicativo WhatsApp

Aplicativo WhatsApp - Foto: Worawee Meepian / Shutterstock.com

Google Gemini 已收到新的更新,允許在配備 Android 作業系統的裝置上直接與 WhatsApp 訊息應用程式整合。這項變更將人工智慧工具轉變為能夠執行複雜任務的虛擬代理,而不僅僅是回答孤立問題的簡單功能。此功能授權發送訊息、檢索生態系統中其他應用程式中儲存的資料以及即時執行命令,從而無需用戶在手機螢幕上手動在不同平台之間切換。

這項新功能代表了用戶與智慧型手機互動方式的重大進步。此次整合充當了一座技術橋樑,將 Meta 的即時通訊工具與這家搜尋巨頭的本地服務(例如 Google Keep、日曆和 Google 地圖)連接起來。在單一語音命令中處理多個步驟的能力改變了日常使用的動態,允許以前需要多次螢幕點擊的工作流程在後台默默地自動完成。

Android系統資源配置

啟動新功能需要用戶在智慧型手機上安裝和設定官方 Google Gemini 應用程式。該功能僅適用於 Android 環境,這意味著 iPhone 裝置的所有者目前無法使用該工具。該公司還將新功能限制在行動環境中,將網頁版助理排除在這項特定的連線更新之外。

為了實現人工智慧和信使之間的通信,設備所有者需要在助手自己的設定中執行一個程式。激活路徑設計得非常簡單,只需在主軟體介面上點擊幾下即可。過程遵循特定的選單順序:

  • 開啟手機上的 Google Gemini 應用程式。
  • 存取使用者設定檔圖示並進入“設定”部分。
  • 導航至“個人智慧”選項,然後選擇“連接應用程式”。
  • 找到 WhatsApp 選項並啟動切換按鈕。

完成此程序後,虛擬助理會從作業系統取得必要的權限,以存取 WhatsApp 對話歷史記錄並執行文字傳送命令。啟動切換按鈕是授權兩個應用程式之間資料交換的觸發器,確保人工智慧在編寫任何訊息之前了解請求的上下文並識別手機通訊錄中的正確聯絡人。

與舊版 Google Assistant 相比的演變

與舊版 Google Assistant 的傳統語音指令相比,Google Gemini 的操作架構呈現出深刻的結構差異。先前的系統以孤立和線性的方式運行,僅限於在按姓名啟動特定聯絡人後轉錄使用者口述的單字。舊技術解釋複雜上下文或交叉引用來自不同應用程式資料庫的資訊的能力有限。

新的人工智慧模型以整合的方式發揮作用,充當手機的中央數據處理中心。軟體可以存取筆記、檢查日曆約會和繪製路線,同時保持訊息傳遞介面處於活動狀態。此功能將助手轉變為真正的生產力代理,能夠解釋用戶的意圖、在來源應用程式中搜尋必要的資訊、格式化內容並將其不間斷地傳送到目標應用程式。

技術專家指出,這種從簡單命令模型到多步驟任務執行系統的轉變反映了行動裝置上機器學習的演變。減少螢幕時間和自動化重複流程是此更新的主要實際好處,提供更流暢的使用者體驗,並減少對與裝置顯示器的持續手動互動的依賴。

Google Keep 和 Google 地圖的實際使用範例

該技術的實際應用可以在日常資訊共享場景中觀察到。過去,如果用戶想要發送保存在筆記中的文檔,該過程需要離開 WhatsApp、打開 Google Keep、找到特定文件、複製文字區塊、返回 Messenger、貼上內容並按下發送按鈕。透過新的集成,流程簡化為單一語音命令,例如指令:“從 Google Keep 獲取我的披薩食譜,然後透過 WhatsApp 將其發送給 Mark。”

Google Gemini 在使用者不可見的情況下執行整個操作。系統找到所要求的註釋,提取相關訊息,格式化清晰的文字訊息,並只需輕輕一按確認即可在信使中準備發送欄位。同樣的邏輯也適用於共享地理位置資料和路線規劃。在安排行程時,智慧型手機用戶可以發出以下命令:“查找從我家到代托納海灘的距離,並將詳細資訊透過 WhatsApp 發送給我的朋友。”

使用此命令,虛擬助理會查閱谷歌地圖資料庫,計算最有效的路線,提取有關旅行時間和里程的基本數據,以易於理解的方式構建文本,並在消息傳遞應用程式中打開準確的對話窗口。這種透過通訊工具交叉引用地理數據的能力說明了簡單的語音轉文字軟體與旨在連接數位生態系統的人工智慧代理之間的根本區別。

Android Auto 中透過語音指令進行操作

整合功能也透過 Android Auto 系統擴展到汽車環境。將技術應用於車輛的主要重點是維護道路安全,使駕駛者無需使用手機即可執行複雜的通訊任務。可透過汽車儀表板內建的麥克風或按下方向盤上的語音控制按鈕來啟動。

在下班回家的路上,司機可以使用自然語言來管理他們的約會。此應用程式的實際範例是,當駕駛員啟動系統並說:「在 WhatsApp 上向 Sonal 發送訊息,說我將在大約 10 分鐘後到達。」該軟體在機艙噪音中捕獲音頻,處理句子的意圖並識別電話簿中的聯絡人。

語音處理立即發生,系統在完成發送之前透過 Android Auto 介面請求視覺或聽覺確認。執行該任務完全消除了用戶將目光從賽道上移開或看智慧型手機螢幕的需要。透過自動化寫入和發送過程來確保在交通中保持注意力,並加強人工智慧作為駕駛車輛時安全輔助工具的作用。

生態系統擴展以及與 Spotify 的集成

啟動應用程式個人智慧部分中的連接按鈕可將虛擬助理從簡單的技術新穎性轉變為實用且功能齊全的指揮中心。開發人員鼓勵使用者探索軟體的擴展選單,以發現自動化日常任務的新方法。透過複雜的語音命令發送格式化文字訊息的能力只是該平台提供的第一層可能性。

整合生態系統不斷發展,不僅包括通訊和生產力工具,還包括娛樂平台。除了與 WhatsApp 建立的連接外,Google Gemini 還展示了與市場上其他高度相關的第三方應用程式的兼容性,包括 Spotify 音訊串流服務。這些合作夥伴關係的擴展表明助理作為用戶與行動裝置上安裝的所有服務之間的主要中介的趨勢。

另見