最新新闻 (CN)

人工智能 Google Gemini 开始在 Android 版 WhatsApp 上执行复杂命令

Aplicativo WhatsApp
照片: Aplicativo WhatsApp - 照片: Worawee Meepian / Shutterstock.com

Google Gemini 已收到更新,允许在配备 Android 操作系统的设备上直接连接 WhatsApp。新颖性改变了使用的动态。新功能将人工智能转变为能够执行复杂任务的代理,而不仅仅是简单地回答问题或听写文本。该功能使得发送消息、从其他应用程序检索信息以及实时执行命令成为可能,而无需在手机屏幕上的不同平台之间切换。

这一变化代表了用户与智能手机交互方式的进步,在不同服务之间建立了流畅的通信。该集成充当了技术桥梁,允许人工智能从 Google Keep 和 Google Maps 等工具访问数据,以在 Meta Messenger 中制定自动发货。技术专家指出,这一运动巩固了从旧式语音助手到自主生产力代理的转变。

配置需要在操作系统中手动激活

对于所有用户来说,资源的释放不会自动发生。配置需要直接访问安装在智能手机上的 Google Gemini 应用程序。该公司确认,该新功能仅适用于 Android 生态系统,从而使 iPhone 用户无法进入这个初始实施阶段。网页版人工智能也不支持该特定功能。

为了启用应用程序之间的通信,设备所有者需要在首选项菜单中执行一个过程。该过程确保用户授予人工智能访问对话内容并能够代表他们发送消息的必要权限。激活路径遵循开发人员制定的特定顺序:

  • 打开手机上的 Google Gemini 应用。
  • 访问用户配置文件图标并进入“设置”选项卡。
  • 导航到名为“个人智能”的部分,然后选择“连接应用程序”。
  • 找到 WhatsApp 选项并激活切换按钮。

完成这些步骤后,虚拟助手从系统获得授权,可以与信使一起操作。手动激活的要求反映了操作系统的隐私政策,在允许第三方软件操纵个人通信数据之前需要明确同意。这一安全层可防止该工具在设备管理员事先不知情的情况下执行不需要的操作。

与旧版 Google Assistant 相比的结构差异

新系统的操作与传统语音命令所使用的架构有很大不同。旧的 Google Assistant 在智能手机环境中独立运行。以前的工具仅限于用户使用日历中注册的姓名呼叫特定联系人后听写消息。理解更广泛的背景或交叉引用不同来源的信息的能力受到严格的技术限制。

Google Gemini 在持续集成逻辑下运行。人工智能充当手机上安装的多个应用程序之间的链接。该软件可以同时访问日历、记事本和地理定位服务,同时保持消息传递界面随时可用。这种并行处理功能将该工具转变为能够管理需要多个步骤的工作流程的代理,将所有内容整合到单个语音命令中。

这一变化背后的技术演变涉及大规模语言模型的使用。这些算法可以更精确地处理用户意图,识别需要触发哪些应用程序来履行订单。结果是更加有机的用户体验。该机器接管了打开、复制、粘贴和关闭窗口的跑腿工作,只将最终结果传送到聊天屏幕。

用例涉及实时数据交叉

这项技术的实际应用改变了日常任务的动态。在常见的文件共享场景中,手动过程需要用户注销 WhatsApp,打开 Google Keep,找到所需的注释,将文本复制到剪贴板,然后返回到 Messenger 粘贴内容。在新的更新中,用户只需说出这句话:“从 Google Keep 获取我的披萨食谱,并将其发送给 WhatsApp 上的 Mark”。

Google Gemini 在后台执行整个操作序列。该工具检索所请求的文档,清晰地格式化文本消息,然后只需轻轻一按确认即可准备在 Meta 应用程序中发送。同样的逻辑也适用于共享路线和地理位置。在计划旅行时,个人可能会要求:“查找从我家到代托纳海滩的距离,并将详细信息通过 WhatsApp 发送给我的朋友。”

收到此指令后,助手立即查阅谷歌地图数据库。系统计算最有效的路线,提取有关路线的基本信息,以可读的方式构建文本,并在信使中准确打开相应的对话窗口。根本区别在于从简单的语音到文本转换器到跨平台自主操作数据的人工智能代理的转变。

Android Auto 仪表板引入语音命令操作

服务之间的集成还通过Android Auto系统延伸到汽车环境。驾驶员可以直接激活车辆媒体面板上的麦克风,或按下方向盘上的语音命令按钮来发出自然指令。在下班回家的路上,司机可以激活系统并说:“在 WhatsApp 上向 Sonal 发送消息,说我将在大约 10 分钟内到达”。

机载计算机立即处理语音。系统通过 Android Auto 的视觉和声音界面确认请求的操作并发送消息。整个过程的发生不需要用户将视线从道路上移开或触摸手机屏幕。维护道路安全是该实施的主要重点之一,消除了驾驶汽车时与设备进行手动交互的需要。

道路安全专家评估,改进的语音命令可显着减少驾驶时的干扰。谷歌双子座能够在第一时间理解复杂的句子,减轻了老助手常见的挫败感。以前的版本通常需要重复命令或手动纠正软件误解的单词。

生态系统扩展涵盖其他第三方平台

激活 Google Gemini 个人智能部分中的 WhatsApp 键,即可将助手从简单的技术新颖物转变为日常生活的实用指挥中心。该公司鼓励用户探索应用程序的扩展菜单,以发现自动化日常任务的新方法。通过复杂的语音命令发送文本消息只是更广泛的连接项目的初始阶段。

除了与 Meta Messenger 的功能合作之外,Google Gemini 还展示了与第三方开发的其他工具的日益增强的兼容性。该系统已经具有与 Spotify 等音频流媒体平台集成的功能,允许对音乐和播客播放进行高级控制。 Android 操作系统的开放架构表明,未来几个月新应用程序可能会采用类似的协议。

人工智能代理在移动设备上的整合表明软件设计范式的转变。应用程序不再是孤立的信息孤岛,而是开始充当互连生态系统中的齿轮。谷歌仍然专注于提高 Gemini 的上下文理解能力,旨在为移动系统的全球用户群提供越来越准确的响应和更快的行动。