News (CN)

谷歌为 Pixel 10 和 Galaxy S26 系列上的应用程序推出新的 Gemini 高级自动化

Gemini
照片: Gemini - Mehaniq/shutterstock.com

谷歌已开始在部分移动设备上为 Gemini 助手推出新的多步骤任务自动化功能。新功能允许人工智能直接在第三方应用程序中执行复杂的操作,而无需智能手机所有者对每次点击或滚动进行持续的手动干预。

新功能最初以测试版形式发布,仅限于移动技术市场上最新的尖端型号。第一阶段实施的设备包括 Google Pixel 10、Pixel 10 Pro 和 Pixel 10 Pro XL 变体,以及整个三星 Galaxy S26 系列设备,这些设备具有针对这些功能的专用处理架构。

该工具的正式发布在美国和韩国同时进行,这两个市场是战略性选择的,目的是在全球发布之前测试该工具在密集使用场景中的稳定性。激活系统很简单,只需长按设备侧面按钮后发出详细的语音命令即可。

在日常生活中执行复杂的命令

该系统的主要创新在于它能够解释和执行需要通过不同屏幕、菜单和对话框进行顺序导航的请求。数字助理临时控制所选应用程序的界面以执行实际操作,例如请求从一个地点到另一个地点的私人交通或在送货平台上订购特定餐点。

在执行过程中,人工智能会分析图形界面中的可用选项,填写地址表格并根据用户的历史偏好选择项目。该系统具有安全锁,可在完成任何金融交易或确认订单之前自动暂停操作并在屏幕上请求最终批准。

在隔离的虚拟环境中运行

为了确保个人数据的完整性,Gemini 在一个安全的虚拟窗口中运行所有自动化操作,该窗口与智能手机操作系统的其余部分完全隔离。这种封装方法可以防止人工智能在浏览第三方应用程序时访问未经授权的信息、读取私人文档或修改关键设备设置。

助手严格遵循初始语音命令中提供的说明,将其行动仅限于个人请求的任务范围。如果用户要求购买浓缩咖啡,该工具只会打开相应的咖啡店应用程序,完全忽略设备内存中存在的短信、工作电子邮件或照片库。

为此功能开发的软件架构允许该过程在后台隐形地发生或通过叠加在主屏幕上的半透明界面进行。这确保了电话的正常使用流程不会突然中断,从而允许用户在处理订单时继续阅读文章或观看视频。

测试阶段的兼容应用程序

在公共测试的初始阶段,该功能涵盖了特定类别的按需服务,这些服务是数百万消费者日常生活的一部分。官方发布支持包括 DoorDash、Grubhub 和 Uber Eats 等流行的食品配送平台,只需说出一句话即可轻松重复常规订单。

在城市出行领域,该系统与 Uber 和 Lyft 应用程序原生集成,以优化城市出行。用户只需用自然语言输入所需的目的地,助手就会负责打开地图、输入确切的地址、比较可用的车辆类别并提供最终的估计价格以供批准。

对于家居用品,与 Instacart 服务的集成使您可以根据以前的购物清单或特定食谱快速组装虚拟购物车。人工智能可以识别所需的产品,在商店的目录中搜索最佳选项,甚至在所选商店中的特定商品缺货时建议可行的替代品。

在韩国市场,测试阶段包括高需求的本地服务,以使语言模型适应不同的消费者文化和区域界面。在该国广泛应用的应用程序,例如用于移动的 Kakao T 和用于食品的 Kaemin,已被纳入兼容性列表,以确保测试反映当地人口的实际使用情况。

本地处理和硬件优化

Pixel 10 和 Galaxy S26 系列暂时独占该功能是因为迫切需要高度优化的硬件来直接在设备上处理人工智能模型。这些智能手机配备了最先进的神经处理单元,能够处理自主应用程序导航所需的大量计算负载,而无需完全依赖云服务器。这种混合处理方法极大地减少了助手响应的延迟,并确保即使在移动互联网连接不稳定或缓慢的情况下,任务也能顺利执行,不会出现卡顿。

硬件制造商和操作系统开发团队之间的技术合作关系实现了虚拟助手和移动设备物理层之间的深度集成。与需要通过互联网不断传输数据包的旧流程相比,在本地执行任务不仅提高了日常自动化的速度,而且还减少了电池消耗。操作系统可以识别用户的使用模式并动态分配RAM资源,确保手机保持峰值浏览性能,同时助手在后台默默执行复杂的命令。

持续控制和监控行动

尽管人工智能在界面导航方面拥有高度自主权,但系统架构的设计目的是让设备所有者对数字操作的所有阶段保持绝对控制。在执行复杂任务时,用户随时会收到视觉通知和实时警报,详细说明助理在那毫秒内采取的具体操作,例如从目录中选择特定餐厅或在表单中输入送货地址。如果该工具在此过程中遇到歧义,例如同一商店的两个分店位于目标位置附近,它会立即停止自动化流程,并在屏幕上显示一个面板,要求口头澄清或点击确认。此外,覆盖界面上有一个始终可见的紧急取消按钮,可让您立即中止自动化,关闭安全虚拟窗口并返回屏幕的手动控制。这种严格的监管层对于避免意外购买、将运输车辆发送到错误的地点或任何其他可能导致不便或经济损失的不必要的行为至关重要,确保该技术严格充当日常工作的促进者,而不是在没有适当的人工监督的情况下充当独立代理。

地理扩张和新语言

目前仅限于美国和韩国市场,作为持续改进视觉导航和上下文理解算法的实时实验室。该功能向新国家的扩展以及对其他语言的支持将在接下来的几个月内逐步进行,这直接取决于此测试阶段获得的稳定性结果以及系统对不同区域应用程序布局的适应。

改变移动交互范式

能够在移动生态系统中操作图形界面的自主代理的引入代表了人们与智能手机交互方式的重大技术演变。从基于重复点击屏幕的基本命令到生成具体行动的全面口头指令的转变减少了花费在日常数字生活的官僚任务上的时间。

专注于开发独立运行第三方应用程序的工具表明神经网络应用于消费和生产力的成熟。技术期望是,助手将能够在未来的更新中管理更加复杂和相互关联的例程,将优质设备整合为城市生活真正的自动化指挥中心。