谷歌发布 Gemini 更新,逻辑飞跃并创建自主视觉系统
谷歌 DeepMind 部门于本周四(19 日)正式宣布其主要人工智能模型系列的新迭代即将到来。该更新名为 Gemini 3.1 Pro,开发的重点是扩展复杂推理能力,有望克服之前版本在需要数据合成和高级逻辑的任务中的局限性。
此次发布恰逢技术领域的战略时刻,简单的文本生成正在让位于对能够执行完整工作流程的代理的需求。该新工具现已进入预览阶段,可供开发人员和高级计划订阅者使用,在从编程代码到视频和音频解释的多模式处理方面引入了重大改进。
专家指出,该版本的不同之处在于其优化的架构来解决新问题,摆脱了对训练期间记忆的模式的唯一依赖。该技术旨在通过公司的专有应用程序为最终用户以及需要通过 API 实现强大自动化的企业环境提供服务。
内部验证测试表明,该模型可以保持长链思维的连贯性,这是开发功能性自主代理的基本特征。立即可用旨在加速将这些功能集成到第三方产品和公司的云平台中。
逻辑测试中的性能飞跃
公告中提出的最重要的指标是 ARC-AGI-2 基准测试的性能,这是一项严格的测试,旨在评估人工智能解决以前未见过的逻辑模式的能力。 Gemini 3.1 Pro 在这方面的得分为 77.1%,这一成绩是其前身 Gemini 3 Pro 的两倍多,Gemini 3 Pro 在同一评估中得分为 31.1%。
除了抽象逻辑的演变之外,该模型还与市场上其他尖端技术进行了直接比较评估。在被称为“人类最后考试”的测试中,新版本取得了44.4%的成绩,超越了Anthropic和OpenAI开发的竞争解决方案,巩固了其在需要深入技术知识的场景中的地位。
这种逻辑推理的一致性使得该工具可以应用于简单信息检索不够的情况。更新的重点是确保系统能够解决多方面的问题,而不会丢失上下文或产生幻觉响应,从而提高专业和学术用途的可靠性标准。
导航和虚拟代理的自主性
在这次更新中,作为自主代理运行的能力得到了极大的扩展,在模拟真实专业活动的基准测试中取得了令人印象深刻的结果。在衡量长期任务效率的 APEX-Agents 测试中,该模型达到了 33.5% 的分数,表明该模型在管理需要完成多个步骤的目标方面具有卓越的能力。
另一个亮点是 BrowseComp 中的表现,这是一项侧重于代理互联网搜索并结合使用 Python 等编程工具的评估。 Gemini 3.1 Pro 的有效性达到 85.9%,展示了从网络中自主搜索、过滤和提取相关信息的能力,并将这些数据直接集成到工作流程中。
为了说明新系统的改进功能,该公司强调了在此版本中支持代理操作的三个基本支柱:
- 能够在广泛的执行过程中保持对复杂目标的关注,而不偏离目的。
- Web 搜索和代码执行之间的平滑集成可实现实时数据验证。
- 需要同时协调使用多个数字工具的工作流程的优先级。
创建视觉系统和编码
该模型的多功能性扩展到从简单的文本命令合成复杂的视觉系统。在技术演示期间,人工智能能够生成可扩展且轻量级的 SVG 格式动画,为 Web 界面和移动应用程序提供传统视频格式的有效替代方案。
所展示的实际示例之一涉及设置实时遥测仪表板。该模型处理公共 API 和原始数据,从头开始构建一个可视化国际空间站轨道的功能界面。该过程涉及从解释输入数据到编码最终图形界面的所有内容。
在创意解读领域,系统将经典文学描述转化为现代数字产品。通过处理《呼啸山庄》的摘录,人工智能捕捉到了书中的叙事氛围,并设计了一个当代作品集网站,将抽象和艺术概念转化为可执行代码和功能设计。
该工具还展示了在三个维度上创建互动体验的能力。进行了模拟,其中一群虚拟小鸟对用户手部的跟踪做出动态响应,证明了该模型将计算机视觉与复杂动画逻辑相结合的能力。
有关企业访问和集成的详细信息
Gemini 3.1 Pro 的发行遵循交错模式,目前优先考虑开发者和企业客户。该版本可通过 AI Studio 和 Vertex AI 等平台访问,允许公司在自己的环境中测试该技术并调整其产品以使用新的推理引擎。
对于个人用户,访问权限已开放给 Google AI Pro 和 Ultra 计划的订阅者,这些计划提高了使用限制。该工具还与 NotebookLM 集成,为使用该平台进行研究和学习的付费用户增强了文档合成和洞察生成功能。
一个相关的技术点是维护 100 万个令牌上下文窗口,这是从系列 3 的前几代继承的功能。这确保模型继续能够分析大量数据,例如整本书或大量代码存储库,而不会失去在处理的内容中引用特定信息的能力。
Veja Tambem em News (CN)
扎克·克雷格的新《生化危机》忽略了游戏,而是专注于一个前所未有的故事和新角色
苹果加速 iPhone 17e 生产并开发配备双摄像头系统的新款 Air 机型
Epic Games 平台向 PC 用户免费发布 12 款高预算游戏
PlayStation 5 Pro 降价加速数字零售销售并消除全球库存
苹果纪念项目测试2027年1.1毫米边缘曲面屏手机
苹果新系统更新优化 iPhone 用户的紧急任务管理
新款便携式 PlayStation 的硬件细节泄露,其图形性能优于 Xbox Series S
Oppo 正式在全球推出 Find X9 Ultra,配备哈苏镜头和强劲电池
蒂姆·库克 (Tim Cook) 展示新款 iPhone 和 iPod 原型机,庆祝苹果公司成立 50 周年
新版可折叠智能手机为冬奥会参赛者带来金牌
三星更新 QuickStar 模块并扩展 One UI 8.5 界面中面板的视觉控制