谷歌发布“最强”机器人大脑?称其具备顶尖思考与跨平台学习能力
2025年9月26日,谷歌DeepMind推出Gemini Robotics 1.5系列机器人模型,包括视觉-语言-动作模型(VLA)Gemini Robotics 1.5和视觉语言模型(VLM)Gemini Robotics-ER 1.5。两款模型通过协同工作,使机器人能够感知环境、规划任务、调用工具并执行多步骤操作,首次实现从指令理解到物理动作的完整闭环。
Gemini Robotics-ER 1.5作为“大脑”,负责高阶推理与任务规划,可调用谷歌搜索等工具获取实时信息;Gemini Robotics 1.5作为“小脑”,专注于将视觉和语言指令转化为具体动作。新模型采用动作迁移机制,使技能能在不同机器人平台(如ALOHA、Apollo)间零样本迁移,无需重复训练。
在官方的实机演示视频中,机器人成功完成垃圾分类、行李打包等复杂任务。例如,通过查询旧金山当地法规准确分类垃圾,或主动检索伦敦天气并规划行李打包清单。模型还具备“思考轨迹”生成能力,在执行动作前以自然语言拆解任务步骤,提升透明度和鲁棒性。
目前,Gemini Robotics-ER 1.5已通过Gemini API向开发者开放,Gemini Robotics 1.5限于合作伙伴使用。谷歌同步发布了技术报告与安全框架,包括语义安全校验和防碰撞系统,以保障物理场景中的可靠性。