Google DeepMind 周三发表两款革命性机器人 AI 模型:Gemini Robotics 和 Gemini Robotics-ER!使机器人能够运行「前所未有的精细操作」,如折纸艺术和封紧拉链袋或者是系紧鞋带,可说是往通用人形机器人的重大一步。
新模型展现的通用能力比现有最先进系统提高超过一倍,显著缩小了机器人知识与实际操作之间的差距。这项进展使得无需针对每种情境特别训练的机器人变为可能,为未来在不可预测现实环境中工作的通用机器人打下基础。
业界所称的「具现化 AI」(embodied AI)一直是科技巨头如 NVIDIA 等公司的登月计划级目标,它代表着让 AI 能够在物理世界中自主操作的能力。这被视为机器人技术的圣杯,可能将机器人从特定任务的运行者转变为实体世界中的通用劳动力。Google 的 Gemini Robotics 系列在这方面取得的突破,可能标志着「具身 AI」从概念走向现实的重要里程碑。
Google 已与德州 Apptronik 公司合作,将 Gemini 机器人 AI 模型作为其 Apollo 人形机器人的「大脑」,同时也向 Boston Dynamics 、 Agility Robotics 等公司提供有限访问权。(前述机器人公司《INSIDE》都曾专文介绍,有兴趣的读者可以点进超链接内阅读。)
这种合作亦标志着 Google 重返人形机器人领域,但采取了全新的技术方向。
Gemini 2.0 为基础、集成 VLA 能力
这项技术以 Gemini 2.0 大型语言模型为基础,集成了「视觉-语言-动作」(vision-language-action,VLA)能力,使机器人能处理视觉信息、理解语言指令并产生精确的实体动作。用户可以简单地指示机器人「折一只纸狐狸」或「拿起香蕉放入篮子」,机器人就能理解并完成这些需要精细操作的任务。
针对安全考量,Google 开发了受艾萨克·阿西莫夫(Isaac Asimov)机器人三定律启发的「 机器人宪法 」(Robot Constitution)框架,并发布「 ASIMOV 」数据集,用于评估机器人行动的安全性。该数据集帮助研究人员测试 AI 模型对机器人可能行动后果的理解程度。
尽管展示视频显示了显著进步,不过这些模型仍处于研究阶段,Google 尚未宣布商业应用时间表。业界仍对这些系统在不可预测的现实环境中的表现持保留态度。
版权声明
本文为本站原创内容,转载需注明文章来源(https://www.eiefun.com),另:文中部分素材可能会引用自其他平台,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除