GO-2 – 智元机器人推出的具身智能基座大模型

Al项目 2026-04-10 19:23:05 AI导航网

GO-2是什么

GO-2(Genie Operator-2)是智元机器人推出的第二代具身智能基座大模型,能打通”理解-规划-执行”链路,弥合语义与动作间的鸿沟。模型首创”动作思维链”直接在动作空间推理规划,结合”异步双系统”架构实现低频规划与高频执行的稳定协同。在LIBERO等多项基准测试中刷新SOTA,通过Genie Studio平台实现真实场景的持续学习与规模化落地,让机器人从”看懂”真正走向”稳定执行”。

GO-2的主要功能

  • 动作思维链推理:在动作空间直接进行规划推理,生成结构化高层动作序列,将复杂任务拆解为有序步骤,实现”想清楚再做”。
  • 异步双系统执行:慢系统(低频)生成”意图流”规划,快系统(高频)实时跟踪执行并动态调整,确保规划被稳定兑现。
  • 语义-动作统一建模:打通视觉-语言-动作链路,弥合”理解”与”执行”间的鸿沟,使抽象指令精准转化为物理世界动作。
  • 闭环持续进化:依托Genie Studio平台,通过”预训练+后训练+数据闭环”架构,在真实交互中持续采集数据并在线优化模型。
  • 跨域零样本迁移:具备从仿真到真实环境的强泛化能力,无需重新训练适应新场景、新物体和新纹理。
  • 复杂任务执行:支持长程任务规划与精准物理交互(如抓取、放置、操作物体),在真实环境中保持稳定可靠的动作执行。

GO-2的技术原理

  •  动作思维链(Action Chain-of-Thought):传统具身模型通常直接从视觉-语言输入生成底层控制信号,将”理解”与”执行”压缩在同一时刻完成,导致规划与执行断层。GO-2引入动作思维链,显式模拟人类的认知过程:在执行动作前,先在内部形成清晰的动作计划。
  • 异步双系统架构
    • 慢系统(Semantic Planner):较低频率运行,负责持续生成并细化高层动作规划。它不输出一次性结果,而是以”意图流”形式提供持续约束,从宏观动作逐步细化到子动作,形成层次化的动作表示。
    • 快系统(Action Refiner):较高频率运行,持续接收慢系统的规划指导,结合实时视觉观测生成具体控制信号。执行过程并非简单复现规划,而是围绕规划进行实时对齐与局部修正——当桌面高度与预期不一致时自动调整手臂下探幅度,当物体摩擦特性变化时实时调整抓取力度。
  • 带噪声强制教学训练机制:为确保快系统在”接近正确但不完美”的规划条件下仍能保持稳定执行,GO-2在训练阶段引入带噪声的强制教学机制。在训练执行模块时,使用真实的高层动作序列作为条件,同时加入一定扰动以模拟规划误差,使模型具备在动态环境中持续跟随规划。
  • 整体技术闭环:上述组件形成完整链路:VLM与视觉编码器处理多模态输入 → 动作思维链在动作空间生成可执行规划 → 异步双系统确保规划被稳定兑现 → 执行数据回流至云端进行后训练,实现模型在真实环境中的持续进化。

如何使用GO-2

  • 平台接入部署:开发者需通过Genie Studio官网https://genie.agibot.com/geniestudio接入GO-2基座模型,无需本地配置复杂的训练环境即可直接调用模型能力。
  • 多模态任务输入:用时向系统输入自然语言指令和当前视觉观测数据,VLM模块会自动解析任务意图和理解场景信息。
  • 动作思维链规划:模型基于动作思维链在动作空间内进行推理规划,生成从宏观到微观的多层级结构化动作序列作为执行蓝图。
  • 异步双系统执行:异步双系统自动启动,慢系统用低频持续提供意图流指导,快系统用高频实时跟踪并结合视觉反馈动态调整执行细节。
  • 闭环持续进化:任务执行过程中系统自动采集真实交互数据,通过云端后训练机制持续优化模型参数,实现从仿真到真实场景的闭环进化。

GO-2的关键信息和使用要求

  • 全称:Genie Operator-2(GO-2)
  • 发布方:智元机器人
  • 定位:新一代具身智能基座大模型
  • 核心技术:动作思维链(在动作空间推理规划)+ 异步双系统(低频规划+高频执行)
  • 解决痛点:弥合”语义-运动鸿沟”,让机器人从”想得明白”到”做得稳定”
  • 性能指标:LIBERO 98.5%、LIBERO-Plus 86.6%、GenieSim真实环境82.9%,全面SOTA
  • 学术认可:CVPR 2026、ACL 2026双顶会接收
  • 部署形态:内置Genie Studio开发平台,支持云端后训练与数据闭环

GO-2的核心优势

  • 弥合鸿沟,实现知行合一:GO-2通过统一架构打通逻辑推理与精准动作执行的链路,彻底弥合传统机器人”高层理解”与”底层执行”之间的语义-运动鸿沟,实现真正的”知行合一”。
  • 首创动作思维链,显式推理规划:GO-2首创动作思维链机制,在动作空间内显式完成推理规划,将复杂任务拆解为结构化动作序列,使机器人从”边看边做”转变为”想清楚再做”,显著降低执行偏差。
  • 异步双系统,确保执行稳定:GO-2采用异步双系统架构,慢系统以低频持续生成”意图流”规划,快系统以高频实时跟随并结合视觉反馈动态调整,确保高层规划在真实扰动中始终被稳定执行。
  • 全面刷新SOTA,性能行业领先:GO-2在LIBERO(98.5%)、LIBERO-Plus(86.6%)、GenieSim真实环境(82.9%)等多项基准测试中全面刷新SOTA,显著超越GR00T、π0.5等主流模型。
  • 数据闭环进化,零样本强泛化:GO-2支持在真实场景中持续采集交互数据进行在线优化,并具备强零样本跨域迁移能力,在仅使用仿真数据训练的前提下于真实环境取得82.9%成功率。

GO-2的同类竞品对比

对比维度GO-2(智元机器人)π0.5(Physical Intelligence)RT-2(Google DeepMind)
核心架构动作思维链 + 异步双系统流匹配(Flow Matching)架构VLA端到端(基于PaLI-X)
规划方式在动作空间显式推理,生成结构化高层动作序列直接生成动作,无显式中间规划层直接从像素和指令映射为动作标记
执行机制异步双系统:慢系统低频提供”意图流”+快系统高频实时跟随修正单一生成模型端到端同时完成理解与执行端到端直接输出控制信号
关键优势弥合语义-运动鸿沟,规划与执行强制对齐,真实场景稳定性强互联网规模视觉-语言预训练,高频动作生成能力强经典VLA先驱,架构简洁,端到端训练
主要局限商业闭源,需配套智元硬件生态规划与执行压缩在同一时刻,真实场景稳定性待提升高层推理与底层控制断层,长程任务误差累积明显
LIBERO成功率98.7%96.9%未公开/显著较低
GenieSim真实环境82.9%(零样本迁移)77.5%通常低于60%
进化能力支持数据闭环持续进化(预训练+后训练)依赖离线静态数据依赖离线静态数据

GO-2的应用场景

  • 工业制造场景:在工厂产线中,GO-2可驱动机器人完成零部件装配、质量检测、工具操作等精细化作业,通过数据闭环持续学习适应不同工位特性,实现从仿真训练到真实产线的零样本迁移,降低产线切换时的调试成本。
  • 商业服务场景:适用商超、酒店、写字楼等场所的导引、清洁、零售补货等服务,用其跨场景泛化能力,在无需针对每个门店重新采集数据的情况下,即可稳定适应不同的货架布局、光照条件和人流环境。
  • 物流仓储场景:支持分拣、搬运、码垛等重复性操作,异步双系统架构确保机器人在高速运动中仍能保持动作精准,避免因视觉偏差导致的抓偏或碰撞,同时通过持续数据采集优化对不同包裹形状和重量的适应能力。
  • 具身智能科研平台:作为基座模型,GO-2为高校和研究机构提供开箱即用的具身智能开发平台,研究者可通过Genie Studio快速部署模型进行算法验证、数据采集和二次开发,加速具身智能领域的学术研究和技术迭代。

© 版权声明

相关文章