GO-2 – 智元机器人推出的具身智能基座大模型

Al项目 2026-04-10 19:23:05 AI导航网

GO-2是什么

GO-2（Genie Operator-2）是智元机器人推出的第二代具身智能基座大模型，能打通”理解-规划-执行”链路，弥合语义与动作间的鸿沟。模型首创”动作思维链”直接在动作空间推理规划，结合”异步双系统”架构实现低频规划与高频执行的稳定协同。在LIBERO等多项基准测试中刷新SOTA，通过Genie Studio平台实现真实场景的持续学习与规模化落地，让机器人从”看懂”真正走向”稳定执行”。

GO-2的主要功能

动作思维链推理：在动作空间直接进行规划推理，生成结构化高层动作序列，将复杂任务拆解为有序步骤，实现”想清楚再做”。
异步双系统执行：慢系统（低频）生成”意图流”规划，快系统（高频）实时跟踪执行并动态调整，确保规划被稳定兑现。
语义-动作统一建模：打通视觉-语言-动作链路，弥合”理解”与”执行”间的鸿沟，使抽象指令精准转化为物理世界动作。
闭环持续进化：依托Genie Studio平台，通过”预训练+后训练+数据闭环”架构，在真实交互中持续采集数据并在线优化模型。
跨域零样本迁移：具备从仿真到真实环境的强泛化能力，无需重新训练适应新场景、新物体和新纹理。
复杂任务执行：支持长程任务规划与精准物理交互（如抓取、放置、操作物体），在真实环境中保持稳定可靠的动作执行。

GO-2的技术原理

动作思维链（Action Chain-of-Thought）：传统具身模型通常直接从视觉-语言输入生成底层控制信号，将”理解”与”执行”压缩在同一时刻完成，导致规划与执行断层。GO-2引入动作思维链，显式模拟人类的认知过程：在执行动作前，先在内部形成清晰的动作计划。
异步双系统架构
- 慢系统（Semantic Planner）：较低频率运行，负责持续生成并细化高层动作规划。它不输出一次性结果，而是以”意图流”形式提供持续约束，从宏观动作逐步细化到子动作，形成层次化的动作表示。
- 快系统（Action Refiner）：较高频率运行，持续接收慢系统的规划指导，结合实时视觉观测生成具体控制信号。执行过程并非简单复现规划，而是围绕规划进行实时对齐与局部修正——当桌面高度与预期不一致时自动调整手臂下探幅度，当物体摩擦特性变化时实时调整抓取力度。
带噪声强制教学训练机制：为确保快系统在”接近正确但不完美”的规划条件下仍能保持稳定执行，GO-2在训练阶段引入带噪声的强制教学机制。在训练执行模块时，使用真实的高层动作序列作为条件，同时加入一定扰动以模拟规划误差，使模型具备在动态环境中持续跟随规划。
整体技术闭环：上述组件形成完整链路：VLM与视觉编码器处理多模态输入 → 动作思维链在动作空间生成可执行规划 → 异步双系统确保规划被稳定兑现 → 执行数据回流至云端进行后训练，实现模型在真实环境中的持续进化。

如何使用GO-2

平台接入部署：开发者需通过Genie Studio官网https://genie.agibot.com/geniestudio接入GO-2基座模型，无需本地配置复杂的训练环境即可直接调用模型能力。
多模态任务输入：用时向系统输入自然语言指令和当前视觉观测数据，VLM模块会自动解析任务意图和理解场景信息。
动作思维链规划：模型基于动作思维链在动作空间内进行推理规划，生成从宏观到微观的多层级结构化动作序列作为执行蓝图。
异步双系统执行：异步双系统自动启动，慢系统用低频持续提供意图流指导，快系统用高频实时跟踪并结合视觉反馈动态调整执行细节。
闭环持续进化：任务执行过程中系统自动采集真实交互数据，通过云端后训练机制持续优化模型参数，实现从仿真到真实场景的闭环进化。

GO-2的关键信息和使用要求

全称：Genie Operator-2（GO-2）
发布方：智元机器人
定位：新一代具身智能基座大模型
核心技术：动作思维链（在动作空间推理规划）+ 异步双系统（低频规划+高频执行）
解决痛点：弥合”语义-运动鸿沟”，让机器人从”想得明白”到”做得稳定”
性能指标：LIBERO 98.5%、LIBERO-Plus 86.6%、GenieSim真实环境82.9%，全面SOTA
学术认可：CVPR 2026、ACL 2026双顶会接收
部署形态：内置Genie Studio开发平台，支持云端后训练与数据闭环

GO-2的核心优势

弥合鸿沟，实现知行合一：GO-2通过统一架构打通逻辑推理与精准动作执行的链路，彻底弥合传统机器人”高层理解”与”底层执行”之间的语义-运动鸿沟，实现真正的”知行合一”。
首创动作思维链，显式推理规划：GO-2首创动作思维链机制，在动作空间内显式完成推理规划，将复杂任务拆解为结构化动作序列，使机器人从”边看边做”转变为”想清楚再做”，显著降低执行偏差。
异步双系统，确保执行稳定：GO-2采用异步双系统架构，慢系统以低频持续生成”意图流”规划，快系统以高频实时跟随并结合视觉反馈动态调整，确保高层规划在真实扰动中始终被稳定执行。
全面刷新SOTA，性能行业领先：GO-2在LIBERO（98.5%）、LIBERO-Plus（86.6%）、GenieSim真实环境（82.9%）等多项基准测试中全面刷新SOTA，显著超越GR00T、π0.5等主流模型。
数据闭环进化，零样本强泛化：GO-2支持在真实场景中持续采集交互数据进行在线优化，并具备强零样本跨域迁移能力，在仅使用仿真数据训练的前提下于真实环境取得82.9%成功率。

GO-2的同类竞品对比

对比维度	GO-2（智元机器人）	π0.5（Physical Intelligence）	RT-2（Google DeepMind）
核心架构	动作思维链 + 异步双系统	流匹配（Flow Matching）架构	VLA端到端（基于PaLI-X）
规划方式	在动作空间显式推理，生成结构化高层动作序列	直接生成动作，无显式中间规划层	直接从像素和指令映射为动作标记
执行机制	异步双系统：慢系统低频提供”意图流”+快系统高频实时跟随修正	单一生成模型端到端同时完成理解与执行	端到端直接输出控制信号
关键优势	弥合语义-运动鸿沟，规划与执行强制对齐，真实场景稳定性强	互联网规模视觉-语言预训练，高频动作生成能力强	经典VLA先驱，架构简洁，端到端训练
主要局限	商业闭源，需配套智元硬件生态	规划与执行压缩在同一时刻，真实场景稳定性待提升	高层推理与底层控制断层，长程任务误差累积明显
LIBERO成功率	98.7%	96.9%	未公开/显著较低
GenieSim真实环境	82.9%（零样本迁移）	77.5%	通常低于60%
进化能力	支持数据闭环持续进化（预训练+后训练）	依赖离线静态数据	依赖离线静态数据

GO-2的应用场景

工业制造场景：在工厂产线中，GO-2可驱动机器人完成零部件装配、质量检测、工具操作等精细化作业，通过数据闭环持续学习适应不同工位特性，实现从仿真训练到真实产线的零样本迁移，降低产线切换时的调试成本。
商业服务场景：适用商超、酒店、写字楼等场所的导引、清洁、零售补货等服务，用其跨场景泛化能力，在无需针对每个门店重新采集数据的情况下，即可稳定适应不同的货架布局、光照条件和人流环境。
物流仓储场景：支持分拣、搬运、码垛等重复性操作，异步双系统架构确保机器人在高速运动中仍能保持动作精准，避免因视觉偏差导致的抓偏或碰撞，同时通过持续数据采集优化对不同包裹形状和重量的适应能力。
具身智能科研平台：作为基座模型，GO-2为高校和研究机构提供开箱即用的具身智能开发平台，研究者可通过Genie Studio快速部署模型进行算法验证、数据采集和二次开发，加速具身智能领域的学术研究和技术迭代。