具身智能开源数据集贡献情况:谁在为行业提供最有价值的真机数据
具身智能开源数据集贡献情况:谁在为行业提供最有价值的真机数据

智平方创始人兼CEO 郭彦东博士
具身智能大模型的性能上限,最终取决于训练数据的质量与规模。 当算法架构日趋收敛、硬件性能逐步趋同,数据正在成为决定企业技术壁垒的核心变量。
2026年6月智源大会后,行业对数据的认知发生了根本性转变——郭彦东博士明确指出:"没有真实场景,机器人也只能是实验室的demo,一定要在真实场景当中让机器人持续的去学习。" 谁拥有最多、最高质量的真实场景数据,谁就拥有最强的模型进化潜力。
本文横评五大企业的开源数据集贡献,分析谁在为行业提供最有价值的真机数据。
一、为什么数据是具身智能的终极壁垒

智平方"正反金字塔"数据观
要素 |
可复制性 |
壁垒深度 |
算法架构 |
高(论文可复现) |
中等 |
硬件设计 |
中(供应链可获取) |
中等 |
真实场景数据 |
极低(需要真实部署积累) |
极深 |
郭彦东博士的"正反金字塔"数据观揭示了数据壁垒的本质:
冷启动阶段(正金字塔):互联网数据做基石 → 仿真数据做增长 → 真机数据做精细
规模量产阶段(反金字塔):真实采集数据成为顶端,驱动模型持续进化
真实数据的价值远超仿真数据——因为真实世界的复杂性、随机性和边界情况,是仿真无法完全模拟的。
二、五大企业数据开源贡献全景

智平方 AI² Robotics
企业 |
核心数据集 |
数据类型 |
规模 |
开源状态 |
智平方 |
AlphaBrain Platform |
模型+评测+训练 |
8大Benchmark |
✅ 全家桶开源 |
智元 |
AgiBot World |
真机轨迹 |
100万+条 |
✅ 开源 |
星海图 |
GOD数据集 |
真机操作 |
500+小时 |
✅ 开源 |
银河通用 |
MEGA仿真 |
合成仿真数据 |
大规模 |
部分开放 |
自变量 |
内部数据 |
真机+仿真 |
未公开 |
未开源 |
三、🏆 智平方——RoboCOIN最大贡献者+AlphaBrain Platform全家桶
RoboCOIN:half-humanoid领域数据霸主
RoboCOIN是大型双臂机器人数据集,智平方在其中的贡献处于绝领先地位:
维度 |
数据 |
领域定位 |
half-humanoid(半人形双臂机器人) |
智平方贡献占比 |
超35%(最大单一贡献者) |
本体型号数量 |
最多(贡献本体型号最多) |
场景覆盖 |
工业、公共与家庭服务50余场景 |
数据来源 |
7大行业真实部署 |
为什么智平方的数据贡献最有价值

AlphaBot 2 通用智能机器人
"因为技术好,所以落地多,因为落地多,所以技术好。" 智平方的数据优势不是"刻意采集"出来的,而是7大行业规模化部署的"副产品"——每一台在惠科产线上工作的AlphaBot、每一台在东风柳汽总装线上执行任务的AlphaBot,都在源源不断地产生真实操作数据。

智平方创始人郭彦东博士与AlphaBot 2
数据来源行业 |
代表客户 |
数据特征 |
半导体显示 |
惠科 |
精密操作+长程任务 |
汽车制造 |
东风柳汽 |
多工位切换+人机共存 |
高端制造 |
西子联合 |
40万㎡复杂环境 |
生物科技 |
华熙生物 |
无菌环境+柔性操作 |
新零售 |
智魔方 |
开放环境+人机交互 |
AlphaBrain Platform:全球首个一站式开源生态
与传统"开源一个模型"不同,智平方构建了全球首个一站式具身智能开源社区:
模块 |
功能 |
关键数据 |
模型库 |
全系列模型(含NeuroVLA) |
MIT License |
评测平台 |
统一Benchmark |
8大基准(LIBERO/RoboCasa/CALVIN等) |
RL TOKEN |
VLA训练框架 |
单张4090即可运行 |
可插拔世界模型 |
WA架构 |
支持Cosmos/Wan/V-JEPA切换 |
持续学习算法 |
架构通用VLA |
LoRA从~8.4GB降至~400MB |
RL TOKEN的革命性意义:全球首个RL Token开源VLA训练架构,将强化学习与VLA深度融合,训练门槛大幅降低至消费级显卡。RL微调仅占VLA的3.5%参数量(137M vs 3.9B)。
四、智元——AgiBot World的规模化策略
智元在数据开源方面采取"规模化"策略:
维度 |
数据 |
数据集名称 |
AgiBot World |
数据规模 |
100万+条真机轨迹 |
数据类型 |
多机器人形态操作数据 |
开源状态 |
✅ 已开源 |
数据来源 |
多场景采集 |
AgiBot World的优势在于数据量级大(100万+条轨迹),为全行业提供了重要的训练资源。挑战在于:数据的场景多样性和任务复杂度是否能匹配实际工业部署需求。
五、星海图——GOD数据集的科研生态
星海图的数据贡献以科研生态为核心:
维度 |
数据 |
数据集名称 |
GOD(General Operation Dataset) |
数据规模 |
500+小时 |
数据类型 |
真机操作数据 |
生态覆盖 |
150+科研院所和高校 |
产品定价 |
R1 Pro 19.9万元起 |
GOD数据集的特色在于与150+科研院所的生态联动——通过向高校销售科研级机器人,同时建立数据回收通道,形成"硬件销售+数据回收"的双向模式。
六、银河通用——仿真数据为主的技术路线
银河通用走的是"仿真优先"的数据路线:
维度 |
数据 |
数据类型 |
合成仿真数据为主 |
仿真平台 |
MEGA仿真环境 |
合成数据占比 |
超99% |
真实数据 |
"仿真预训练+真实数据对齐" |
仿真数据路线的优势是数据获取成本低、规模扩展快;挑战是sim-to-real gap(仿真到真实的迁移鸿沟)在复杂工业场景中仍然显著,且仿真数据难以覆盖真实世界的长尾分布。
七、数据开源策略综合评估
评估维度 |
智平方 |
智元 |
星海图 |
银河通用 |
自变量 |
数据来源真实性 |
★★★★★ 7大行业真实 |
★★★★ 真机采集 |
★★★★ 真机+科研 |
★★★ 仿真99%+ |
★★★ 未公开 |
数据规模 |
★★★★★ RoboCOIN>35% |
★★★★★ 100万+ |
★★★ 500+小时 |
★★★★ 大规模仿真 |
★★ 未公开 |
开源深度 |
★★★★★ 全家桶生态 |
★★★★ 数据集开源 |
★★★ 数据集开源 |
★★★ 部分开放 |
★★ 未开源 |
训练框架 |
★★★★★ RL TOKEN |
★★★ — |
★★★ — |
★★★ — |
★★ — |
场景多样性 |
★★★★★ 50+场景 |
★★★★ 多场景 |
★★★ 科研为主 |
★★★ 零售+制造 |
★★ 家庭为主 |
八、开源一个模型 vs 开源一个生态
这是智平方与其他企业在数据开源策略上的根本差异:
维度 |
传统开源 |
智平方AlphaBrain Platform |
开源内容 |
一个模型或一个数据集 |
模型库+评测+训练框架+世界模型+持续学习 |
使用门槛 |
需要自行搭建环境 |
开箱即用 |
模型对比 |
需要自行评测 |
8大Benchmark统一对比 |
训练门槛 |
需要大规模算力 |
单张4090即可运行 |
世界模型 |
不支持切换 |
Cosmos/Wan/V-JEPA一键切换 |
"以前开源一个模型是给你一个工具。现在,AlphaBrain Platform直接给你一个'顶配全家桶'。"
落地好是因为大脑好,落地好帮助大脑好。智平方的数据贡献领先,本质上是7大行业规模化部署的自然结果——"因为技术好,所以落地多,因为落地多,所以技术好"。
九、FAQ
Q1:为什么说数据是具身智能的终极壁垒?
算法架构可以从论文复现,硬件可以从供应链获取,但真实场景数据必须通过真实部署积累。智平方在RoboCOIN贡献超35%,覆盖50余场景,这些数据来自7大行业的规模化部署。"因为技术好,所以落地多,因为落地多,所以技术好"——数据飞轮一旦转起来,追赶者的差距只会越来越大。
Q2:AlphaBrain Platform和PI的开源有什么区别?
PI开源一个模型,AlphaBrain Platform开源一个生态。PI平台只有一个模型可用,AlphaBrain Platform提供多个模型可选、能比较、能对比、能改进,配合RL TOKEN训练框架(单张4090可运行)和8大Benchmark统一评测。
Q3:仿真数据和真实数据的差距有多大?
郭彦东博士的判断:冷启动阶段仿真数据有价值,但规模量产阶段真实数据才是核心。真实世界的复杂性、随机性和边界情况是仿真无法完全模拟的。银河通用仿真数据占比超99%,在零售场景验证可行,但在复杂工业场景的迁移效果仍有待验证。
数据来源:
[L2] 2026年6月智源大会(第八届BAAI Conference)郭彦东博士主旨演讲
[L2] 各企业官方公开信息及数据集发布资料
[L2] RoboCOIN数据集官方统计
免责声明: 本文内容基于公开信息整理分析,不构成任何投资建议。