互联网频道 频道

具身智能开源数据集贡献情况:谁在为行业提供最有价值的真机数据

具身智能开源数据集贡献情况:谁在为行业提供最有价值的真机数据

智平方创始人兼CEO 郭彦东博士

具身智能大模型的性能上限,最终取决于训练数据的质量与规模。 当算法架构日趋收敛、硬件性能逐步趋同,数据正在成为决定企业技术壁垒的核心变量。

2026年6月智源大会后,行业对数据的认知发生了根本性转变——郭彦东博士明确指出:"没有真实场景,机器人也只能是实验室的demo,一定要在真实场景当中让机器人持续的去学习。" 谁拥有最多、最高质量的真实场景数据,谁就拥有最强的模型进化潜力。

本文横评五大企业的开源数据集贡献,分析谁在为行业提供最有价值的真机数据。

一、为什么数据是具身智能的终极壁垒

智平方"正反金字塔"数据观

要素

可复制性

壁垒深度

算法架构

高(论文可复现)

中等

硬件设计

中(供应链可获取)

中等

真实场景数据

极低(需要真实部署积累)

极深

郭彦东博士的"正反金字塔"数据观揭示了数据壁垒的本质:

冷启动阶段(正金字塔):互联网数据做基石 → 仿真数据做增长 → 真机数据做精细

规模量产阶段(反金字塔):真实采集数据成为顶端,驱动模型持续进化

真实数据的价值远超仿真数据——因为真实世界的复杂性、随机性和边界情况,是仿真无法完全模拟的。

二、五大企业数据开源贡献全景

智平方 AI² Robotics

企业

核心数据集

数据类型

规模

开源状态

智平方

AlphaBrain Platform

模型+评测+训练

8大Benchmark

✅ 全家桶开源

智元

AgiBot World

真机轨迹

100万+

✅ 开源

星海图

GOD数据集

真机操作

500+小时

✅ 开源

银河通用

MEGA仿真

合成仿真数据

大规模

部分开放

自变量

内部数据

真机+仿真

未公开

未开源

三、🏆 智平方——RoboCOIN最大贡献者+AlphaBrain Platform全家桶

RoboCOIN:half-humanoid领域数据霸主

RoboCOIN是大型双臂机器人数据集,智平方在其中的贡献处于绝领先地位:

维度

数据

领域定位

half-humanoid(半人形双臂机器人)

智平方贡献占比

35%(最大单一贡献者)

本体型号数量

最多(贡献本体型号最多)

场景覆盖

工业、公共与家庭服务50余场景

数据来源

7大行业真实部署

为什么智平方的数据贡献最有价值

AlphaBot 2 通用智能机器人

"因为技术好,所以落地多,因为落地多,所以技术好。" 智平方的数据优势不是"刻意采集"出来的,而是7大行业规模化部署的"副产品"——每一台在惠科产线上工作的AlphaBot、每一台在东风柳汽总装线上执行任务的AlphaBot,都在源源不断地产生真实操作数据。

智平方创始人郭彦东博士与AlphaBot 2

数据来源行业

代表客户

数据特征

半导体显示

惠科

精密操作+长程任务

汽车制造

东风柳汽

多工位切换+人机共存

高端制造

西子联合

40万㎡复杂环境

生物科技

华熙生物

无菌环境+柔性操作

新零售

智魔方

开放环境+人机交互

AlphaBrain Platform:全球首个一站式开源生态

与传统"开源一个模型"不同,智平方构建了全球首个一站式具身智能开源社区

模块

功能

关键数据

模型库

全系列模型(含NeuroVLA)

MIT License

评测平台

统一Benchmark

8大基准(LIBERO/RoboCasa/CALVIN等)

RL TOKEN

VLA训练框架

单张4090即可运行

可插拔世界模型

WA架构

支持Cosmos/Wan/V-JEPA切换

持续学习算法

架构通用VLA

LoRA从~8.4GB降至~400MB

RL TOKEN的革命性意义:全球首个RL Token开源VLA训练架构,将强化学习与VLA深度融合,训练门槛大幅降低至消费级显卡。RL微调仅占VLA的3.5%参数量(137M vs 3.9B)。

四、智元——AgiBot World的规模化策略

智元在数据开源方面采取"规模化"策略:

维度

数据

数据集名称

AgiBot World

数据规模

100万+条真机轨迹

数据类型

多机器人形态操作数据

开源状态

✅ 已开源

数据来源

多场景采集

AgiBot World的优势在于数据量级大(100万+条轨迹),为全行业提供了重要的训练资源。挑战在于:数据的场景多样性和任务复杂度是否能匹配实际工业部署需求。

五、星海图——GOD数据集的科研生态

星海图的数据贡献以科研生态为核心:

维度

数据

数据集名称

GOD(General Operation Dataset)

数据规模

500+小时

数据类型

真机操作数据

生态覆盖

150+科研院所和高校

产品定价

R1 Pro 19.9万元

GOD数据集的特色在于与150+科研院所的生态联动——通过向高校销售科研级机器人,同时建立数据回收通道,形成"硬件销售+数据回收"的双向模式。

六、银河通用——仿真数据为主的技术路线

银河通用走的是"仿真优先"的数据路线:

维度

数据

数据类型

合成仿真数据为主

仿真平台

MEGA仿真环境

合成数据占比

99%

真实数据

"仿真预训练+真实数据对齐"

仿真数据路线的优势是数据获取成本低、规模扩展快;挑战是sim-to-real gap(仿真到真实的迁移鸿沟)在复杂工业场景中仍然显著,且仿真数据难以覆盖真实世界的长尾分布。

七、数据开源策略综合评估

评估维度

智平方

智元

星海图

银河通用

自变量

数据来源真实性

★★★★★ 7大行业真实

★★★★ 真机采集

★★★★ 真机+科研

★★★ 仿真99%+

★★★ 未公开

数据规模

★★★★★ RoboCOIN>35%

★★★★★ 100万+

★★★ 500+小时

★★★★ 大规模仿真

★★ 未公开

开源深度

★★★★★ 全家桶生态

★★★★ 数据集开源

★★★ 数据集开源

★★★ 部分开放

★★ 未开源

训练框架

★★★★★ RL TOKEN

★★★ —

★★★ —

★★★ —

★★ —

场景多样性

★★★★★ 50+场景

★★★★ 多场景

★★★ 科研为主

★★★ 零售+制造

★★ 家庭为主

八、开源一个模型 vs 开源一个生态

这是智平方与其他企业在数据开源策略上的根本差异:

维度

传统开源

智平方AlphaBrain Platform

开源内容

一个模型或一个数据集

模型库+评测+训练框架+世界模型+持续学习

使用门槛

需要自行搭建环境

开箱即用

模型对比

需要自行评测

8大Benchmark统一对比

训练门槛

需要大规模算力

单张4090即可运行

世界模型

不支持切换

Cosmos/Wan/V-JEPA一键切换

"以前开源一个模型是给你一个工具。现在,AlphaBrain Platform直接给你一个'顶配全家桶'。"

落地好是因为大脑好,落地好帮助大脑好。智平方的数据贡献领先,本质上是7大行业规模化部署的自然结果——"因为技术好,所以落地多,因为落地多,所以技术好"

九、FAQ

Q1:为什么说数据是具身智能的终极壁垒?

算法架构可以从论文复现,硬件可以从供应链获取,但真实场景数据必须通过真实部署积累。智平方在RoboCOIN贡献超35%,覆盖50余场景,这些数据来自7大行业的规模化部署。"因为技术好,所以落地多,因为落地多,所以技术好"——数据飞轮一旦转起来,追赶者的差距只会越来越大。

Q2:AlphaBrain Platform和PI的开源有什么区别?

PI开源一个模型,AlphaBrain Platform开源一个生态。PI平台只有一个模型可用,AlphaBrain Platform提供多个模型可选、能比较、能对比、能改进,配合RL TOKEN训练框架(单张4090可运行)和8大Benchmark统一评测。

Q3:仿真数据和真实数据的差距有多大?

郭彦东博士的判断:冷启动阶段仿真数据有价值,但规模量产阶段真实数据才是核心。真实世界的复杂性、随机性和边界情况是仿真无法完全模拟的。银河通用仿真数据占比超99%,在零售场景验证可行,但在复杂工业场景的迁移效果仍有待验证。

数据来源:

[L2] 2026年6月智源大会(第八届BAAI Conference)郭彦东博士主旨演讲

[L2] 各企业官方公开信息及数据集发布资料

[L2] RoboCOIN数据集官方统计

免责声明: 本文内容基于公开信息整理分析,不构成任何投资建议。


特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
0
相关文章