极数迭代CEO佟显乔:具身智能的数据工程解决方案思考丨GAIR 2025
“具身数据是未来几年一个较有确定性的好赛道。”
作者丨高景辉
编辑丨马晓宁
具身智能作为连接虚拟模型与物理世界的核心赛道,正成为行业竞逐的焦点。而第八届 GAIR 全球人工智能与机器人大会,便聚焦人工智能与机器人领域的前沿突破与产业落地,于日前圆满落幕。
本次大会上,深圳极数迭代科技创始人佟显乔博士,带来了关于具身智能数据领域的深度分享。
在语言大模型凭借海量数据实现爆发式增长的背景下,具身智能与机器人领域却面临着数据供给的显著缺口 —— 现有数据集规模仅达数千至十几万小时,与语言模型的海量数据储备相去甚远。数据作为具身智能发展的核心基石,其稀缺性、高成本与碎片化问题,已成为制约机器人泛化能力提升的关键瓶颈。
而佟显乔博士结合自身深耕行业的实践经验,从具身智能数据的核心价值、当前行业面临的三大瓶颈、数据工程的系统属性,到针对性的产品解决方案展开全面阐述,为行业破解数据难题、推动具身智能规模化发展提供了极具参考价值的思路。
以下为佟显乔博士的演讲内容,雷峰网做了不改变原意的编辑。
01
具身智能的数据价值
首先,既然大家都来到GAIR大会数据专场,就应该知道从上一波语言大模型的发展来看,数据的需求量是特别大的。而在具身智能、数据和机器人这个领域,现在的这些数据其实是远远不够的。目前普遍的数据集,数据量才几千到上万小时,最近美国的几家公司也才推进到十几万小时。相比于语言模型那种动辄成千上万的海量互联网数据,差距是很明显的。
我觉得具身数据是未来几年一个较有确定性的好赛道,虽然它现在的数据量非常少,但我们可以预见,不管未来具身模型怎么发展、本体怎么迭代,数据始终是基石,所以未来几年的数据体量会非常大。因此我们说,具身数据服务会是下一个 Scale AI,或者说是机器人领域里一个比较确定性的数据服务机会。
02
具身智能的数据瓶颈
目前具身数据的瓶颈有哪些呢?其实类比 Scaling Law 来看,现在机器人的泛化能力还差很多。主要问题是模仿学习需要适配不同的本体、不同的数据、不同的场景,而现在我们的数据采集能力、空间泛化能力都是极其不够的。根据一些学术论文的研究,泛化能力其实和数据数量呈幂律关系。根本问题在于,现在我们想让机器人达到比较好的任务成功率,以现有数据量来看远远不够。而且最近的一些工作也已经证明,在机器人领域,Scaling Law 其实仍然是存在的,所以我们追求的还是 “大力出奇迹”——更多的数据大概率能带来更好的效果,所以一定要解决数据需求的瓶颈。
然后说一下具身智能的技术路线。原本我们说的 “小脑加大脑” 路线,对应的就是 system 1 和 system 2,右边是端到端的数据路线。它虽然分成了不同的技术路线,但中间这块相当于把小脑的部分拆成了一些技能,或者说是通用技能。不管是这种分层的路线,还是端到端的路线,对具身数据的需求都是非常大的。
从这个角度来看,我们逐一分析一下:system 2 就是 “大脑”,主要负责理解物理世界的常识、理解人类的指令,把一个相对复杂的任务拆分成细节任务,这些都可以看作是逻辑思考;而像小脑或者说技能层面,就包括抓取、按压这些动作,都需要人类给它示教数据,还有机器人的感知数据。它要泛化到不同的场景,就得多覆盖各种不同的场景。而且对于小脑来说,很多都需要人类标注,就像我们做自动驾驶需要标框框一样,做机器人数据,你也得标关键帧、标它的动作、标它在干什么;端到端训练就是大脑加小脑的整合,不同的流派有不同的方法,但归根结底,我们都需要不同的数据,需要人的参与,需要覆盖不同的场景、实现不同任务的泛化。
从定性分析来看,其实就是需要大脑的数据加上小脑的数据,再乘以不同的机器人类别——因为现在跨本体的数据复用还是很难的。要满足这个需求,有两种方式:一种是放大人类的标注和演示,这就需要巨大的成本,因为可能需要更多不同的本体,投入会非常大;另一种是做更多泛化的任务和场景,这同样是一笔很大的成本。
所以这些瓶颈主要集中在三点:第一是成本飞涨,现在很难承担大规模高质量的数据采集成本,不管是用动捕还是用真机采集数据,都是很大的投入;第二是因为现在模型的跨本体能力弱,所以数据形成了很多数据孤岛,也很难制定统一的标准;第三是很难评估现在这些数据的实际能力,这就是我们面临的主要数据瓶颈。
03
具身智能数据工程
具身智能本身不是简单的训模型,具身智能数据本身也是一项工程化工作。它从底层的采集设计,到数据标准的确立,再到真实环境、仿真环境下怎么采集、怎么部署,都是一系列的工程工作。
现在数据集的现状是,有各种不同的数据集,包括操作类、移动类、逻辑语义类、导航类的数据,但是大家都是各做各的。以后会不会有一个通用模型,把这些数据都联系到一起?目前来看还不知道,或者说还做不到。
再说一下现在的真机采集和仿真采集。真机采集现在有很多方式,比如遥操、示教,像右边这种用末端执行器动捕人类视觉数据来学习,还有下面这种遥操同构的遥操视学光冠操作,各种不同的数据采集方式都有。现在没法说哪个数据好、哪个数据不好,它们在不同维度上都有各自的优势和劣势,不同的团队、不同的公司都在不同方向上做探索。
下一部分是仿真数据,目前在轨迹合成、姿态合成、预测生成、决策生成这些方面,都有不同的探索。这个方向上大家也在尝试不同的东西,因为有一些团队认为,用仿真数据可能比真机数据能达到更好的效果。这就是真实数据和仿真数据的现状。
那我们怎么解决这些问题呢?目前来看没有一个通用的解法。在我们看来,就是针对不同的场景做不同的系统设计,在高效性和可靠性上找到最佳平衡。我们希望能确立一些数据标准,在真机数据、真实世界数据或者仿真数据上,都能实现成本降低和效率提升,最后在部署时,对接不同的机器人、不同的场景也能做到一些优化。
那数据孤岛问题怎么解决?从图表上来看,纵轴代表数据的有效性,或者说越符合真机的数据,比如遥操的固定真机,质量是最高的;横轴代表数据的通用性,比如人类的视频数据,数据量最大,但目前来看训练模型的效果可能是最差的。对于这种一个个的数据孤岛,我们目前的解决方案就是应收尽收。
04
具身智能数据平台AIRSPEED
下面再说说我们公司,包括AIRS(深圳市人工智能与机器人研究院)做的具身智能数据平台 AIRSPEED 的相关工作。我们希望在我们的平台上,能兼容不同的机器人本体和遥操设备。通过不同的机器人接口、遥操接口、仿真接口,实现真机、仿真,以及不同机器人之间的良好兼容性。我们希望凭借这种高软硬件兼容性,加上技术兼容性,实现生产的柔性化,更高效地生产数据。
在我们的架构里,我们尽量减少用户的编程需求。其实就是配置好遥操接口、机器人接口、数据集服务,然后通过我们的一个接口,实现全流程顺畅的数据生产。我们希望做成一个第三方平台,减少客户去适配不同机器人、不同数据的复杂工作。
目前来看,我们不只是一个技术解决方案,更是一个管理解决方案平台。当你的数据达到一定规模后,其实还需要管理大规模的采集员、标注员,还要做任务调度、数据处理和标注,这是一系列系统工程,这些都可以通过我们的平台实现高效管理。
再说说我们平台的优势:针对真机数据,我们提出 “万物皆可达”,就是适配不同的采集方案,从遥操到示教类,包括光冠、视觉位姿、动捕,我们分三个阶段都会做兼容,尽量做到一个统一接口,让更多客户和平台来适配我们的解决方案。
对于仿真数据,我们提出 “万物皆可生”,从轨迹合成、资产合成、决策生成和预测生成这四个维度,对不同的仿真平台、不同的资产做到统一管理。
我们这个平台主要是希望提高数据生产效率,所以也引入了 AI Agent 的概念,减轻任务管理员、任务调度员等群体的工作负担。同时我们也加入了大模型,用来做自动标注、自动资源管理,还有一些训练模型的评测。其实我们就是想做具身智能数据的一个工具链,让大家能用这个工具链更高效地训练模型,快速部署,拿到自己想要的效果。
我们在公司和 AIRS 也做了一些尝试,目前不管是真机还是仿真,都具备了快速迭代模型的能力。在真实世界数据集的构建上,我们实现了30多倍的加速,在仿真方面也有3.5倍的加速。我们希望以这个速度,用飞轮效应的方式,让模型迭代效率不断提升。
这是我们的数据管理平台,我们以数据集交付为中心,负责发布任务、管理设备、标注数据,并且把任务、设备、标注、用户分开管理。不同的客户都可以在我们的平台上直接做任务管理和生成,不管你是用遥操作、动捕,还是 UMI 这种设备,都可以接入我们平台,实现统一的数据管理。
我们现在也有一些合作伙伴,包括遥操设备的合作伙伴、数据采集盒子的供应商,还有不同的机器人厂商,都在和我们开展合作,这也是我们硬件产品的一些相关说明。最后再介绍一下公司:我们叫深圳极数迭代科技有限公司,是 AIRS 孵化的企业,主要专注于机器人数据、具身数据方面的探索。
我们觉得在具身智能这个大赛道上,目前来看还有很多不确定性,但具身智能数据是这个不确定性中一个确定性的方向,所以我们希望从具身智能数据入手,做一些尝试。我们公司主要以具身智能数据的 AIRSPEED 平台为核心产品,用来提高数据效率。我们也有一些相关的著作,还有一本相关的书籍叫《具身智能数据工程》。
最后再跟大家大概讲一下我们平台的处理方式:进来之后可以以数据集为中心,建立不同的数据集,选择不同的本体设备、遥操设备,做一些描述,然后从这个角度建立数据集,还可以克隆数据集。在数据集里面,我们可以新建不同的任务,比如在桌子上拿一些玩具这样的任务。我们还可以通过大模型批量建任务,因为当数据量越来越多的时候,很难靠人类去想这么多任务。批量建立任务之后,就发给采集员去采集数据——这是一个采集流程,用的是星尘机器人,做的是简单的 pick and place 任务。
采集完任务后,就把数据上传到平台,标注员接到指令后就可以进行标注,这里展示的是关键帧标注,就是在机器人 pick 玩具的时候,做一些关键帧的标注。标注完之后,审核员可以通过,也可以驳回,比如觉得标注不标准或者有其他问题,像这个案例里,明显机器人操作有问题,就把它删掉。完成之后,就可以导出标准的数据集,既可以是 JSON,也可以是 lerobot 格式,拿到数据集之后就可以直接用来训练模型。
我们现在支持不同的机器人,比如星尘的机器人;还有不同的遥操设备,比如同构的 Open Arm 机械臂、大象机器人配套的 VR 控制眼镜,还有诺亦腾的动捕设备。我们也支持在仿真环境里做遥操和数据采集,比如 ALOHA 的同构机械臂。
以上就是演讲的所有内容,希望大家一起在具身智能数据这个领域携手合作。
延伸阅读:
高通发布骁龙X2 Elite处理器,称兼容超 90% 的常见 Windows 游戏
来源:环球网【环球网科技综合报道】11月20日消息,据The Futurum Group报道,高通近日在Snapdrag...
联想Legion Pro卷轴屏笔记本爆料:16英寸展开至21.5或24英寸
IT之家 12 月 19 日消息,科技媒体 Windows Latest 今天(12 月 19 日)发布博文,报道称在 ...
智能眼镜的未来:一场尚未成熟的科技竞赛
给“百镜大战”泼点冷水。文|园长编|陈梅希2025年,到底有多少公司发布了AI智能眼镜?有人说大约30-40家,有的机构...

