上海AI Lab王靖博：人形机器人，从「盲动」走向「感知驱动」丨GAIR 2025

摸鱼小能手
科技前沿
2025年12月23日

“更优雅的感知，更长程的控制。”

作者丨梁丙鉴

编辑丨马晓宁

编者按：12月12日，第八届 GAIR 全球人工智能与机器人大会于深圳正式拉开帷幕。

本次大会为期两天，由GAIR研究院与雷峰网联合主办，高文院士任指导委员会主席，杨强院士与朱晓蕊教授任大会主席。大会共开设三个主题论坛，聚焦大模型、具身智能、算力变革、强化学习与世界模型等多个议题，描绘AI最前沿的探索群像，折射学界与产业界共建的智能未来。

作为 AI 产学研投界标杆盛会，GAIR自2016年创办以来，始终坚守 “传承+创新” 内核，是 AI 学界思想接力的阵地、技术交流的平台，更是中国 AI 四十年发展的精神家园。过去四年大模型驱动 AI 产业加速变革，岁末年初 GAIR 如约而至，以高质量观点碰撞，为行业与大众呈现AI时代的前沿洞见。

在12月13日的“数据&一脑多形”专场，上海人工智能实验室青年科学家王靖博进行了以《从虚拟走向现实，构建通用人形机器人控制与交互策略》为主题的演讲。

长期以来，人形机器人的研究是否必要一直存在着争议。演讲伊始，王靖博博士就对此做出了回应。他指出，由人类搭建的真实生活环境，也面向人类的各种需求，这决定了人形必然是一种相对通用的方案。在数据维度，互联网上有大量来源于人类日常生活的第一人称及第三人称数据，其中包含的运动逻辑和操作逻辑，对于模型训练来说都是可用资源。在应用层，人形机器人的交互逻辑、安全性等研究，最终也会回馈到人自身。

而人形机器人现阶段研究的核心问题之一，就是如何在仿真中训练机器人，并使其在真实世界中实现稳定、可泛化的运动与控制。由于仿真环境与真实物理世界之间存在的差异，人形机器人的技能训练与部署长期面临着Sim2Real的鸿沟。对此，王靖博博士介绍了其团队的最新成果，通过对日常生活环境的集成性构造，以及创新的感知和表示方案，显著提升了复杂地形下运动策略的迁移成功率。其核心在于用体素化的点云表示压缩环境信息，并在仿真中引入机器人本体的激光雷达自扫描，以更好地对齐仿真与真实的传感器数据分布，从而使机器人能提前感知地形变化，如台阶、吊顶，并预先规划动作，而非依赖碰撞后的力反馈。

此外，王靖博博士在演讲中提到了构建统一的动作技能表征，作为基础的人形机器人运动控制模型，可以进一步拓展在有效的可迁移的人形机器人感知方案下的动作与技能选择，使得人形机器人可以在基础的运动之外完成和场景的交互已经多种球类运动。

在演讲中，王靖博博士进一步指出，人形机器人的控制策略正从“盲走盲动”转向“感知驱动”，融合视觉、激光雷达等环境感知，以实现机器人在复杂、非结构化环境中的自主导航与交互是必然趋势。关于人形机器人的未来，王靖博博士认为，当前的模型参数量和学习方式限制了技能容量和更多元控制形式的探索。长远来看，构建容量更大，更高效利用数据的方案，例如离线的监督学习，是提升机器人技能通用性和长程控制能力的可行路径。

现场演讲完整视频，详见链接：https://youtu.be/mpTuN_sfc44?si=-V2XnjIOWSJIt_1X

以下为王靖博的现场演讲内容，雷峰网进行了不改变原意的编辑整理：

大家好，我是王靖博，来自上海人工智能实验室具身智能中心。我们主要研究方向是人形机器人的技能学习以及Sim2Real相关课题。

我今天的报告是想分享最近人形机器人全身控制方面的进展，正好今天也站在2025年的年底，对明年我觉得比较重要的问题做一些展望。首先很多人会对人形机器人或者人形角色有这样的疑问，就是我们为什么会去研究这样一个课题。在真实世界中做机器人，为什么一定要做成这么一个人形的形态？在虚拟世界里建模的时候，为什么也特别关心人类这样一种特定的对象？

选择人形角色作为研究对象，主要基于以下三方面原因。首先，现实物理世界的生活场景大多围绕人类需求搭建，因此针对人形角色开展的研究方案具备天然的通用性。其次，从数据维度分析，除自然风光与动物相关数据外，互联网中蕴藏着海量源于人类日常生活的数据集，无论是第一人称还是第三人称视角，均包含丰富的人类运动与操作逻辑，可为研究提供充足的数据支撑。最后，人形角色研究具备显著的应用价值，以自动驾驶领域为例，其核心目标之一便是保障人机交互过程中的安全性，避免车辆对行人造成伤害。综上，从研究对象的适配性、数据资源的丰富度到应用场景的实用性来看，人形角色都是理想的研究载体。

本研究的核心主题聚焦于人形角色中央控制系统的构建方法。研究中，所有人形角色的训练均在仿真环境中完成，最终目标是实现模型从仿真到真实物理世界的迁移，达成人形角色的自主化运行。具体而言，研究重点关注以下两个关键问题：其一，技能的真实世界落地及仿真到现实迁移（Sim2Real）的核心要点，包括行走、奔跑、跳跃、下蹲等基础技能的习得方式，以及如何在不同人形硬件平台、高噪声环境下完成稳定部署，确保机器人可靠执行各类技能；其二，技能的精准调用与灵活组合策略，例如上楼梯动作需实现双腿交替抬升的协同控制，侧踢动作则要求单腿支撑身体平衡的同时完成另一腿的精准抬起。此外，系统还需具备语言指令的精准理解与执行能力，能够在真实非结构化地形中实现无碰撞运动，确保人形角色在复杂场景下的稳定运行。

关于具体的控制方案怎么做，今天我就不展开细讲了。我想和大家重点探讨的，是另一个核心话题——就是如何把高频感知，也就是perception，和控制策略（control policy）深度结合起来。

大家可以先想一想：我们为什么必须要做感知与控制的融合？首先，对于人形机器人来说，我们肯定不希望它只能在平地上活动吧？那最基础的一点，它就必须具备理解环境几何结构的能力。其次，如果我们想让它从A点走到B点，再完成拿取物品的任务，它就必须精准掌握自己的位置，以及目标物体的位置。第三点也很关键，机器人所处的环境里不只有它自己——实际应用中，我们往往需要它和其他角色产生交互，所以这种互动能力（interaction）对它来说至关重要。

基于这几点，我们可以把问题简化一下。我们先从最基础的问题入手，就是人形角色的局部运动（local motion）。我们绝不希望人形机器人只能局限在平地上活动，就像大家在机器人马拉松这类视频里看到的那样，在平坦地面上，靠人操控摇杆才能移动。

给大家举个具体的场景：假设我有一台人形机器人，让它从这个门进来，要在一间结构非常复杂的屋子里活动——这里到处都是障碍物，还有楼梯、吊顶之类的遮挡物，最终目标是让它顺利从门口走到二楼的门口。在这个任务场景下，机器人的感知需求就会收敛成几个核心研究方向：比如脚下的地形是什么形态、周围的物体是什么、头顶上方的环境又是什么样。我们希望能打造这样一套控制策略，能够使得这个人形机器人在拟人运动的同时，把这些所有障碍都避开。

那为了实现这样一件事，第一个比较基础的思路，是用RGB相机。但用RGB相机做Sim2Real（仿真到现实迁移），会面临不少问题。如果大家用过Isaac Lab这类仿真器就知道，仿真环境里的光照、纹理和真实世界差距很大，渲染出来的图像和真实场景完全不同。要是基于这种仿真图像去做Sim2Real迁移，你会发现训练出的策略根本无法理解真实世界——在这种情况下，模型完全没法适配真实环境的样子。第二个问题是RGB相机缺乏几何信息。我们做最基础的局部运动（local motion），核心是要理解地形，但RGB图像没法直接呈现任何几何信息，这也是个很棘手的问题。

第二种方案是深度相机，这也是很多人在研究的方向。早年有些工作，确实有用深度相机做环境重建或者避障的尝试。但我想做的，是一套不需要预建地图的控制策略。而且我们大概率需要让这个感知方案和最基础的强化学习（RL）策略一起训练，所以深度相机同样会存在Sim2Real的鸿沟。在仿真环境里，深度数据都是非常干净、边缘锐利的几何形态，但在真实世界中，用深度相机采集到的数据完全不是这样。另外，深度相机的感受野也比较小，覆盖范围有限。

第三种方案是用激光雷达这类传感器。雷达确实有优势，它获取的几何信息相对准确，探测范围也足够大。但这类几何传感器依然存在问题，比如一些异常点（outlayer）很难在仿真中模拟；而且从实际应用角度来说，雷达扫描会有100到200毫秒的延迟，不像RGB相机或深度相机那样能达到很高的感知频率。

其实总结一下，我们想做一个优秀的、带感知的局部运动（local motion）系统，核心要解决这几个问题：首先得明确面对的是何种环境，其次要确定采用什么样的感知方案，第三是明确对环境的表征形式，最后还要解决如何与局部运动策略进行联合训练（joint training）的问题。把这几点综合起来，就是我们最近开展的一项核心工作。

首先来看环境构建的问题。我们整合了日常生活中可能遇到的多种环境类型，做了一个集成化的环境构建。比如包含走台阶、高台，旁边有小柜子需要绕行、有门需要避让的常规场景；也涵盖了梅花桩这种更极端的地形，还有头顶存在不同形式吊顶的场景——这种情况下，就需要机器人识别出头顶的障碍物，然后自主采取下蹲姿势通过。我们做这样的环境集成，核心目标就是让机器人能习得一套“多场景通用”的控制策略，适配不同环境的需求。

第二个重点工作，是我们在感知方案和环境表征上做了创新。我们没有选择深度相机或点云这种常规形式，主要有两个原因：一方面，就像刚才提到的，直接用深度相机的话，很难模拟真实世界中的噪声，Sim2Real过程中的噪声问题没法妥善解决；另一方面，如果直接用点云，不仅存在大量异常点（outlayer）噪声，还包含很多冗余信息，需要对每个点逐一进行表征，效率很低。但实际上，我们的核心需求只是知道“附近有没有障碍物”，只需要一种非常紧凑（compact）的表征形式就足够了。所以最终，我们选择把点云转化为体素（voxel）形式来做环境表征。

第三件事，这是从实际应用（in practice）的角度出发的。我们用Isaac Lab做仿真的时候，发现它本身并不支持对机器人本体的雷达扫描。所以我们额外做了工作，把机器人本体的扫描功能加上来，目的就是进一步缩小Sim2Real的鸿沟。另外，有了这样的环境表征后，我们还需要让它能在算力非常有限的平台上实时运行。这里我们也做了优化，没有选择大家常用的3D CNN，而是对不同高度的体素做了切片处理，这样就能快速完成对地形的表征。

我们也把我们的方法和很多现有方法做了对比。其实，局部透视运动（perspective local motion）是一个非常经典的问题，之前很多研究是用深度相机、点云来做的。相比于这些方法，我们的优势主要有两点：第一，我们对机器人做了改装，它的视场角（FOV）足够大，能全面感知周围环境，所以实现全向运动完全没问题；第二，我们支持多种地形的训练，再加上刚才说的本体扫描改装方案，让机器人能实现全地形运动。

关于刚才提到的本体扫描问题，我们也专门做了对比实验——就是看“是否加入本体扫描”，对仿真中输入信息的影响。结果发现，这也是一个很关键的Sim2Real鸿沟：除了之前说的传感器本身的噪声问题，加不加本体自扫描，会让系统性能产生非常大的差异。我们的实验证明，加上本体自扫描后，仿真中传感器的表现能和真实世界更好地对齐，系统性能也会显著提升。

这是我们论文里的一些测试演示视频（demo），大家可以看到，机器人能稳定通过很多复杂场景，比如上高台。可能有朋友会说，之前也看过一些机器人盲走的演示，觉得上高台、走台阶不算特别新奇的事。但大家可以注意一个细节：之前很多盲走方案，机器人必须等脚碰到台阶，获得了力反馈之后，才知道前方有障碍，进而抬起脚步。而且，抬起多高的高度，其实它是没法提前知晓的。

之前那种靠力反馈触发动作的方式，其实是一种非常不安全的形式。而我们的方案加入了合理的感知模块，就能解决这个问题。比如demo里左上角上高台的场景，机器人在还没碰到高台的时候，就提前做好了抬脚动作的规划——它能感知到前方环境的变化，进而主动调整自身行为。

包括应对吊顶的场景也是一样：我们的机器人不会等到碰到吊顶才反应，而是提前感知到头顶的障碍物，就主动做出规避动作。甚至面对连续的吊顶区域，在没有空隙的地方能自主下蹲通过。这其实就是带感知的局部运动（perception local motion）一个非常核心的优势——预判性，也是它区别于传统盲走方案的关键性质。

最后还有一点感悟想和大家分享。现在行业里大家一直在讨论Sim2Real的鸿沟问题，我们做完这项工作后，也有了一些自己的见解。其实很多方案在仿真环境里表现得非常好，比如做带感知的局部运动时，在仿真中给一个非常干净的热力图（heatmap），或者其他类型的3D观测数据，仿真中的成功率能做到很高，甚至接近100%。但大家如果实际去做部署就会发现，这些方案在真实世界中的表现往往非常不稳定，和仿真结果的差距很大。

我们认为这并不是一个很好的Sim2Real的解决方案，我们也测了一下自己的策略，发现我们这个方案的Sim2Real表现是非常一致的。其实我觉得这是一份非常好的性质，就是你可以在simulation里很好地研究你的策略，让Sim和Real的表现尽可能一致，所以你也就可以得到一个很可信的to Real的控制策略。

讲完感知，这里我想延伸一下：我们肯定不希望机器人只懂运动这一件事。大家今年也看到了很多机器人翻跟头的演示，各种各样的控制策略层出不穷。但我们最终的目标是，让机器人拥有一个相对通用的行为基础模型控制策略——它不仅能走路、翻跟头，还能完成各类交互任务，并且把我们刚才说的感知能力融合进去。

要实现这个目标，有个核心问题需要解决：当我们想建模这类通用行为时，机器人会掌握很多技能，还要面对复杂环境，这就需要我们建模一个“行为隐变量”（behavior latent）。如果没有这个隐变量，相当于机器人只有一个状态（state），由状态直接决定动作，环境因素无法影响它的行为选择。这样的机器人就像个提线木偶，只能完成单一、程序化的执行过程，根本谈不上通用性。

但如果有了这个行为隐变量，情况就不一样了：机器人可以根据环境选择不同的隐变量，也可以根据任务选择不同的隐变量，从而完成各种各样的任务。包括我们刚才说的感知信息输入、交互信息输入，这些都能通过隐变量实现技能的灵活组合。可能有朋友会问，这和Sim2Real有什么关系？其实这是图形学领域长期关注的经典问题——如何构建高质量的行为隐变量，而它恰恰是解决Sim2Real通用性问题的关键之一。

我们把建模这种运动隐变量（motion latent）的任务，分成了两类形式：

第一类是任务无关的：我不关心机器人要执行什么具体任务，只关注当前状态到未来状态变化的隐变量。比如它向左走、向右走都可以，核心是捕捉运动本身的规律，和具体任务脱钩。

第二类是任务相关的：这种隐变量会直接参与任务决策。比如机器人处于站立状态时，输入不同的运动形式或控制模式，就能在这个状态下匹配到不同的任务相关隐变量。这样一来，面对不同任务时，我们可以直接实现隐变量的快速迁移（shot transfer），不用再额外训练一个高层控制器（high-level Controller）去寻找合适的隐变量。

所以我们团队选择了第二条路——打造一个“任务感知型”（task-aware）机器人。为了实现这个目标，我们分了四个步骤推进：

第一步是数据重构（retargeting）。因为我们的模型需要基于人类数据学习，所以先做了一轮数据重构工作，把人类的运动数据适配到机器人模型上。

第二步是训练代理智能体（proxy agent）。我们在仿真环境中，利用所有可获取的特权变量（privileged variables）训练了一个模型。简单说，就是在理想环境下，先让模型学习到基于重构数据的最优行为表现，打下基础。

第三步是设计控制模式与掩码（mask）。既然是任务感知型，就需要明确常用的控制模式。我们设计了一些基础控制模式，并通过掩码的形式实现控制模式的选择，让机器人能精准匹配对应任务的行为需求。

第四步是师生学习（teacher-student）。因为最终要落地到真实世界，我们通过师生学习框架，把教师模型（理想环境下的proxy agent）和学生模型（适配真实环境的模型）的隐变量分布尽可能对齐，从而实现Sim2Real的迁移。

这里补充一句，我们这个工作做得比较早，大概今年7月份就完成了。虽然今年大家已经看到很多类似的演示，但在当时，这算是一个比较通用的控制策略，还是有一定前瞻性的。

除了基础的运动跟踪（motion tracking），这个模型还有不少实用能力。比如输入“下蹲”的姿态指令，模型会生成对应的参考姿态并执行；输入向前、向后、向左、向右的运动指令，模型能在隐变量空间中找到不同隐变量的线性组合，精准控制机器人完成相应运动。

我们还做了一些趣味测试，比如模仿人形机器人运动会上“忍者式跑步”的动作。测试发现，这个模型支持全身遥操作（whole-body teleoperation），不管是原地行走，还是一些复杂的全身运动，都能很好地完成。基于这个策略，机器人还能实现原地起立这类幅度较大的动作。

另外，我们也对隐变量做了深入分析：既然是隐变量模型，它的隐变量是否具备结构化特征？我们在仿真到仿真（Sim2Sim）的场景下做了测试，通过T-SNE可视化发现，向前、向后、向左、向右这些运动对应的隐变量特征分得非常开，而且能清晰看到不同运动状态之间的过渡可能性，这说明我们的隐变量确实捕捉到了运动的结构化信息。

我们还做了一个很有意思的实验：以回旋踢动作为例，我们发现如果只给机器人根部运动模式（root mode）的隐变量，它只会转圈，不会踢腿；如果只给关键点（key point）相关的隐变量，因为没有转圈的运动基础，也无法完成踢腿动作。但把这两个隐变量做线性组合后，机器人就能顺利完成一整套完整的回旋踢动作。

更重要的是，当某个动作表现不好时，我们可以用真实标签（GT）的隐变量去引导模型，帮助它找到合理的隐变量来完成动作。同时我们发现，当部分策略效果不佳时，通过在线再训练（online retraining），能快速搜索到更优的隐变量，而且我们的方法收敛效率很高。

在对比实验中，我们把这个模型和“万能模型”（one-for-all model）、“任务专用模型”（task specialist）做了比较。结果显示，我们的方法比任务专用模型在训练集上的表现更好，能有效对抗过拟合；同时，比不带隐变量的方法拥有更高的跟踪精度。

刚才讲的都是无交互的任务，接下来我们思考：带交互的动作，能不能用这套任务感知型行为基础模型（task-aware BSM）来完成？我们做了一些尝试，发现交互类任务的数据有两个明显特点：一是建模精度要求高，比如数据采集时动捕设备精度不够，就容易出现穿模问题；二是数据稀缺，市面上缺乏足够多的交互类数据，很难构建通用的跟踪器。尤其是想让交互场景多样化，难度就更大了。

针对这个问题，我们借鉴了“对抗性运动先验”（adversarial motion prior）的思路，采用生成式模仿学习（generative imitation learning）的框架。核心思路是：不做强制的运动跟踪，而是用运动先验来约束机器人的运动合理性，同时把任务奖励（task reward）融入训练中。因为我们要做的是基础模型，肯定不希望它只会做训练过的技能，更希望它像真正的基础模型一样，能零样本（zero-shot）或少样本（few-shot）地组合已有技能、适配新场景，不用从头学习，或者能高效掌握新技能。

为了实现这个目标，我们做了三个针对性设计：第一，因为是多任务控制器，我们希望本体状态编码器能接触到各类任务，所以采用了分离式设计，让不同任务的任务头相互独立、互不干扰；第二，构建了大规模多样化仿真环境，设计了大量不同类型的交互任务——比如对同一类物体，设计了搬运、乘坐、跟随等多种交互形式，还对物体做了大量数据增强；第三，为不同任务设计了专属掩码。对比实验显示，这种通用的感知编码器比非通用的编码器效果更好，且性能方差更低。

有了刚才这些基础技能之后，接下来要解决的核心问题就是技能组合——我们也针对性地提出了一套相对高效的方法论。大家可以想一个典型场景：比如有搬箱子的任务，同时又需要在复杂地形上完成，最终目标是让机器人在复杂地形里搬着箱子上楼梯、下楼梯，再把箱子放到指定位置。这其实是人形机器人应用中很常见的复合任务，也是我们要解决的核心问题。

基于我们的方法，具体怎么实现呢？分四步走：第一步，直接复用已有技能的表征——我们已经有“搬箱子”对应的任务表征（token），可以直接拿来用；第二步，引入地形专用的表征器（tokenizer）——因为任务要在复杂地形上完成，需要精准的地形感知，所以专门加一个负责地形感知的表征器；第三步，调用通用本体感知器——我们的本体感知器已经训练过大量任务场景，见过各种自身状态的可能性，能很好地适配复合任务的本体状态需求；第四步，动作适配加速收敛——为了让复合任务的训练更快收敛，我们会在动作层面做一些适配，过程中冻结各模块之间的关联参数，只开放少量与任务相关的参数进行再训练（retraining）。从实验结果来看，我们方法的成功率曲线（黄色曲线）表现最优，远超当时其他三种主流的最先进（state-of-the-art）方法。

我们的方法还具备很强的迁移适配能力（shift adaptation），不管是更复杂的地形，还是超长程的任务，都能稳定应对。当然，我们最终的目标是实现这套方法的端到端Sim2Real迁移，具体要分三步推进：

第一步，数据重构与对齐。和之前的工作一样，先做人类运动数据的重构（retargeting）；在此基础上，还要把重构后的数据与行为对应的物体（object）、物体间的位置关系做精准对齐，同时标注出机器人与物体的交互状态。

第二步，技能学习。沿用我们刚才提到的任务感知型模型框架，完成复合技能的学习。

第三步，感知模块适配。这一步需要解决机器人与物体的相对感知问题，比如精准判断机器人与物体的距离、获取交互对象的位姿。我们在这个工作里初期用了比较简单的方案——直接贴AprilTag来做位姿定位；不过后续发现，现在有很多优秀的6D位姿估计模型，比如FoundationPose，完全可以实现更精准的位姿处理，后续可以整合进去。

这里有个关键注意点：在做这类交互性策略的Sim2Real迁移时，我们的域随机化（domain randomization）做得更全面。大家之前做基础的 Whole-Body Control（WBC）或移动（locomotion）任务时，可能只对机器人本体做域随机化；而我们除了本体，还对物体及物体位置的观测做了域随机化——比如物体的质量、摩擦系数，都做了随机化处理。另外，真实世界中对物体的观测必然存在误差，所以我们在训练时，还会对输入策略的物体观测数据加入扰动，让模型提前适应真实环境的不完美性。

第二个关键设计是深度相机的感知优化，让它能覆盖更大的前方视野，确保复杂地形和交互物体都能被精准感知。我们还发现，通过人为定义简单的交互逻辑（比如“走到物体旁→搬起物体→完成任务”），就能引导机器人完成与环境中不同物体的交互。大家现在看到的，就是我们在仿真环境中跑出来的结果——本体状态数据、环境感知数据等多维度数据协同工作，支撑整个交互任务的完成。

我们也把我们的方法和两种主流方法做了对比：一种是基于跟踪的方法（tracking-based），另一种是不引入任何人类运动先验的方法。对比结果很明确：首先在成功率上，因为交互类数据本身比较稀缺，基于跟踪的方法靠硬约束去拟合，成功率很低，尤其是在多样化（diverse）环境下；其次，人类运动先验能显著提升任务表现——比如双臂协同向下夹取物体，这种符合人类运动逻辑的先验，能大幅加速模型收敛，同时提高任务成功率。

我们还测试了方法的多样化适配能力，在仿真环境中表现很理想。大家可以看到，红色曲线是参考运动（reference motion），我们的方法在只给少量参考运动的情况下，就能实现更丰富多样的交互行为，相关演示（demo）也能证明这一点。而且我们的测试不局限于搬运任务，还包括坐下（sit down）、躺下（lying）、物体转运（把物体从一个位置放到另一个位置）等多种交互任务。我们可以通过人工选定任务目标，让机器人精准执行。至少在控制策略层面，我们已经成功把仿真环境中解决复杂交互任务的能力，迁移到了真实世界中，解决了之前Sim2Real迁移在交互任务上的核心痛点。

与此同时我们还做了更多尝试，比如在快速运动的物体下，比如说足球。我们改进了它的感知模式，比如可以用动捕，或者用一个更快速的感知方式，使得它直接用形态学处理去处理高速运动的物体，然后让它完成比如连续扑救，或者把任务设成躲球，做连续躲避。

最后，我想和大家分享一些关于未来的思考。其实今天我想强调的是，从整个人形机器人运动控制领域来看，今年我个人感觉是一个关键的时间节点——我们正从“盲走盲跳”，比如机器人跳舞这类纯运动演示，走向“感知驱动”（perceptive）的新阶段。这个趋势不只是我们团队观察到，今年年底英伟达等企业也做了相关探索，他们的方案可能更激进一些。比如我们团队的方案还用到了激光雷达（LiDAR），没有采用RGB相机的形式；但今年能看到，有些公司选择用RGB相机，通过光照和材质的合成、对齐，尽可能让仿真和真实世界中传感器的感知一致。

具体来说，他们会优化相机畸变（distortion）、相机视角（camera view）的对齐，然后在仿真环境中做尽可能多的域随机化（randomization），让训练出的策略在真实世界中具备基础的导航和控制能力。比如VIRAL团队实现了大概50多次的连续抓取，能在两张桌子之间完成任务；还有DoorGym的工作，实现了纯Sim2Real的开门任务。

第二步，技能学习。沿用我们刚才提到的任务感知型模型框架，完成复合技能的学习。

所以我个人认为，未来一些偏离线（offline）的方法可能会成为突破口：当我们收集到足够多的数据后，通过离线方法结合监督学习（supervised learning）的形式，有可能把模型参数量做大，至少达到2019、2020年BERT的参数量级别，甚至向GPT的参数量级别靠拢。而更大的模型，或许能赋予机器人更长程的控制能力。

另一个未来的重要方向是“规模化扩展”（scaling up）。从整个控制领域的发展来看，我们肯定希望控制器能掌握越来越多的技能。但从实际实践经验来看，无论是板载算力的限制，还是在线强化学习（online RL）的训练方式，目前都不太支持用超大模型来实现——模型参数量的限制，直接制约了技能容量和更多控制形式的探索。

以上就是我的分享，谢谢大家。

#人形 #位姿 #机器人 #王靖博 #真实世界

摸鱼小能手

暂无介绍....

医械网	工业品资讯
广告位	广告位

上海AI Lab王靖博：人形机器人，从「盲动」走向「感知驱动」丨GAIR 2025

摸鱼小能手

星光大赏红毯：刘宇宁“狂奔”成欢乐焦点

楊千嬅開live老公亂入因一事說她黐線，眉毛妝被指似蠟筆小新

延伸阅读:

比特币价格跌破7万美元

长安汽车全球炼车季硬核开幕钠锂双星开启新能源新格局

苹果iPhone Fold搭载顶级薄膜材料：耐用度直接拉满

新上海人的故事 ∣ 曾宪宇：一个航天人的“常态”

AI巨头中“烧钱最猛”！亚马逊(AMZN.US)盈利引担忧：今年支出指引2000亿美元远超预期，AWS增利不如意