对话大晓机器人王晓刚:从数字世界到物理世界的智能进化之路

十一年前,王晓刚与汤晓鸥共同推动了计算机视觉识别率首次超越人类视觉的突破。那是在2014年,人工智能1.0时代的起点。视觉技术从实验室走向安防、手机和汽车等实际应用。如今,当行业还在为大语言模型欢呼,或在发布会上展示机器人“叠衣服”、“做咖啡”的演示时,王晓刚却察觉到了潜在的风险。互联网语料正逐渐枯竭,纯数字世界的发展已接近极限。2025年,具身智能被视为人工智能的新高地,各大企业竞相争夺“机器管家”的先机。然而现实是,大多数机器人仍停留在视频展示阶段,一旦进入真实复杂的环境,就因缺乏常识而无法正常运作。

图|大晓机器人核心科学家团队(来源:大晓机器人)
在12月18日新品发布会前夕,我们与王晓刚展开了一场深入交流。当前,具身智能赛道呈现出“冰火两重天”的局面:资本热情高涨,但技术落地却面临数据短缺和物理认知不足的双重挑战。现有的研究范式是否存在问题?为何说互联网语料即将耗尽?Sora等生成式模型在物理世界中存在哪些致命缺陷?以及,为何选择在此时开源并支持国产芯片生态?在这个关键时刻,大晓机器人不仅要发布新的世界模型,更要构建一套全新的生存法则。

图|大晓机器人首席科学家陶大程(来源:大晓机器人)
“现在的研究范式走错了。”王晓刚直言不讳地指出。他提出一个关键观点:如果继续以“机器”为中心训练大脑,具身智能将永远困在演示阶段;唯有回归“人”的中心,通过世界模型重构物理规律,才能真正打开AI 3.0的大门。

AI2.0到AI3.0:从数字世界到物理世界
“互联网语料快被榨干了,我们必须打破数字与物理的壁垒。”
DeepTech:你现在的新身份是大晓机器人董事长。相比之前在商汤负责研发、汽车、芯片等业务的角色,现在侧重的目标有什么不同?
王晓刚:我在商汤从2014年开始,当时与汤老师一起创立了公司。那时我们是第一个实现人脸识别超越人类视觉的团队。过去十年,我负责过多个业务方向,包括研发、手机、互联网、汽车和芯片。如今,我们正经历从人工智能1.0到3.0的跃迁。人工智能1.0时代是视觉技术的兴起,依靠人工标注和小模型实现应用。到了2.0时代,大语言模型带来了通用化能力。因为人类积累了海量的语言数据,大模型从中提取出智能,赋能各个行业。

DeepTech:所谓的3.0是什么?
王晓刚:目前,大语言模型依赖的互联网语料和数字沉淀也到了瓶颈。未来两三年,这些数据的价值会逐渐下降。因此,我们需要打破数字与物理的界限,通过具身智能与物理世界的交互产生新的智能,这就是人工智能3.0时代的核心任务。我们希望通过技术创新,帮助商汤从2.0时代迈向3.0时代。

范式革命:以人为中心的具身智能
“以机器为中心的范式走不通,必须转向以人为中心。”
DeepTech:2025年是你所说的AI 3.0时代的关键节点吗?会有哪些标志性事件?
王晓刚:2025年最重要的变化是研究范式的转变。大家对具身智能的期待源于互联网时代的经验。在2.0时代,大模型让我们以为只要有一个强大的模型,机器人就能在物理世界中通用。但在过去两年里,我们发现这种模式并不成功。

DeepTech:阻力具体体现在哪里?
王晓刚:传统做法是先有各种形态的机器人,再通过遥操作采集数据,试图训练一个通用的机器人大脑。但这种方式失败了。首先,训练出的“大脑”难以适配不同机器人,数据无法共享;其次,通过人操作机器人采集数据效率低,且往往不是在真实环境中进行。我们称之为“以机器为中心”的范式,其核心逻辑是VLA(视觉-语言-动作),通过视觉和语言指令让机器完成特定任务。这种范式不需要理解物理世界,只是为了完成任务。

解密:环境式采集与数据壁垒
“一天采集效率提升100倍,解决上万种物品的抓取难题。”
DeepTech:你提到的“环境式采集”听起来很有趣,在实际落地中是怎么做的?一天能产出多少数据?
王晓刚:我们的采集方案需要人佩戴第一视角摄像头,同时使用全景相机记录周围环境和自身身体状态。手上和胸口也会安装摄像头,特别是触觉传感器,用于感知接触物品的材质和力。周围还会部署深度摄像头等设备,所有设备同步工作。人只需正常工作,数据自然被采集下来。

DeepTech:可以举个具体场景吗?
王晓刚:比如我们在杭州的一个闪购仓试点。零售行业需要大量分拣和打包工作,物品类别繁多,以往只能覆盖几十或上百个类别。而通过环境式采集,工作人员一边工作一边采集数据,一个人一天能采集10小时的数据,效率大幅提升。更重要的是,部署方便,可以有数百人甚至上千人同时采集,数据积累速度是原来的100倍。

核心:开悟3.0世界模型
“解决‘水倒进槽里杯子却满了’的物理幻觉。”
DeepTech:采集了数据之后,如何解决跨本体复用的问题?毕竟人的手和机器人的手不一样。
王晓刚:这就体现了世界模型的重要性。我们把采集的数据输入到世界模型中,包含多模态理解、生成和预测三个部分。即将发布的“开悟3.0”平台不仅包含人类数据,还融合了不同类型机器人的本体数据。用户可以选择场景和任务,然后选择机器人本体,世界模型会根据任务生成对应的视频和3D轨迹数据,用于训练该本体。这就是“一脑多形”。

战略:开源与国产芯片适配
“在具身智能领域,我们希望成为开源的标杆。”
DeepTech:大晓这次会开源开悟3.0,具体会开源到什么程度?
王晓刚:我们会开源模型、工具链和部署方法,特别值得一提的是,此次模型已适配国产芯片,如沐曦、海光、壁仞等。经过软硬协同优化后,性能可媲美A卡。有了模型和算力基础,我们就能构建物理世界的“DeepSeek时刻”,实现“算力—模型—应用”的全方位迭代。

落地:产品与未来
“机器狗、前置仓,到家庭机器人。”
DeepTech:这次发布会有哪些交付形态的产品?
王晓刚:我们将发布ACE研发范式、开悟3.0平台并开源,以及具身超级大脑模组A1。该模组搭载在四足机器人上,使机器狗具备自主空间能力,无需遥控即可执行任务。此外,我们引入Insta360全景相机,提升视野和稳定性,这对夜间作业和AI识别非常有帮助。

DeepTech:大晓目前最优先落地的场景是哪些?
王晓刚:近期重点是户外四足机器人,应用于电力巡检、文旅、智慧城市等场景。中期计划推进前置仓场景,远期则是家庭机器人。

DeepTech:最后一个问题,“大晓”这个名字是怎么来的?
王晓刚:这是我和陶大程的名字组合,同时也寓意“大千世界,晓识万象”。前者代表我们的世界模型,后者代表环境式采集,契合具身智能的核心方向。

暂无介绍....

延伸阅读:

高通发布骁龙X2 Elite处理器,称兼容超 90% 的常见 Windows 游戏

来源:环球网【环球网科技综合报道】11月20日消息,据The Futurum Group报道,高通近日在Snapdrag...

摸鱼小能手
2025年11月20日
联想Legion Pro卷轴屏笔记本爆料:16英寸展开至21.5或24英寸

IT之家 12 月 19 日消息,科技媒体 Windows Latest 今天(12 月 19 日)发布博文,报道称在 ...

娱乐早知道
2025年12月19日
智能眼镜的未来:一场尚未成熟的科技竞赛

给“百镜大战”泼点冷水。文|园长编|陈梅希2025年,到底有多少公司发布了AI智能眼镜?有人说大约30-40家,有的机构...

娱乐大事件
2025年12月19日
激光雷达领域专利纠纷再起波澜

国内激光雷达行业的“专利战”再升级。继本月初速腾聚创(02498.HK)起诉灵明光子窃取商业机密后,12月17日,深圳市...

娱乐大事件
2025年12月19日
智能机器人技能大挑战

来源:人民日报海外版机器人在插花竞技场内移动。新华社发机器人在工厂搬运竞技场进行货物转运比赛。新华社发日前,2025全球...

八卦小灵通
2025年12月19日