机器人“大脑”60年进化史:基础模型的五代进化与三大闭源流派
2025年,机器人公司发布的Demo都有点魔幻:
首先是Figure AI,在10月发布了第三代机器人,能做各种家务,Demo也很酷炫,但任务的成功率存在很多质疑,而且脸的设计,恐怖谷现象有点严重。
10月底发布demo的另一家明星公司1X,整个脸部设计就可爱了非常多,感觉是更愿意让大家搬到家里的。但是叫做Neo的这款机器人依赖远程操控,被批评是“假智能”,而且有各种隐私问题。
同时,特斯拉的机器人虽然也发布了各种Demo的更新,包括在12月发布的非常顺滑的跑步Demo,但明显量产计划在2025年遇到了极大的挑战,让公司不得不暂停生产,重新设计硬件。
我们的机器人系列已经聊了灵巧手,以及2025年具身智能行业年度盘点,本篇文章就来深聊一下这个产业的一个核心技术:机器人基础模型。我们试图回答这样一个问题:为什么2025年突然变成了机器人基础模型的“元年”?
我们也走访了硅谷的前沿机器人公司和实验室,而基础模型篇会分为“闭源”和“开源”两篇,系统拆解当下主流机器人的“大脑”是如何被训练出来、如何接入真实世界、以及不同路线背后的技术与商业逻辑。带你看清,大模型时代的机器人,大脑究竟是怎么长成的。本篇文章我们先来聊一聊目前资本市场的宠儿——闭源系统。
01
机器人基础模型从60年代到2025年的范式革命
如果要用一句话解释机器人基础模型,最简单的类比是:如果说GPT是“会说话的大脑”,那机器人基础模型就是“会动手的大脑”。
但这个“会动手的大脑”,人类研究了整整60年才做出来。我们先来回顾一下,大模型出现以前的四大机器人范式。
Chapter 1.1 第一代:编程式机器人(1960s-1990s)
1961年,世界上第一台工业机器人Unimate在通用汽车的工厂里“上班”了。它的工作很简单:从生产线上抓起滚烫的金属零件,放到另一条生产线上。
从现在的眼光看,它蛮“傻”的,因为完全靠编程,工程师用代码告诉它:
步骤1:手臂向左移动30厘米
步骤2:手爪闭合
步骤3:手臂向上移动50厘米
步骤4:手臂向右旋转90度
步骤5:手爪松开
听起来很傻对吧?但在当时,这已经是革命性的突破了。这种方式的问题很明显:零容错、零灵活性。
如果零件的位置偏了1厘米,机器人就抓不到,如果换一个不同尺寸的零件,就得重新写代码。更别说应对意外情况——比如零件掉在地上,机器人就彻底不知道该干什么了。
但在工厂这种高度可控的环境里,这套方法管用了几十年。直到今天,很多汽车工厂的焊接机器人,还在用这套“编程式”的逻辑。
Chapter 1.2 第二代:基于SLAM的方法(1990s-2010s)
到了90年代,机器人学家们意识到:光靠编程不行,机器人得能“感知”环境。于是出现了SLAM(同时定位与地图构建)、运动规划这些技术。
这里的核心思路是:先用传感器“看”周围环境,建立一个3D地图,然后在地图上规划路径,最后执行动作。这个方式最成功的应用就是扫地机器人。
风靡一时的Roomba就是这么工作的:它用激光雷达扫描房间,建立地图;然后规划一条覆盖所有区域的路径;再按照路径移动,遇到障碍物就绕开。
这套方法在“导航”任务上很成功:早期的无人车、无人机、物流机器人,基本都是这个套路。但在“操作”任务上就不行了,因为操作任务太复杂了,比如让机器人叠一条毛巾,传统方法是四步:
1.用视觉识别毛巾的四个角
2.计算每个角的3D坐标
3.规划手臂的运动轨迹
4.执行抓取、折叠、放下
听起来挺合理,但实际操作中到处是坑:毛巾可能皱成一团,根本识别不出“四个角”;毛巾是柔性的,你一抓它就变形,3D坐标立刻失效;每一步都可能出错,一出错整个流程就崩了。
2010年,加州伯克利的一个研究团队做过一个实验:让机器人叠毛巾,用的就是这套“感知→规划→执行”的方法。结果平均一条毛巾要花24分钟。
而叠毛巾在如今AI时代来临之后,也同样是非常核心的,需要基础模型去驱动机器人攻破的任务。
Chapter 1.3 第三代:行为克隆(2010s中期)
既然手工设计规则不行,那能不能让机器人直接“学”人类怎么做?这就是行为克隆(Behavior Cloning)的思路,也叫模仿学习(Imitation Learning)。
同样以叠毛巾为例,机器人模仿学习会这么做:让人类演示很多次怎么叠毛巾;记录下每一帧的视觉输入和动作输出;训练一个神经网络,学习输入→输出的映射;机器人看到毛巾,直接输出该做什么动作。
2015年,Google Brain的一个团队用这个方法,让机器人学会了抓取各种物体。他们收集了数十万次抓取的数据,训练了一个神经网络,推动了“视觉-动作”学习在机器人抓取任务上的进展。
这可以说是个巨大的进步!第一次,机器人不需要手工编写规则,可以通过数据学习了。
但这个方法有个致命缺陷:数据效率太低。它需要数十万次抓取数据来训练,而且这只是“抓取”这一个动作。如果要学“叠毛巾”,可能100万次演示都不够了。
更要命的是,这个方法的泛化性很差。你用A型号机器人收集的数据,训练出来的模型,在B型号机器人上基本不能用。
Chapter 1.4 第四代:强化学习(2010s后期)
2016年,AlphaGo战胜李世石,证明了强化学习的威力。机器人科学家们想:能不能让机器人也用强化学习,自己摸索出怎么完成任务?
强化学习的核心思路是:不需要人类演示,让机器人自己尝试,做对了给奖励,做错了给惩罚,机器人慢慢学会怎么做能获得最多奖励。
当时,波士顿动力的机器人就开始将强化学习引入移动控制系统,让它们能在各种复杂地形上行走、跳跃、后空翻。
但强化学习也有个大问题:太慢了。AlphaGo为了学会下围棋,在仿真环境里自己和自己下了几千万局,但机器人操作任务,很难在仿真环境里练,因为环境复杂度太高,非常难设置,和真实物理世界差别较大,导致仿真不准。
但真机试错呢?太慢、太贵、太危险。想象一下,让机器人学叠毛巾,它可能要试几百万次,其中大部分时候会出现的情况是:抓空、把毛巾扔到地上、把毛巾撕破、手臂卡住等等。这样学下去,要到猴年马月?
而且强化学习有个更根本的问题:它不知道“常识”。人类知道,毛巾是软的、可以折叠的、有一定的摩擦力。但强化学习的机器人,需要通过无数次试错才能“发现”这些常识,效率太低。
Chapter 1.5 第五代:VLA模型(2020s中期-现在)
大语言模型的出现,改变了一切。2022年,ChatGPT横空出世,人们发现:大语言模型里蕴含了人类世界的大量“常识”:它知道毛巾是什么、叠是什么意思、先做什么后做什么。它有推理能力、规划能力、泛化能力。
行业里的第一反应就是,能不能把大语言模型和机器人结合起来?于是,VLA(Vision-Language-Action)模型诞生了。VLA模型的革命性在于,它把三个东西统一到一个神经网络里:
Vision(视觉):看到当前的场景;Language(语言):理解任务目标和常识;Action(动作):输出具体的控制指令。
举个例子,你对机器人说:“帮我把桌上的苹果放到篮子里。”传统方法需要四步:
1.视觉识别“苹果”和“篮子”
2.规划“抓取苹果”的轨迹
3.规划“移动到篮子”的轨迹
4.规划“放下”的动作
VLA模型呢?一个端到端的神经网络,直接从“语言指令+视觉输入”,输出“下一步该做什么动作”。
更神奇的是,它会“常识推理”。比如你说“帮我准备早餐”,面对着家庭环境,它知道:要从冰箱拿出鸡蛋;鸡蛋要小心拿,不能摔碎;面包要放进烤面包机。
这些常识,不需要你一条条编程,也不需要它自己试错几百万次去“发现”。 因为大语言模型里已经有了。
延伸阅读:
弦月入耳间:lifeme魅蓝Blus E3开启半入耳降噪新体验
IT之家 1 月 15 日消息,在今天的 lifeme 魅蓝发布会中,lifeme 魅蓝 Blus E3 弦月半入耳降噪...
AI技术滥用引公愤 英国政府强硬表态绝不退让
新华社伦敦1月14日电(记者郭爽)英国首相斯塔默14日说,社交媒体平台X的人工智能聊天机器人“格罗克”(Grok)伪造色...
星链入局地缘博弈:伊朗断网背后的太空通信角力
据《参考消息》等报道,马斯克旗下的太空探索技术公司(SpaceX)目前正在伊朗提供免费的“星链”卫星互联网服务。 当地时...
AI算力竞赛再升级:OpenAI重金押注晶圆级芯片布局未来
OpenAI再签重磅算力大单,携手Cerebras部署750兆瓦晶圆级芯片。1月14日,OpenAI与Cerebras公...
智能眼镜爆发前夜:Meta携手光学巨头冲刺产能跃迁
财联社1月14日讯(编辑 赵昊)最新消息显示,Meta Platforms与依视路陆逊梯卡(EssilorLuxotti...




