开放全栈!超越π0,具身智能基础大模型迎来真·开源,开发者狂喜
衡宇 鹭羽 发自 凹非寺量子位 | 公众号 QbitAI
继π0后,具身智能基座模型在中国也终于迎来了真正的开源——
刚刚,WALL-OSS宣布正式开源!
在多项指标中,它还超越了π0。
如果你是搞具身的开发者,了解它的基本资料,你就一定不会想错过它:
它是一个通用基础具身模型,泛化性和推理能力一流,你可以在自有本体上部署,快速微调后用起来。
它还是一个多模态具身模型,输入与输出的数据,有语言、视频、动作等多种形态,具备良好的因果推理、空间理解和反思能力。
我们调研了一圈发现,在4.2B参数规模下,融合了超大规模的高质量真机数据进行预训练的WALL-OSS,是唯一一个具备语言、视觉、动作多模态端到端统一输出能力的开源具身模型。
这一波操作,不香都难。
它凭什么这么能打?我们得从背后的团队说起。
用最近的流行梗来说,模型“基础”,背后团队就不基础——成立于2023年底的自变量机器人。
目前,分层架构与端到端模型是两条具身的主要技术路径。从成立起自变量就全身心押注后者。去年11月,团队推出了WALL-A,全球最大规模的端到端统一具身大模型。
技术上屡有成果,资本市场也分外看好。
就在今天,这支队伍刚刚宣布完成了近10亿元A+轮融资。
阿里云、国科投资领投,国开金融、红杉、渶策、美团、联想之星、君联资本都在这一轮股东名单之列。
据了解,融来的这笔钱,大部分依旧投入全自研通用具身智能基础模型的持续训练。
单卡训练+开放泛化,所有轮式机器人都能跑
仅需要RTX 4090级别的同等算力显卡,开发者便能完成WALL-OSS从训练到推理部署的全过程。
更重要的是,WALL-OSS在保证低成本训练的同时,依旧实现了顶尖的泛化表现。
在严格的ID(分布内)和OOD(分布外)评测中,WALL-OSS展现出领先π0等同类开源模型的性能优势。
首先在泛化性上,即使是在指令描述、动作动词、物体方位等要素发生变化的OOD场景下,WALL-OSS依旧能保持高任务成功率和指令遵循度,展现出优异的环境适应性。
在需拆解细分指令的长程任务中,WALL-OSS也显著优于采用扁平化策略的基线模型(如π0-flat)。
在依赖CoT的推理类任务里,WALL-OSS更是优于π0-flat和pi-gpt-prompt等强基线。
此外通过空间VQA、视觉定位、场景语言描述等多模态基准测试验证,WALL-OSS不仅可以完整保留VLM的核心功能,还在原有基础上实现了能力强化。
这种对核心能力的扎实沉淀,让它能同时兼顾推理规划和动作执行,可输出语言和动作双模态,一些视觉信息也能以语言形式传递。
值得注意的是,WALL-OSS采用统一的Transformer架构,并通过专家分流机制实现语言、视觉、动作在统一框架下的生成与协同优化。
这种真正意义上的端到端避免了多阶段流程的误差累计,极大提升了模型在长程和“推理+操作”复合任务上的稳定性和成功率。
截至目前,WALL-OSS填补了此参数区间内的高水平具身智能大模型的空白,成为业界唯一一个同尺寸下的面向物理世界交互、端到端路径的具身智能统一模型。
更重要的是,WALL-OSS并不依赖特定场景优化,且具备跨场景迁移与执行能力——
从养老护理到工业装配,从酒店服务再到物流分拣……一个真正意义上可以通用部署的具身大脑,展现出巨大的应用潜能。
所以从现在起,无论是产业界做场景落地的团队还是高校实验室,甚至是极客爱好者,都可以部署最前沿的具身智能大模型。
具体到硬件适配方面,WALL-OSS可以通过微调,快速适配到不同本体上,极大地降低了机器人应用的落地。
4大创新,让4.2B模型击碎具身智能“不可能三角”
目前的具身智能界,存在着一个广泛公认的技术难题:
延伸阅读:
灵魂社交平台Soul四次冲击上市,能否成功突围?
12 月 10 日消息,一家从“灵魂社交”起家的 App,折腾将近十年,终于再次站在了最接近成功上市的关口。它就是—— ...
人工智能时代反不正当竞争司法协作倡议发布
12月6日,第七届自贸区知识产权司法保护浦东论坛——“人工智能时代反不正当竞争法前沿问题”研讨会暨上海市法学会知识产权法...
AI安全边界再探讨!第九届南都啄木鸟数据治理论坛即将启幕
回望2025年,年初DeepSeek火热出圈点燃全球科技圈的热情、人形机器人赛道竞争升级、AI眼镜和AI手机等智能终端百...
太空数据中心:AI算力的新战场正在崛起
Gavin Baker认为太空数据中心将成为未来三到四年最重要的技术突破。12月9日,资深科技投资者Gavin Bake...
浦东新增自动驾驶测试道路,加速智能出行布局
记者从近日举行的“‘人工智能+交通运输’上海发布 2025”活动上获悉,浦东新区新增1439条、2113.78公里自动驾...





