开放全栈！超越π0，具身智能基础大模型迎来真·开源，开发者狂喜

摸鱼小能手
科技前沿
2025年9月8日

衡宇鹭羽发自凹非寺量子位 | 公众号 QbitAI

继π0后，具身智能基座模型在中国也终于迎来了真正的开源——

刚刚，WALL-OSS宣布正式开源！

在多项指标中，它还超越了π0。

如果你是搞具身的开发者，了解它的基本资料，你就一定不会想错过它：

它是一个通用基础具身模型，泛化性和推理能力一流，你可以在自有本体上部署，快速微调后用起来。

它还是一个多模态具身模型，输入与输出的数据，有语言、视频、动作等多种形态，具备良好的因果推理、空间理解和反思能力。

我们调研了一圈发现，在4.2B参数规模下，融合了超大规模的高质量真机数据进行预训练的WALL-OSS，是唯一一个具备语言、视觉、动作多模态端到端统一输出能力的开源具身模型。

这一波操作，不香都难。

它凭什么这么能打？我们得从背后的团队说起。

用最近的流行梗来说，模型“基础”，背后团队就不基础——成立于2023年底的自变量机器人。

目前，分层架构与端到端模型是两条具身的主要技术路径。从成立起自变量就全身心押注后者。去年11月，团队推出了WALL-A，全球最大规模的端到端统一具身大模型。

技术上屡有成果，资本市场也分外看好。

就在今天，这支队伍刚刚宣布完成了近10亿元A+轮融资。

阿里云、国科投资领投，国开金融、红杉、渶策、美团、联想之星、君联资本都在这一轮股东名单之列。

据了解，融来的这笔钱，大部分依旧投入全自研通用具身智能基础模型的持续训练。

单卡训练+开放泛化，所有轮式机器人都能跑

仅需要RTX 4090级别的同等算力显卡，开发者便能完成WALL-OSS从训练到推理部署的全过程。

更重要的是，WALL-OSS在保证低成本训练的同时，依旧实现了顶尖的泛化表现。

在严格的ID（分布内）和OOD（分布外）评测中，WALL-OSS展现出领先π0等同类开源模型的性能优势。

首先在泛化性上，即使是在指令描述、动作动词、物体方位等要素发生变化的OOD场景下，WALL-OSS依旧能保持高任务成功率和指令遵循度，展现出优异的环境适应性。

在需拆解细分指令的长程任务中，WALL-OSS也显著优于采用扁平化策略的基线模型（如π0-flat）。

在依赖CoT的推理类任务里，WALL-OSS更是优于π0-flat和pi-gpt-prompt等强基线。

此外通过空间VQA、视觉定位、场景语言描述等多模态基准测试验证，WALL-OSS不仅可以完整保留VLM的核心功能，还在原有基础上实现了能力强化。

这种对核心能力的扎实沉淀，让它能同时兼顾推理规划和动作执行，可输出语言和动作双模态，一些视觉信息也能以语言形式传递。

值得注意的是，WALL-OSS采用统一的Transformer架构，并通过专家分流机制实现语言、视觉、动作在统一框架下的生成与协同优化。

这种真正意义上的端到端避免了多阶段流程的误差累计，极大提升了模型在长程和“推理+操作”复合任务上的稳定性和成功率。

截至目前，WALL-OSS填补了此参数区间内的高水平具身智能大模型的空白，成为业界唯一一个同尺寸下的面向物理世界交互、端到端路径的具身智能统一模型。

更重要的是，WALL-OSS并不依赖特定场景优化，且具备跨场景迁移与执行能力——

从养老护理到工业装配，从酒店服务再到物流分拣……一个真正意义上可以通用部署的具身大脑，展现出巨大的应用潜能。

所以从现在起，无论是产业界做场景落地的团队还是高校实验室，甚至是极客爱好者，都可以部署最前沿的具身智能大模型。

具体到硬件适配方面，WALL-OSS可以通过微调，快速适配到不同本体上，极大地降低了机器人应用的落地。

4大创新，让4.2B模型击碎具身智能“不可能三角”

目前的具身智能界，存在着一个广泛公认的技术难题：

#具身 #大模型 #客户端节点 #模态 #真·开源

摸鱼小能手

暂无介绍....

医械网	工业品资讯
广告位	广告位

开放全栈！超越π0，具身智能基础大模型迎来真·开源，开发者狂喜

摸鱼小能手

奔驰，也背不动北汽了！

张维伊做事太极端，坚持手写请柬！董璇不答应还在她面前极力卖萌

延伸阅读:

2026北京车展今日开幕：规模跃居全球首位，首发车181台

俞浩为什么喜欢王传福？

华为拉来十余家车企站台：支持必经L3

北京车展今日开幕，1451款车参展，大型SUV风头正劲，各路势力火拼“智驾”

AI漫剧与微短剧版权如何保护？这场研讨会达成这些共识