机器人35天后进你家:自变量WALL-B模型有什么不一样

4月21日,自变量机器人在北京开了一场发布会。创始人王潜站在舞台中央,一台白色轮式双臂机器人缓缓滑上台,机械臂夹着垃圾桶,另一只机械臂精准夹起了他演讲途中随手扔下的纸团。

然后他宣布:35天后,这台机器人将正式进入真实家庭”实习”。

说实话,我第一反应是”又是PPT产品”。但看完发布会的技术细节之后,我觉得这次可能不太一样。

什么是WALL-B?

WALL-B是自变量机器人发布的新一代具身智能基础模型,全称World Unified Model,翻译过来就是”世界统一模型”。

这个架构的核心思路是:让机器人真正理解物理世界的通用规律,而不是只在特定任务上训练。

王潜在发布会上举了一个例子:”早上七点,闹钟响了。你从床上爬起来,走到客厅。拖鞋不知踢到哪里,厨房的碗还没洗,孩子的书包扔在地上,猫打翻了一杯水。”

他问的问题是:全球有没有任何一台机器人,可以在无遥控操作的情况下,独立完成上述所有场景的综合整理任务

答案是:目前没有。

这就是WALL-B要解决的问题。

和传统VLA架构有什么不同?

现在主流的具身智能模型大多采用VLA架构(Vision-Language-Action),即视觉-语言-动作联合建模。效果不错,但泛化能力有限——换个场景、换个物体,模型可能就”傻”了。

WALL-B的思路是:先让模型理解世界的通用规律,再在这个基础上做具体任务。就像人类小孩——你不需要教他”如何把拖鞋放到鞋架上”,他理解了”物体有固定位置”这个概念之后,自己就能推导出来。

我的判断

机器人进家庭这件事,我觉得方向是对的,但时间表可能有点乐观。

35天后的”实习”,我理解更像是在受控环境下的数据采集,而不是真正的商业化落地。真实家庭环境的复杂性(孩子、宠物、随机物体),是任何实验室测试都无法完全模拟的。

不过,这个方向值得持续关注。具身智能的”iPhone时刻”,可能比我们想象的更近了。

你们觉得呢?机器人进家庭还需要多少年?