具身智能公司自变量发布了机器人模型 WALL-B，35 天后进入真实家庭

上周末在北京亦庄举办的机器人马拉松比赛证明了一件事：跑得最快的人形机器人，速度已经可以把人类最顶尖的马拉松选手甩在身后了。但这事儿之所以没有引起太多的轰动，还是大家对机器人，或者具身智能行业有非常高的预期。

荣耀的人形机器人半马只用 50 分钟完成，宇树的机器人能在春晚舞台上完成人类极难完成的武术动作，这仿佛就是应该的事儿，并且，人们还有疑问，具身智能机器人别整这些活了，干点真正的活儿吧，比如把碗洗了，把衣服收了叠了，把地扫了......

但这些普通人能做的家务活，却远比跑马拉松做武术动作难得多，也比进厂在流水线打工难得多。

机器人什么时候，才能真正帮人收拾家里那一地狼藉？4 月 21 日，自变量机器人举行发布会，正式发布新一代具身智能基础模型 WALL-B，并宣布 35 天后，搭载该模型的新一代机器人将进入首批真实家庭。

在这家公司看来，机器人行业真正的决赛场，不在舞台，也不在实验室，而在家庭。因为家庭环境远比工厂复杂，也远比公开演示更难预测：拖鞋可能被踢到沙发底下，孩子把书包扔在地上，猫随时跳上餐桌，刚拖完的地面又被打翻一杯水。这些看似琐碎的小事，恰恰是机器人至今最难解决的问题。

从 WALL-A 到 WALL-B，机器人模型为什么要重写一遍？

发布会上，自变量创始人兼 CEO 王潜用一个普通清晨开场：「早上七点，闹钟响了。你走到客厅，拖鞋不见了，厨房碗没洗，孩子书包扔在地上，猫又打翻了一杯水。」

这段描述背后的核心判断是：家庭是一个随机、碎片化、持续变化的环境。

而过去大量机器人能力展示，并不发生在这样的场景里。舞台上的后空翻、写毛笔字、跳舞，多数依赖预设轨迹与固定动作流程；工厂里的工业机器人，则建立在高重复、低变量的标准化环境中。

但家庭恰好相反。每一次动作都可能不同，每一个障碍都可能临时出现，每一秒都可能有新变量加入。

自变量认为，当前机器人行业的瓶颈，已经不再是硬件本体，而是「大脑」。双足、灵巧手、力控关节都在快速成熟，但如何理解环境、判断风险、处理意外、持续学习，仍然是机器人进入家庭前最大的门槛。

自变量此前已经推出过第一代具身模型 WALL-A，采用行业常见的 VLA（视觉-语言-动作）架构。

这类模型的基本逻辑是：

摄像头看见东西（V，Vision）模型理解语言指令（L，Language）再生成动作轨迹执行任务（A，Action）

听起来合理，但问题也很明显：这些能力往往来自不同模块，再拼接到一起。

自变量联合创始人兼 CTO 王昊解释称：

视觉模块负责识别物体，语言模块理解指令，动作模块生成轨迹。信息在模块之间逐级传递，每经过一次边界，就会出现损耗和延迟。

更关键的是，这类模型擅长模仿，却不一定理解世界。机器人可以学会「拿杯子」，但未必知道杯子为什么会掉下来；它知道把盘子放桌上，却未必知道半个盘子悬空意味着即将摔碎。

这也是 WALL-B 出现的原因。如果用更容易理解的话来说，它想做的事情是：让机器人不再分模块思考，而是像一个整体那样感知和行动。官方用 Apple Silicon 的统一内存架构做类比。过去 CPU、GPU、内存彼此独立，数据搬运本身就会拖慢效率；统一架构后，所有能力共享同一套资源，性能明显提升。

机器人也是类似逻辑。

在 WUM 架构（世界统一模型架构）下，视觉、语言、动作、触觉、物理预测等能力被放进同一个网络里联合训练，不是拆开后再组合。这带来一些重要变化，传统机器人常常是「先识别，再行动」，WALL-B 的目标是同步完成感知与决策。

自变量称，模型从训练第一天起，就让视觉、听觉、语言、触觉、动作数据同时参与训练，实现「多模态输入、多模态输出」。简单来说：它看到杯子的同时，就已经在计算如何抓取；感受到重量时，也会同步调整力度。

王昊表示，模型开始学习重力、惯性、摩擦力、速度等基本物理规律。例如桌边有一个半悬空盘子，即便机器人从未见过这个具体场景，也能推断盘子可能掉落，从而主动把它推回安全位置。这意味着机器人未来不必为每一个家庭重新训练。因为房间布局不同，但物理规律是相同的。

过去很多机器人任务失败后，只会停止执行，等待人工介入，WALL-B 的设想是：失败后重新尝试，成功后把经验直接写进模型。王昊将其比作人类学用筷子的过程：

筷子掉了无数次，但每一次失败都在修正控制方式，最后才形成稳定技能。

如果这一机制真正跑通，机器人迭代速度将不再完全依赖实验室训练，而是来自真实世界持续反馈。

35 天后，机器人真的要住进用户家里了

在训练数据上，自变量提出了一个很形象的说法：实验室数据像「糖水」，真实家庭数据像「牛奶」。前者干净、稳定、量大，但营养有限；后者复杂、嘈杂，却更接近真实世界。

王昊透露，为获取这些数据，团队进入了数百个志愿者家庭采集环境样本，而且，每个家庭都不同：灯光冷暖不同，地面材质不同，玩具和拖鞋乱放，猫会突然跳上桌子，孩子会制造新的混乱......

这些变量在实验室里很难完整模拟，却是机器人进入家庭后每天都会面对的现实。

这也是具身智能行业正在形成的新共识：谁拥有真实场景数据，谁就更可能建立长期壁垒。比模型发布更具体的，是自变量给出的时间表。这家公司宣布，35 天后，新一代机器人将进入首批用户家庭。这意味着，它不再只是演示机，也不是封闭测试设备，而是真正开始面向 C 端环境落地。

当然，自变量并没有把这件事说得过于完美。王潜坦言，当前机器人仍处于「实习生阶段」。它会犯错，可能把拖鞋放进厨房，擦桌子擦到一半停下来思考，也仍然需要远程协助。但另一方面，它可以 24 小时持续工作，并在每天运行中积累新经验。这种「边服务、边成长」的逻辑，和今天的软件产品迭代方式很像，只是这次载体变成了机器人。

过去几年，机器人行业最擅长制造惊艳时刻。但真正改变生活的产品，往往不是最会表演的那个，而是最能解决琐事的那个。

自变量这次发布 WALL-B，本质上是在回答一个更现实的问题：机器人能不能先把家务做好，再谈未来。

35 天后，答案会开始进入第一批用户的客厅。

【纠错】【责任编辑:请大家友好发言】

深度观察

新华全媒头条丨蹇杩惧灞娑璐规