具身智能公司自变量发布了机器人模型 WALL-B,35 天后进入真实家庭
具身智能公司自变量发布了机器人模型 WALL-B,35 天后进入真实家庭
  • 2026-04-21 21:37:48
    来源:君辱臣死网

    具身智能公司自变量发布了机器人模型 WALL-B,35 天后进入真实家庭

    字体:

    上周末在北京亦庄举办的机器人马拉松比赛证明了一件事:跑得最快的人形机器人,速度已经可以把人类最顶尖的马拉松选手甩在身后了。但这事儿之所以没有引起太多的轰动,还是大家对机器人,或者具身智能行业有非常高的预期。

    荣耀的人形机器人半马只用 50 分钟完成,宇树的机器人能在春晚舞台上完成人类极难完成的武术动作,这仿佛就是应该的事儿,并且,人们还有疑问,具身智能机器人别整这些活了,干点真正的活儿吧,比如把碗洗了,把衣服收了叠了,把地扫了......

    但这些普通人能做的家务活,却远比跑马拉松做武术动作难得多,也比进厂在流水线打工难得多。

    机器人什么时候,才能真正帮人收拾家里那一地狼藉?4 月 21 日,自变量机器人举行发布会,正式发布新一代具身智能基础模型 WALL-B,并宣布 35 天后,搭载该模型的新一代机器人将进入首批真实家庭。

    在这家公司看来,机器人行业真正的决赛场,不在舞台,也不在实验室,而在家庭。因为家庭环境远比工厂复杂,也远比公开演示更难预测:拖鞋可能被踢到沙发底下,孩子把书包扔在地上,猫随时跳上餐桌,刚拖完的地面又被打翻一杯水。这些看似琐碎的小事,恰恰是机器人至今最难解决的问题。

    从 WALL-A 到 WALL-B,机器人模型为什么要重写一遍?

    发布会上,自变量创始人兼 CEO 王潜用一个普通清晨开场:「早上七点,闹钟响了。你走到客厅,拖鞋不见了,厨房碗没洗,孩子书包扔在地上,猫又打翻了一杯水。」

    这段描述背后的核心判断是:家庭是一个随机、碎片化、持续变化的环境。

    而过去大量机器人能力展示,并不发生在这样的场景里。舞台上的后空翻、写毛笔字、跳舞,多数依赖预设轨迹与固定动作流程;工厂里的工业机器人,则建立在高重复、低变量的标准化环境中。

    但家庭恰好相反。每一次动作都可能不同,每一个障碍都可能临时出现,每一秒都可能有新变量加入。

    自变量认为,当前机器人行业的瓶颈,已经不再是硬件本体,而是「大脑」。双足、灵巧手、力控关节都在快速成熟,但如何理解环境、判断风险、处理意外、持续学习,仍然是机器人进入家庭前最大的门槛。

    自变量此前已经推出过第一代具身模型 WALL-A,采用行业常见的 VLA(视觉-语言-动作)架构。

    这类模型的基本逻辑是:

    摄像头看见东西(V,Vision)模型理解语言指令(L,Language)再生成动作轨迹执行任务(A,Action)

    听起来合理,但问题也很明显:这些能力往往来自不同模块,再拼接到一起。

    自变量联合创始人兼 CTO 王昊解释称:

    视觉模块负责识别物体,语言模块理解指令,动作模块生成轨迹。信息在模块之间逐级传递,每经过一次边界,就会出现损耗和延迟。

    更关键的是,这类模型擅长模仿,却不一定理解世界。机器人可以学会「拿杯子」,但未必知道杯子为什么会掉下来;它知道把盘子放桌上,却未必知道半个盘子悬空意味着即将摔碎。

    这也是 WALL-B 出现的原因。如果用更容易理解的话来说,它想做的事情是:让机器人不再分模块思考,而是像一个整体那样感知和行动。官方用 Apple Silicon 的统一内存架构做类比。过去 CPU、GPU、内存彼此独立,数据搬运本身就会拖慢效率;统一架构后,所有能力共享同一套资源,性能明显提升。

    机器人也是类似逻辑。

    在 WUM 架构(世界统一模型架构)下,视觉、语言、动作、触觉、物理预测等能力被放进同一个网络里联合训练,不是拆开后再组合。这带来一些重要变化,传统机器人常常是「先识别,再行动」,WALL-B 的目标是同步完成感知与决策。

    自变量称,模型从训练第一天起,就让视觉、听觉、语言、触觉、动作数据同时参与训练,实现「多模态输入、多模态输出」。简单来说:它看到杯子的同时,就已经在计算如何抓取;感受到重量时,也会同步调整力度。

    王昊表示,模型开始学习重力、惯性、摩擦力、速度等基本物理规律。例如桌边有一个半悬空盘子,即便机器人从未见过这个具体场景,也能推断盘子可能掉落,从而主动把它推回安全位置。这意味着机器人未来不必为每一个家庭重新训练。因为房间布局不同,但物理规律是相同的。

    过去很多机器人任务失败后,只会停止执行,等待人工介入,WALL-B 的设想是:失败后重新尝试,成功后把经验直接写进模型。王昊将其比作人类学用筷子的过程:

    筷子掉了无数次,但每一次失败都在修正控制方式,最后才形成稳定技能。

    如果这一机制真正跑通,机器人迭代速度将不再完全依赖实验室训练,而是来自真实世界持续反馈。

    35 天后,机器人真的要住进用户家里了

    在训练数据上,自变量提出了一个很形象的说法:实验室数据像「糖水」,真实家庭数据像「牛奶」。前者干净、稳定、量大,但营养有限;后者复杂、嘈杂,却更接近真实世界。

    王昊透露,为获取这些数据,团队进入了数百个志愿者家庭采集环境样本,而且,每个家庭都不同:灯光冷暖不同,地面材质不同,玩具和拖鞋乱放,猫会突然跳上桌子,孩子会制造新的混乱......

    这些变量在实验室里很难完整模拟,却是机器人进入家庭后每天都会面对的现实。

    这也是具身智能行业正在形成的新共识:谁拥有真实场景数据,谁就更可能建立长期壁垒。比模型发布更具体的,是自变量给出的时间表。这家公司宣布,35 天后,新一代机器人将进入首批用户家庭。这意味着,它不再只是演示机,也不是封闭测试设备,而是真正开始面向 C 端环境落地。

    当然,自变量并没有把这件事说得过于完美。王潜坦言,当前机器人仍处于「实习生阶段」。它会犯错,可能把拖鞋放进厨房,擦桌子擦到一半停下来思考,也仍然需要远程协助。但另一方面,它可以 24 小时持续工作,并在每天运行中积累新经验。这种「边服务、边成长」的逻辑,和今天的软件产品迭代方式很像,只是这次载体变成了机器人。

    过去几年,机器人行业最擅长制造惊艳时刻。但真正改变生活的产品,往往不是最会表演的那个,而是最能解决琐事的那个。

    自变量这次发布 WALL-B,本质上是在回答一个更现实的问题:机器人能不能先把家务做好,再谈未来。

    35 天后,答案会开始进入第一批用户的客厅。

    【纠错】【责任编辑:请大家友好发言】