1. Predictive Policy Latent
创新点:用隐式物理推理表征替代显式未来图像生成,实现世界理解到动作策略的零冗余传导。
区别于现有方案:传统方法依赖生成预测图像或显式目标坐标来桥接高层理解与动作执行,带来像素冗余、生成幻觉和高时延。Predictive Policy Latent 在训练时利用未来观测塑造表征,部署时仅凭当前观测即可输出等效调制信号——信息密度更高,推理更快,且不引入生成式噪声。
A Latent Frontostriatal Policy Loop with Reinforcement Learning
面向真实家庭机器人部署的自研世界动作模型,以隐式策略调制贯通高层世界理解与动作执行,通过强化学习闭环将真实反馈转化为持续的成功率提升。
2026年5月,卧安机器人(OneRobotics)正式发布自研世界动作模型 OneModel 1.7 FrontoStria-RL,一套面向真实场景规模化部署的具身智能模型,也是卧安推动家庭与服务机器人商业化落地的核心模型底座。
OneModel 1.7 FrontoStria-RL 采用卧安自主设计的 RL-Latent World Action Model 架构(RL-LWAM):World Model 负责跨场景泛化,Understand Expert 负责任务理解与 Skill 调度,Action Expert 负责精准执行;三个模块由 Predictive Policy Latent 隐式连通。在此之上,强化学习闭环与成功记忆机制让真实部署中的每一次反馈都能回流到模型,能力随使用不断累积。
在具身智能标准评测基准 LIBERO 上,OneModel 1.7 的平均任务成功率达到 99%,领先于 π0.5、GR00T-N1.5、OpenVLA-OFT 等主流公开模型。不仅如此,在更贴近真实部署的多类任务实测中,OneModel 1.7 同样表现强劲:日常操作任务平均约 99%,高精度任务平均约 97%;在真人对打乒乓球这一高动态且高精度的极限场景下,接球成功率也达到 90% 以上。
具身机器人进入真实生活场景的前提,不只是理解任务,更是稳定完成任务。OneModel 1.7 FrontoStria-RL 将泛化理解、动作成功率和真实反馈学习整合进同一套世界动作模型系统,覆盖从家庭日常操作到高精度、高动态交互的广谱场景。它不是单点演示,而是一套被实测结果验证、可规模化交付的模型平台。
家庭环境是机器人走向大规模应用的核心入口,但也是对智能要求最高的场景之一。与工厂流水线或仓储拣选不同,家庭场景中没有两间完全相同的厨房,没有两个摆放一致的客厅,每天的任务组合也在不断变化。机器人不仅需要精确完成开门、叠衣、端碗、收纳等具体动作,还需要面对陌生物品、变化光照、不同户型时仍然能够理解任务并做出合理行动。
与此同时,机器人的能力边界正在向更高难度延伸:拔插试管、倒咖啡豆等高精度操作要求极小的末端误差和稳定的力控表现;真人对打乒乓球则对实时感知、动态预测和高速响应提出极限要求。这意味着,具身智能模型必须同时具备强泛化性、高成功率和极端场景下的动态适应力。
近两年,Vision-Language-Action(VLA)模型在具身智能领域快速发展,成为动作生成的重要范式。VLA 的优势在于端到端地将视觉观测和语言指令直接映射为机器人动作,在训练数据覆盖充分、任务边界清晰的场景中,能够实现较高的执行成功率。
但单纯依赖端到端动作映射也会带来挑战:模型更擅长复现示范数据中覆盖过的动作模式,而对任务结构、阶段目标和可复用 Skill 的显式建模不足。当物体摆放、桌面材质或光照条件发生变化时,模型性能可能受到影响;面对多阶段、多约束的复杂任务,也更容易丢失全局目标。
与 VLA 路线相对的是 World Model。World Model 试图在视觉与语言信息之上构建对环境状态和任务演化的预测能力,包括物体之间的空间关系、任务的阶段结构,以及动作可能带来的后果。理论上,这种建模方式天然具备更强的泛化潜力。
但现阶段的 World Model 仍面临现实瓶颈:模型体量和推理开销较高,难以天然满足实时控制的时延要求;生成式预测中的不确定性可能导致对环境状态的错误估计;更关键的是,从高层世界理解到底层动作执行之间,往往缺乏有效的传导机制。"理解世界"和"动得准"之间并没有一座现成的桥。
无论是 VLA 还是 World Model,都容易忽略一个关键环节:对任务本身的结构化理解。这就像工厂里有了先进的生产设备和完善的环境监控系统,却缺少 SOP 标准作业流程与岗位手册。Skill 体系对机器人的意义正是如此:它让模型知道一个复杂任务应该如何拆解、如何排序、如何复用已有能力。
真实操作任务往往包含明确的阶段划分、子目标依赖和技能组合逻辑:叠衣服需要先展平、再对折、最后整理边缘;洗碗机操作需要识别碗碟类型、选择摆放位置、确认关门动作。这些结构化操作规程既不属于 World Model 的环境建模,也不属于 VLA 的动作生成,而是连接理解与执行的中间层。
当前主流具身模型还有一个共性问题:训练结束后,能力提升主要依赖重新采集数据和离线再训练。很多系统仍高度依赖模仿学习,从人类演示数据中学习策略。但模仿学习受示范数据覆盖范围、示范质量和长尾场景分布约束,难以在真实部署中持续修正失败模式。
一旦部署到真实环境,模型会遇到训练中未覆盖的边界场景:手滑了、物体形变了、用户临时介入了。强化学习的价值正在于此:在明确奖励、安全约束和人在环监督下,模型能够通过真实任务反馈进行策略优化,不仅纠正错误,也逐步发现更稳健、更高效的执行路径。
上述问题——泛化不足、理解落地难、缺少任务规划、无法持续进化——并非孤立存在,而是具身智能从实验室走向真实部署时面临的系统性瓶颈。OneModel 1.7 的 RL-LWAM 架构,正是针对这些问题给出的一体化回答。
它以 World Model 提供跨场景泛化能力,以 Understand Expert + Skill 体系承接任务理解与结构化规划,以 Action Expert 保障动作执行精度,并通过 Predictive Policy Latent 实现世界理解对动作策略的隐式调制;同时结合强化学习闭环与成功记忆机制,把真实世界反馈转化为可持续累积的模型能力。最终,OneModel 1.7 不是单点能力展示,而是一套面向规模化部署的世界动作模型系统。
OneModel 1.7 FrontoStria-RL 采用 RL-Latent World Action Model(RL-LWAM)架构。其完整信息流如下:
OneModel 1.7 通过 RL-LWAM 架构实现完整的具身智能闭环:World Model 构建环境的泛化表征,经 Predictive Policy Latent 隐式传导至 Understand Expert 进行任务分解与 Skill 调度,再由 Action Expert 生成精准动作并执行;执行结果经由强化学习进行策略优化,成功经验写入记忆库供后续复用,人在环监督提供安全约束——形成可审计、可控的持续优化闭环。
World Model 是整个架构的“认知层”。它接收来自视觉传感器的环境观测(Observation)和自然语言任务指令(Instruction),对当前场景进行深层理解——包括物体识别、空间关系推理、任务阶段分解以及动作后果预估。
World Model 是系统泛化能力的核心来源:即使面对从未见过的场景布局或陌生的操作对象,系统仍然能够形成合理的高层任务规划——这正是单纯端到端动作映射难以稳定覆盖的能力。
World Model 的理解需要传导到下游模块才能产生价值。传统做法往往依赖显式的中间表征——如生成预测图像、输出目标坐标点——但这类表征信息损失大、耦合度高,难以承载 World Model 丰富而抽象的理解。
RL-LWAM 架构的核心创新之一在于:用 Predictive Policy Latent 机制(隐式策略调制层)贯通 World Model、Understand Expert 与 Action Expert。这里的 Latent 不是一张图片,不是一组显式坐标,而是模型在训练过程中借助未来观测信息学习到的物理推理表征——训练时,模型可以“看到”动作执行后的结果,以此塑造对任务后果的理解;部署时,模型不再依赖未来信息,而是仅凭当前观测即可形成等效的动作预期。它将 World Model 对场景结构和运动趋势的理解,以压缩、高效、可学习的方式传递给 Understand Expert 和 Action Expert。
这一机制使得高层泛化理解能够高效地驱动任务分解与动作执行——相比显式图像生成,隐式调制跳过了冗余像素与生成噪声,只保留与决策真正相关的信息。
Understand Expert 是架构的“规划层”。它接收来自 Predictive Policy Latent 的调制信号,对当前任务进行结构化分解——识别任务阶段、确定子目标依赖、调度对应的 Skill 序列,让机器人在面对复杂长时序任务时始终清楚当前处于哪个阶段、下一步该做什么。
这一模块使得系统在新任务组合面前能够复用已有 Skill,而非每次从零学起;在长流程操作中保持目标一致性,不会因为中间步骤的干扰丢失全局方向。
Action Expert 是架构的“执行层”。它接收来自 Understand Expert 的 Skill 指令与实时视觉观测,通过 flow matching 生成连续动作计划——模型学习的不是单步绝对位移,而是从噪声到真实动作的连续速度场,一次生成一段完整的动作序列(action chunk),再经 robot adapter 转化为具体机器人可执行的指令。
在动作参数化层面,OneModel 1.7 进一步采用 MCF-Proto(Motion-Centric Action Frame)技术:不再在固定的世界坐标系中直接预测位移,而是围绕任务相关的局部运动结构——如门轴、滑轨、孔位、折叠线——组织动作原型,再映射回真实机器人动作。这一设计使得动作生成在相机视角扰动和机器人初始位姿偏差下,仍能保持高度稳定。
真实部署中,任何模型都不可能从第一天就完美。OneModel 1.7 在架构中内置了完整的持续优化闭环。
强化学习(RL)通过真实任务反馈进行自主探索和策略优化,让模型不止于模仿,还能发现更优的执行路径。
成功记忆(Success Memory)基于 Retrieve-then-Steer 技术,将部署中成功完成的动作片段写入在线记忆库。当再次遇到相似场景时,系统自动检索已验证的成功经验,引导新一轮动作生成——无需更新模型参数即可获得成功率提升。
人在环监督(HITL)为高风险任务提供安全约束,在 RL 自主探索与安全边界之间取得平衡。三者共同构成“越用越好”的持续进化引擎。
上方模块图概括了 OneModel 1.7 FrontoStria-RL 的四个关键技术创新点:Predictive Policy Latent、Understand Expert + Skill 体系、MCF-Proto 动作参数化与 RL 闭环 + Success Memory。四个模块分别对应世界理解到动作策略的隐式传导、任务结构化分解与 Skill 复用、局部运动结构驱动的动作参数化,以及强化学习与成功记忆共同构成的持续进化闭环。
创新点:用隐式物理推理表征替代显式未来图像生成,实现世界理解到动作策略的零冗余传导。
区别于现有方案:传统方法依赖生成预测图像或显式目标坐标来桥接高层理解与动作执行,带来像素冗余、生成幻觉和高时延。Predictive Policy Latent 在训练时利用未来观测塑造表征,部署时仅凭当前观测即可输出等效调制信号——信息密度更高,推理更快,且不引入生成式噪声。
创新点:在 World Model 与 Action Expert 之间引入独立的任务规划层,实现 Skill 级别的结构化分解与复用。
区别于现有方案:主流 VLA 模型将感知到动作视为端到端映射,缺乏对长时序任务的阶段管理。Understand Expert 让系统具备"读 SOP"的能力——面对新任务组合时可复用已有 Skill,面对长流程时不丢失阶段目标,而非每次从零到一重新学习。
创新点:围绕局部运动结构(门轴、滑轨、折叠线等)建立动作坐标系,用动作原型组合替代世界坐标系下的直接位移回归。
区别于现有方案:固定坐标系下的动作预测对相机视角变化和机器人初始位姿偏差极为敏感。MCF-Proto 将动作表示与任务的物理约束对齐,从根源上降低几何扰动带来的分布偏移,在视角和位姿变化下保持高稳定性。
创新点:双通道持续进化——强化学习突破模仿学习天花板,成功记忆实现零参数更新的测试时自适应。
区别于现有方案:许多模型在离线训练结束后,能力提升主要依赖重新采集数据与再训练。OneModel 1.7 通过 RL 实现策略级优化(突破演示数据上限),通过 Retrieve-then-Steer 实现轻量级经验复用(无需重新训练),两条路径互补——前者解决能力上限问题,后者解决部署适应问题。
LIBERO 是具身操作领域常用的标准化评测基准,主要围绕指令理解、空间关系判断、物体交互和长时序执行等能力展开评估,核心指标为任务成功率。在此基础上,LIBERO-plus 进一步引入相机视角、机器人位姿、语言、光照、背景等扰动,用于检验 Action Expert / MCF-Proto 在环境变化下的鲁棒性;SimplerEnv 则用于观察 Success Memory / Retrieve-then-Steer 在仿真环境中的增益效果。
综合来看,这些 benchmark 分别从系统级主成绩、扰动鲁棒性和仿真验证三个角度,为 OneModel 1.7 的模型能力提供了标准化验证:OneModel 1.7 在标准 LIBERO 上取得 99.0% 的平均成功率;LIBERO-plus 扰动测试显示,MCF-Proto 在七类扰动中六类取得更优结果,并在相机视角变化、机器人初始位姿偏差等几何扰动下保持更高稳定性;SimplerEnv 结果则表明,Retrieve-then-Steer 能在仿真环境中带来可观提升。
图 1 展示了 OneModel 1.7 与主流公开具身操作模型在标准 LIBERO benchmark 上的平均任务成功率对比。标准 LIBERO 主要检验模型在空间理解、物体交互、目标推理和长时序操作等任务中的综合执行能力。
OneModel 1.7 在该 benchmark 上取得 99% 的平均任务成功率,领先图中列示的 π0.5、GR00T-N1.5、OpenVLA-OFT 等公开基线。这一成绩来自 RL-LWAM 架构各模块的协同——World Model 的泛化表征、Understand Expert 的任务规划、MCF-Proto 的动作参数化以及 RL 闭环的持续优化共同作用的结果。
图 2 展示了 MCF-Proto 在 LIBERO-plus 七类扰动测试中的鲁棒性表现,并与每一类扰动下的最强基线进行对比。LIBERO-plus 在标准 LIBERO 基础上引入 Camera、Robot、Language、Light、Background、Noise、Layout 等扰动,用于检验模型在部署环境变化下的稳定性。
标准 benchmark 成绩高,不代表模型能应对真实部署中的各种意外。LIBERO-plus 正是为此设计的压力测试。MCF-Proto 在七类扰动中的六类取得更高成功率,Language 项接近最佳结果(80.1% vs. 最优 81.5%)。最值得关注的是 Camera(相机视角变化) 和 Robot(机器人初始位姿偏差) 两项。这两类属于几何扰动,是家庭环境中最常见、也最影响动作执行的变化。MCF-Proto 在 Camera 上达到 69.7%(最强基线 66.4%),在 Robot 上达到 66.0%(最强基线 50.3%),领先幅度分别为 3.3 和 15.7 个百分点。这说明局部运动坐标系比固定 world-frame 动作回归更能抵抗几何变化带来的干扰。
图 3 展示了 SimplerEnv 平均成功率对比。Retrieve-then-Steer 将 CogACT 的平均成功率从 75.8%±0.3 提升至 79.5%±0.2,提升 3.7 个百分点。与 RT-1、RT-2-X、OpenVLA 等基线相比,CogACT + Retrieve-then-Steer 在该组平均成功率指标上保持领先。
以下评测从日常操作、高精度任务和极端动态场景三个角度,对 OneModel 1.7 FrontoStria-RL 进行了验证。结果表明,RL-LWAM 架构在真实世界的广谱任务中——从叠衣服到打乒乓球——展现出一致的高成功率与强鲁棒性。这些结果支持卧安机器人的核心判断:规模化部署需要的不是更大的单体模型,而是一套将泛化理解、任务规划、精准执行、数据飞轮与持续进化统一起来的模型系统。
图 4 展示了 OneModel 1.7 在真实机器人平台上的多类任务成功率。评测覆盖两个难度梯度:日常操作任务和高精度操作任务。
日常操作任务平均约 99%:洗衣服、叠衣服、洗碗机操作、传送带拿取物品。这些任务涉及柔性物体操作、多阶段流程和环境多样性,要求模型在泛化理解与稳定执行之间取得平衡。
高精度任务平均约 97%:拔插试管、叠纸杯、倒咖啡豆。这些任务对末端执行器的位置精度、姿态控制和力控稳定性要求很高,容错空间极小。MCF-Proto 围绕局部运动结构组织动作原型的设计,在此类任务中体现出显著优势。
图 5 展示了 OneModel 1.7 在真人对打乒乓球场景下的动作阶段成功率。乒乓球是具身智能中极具挑战性的任务——球速快、轨迹变化大、响应窗口极短,同时要求高精度的击球位置和角度控制,是“高动态 + 高精度”的典型代表。
OneModel 1.7 在该场景下接球成功率达到 91.2%,可概括为“高动态场景接球成功率 90%+”。这一结果验证了 RL-LWAM 架构在极端时间约束下的能力:World Model 提供对来球轨迹的快速预测,Action Expert 在短时间窗口内生成精准动作,强化学习闭环则通过大量对打训练持续优化击球策略。
家庭场景的核心挑战在于开放性:物体类别多样、空间布局各异、光照与接触状态持续变化,且任务往往涉及多步骤的长时序操作。这要求具身智能模型在高层泛化能力、底层动作精度和部署后的持续适应能力之间取得平衡。
OneModel 1.7 FrontoStria-RL 在架构层面做出了四项针对性设计:World Model 提供任务与环境层面的高层表征,为跨场景、跨物体的泛化提供基础;Predictive Policy Latent 以隐式物理推理表征替代显式未来图像,通过训练阶段的未来信息引导与部署阶段的纯当前观测推理,实现世界理解对动作策略的高效调制;Action Expert 基于 flow matching 生成连续动作计划,并结合 MCF-Proto 的 Motion-Centric Action Frame 与 prototype-based action parameterization,将高层目标稳定映射到局部运动结构中的动作生成;Success Memory 基于 Retrieve-then-Steer,在不更新模型参数的条件下复用部署中被环境验证过的成功片段,提高长时序任务的闭环稳定性。
实验层面,OneModel 1.7 作为完整模型系统在标准 LIBERO benchmark 上达到 99.0% 平均任务成功率,并在真实机器人 validation 中覆盖日常操作、高精度操作和真人对打乒乓球等多类场景,展现出从标准基准到真实任务的一致表现。模块级验证则进一步说明关键技术贡献:MCF-Proto 在 LIBERO-plus 的七类扰动中六类达到更优结果,体现了对几何与感知扰动的鲁棒性;Retrieve-then-Steer 在 SimplerEnv 等仿真评测中验证了成功记忆机制的测试时自适应能力。系统级结果与模块级验证共同推动 OneModel 1.7 在多项核心评测中达到行业领先水准。