专访大晓机器人王飞:世界模型是“进化型基础设施”

@智能相对论 出处:二牛网 2026-06-30 20:07

出品 | 智能相对论

作者 | 叶远风

世界模型早已走出实验室,成为各家公司发布会上的高频词,不管是机器人公司,还是与具身智能相关的上下游机构,都开始频繁谈论世界模型。

热闹之下,很少有人回答几个最核心的问题——世界模型对于机器人的核心价值到底是什么?拼接式方案和原生架构的差距,到底是体验好坏还是代际差别?规模化落地的拐点,究竟要等到技术完全成熟还是可以提前进场?

v2_24b7f470f4c64abc987c0c87c6e3660a@1689395163_oswg340875oswg1080oswg608_img_png

近日,大晓机器人发布开悟世界模型技术报告,并披露其在多个具身智能基准测试中的夺冠表现。相比单纯讨论模型成绩,更值得追问的是:这些成绩背后,大晓到底选择了一条怎样的世界模型路线?

带着这些问题,“智能相对论”专访了大晓机器人开悟世界模型研发负责人王飞。在他的判断里,世界模型远不止演示层面的技术炫技,其本质定位更偏向支撑能力持续迭代的进化型基础设施。整条赛道的竞争,已经从单点功能的比拼,转向进化闭环的体系化较量。

v2_e3fb568ed6fe4e9bb05eb5dcd63de415@1689395163_oswg524163oswg851oswg1280_img_png

大晓机器人开悟世界模型研发负责人王飞

能力边界,是“原生”的技术分水岭

过去一年,“原生”成了世界模型领域最泛滥的词汇,几乎所有厂商都在强调自身架构的原生属性,很多方案本质只是视频生成模块加控制模块的简单拼接,换个包装就敢冠以原生之名。

王飞对此的判断逻辑,锚定在最终可实现的能力边界上。

他提到行业内常用的拼接式方案,大多是先搭建视频生成模块,再外挂一套控制模块,两道工序像流水线一样机械耦合,模块之间的信息传递存在显著损耗,就像传统汽车生产里的冲压焊接涂装总装流水线,每一道工序都要独立完成再转交下一环,中间的信息折损无法避免。

大晓开悟世界模型的原生一体化架构,形象地说,更接近“一体化压铸”的思路,将理解、生成、预测三类任务的目标,放在统一架构内做全局最优求解,底层表达保持一致,共享同一套世界状态表征,模块间的信息流动损耗可以降到最低。

在王飞看来,真正的原生世界模型,最终要指向物理AI+的能力水平。为了说明这种差异,他将世界模型能力从低到高拆成了五个层级。

第一层对应世界生成,负责构建视频或文本形式的世界表象。

第二层对应物理认知,可将力、摩擦力、速度、质量等物理变量做显式表达。

第三层对应交互反馈,可控制本体与世界产生交互,并明确判定任务的成败状态。

第四层对应自我进化,具备持续学习与策略优化的能力。

第五层对应多机协同,可实现多智能体之间的协作作业。

当前行业内绝大多数世界模型,能力边界基本停留在前两个层级,部分团队的探索触及第三层交互能力,但完整的反馈机制和进化能力,依然是少有人抵达的深水区。

英伟达Cosmos偏向世界生成与渲染,李飞飞团队的相关研究侧重物理认知,Yann LeCun推进的路线更关注本体控制与交互。各家路线各有侧重,也各自对应不同的商业目标。

大晓开悟的特殊之处,是试图把理解、生成、预测放进同一套架构中,更偏向将三类能力融合打通,最终指向自我进化与多机协同的高阶目标。

在王飞看来,这是技术路线选择上的本质分野。

很多团队的世界模型定位停留在工具层面,追求的是单点任务的效果上限。大晓从一开始就将世界模型作为支撑持续迭代的基础设施,其多模态理解、生成、预测一体化架构,所有设计都围绕进化闭环展开。两种路线在初期demo阶段可能看不出太大差距,越往高阶走,分化会越明显。

参考大模型行业的洗牌规律也能得到相似结论。

套壳开源模型做后训练的模式,短时间内就能拿出可用的产品,可一旦向高阶能力升级,就会遭遇底层能力不足的硬天花板。只有掌握自主预训练与架构设计能力的团队,才能持续补全能力缺口,走到行业最后。

世界模型赛道正在重演同样的逻辑,套壳拼接的方案能做简单垂类场景,却永远触达不到自我进化的高阶境界。

视频分支的真正作用,藏在进化闭环里

行业内长期存在一种讨论,机器人只要能输出准确的动作轨迹,像素级的视频生成属于多余的算力开销。持这类观点的人认为,隐空间路线直接输出控制信号,效率远高于先渲染画面再解算轨迹的路径。

王飞在访谈中给出了完全不同的视角。他认为,世界模型与传统VLA模型的差异,恰好来自视频生成分支的存在。

两类模型都可以输出轨迹控制信号,在单次推理的场景下,最终效果不会拉开显著差距。视频生成分支的核心作用,体现在策略推演的反馈环节。模型同时生成多条轨迹时,对应的视频画面可以直观呈现每一条轨迹的交互结果,帮助模型判断轨迹的成败与优劣。

缺少这一层视觉反馈,模型只能输出轨迹,无法自主判断执行效果。就像盲人摸象一样,能完成动作,却不知道动作带来的结果,自然谈不上自我反思与优化。

v2_08b23004e5b342c9bb6b27a4193061f0@1689395163_oswg483499oswg1080oswg527_img_png

大晓开悟世界模型架构图

有了视频分支做支撑,模型可以一次性推演数十条甚至上百条轨迹,从中筛选出最优的几条做进一步迭代优化,通过反复推演反思,最终得到成功率最高的执行方案,这就是“进化”的具象体现。

大晓内部的测试数据可以印证这个逻辑。

在桌面整理这类单一小空间场景中,引入自我进化闭环后,任务成功率可以从六成左右提升至九成以上。提升的幅度,远超单纯优化轨迹预测模型带来的收益。

当然这条路线也有自身的挑战。

当前视频生成的精度还无法完全复现所有轨迹的交互细节,偶尔会出现轨迹预测与视频生成不同步的情况,进而影响自我进化的准确性。王飞坦言,目前自我进化能力只在小范围低复杂度场景中验证成熟,大空间通用场景下还有很长的路要走。

但这条技术路径的方向已经得到验证,随着视频生成能力持续提升,进化闭环的威力会进一步释放。

被低估的人类数据与失败案例的价值

数据是大模型时代的核心生产资料,世界模型领域也不例外。

行业内普遍将真机数据视作最金贵的资源,对人类行为数据则抱有复杂态度。很多人认为人类动作包含大量个人习惯带来的冗余信息,直接投喂给模型反而会拉低任务成功率。

大晓采用的三级渐进式数据训练范式,恰好打破了这种认知。三层数据由浅入深,分别承担不同的训练目标。

第一层是百万小时级的互联网开放视频,主要用来学习重力摩擦力等基础物理规律。

第二层是十万小时级的人类交互行为数据,核心目标是学习通用动作空间与交互范式。

第三层是高精度真机数据,只用来做最终的动作锚定与微调。

王飞提到,三层数据目前都还符合尺度定律,没有出现边际收益收敛的迹象。

其中,互联网视频层的规律已经得到全行业验证,数据规模持续增长依然能带来物理一致性的稳定提升;

人类行为数据层正处于规模效应的起点阶段,从一万小时提升到十万小时的过程中,下游具身任务的成功率提升非常显著;

真机数据层的规模效应还没有完全释放,核心制约因素是机器人的部署量还不够大。参考自动驾驶行业的发展路径,一旦百万级真机投入真实场景,数据带来的能力提升会非常可观。

针对人类动作的冗余问题,大晓的解法是对数据做分类处理,不同类型的数据承担不同的学习目标。

成功案例数据主要学习均值模态,提取共性的动作逻辑,过滤掉个人习惯带来的冗余噪音;

失败案例数据反而会被重点对待,因为失败的场景千变万化,其中蕴含的信息密度远高于成功案例,模型通过分析失败案例,可以强化对物理因果关系的理解,泛化能力提升效果更明显;

还有一类失败后再成功的案例,专门用来训练模型的自我纠错能力,支撑自我进化闭环的形成。

针对长时程任务容易出现的状态漂移问题,这套数据范式配合混合线性实时记忆机制,也给出了新的解法。

传统流水线方案做长时程任务,生成到一定时长后画面就会发散跳变,轨迹解算自然无法继续。

大晓开悟世界模型创新的混合记忆机制同时保留两部分信息,一部分是近几秒内的连续局部视觉特征,另一部分是历史任务中关键物体的空间位置与物理状态等全局语义信息,二者结合推演后续动作,既能保证局部动作的连贯性,也能避免长时程下的全局信息丢失。

端侧跑通世界模型,靠的不只是压缩

行业内还有一种普遍认知,世界模型算力消耗巨大,只能部署在云端,端侧只能承载轻量化的VLA模型。

大晓在端侧推理上的进展,正在打破这个固有印象。

王飞透露,开悟世界模型部署在端侧单芯片上,已经可以实现10-15赫兹的推理频率。单次抓取放置任务的推理耗时约三秒,基本接近人类操作的效率。横向对比行业内同量级世界模型,推理速度可以达到竞品的十倍甚至数十倍。

能做到这个水平,核心支撑不来自后期的模型压缩与蒸馏,主要源于原生架构层面的设计。

团队自研的混合线性注意力算子,直接将时间复杂度从平方级降至线性级,这一步带来的效率提升就有数倍之多。

在此基础上,高性能计算团队针对端侧芯片的指令集,重构了整套算子推理库,再配合图优化与量化技术,进一步释放硬件性能。两步优化叠加,最终实现了端侧的高效推理。

王飞提到,世界模型团队普遍偏算法导向,具备底层高性能计算能力的团队非常少。大多数团队采用开源架构做二次开发,自然很难在底层算子层面做深度优化。这也是为什么很多模型参数规模相近,实际推理效率会拉开数量级差距。

此外,端侧与云侧也做了清晰的能力分工。端侧负责交互反馈类任务,低延迟隐私性强,适配家庭封闭厂区等场景。云侧承担自我进化相关的高算力任务,并发推演大量轨迹并做择优迭代,是模型持续进化的核心载体。

这套架构也支撑了“一脑多形”的跨本体泛化能力,同一个世界模型,可以同时驱动灵巧手机器人双臂机器人与人形机器人。

对于同构型的新本体,甚至可以通过简单的运动学映射实现零样本适配,大幅降低跨本体的部署与调试成本。原生一体化架构只需要部署一套模型,相比传统多模块拼接的方案,部署人力和时间成本都能下降三到四倍。

落地不用等满分,60分就可以进场

整个具身智能行业都在等待规模化落地的拐点。所有人都在关心,拐点什么时候会来。最先跑通的场景会在哪里。

王飞给出的时间判断是三到五年左右。他参考自动驾驶的发展历程,技术成熟只是一方面,载体的产能质量提升,消费端的认知培育,都需要时间周期。

人形机器人当前的出货量规模还很小,想要培育起成熟的消费市场,至少需要经历两到三轮的硬件迭代。本体硬件的噪音、续航、散热等问题,预计还需要两到三年的迭代周期才能得到较好解决。

他断定,最先规模化的场景,不会是全无人的工业产线,也不会是通用家庭服务机器人,半结构化场景下的人机协同模式,会更早跑通商业闭环。

比如酒店保洁场景中,保洁阿姨最耗时的环节是往返物料间运送物料,这部分工作完全可以由机器人承接。人负责核心的清洁整理工作,机器人承担重复性转运环节,整体效率可以提升一倍左右。

类似的还有零售分拣、桌面整理等场景,人力缺口明确,机器人能力可以覆盖核心环节,落地门槛相对更低。

在落地模式上,王飞认为更合理的分工模式是,机器人企业输出标准化的基础能力,场景合作方提供行业知识与流程拆解,双方共建落地方案——机器人能力不需要达到满分,六十分的水平就可以进场,在真实场景中运行收集数据,再反过来迭代模型能力,形成正向循环。

尾声

专访最后,王飞提到全球范围内的世界模型赛道,各家团队的站位各不相同。英伟达侧重云端基建与世界生成,其他前沿海外研究团队更关注交互与控制技术,而中国团队最大的优势,来自丰富的落地场景与完整的供应链体系。

正是基于这样的背景,大晓自身也在走软硬一体耦合迭代的路线。大脑和本体同步研发,算法需求定义本体构型,本体能力反过来约束算法设计。单纯做大脑或者单纯做硬件,都很难走到终局,软硬协同优化,才能最终实现性能与成本的最优解,而这种做法又恰好符合中国的优势所在。

在王飞看来,世界模型的竞争不只是模型参数、生成效果或榜单成绩的竞争,而是能否把架构、数据、端侧部署和真实场景反馈串成一个持续迭代系统。这个系统能否跑通,才是世界模型从技术报告走向产业现场的关键。

世界模型的竞赛,早已不是参数规模和生成效果的表层比拼,真正的分水岭,在于谁能先构建起完整的自我进化闭环、走向物理AI+,在真实场景中跑通正向迭代的循环。当世界模型的定位从炫技的演示工具,转向支撑持续进化的基础设施,具身智能的规模化落地,才真正迈出了最关键的一步。

*本文图片均来源于网络 

此内容为【智能相对论】原创,

仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。

部分图片来自网络,且未核实版权归属,不作为商业用途,如有侵犯,请作者与我们联系。

•AI产业新媒体;

•澎湃新闻科技榜单月度top5;

•文章长期“霸占”钛媒体热门文章排行榜TOP10;

•著有《人工智能 十万个为什么》

•【重点关注领域】智能家电(含白电、黑电、智能手机、无人机等AIoT设备)、智能驾驶、AI+、、、AI+、AI+、AR/VR、、开发者以及背后的芯片、算法等。


周阅读排行榜 TOP

查看更多