大模型云服务产品已上线!一键接入DeepSeek-V4、Kimi-K2.6等海量模型,按量计费,稳定易用, 立即体验
共绩算力

李飞飞新文章:大家都在说"世界模型",但说的根本不是一个东西

2026年6月9日
"本文基于李飞飞 2026 年 6 月 4 日发表的《A Functional Taxonomy of World Models》,结合我们对算力侧的观察整理而成。"
Shiyuh
Shiyuh
技术传道者/AI 应用落地

6 月 4 日,李飞飞和 World Labs 团队发了一篇新文章。

开头第一句话就很狠:

“The world is not made of words.”(世界不是由词语构成的。)

这是去年 11 月那篇《From Words to Worlds》的续篇。上一篇讲的是”空间智能是 AI 的下一个前沿”,这一篇往下挖了一层,回答一个更扎心的问题——

现在满世界都在说”世界模型”,视频生成的说自己是世界模型,做机器人的说自己是世界模型,做物理仿真的也说自己是世界模型。

这些人说的,是同一个东西吗?

李飞飞的答案是:不是。而且这个混乱,正在让整个领域失去讨论的精度。

一张几十年前的老图,切开了所有混乱

她没有发明新概念,而是搬出了强化学习教科书里那张最经典的图:POMDP 循环。

逻辑很简单:一个智能体 (人、机器人、软件) 采取行动 (Action),行动改变世界的状态 (State),但智能体永远看不到状态本身,它只能接收到观测 (Observation)——落在视网膜上的光子、传感器的读数、视频里的像素。观测驱动下一次行动,循环继续。

这里的”状态”不是化学里的固液气,而是物理学家说的那种状态:某一时刻世界的完整描述,每个物体、每个位置、每个速度。它是世界的底层现实,完整但不可直接观测。

然后是全文最锋利的一刀——

今天所有被称为”世界模型”的东西,其实是这个循环在三个不同方向上的投影。每一类输出的是循环里不同的那一环。

第一类:渲染器 (Renderer),输出观测。 也就是给人眼看的像素。文生视频模型、Google 的 Genie 3、World Labs 自己的 RTFM,都属于这一类。它们追求的是视觉保真度,但模型内部没有显式的三维结构理解。李飞飞给了一个特别形象的描述:无人机航拍镜头里的城市从空中看完美无瑕,但你试着开车进去,整个世界就散架了。

第二类:模拟器 (Simulator),输出状态。 几何上、物理上、动力学上忠实的世界表示。渲染器的契约是视觉的,模拟器的契约是结构的:几何经得起检视,物理遵守牛顿定律。它同时服务两类消费者——建筑师、游戏开发者这样的人类专业用户,以及强化学习智能体、机器人控制器、自动驾驶系统这样的程序,后者把模拟器当训练场,跑那些在现实里危险、昂贵或根本不可能的场景。

第三类:规划器 (Planner),输出行动。 给定观测和目标,回答”接下来该做什么”。VLA 模型、新一波的 World Action Model 都在这条线上。它是渲染器的反函数:渲染器吃行动吐观测,规划器吃观测吐行动,把感知 - 行动闭环接上。

这个分类法的价值在于:下次再有人跟你说”我们在做世界模型”,你可以直接问一句——你输出的是观测、状态,还是行动?

一句话就能把对方的技术路线问清楚。

她对机器人 Demo 说了句业内很少有人公开说的话

文章里有一段,坦诚得有点出乎意料。

讲到规划器时,她说过去两年机器人领域产出了大量视频里看起来很惊艳的 Demo,但需要对这些 Demo 实际展示了什么保持坦率 (candor):

几乎全部局限在高度受控的实验室环境里,物体集合很窄,任务时长很短。没有一个在真实部署所要求的复杂度、多变性和持续时间下得到过验证。

从一段精彩的 Demo 视频,到一台能在厨房、仓库、手术室里稳定干活的机器人,中间的鸿沟依然巨大。

这话从别人嘴里说出来是泼冷水,从李飞飞嘴里说出来,更像是给整个具身智能行业校准预期。资本下注是真金白银的,但技术现状也需要被诚实描述。

全文的核心判断:模拟器才是那个枢纽

三类里面,渲染器商业化最成熟 (文生视频产品满天飞),规划器故事最性感 (机器人嘛),但李飞飞把整篇文章的重心压在了关注度最低的那一类上:

模拟器是三者的枢纽 (linchpin)。

她的推理链是这样的:如果语言是世界的抽象,像素是世界的投影,那几何、物理、动力学就是世界本身。一个真正掌握了模拟的模型,可以把它的理解投影成像素给人看 (变成渲染器),也可以投影成行动预测给机器人用 (变成规划器)。

反过来不成立。 只会渲染或者只会规划的模型,两件事都做不了。

她举的例子是一只杯子:一个真正理解”杯子放在桌上”的模型——几何、材质、受力响应——应该既能从任意角度渲染这只杯子,也能模拟杯子被推动时会发生什么,还能规划一只手把它拿起来。三类能力是同一个底层理解的三种投影。

World Labs 的 Marble 就是按这个思路做的:同一个模型,既输出高斯泼溅 (Gaussian splats) 用于视觉探索,又输出物理引擎可以直接计算的碰撞网格 (collision mesh)。渲染器和模拟器的边界,在产品层面已经开始溶解。Marble 去年 11 月正式商用,今年 4 月已经迭代到 1.1 和 1.1-Plus,开放了 API。

终局判断也写得很明确:一个统一的世界模型基础模型,能渲染照片级视图、产出物理精确的结构、规划行动序列,按下游消费者的需要切换输出模态。

从算力的角度看,这篇文章其实指出了三个真问题

我们是做 GPU 算力的,读这篇文章的时候,有三个点和我们日常看到的负载变化对得上。

第一,数据的不均衡,最后会变成算力问题。

文章里说,渲染器有全互联网的视频可以训练,但模拟器和规划器面临 3D 资产和机器人演示数据的严重短缺——带显式几何、材质属性、物理标注的三维数据,比互联网视频稀缺好几个数量级。

缺数据怎么办?合成。用模拟器批量生成训练数据,已经是机器人和自动驾驶领域的标准做法。而合成数据这件事,本质上是拿 GPU 时间换数据规模。Marble 公测后社区里讨论最多的用法之一,就是从 3D 世界批量导出带空间一致性的视频序列做训练集——这类负载有个特点:阵发性强,需要的时候要一大片卡,跑完就释放。

第二,实时渲染类世界模型是推理负载的新物种。

RTFM、Genie 3 这类按用户输入实时生成帧的系统,和传统的”提交 prompt 等几十秒出视频”完全不同——它要求持续的、低延迟的帧级推理。这类应用一旦走向消费级,对推理算力的消耗形态会更接近云游戏,而不是现在的文生视频。

第三,多物理仿真的成本曲线还没被打下来。

文章里有个数字概念值得记住:刚体、软体、流体、布料同时交互的多物理仿真,比单一域仿真贵几个数量级。NVIDIA 给 Omniverse 讲的故事是工厂、仓库、供应链、数字孪生加起来超过一万亿美元的可服务市场——这个市场如果真的启动,仿真负载会是继 LLM 训练、视频生成之后,下一个吃掉海量 GPU 的方向。

对在我们平台上跑模型的开发者来说,翻译一下就是:视频生成模型只是世界模型浪潮的第一波,3D 生成、物理仿真、合成数据管线,这些负载正在路上。 弹性调度的价值,恰恰在这种”负载形态还没定型”的阶段最大——你不需要为一个还在快速演化的技术方向锁死一种卡型和一种集群规模。

最后

文章开头引了维特根斯坦,结尾这句更值得记:

“语言给了机器谈论这个世界的方式。世界模型,是机器最终理解、想象、推理并与这个世界互动的方式。”

从 ImageNet 到 World Labs,李飞飞做的其实一直是同一件事:在所有人盯着模型的时候,她盯着数据和世界的表示方式。

上一次她这么做,引爆了深度学习革命。

这一次,赌注押在了”空间”上。


原文:Fei-Fei Li, “A Functional Taxonomy of World Models”, 2026-06-04, drfeifei.substack.com

准备好开始您的 AI 之旅了吗?

读完这篇文章,想必您对 AI 技术有了更深的了解。现在就来体验共绩算力,让您的想法快速变成现实。

✓ 已有 10 万 + 开发者在使用

✓ 99.9% 服务可用性

✓ 开箱即用的容器托管