一、第一性原理：世界模型和 LLM 到底差在哪

搜索”世界模型”,会看到一长串互相矛盾的定义：有人说它是视频生成模型，有人说它是自动驾驶仿真器，有人把它和 AGI 划等号，有人觉得它是新瓶装旧酒。我们先把它的边界划清楚。

一句话定义:世界模型是给定”当前观测 + 即将执行的动作”,预测”下一时刻观测”的模型。

注意三个关键词:当前观测、动作、下一时刻观测。

把这三个关键词和 LLM 对比一下：

LLM 回答”世界是什么样”——它是一个旁观者，告诉你已知世界的语言模式
世界模型回答”如果我这样做,世界会怎么变”——它是一个参与者，告诉你你的选择会带来什么后果

这个区别听起来抽象，但它是 LLM 和世界模型最本质的分歧。

举两个例子：

例 1:玻璃杯掉下来

LLM 能流畅地告诉你”玻璃杯掉下来会摔碎”
世界模型能告诉你”玻璃杯从 80cm 高度掉到大理石台面会怎么碎、碎片会怎么弹”——具体多少块、弹多远，取决于你训练时用的物理数据

例 2:自动驾驶

LLM 能告诉你”雨天路滑，需要减速”
世界模型能告诉你”在当前路面摩擦系数、视野遮挡、车速组合下，跟车距离多少会进入不可恢复的碰撞轨迹”——具体数字取决于你建模的物理细节

前者是语言层面的常识,后者是物理层面的预测。这两种”知道”,是两种不同的智能。

LeCun 在 2022 年发布的报告《A Path Towards Autonomous Machine Intelligence》(OpenReview, 2022) 里，把世界模型定位为”自主智能的三大支柱之一”,另外两个是”内在动机驱动的行为”和”分层联合嵌入架构”。他的核心论断是:真正的智能需要对世界的因果预测能力，语言只是这种预测能力的一种输出接口，不是基础。

这个观点和过去三年的 LLM 主流叙事截然相反——它认为 LLM 是个”很有用的捷径”,但不是”AGI 的必经之路”。

二、为什么偏偏是 2026 年：三件事同时成熟

世界模型不是新概念。1943 年，英国心理学家 Kenneth Craik 就提出”大脑维护着一个现实的小尺度模型”。之后的几十年里，控制论、卡尔曼滤波器 (1960s 阿波罗导航)、隐马尔可夫模型、循环神经网络——都各自在做”预测未来状态”的工作。

但这些技术一直是分散的、各自发展的，从未被统一冠以”世界模型”这个名字。

为什么 2026 年突然变成了主战场？ 因为三件事恰好同时撞到一起。

第一件事：视频生成突然变强，带出了一个深刻追问

2024-2025 年，Google 的 Genie、Veo,NVIDIA 的 Cosmos,OpenAI 的 Sora 等视频生成模型，质量出现了跨越式提升。但一个深刻的问题浮出水面：

生成质量高 ≠ 物理理解深

一个能生成逼真猫的视频模型，可能完全不理解”猫有四条腿、重力让它不会飞”这件事。当研究者开始认真追问”这些视频模型到底有没有学到物理规律”时，世界模型从一个学术问题变成了一个工程问题。

第二件事：具身智能撞上数据墙

通用机器人需要大量遥操作数据——让人戴着 VR 设备一帧一帧操作机器人，记录动作。这种数据贵到离谱 (据业内估算，单小时采集成本可达数千美元量级)。

而 YouTube、TikTok、Instagram 上有数以百万小时计的人类日常视频。学术界最大的第一视角公开数据集 Ego4D 约 3,700 小时;NVIDIA 今年 2 月发布的 DreamDojo，其预训练数据集 DreamDojo-HV 已经做到了 44,711 小时——比此前最大的世界模型训练集时长多 15 倍、场景多 2,000 倍。能不能用这些人类视频预训练一个”物理世界常识”模型，再用少量机器人数据微调？

这就是”具身基础模型”的命题。它和世界模型几乎天然耦合:你需要一个能预测”我这样移动手臂，世界会怎么变”的模型，才能把人类视频里的”物理规律”蒸馏到机器人。

第三件事：自动驾驶证明了反事实仿真的商业价值

Wayve 在 2023 年发布了 GAIA-1(arXiv:2309.17080),全称 “Generative AI for Autonomy”,把视频生成、文本、动作作为联合输入，生成”同一路口不同天气/不同行人行为”的驾驶视频变体。

这件事的工业意义是:用世界模型生成罕见危险场景的合成数据，比单纯累积真实路测里程效率高出一个数量级。你想让你的自动驾驶系统在”卡车横穿马路 + 暴雨 + 逆光”这种场景里训练 1000 次？真实世界里你可能跑 10 年也遇不到这么多;但世界模型可以生成无限多。

Wayve 在 2024 年与英伟达等产业伙伴建立战略合作 (具体合作车企与商业化进展以 Wayve 官方披露为准),把这个思路从论文推向生产线。它证明了世界模型不是”学术玩具”,而是有明确商业回报的工业技术。

三件事撞在一起,叠加 2024-2025 年视频生成模型的飞跃，就出现了 2026 年初我们看到的现象：

LeCun 和谢赛宁等人创立 AMI Labs,3 月完成 10.3 亿美元种子轮融资，明确对标”以 LLM 为中心”的硅谷主流
李飞飞的 World Labs 在 2 月以 50 亿美元估值融资 10 亿美元，主打”空间智能”
Demis Hassabis 在访谈中明确说 Gemini 的演进方向是”成为世界模型”,但路径是在 LLM 上叠加具身推理能力

三位顶级大脑同时押注同一赛道，与三件事成熟在时间上重合——这两者共同放大了”世界模型”在 2026 年的声量。

三、它们的分歧：三巨头在赌什么

但”押注同一赛道”不等于”押注同一路线”。这是 2026 年 AI 行业最重要的路线分歧。

🅰️ 路线 A:LeCun 派——推翻 LLM，从头建非生成式世界模型

LeCun 的核心论点是:LLM 处理的是人类发明的符号系统，是对真实世界的”二次抽象”;真正的智能需要直接从连续的感官信号中建模物理世界。

AMI Labs(全称 Advanced Machine Intelligence,2025 年 12 月成立于巴黎，2026 年 3 月以 35 亿美元投前估值完成 10.3 亿美元种子轮——这是欧洲史上最大的种子轮，在全球新创 AI 实验室里仅次于 Thinking Machines 的 20 亿美元。Alex LeBrun 担任 CEO,LeCun 担任执行董事长) 押注的技术路线是 JEPA(Joint Embedding Predictive Architecture，联合嵌入预测架构)——不生成像素，直接在语义空间里预测状态变迁。

谢赛宁 (AMI Labs 联合创始人兼首席科学官，Diffusion Transformers 架构的共同作者) 在张小珺《商业访谈录》那场 7 小时马拉松访谈里，有两句话流传很广。一句是:“Silicon Valley is very LLM-pilled——硅谷已经深陷于 LLM，完全被它催眠了。” 另一句是:“语言是鸦片，它是智能的某种捷径，但也可能让研究者丧失训练’视觉大脑’的机会。”

Meta 在 2025 年 6 月发布的 V-JEPA 2(arXiv:2506.09985) 是这条路线的最新里程碑:1M+ 小时视频预训练 (具体参数量以论文披露为准),含 8B 参数的 LLM 对齐版本用于视频问答，以及 V-JEPA 2-AC——一个用不到 62 小时无标注机器人视频后训练、能在 Franka 机械臂上零样本完成 pick-and-place 任务的世界模型。

“零样本”意味着:V-JEPA 2-AC 在它从未见过的新实验室环境里，没有任何特定任务训练或奖励信号，直接用图像目标就能完成抓取。

🅱️ 路线 B:Hassabis 派——保留 LLM，叠加多模态和具身推理

Hassabis 的逻辑是:LLM 已经积累了几千年人类书写知识的压缩表示，在这个基础上叠加视觉、空间感知、强化学习，比从头建一套新架构更务实。Gemini Robotics 就是这个路线的产物。

这条路线有一个非常有力的实用论据:LLM 在常识推理、语言指令理解、跨任务泛化上已经足够强,而这些恰恰是纯 RSSM / JEPA 架构最弱的地方。Gemini Robotics 的思路是：不需要从零建立物理直觉，直接借用 LLM 里已经压缩好的”世界常识”,再让模型学会把这些常识映射到连续的物理动作上。

🅲 路线 C:李飞飞派——从 3D 空间表示切入

李飞飞的 World Labs 走的是第三条路:先把”世界”本身生成出来。其产品 Marble 从文本、图像、视频等输入生成可探索的 3D 环境，同时输出高斯泼溅 (Gaussian splats) 用于视觉浏览和网格 (mesh) 供下游程序使用。

这条路线的赌注是:空间表示是物理理解的基座——机器人训练、自动驾驶仿真、影视游戏制作，都需要一个几何上站得住的三维世界，而不只是看起来像的视频帧。50 亿美元估值融资 10 亿美元，资本市场对这个判断给出了真金白银的定价。

🅳 第四种声音：怀疑派——方向可能对，但时机可能没到

还有一种声音最少被公开讨论，但在业界私下流传很广:视觉数据的”语义密度”远低于语言。

一句话可以传达一个完整命题
一帧 1080p 视频 (约 200 万像素) 承载的命题性信息 (谁、在哪、做什么) 压缩成文字不过几十个词

用同等数据训练，视觉能传达的语义量远小于文字。要训练出能力对标当前 LLM 的世界模型，所需数据量可能比 LLM 高好几个数量级,产出的能力却可能还不如当前最基础的视觉 - 语言模型 (具体数字以该领域后续基准测试为准)。

持这种观点的人不反对世界模型的方向，他们反对的是现在就大规模押注——在视觉数据密度问题没有根本突破之前，所需的目标函数、计算规模、数据量都还远远不够。

几条路线不是非此即彼。LeCun 用融资和职业生涯押注新架构;Hassabis 用工程路径逼近同一个目标;李飞飞从空间表示切入;怀疑者在追问”就算方向对，现在的条件够吗”。这些都是真问题，胜负还没分。

四、五大技术路线，一张表

不展开技术细节 (每个都可以写一篇文章),但你需要知道”现在主要的技术路径长什么样”。

RNN / RSSM:代表 Dreamer V3(arXiv:2301.04104)。押注样本效率、端到端 RL。代价：像素级质量不如 Diffusion。
Transformer + 离散 token:代表 STORM / IRIS。押注训练效率、长程建模。代价：视觉细节有损。
Diffusion:代表 Diamond / Wayve GAIA-1(arXiv:2309.17080)。押注视觉质量、物理真实性。代价：计算开销大、不可微。
JEPA(非生成式):代表 V-JEPA 2(arXiv:2506.09985)。押注意义理解、AGI 路线。代价：不能生成视频，落地路径模糊。
Embodied World Model:代表 NVIDIA DreamDojo(arXiv:2602.06949)。押注数据效率、跨形态迁移。代价：早期，泛化性未充分验证。

MuZero(DeepMind 2019, arXiv:1911.08265) 是这个领域的另一个里程碑——它在国际象棋、围棋、Atari 等完全不同的游戏上，不预先知道规则,只学习一个”能预测 reward、policy、value 的内部模型”,就能达到 superhuman 水平。它证明了一件事:“内部世界模型”是规划能力的核心。

Dreamer V3 更进一步——单套超参数，在超过 150 个任务上 (Atari、Minecraft、机器人控制等 8 个领域) 都取得有竞争力结果。它还是第一个在 Minecraft 里从零开始、不用人类数据、不用课程学习就挖到钻石的算法。

这些里程碑放在一起说明了一件事:世界模型不是 PPT 概念，而是有清晰技术演进路径、能产出可复现成果的工程方向。

五、四个常见误解，先讲清楚

在往下讲”对你意味着什么”之前，我想先扫掉四个最常见的误解，免得你读完后带着错误印象去跟同事讲。

❌ 误解 1:世界模型 = 视频生成模型

这是 2024-2025 年最普遍的混淆。Sora、Genie、Veo 爆火后，很多人把”能生成视频的 AI”等同于”世界模型”。

这不对。视频生成模型的训练目标是”下一帧长什么样”,没有动作条件——它是一个旁观者，不是参与者。世界模型的核心是”给定动作，预测下一观测”,这个”动作条件”是它和视频生成模型最本质的区别。

类比：视频生成模型是”AI 看的电影”,世界模型是”AI 玩的游戏”——后者必须能根据玩家操作改变剧情。

不过，两者正在融合:V-JEPA 2 用视频预训练学到世界模型，GAIA-1 用视频生成做自动驾驶仿真。“视频生成”是手段，“世界模型”是目的。

❌ 误解 2:世界模型 = 仿真器/Simulator

很多工业读者第一反应是”世界模型不就是个高级版的 GTA/CARLA?”。

这是把世界模型用窄了。仿真器是”给定规则，生成轨迹”;世界模型是”从数据中学规则，再生成轨迹”。

具体差别：

仿真器:你告诉它”摩擦系数 0.7、坡度 5°“,它按牛顿力学算出结果
世界模型:你给它 100 小时真实驾驶视频，它自己学出”在这种路面这种天气这种车速下，会发生什么”

仿真器需要专家写规则;世界模型从数据中涌现规则。前者是显式建模，后者是隐式建模。

工业落地时，两者经常混用——你用世界模型生成”反事实场景”,再丢给仿真器做物理验证。

❌ 误解 3:世界模型是 2024-2025 年才出现的新东西

每次新风口起来，媒体都喜欢包装成”全新突破”。世界模型不是。

它的技术根脉至少 80 年：

1943 年 Craik 提出”大脑维护小尺度模型”
1960 年代卡尔曼滤波器 (阿波罗导航)
1980-2000 年代 HMM、动态贝叶斯网络
2018 年 Ha & Schmidhuber 的 World Models 论文正式命名
2019 年 MuZero、2023 年 Dreamer V3、2025 年 V-JEPA 2

“世界模型”这个标签是 2018 年才被统一的，但它描述的技术贯穿整个 AI 史。过去叫”内部模型""动力学模型""预测模型”的东西，本质都是世界模型。

这意味着：你以为的”新风口”,其实是你重新发现的旧大陆。

❌ 误解 4:押注世界模型 = 押注 AGI

这是 LeCun 的赌注，但不是所有人的赌注。Hassabis、李飞飞的路线都承认世界模型重要，但不认为它是 AGI 的唯一路径。

更准确的说法是:世界模型是”具身智能”的核心组件，但具身智能不一定是 AGI 的全部。

打个比方：你做一道菜，世界模型是”火候”——很重要，但”食材选择、刀工、调味、摆盘”也是不可缺的。世界模型能让你做菜更精准，但不能保证你做出米其林。

把世界模型当 AGI 的同义词，会过度承诺;把它当具身智能的同义词，会更接近事实。

六、对你意味着什么:3 条 takeaway

如果你是 AI 开发者、产品经理、或者在 AI 行业做战略决策，这一波世界模型浪潮和你有什么关系？我给三条具体的建议。

① 如果你做对话 Agent,2026 年开始考虑”具身友好性”

未来 3 年 AI 行业的核心战场会从”对话”转移到”具身”。不是说你要现在去做机器人,而是说你在做技术选型时要考虑：

你的模型能否被下游世界模型微调？
你的 Agent 框架是否支持动作条件接口 (而不只是对话接口)?
你的记忆系统是否能表达”我在物理世界做过的动作”?

这些今天看起来”超前”的考量，18 个月后会变成”标配”。

② 如果你做工业 AI，关注”安全仿真”路线

世界模型在 B 端的爆发点不是”机器人能力”,而是反事实安全仿真。

汽车:Wayve GAIA-1 已经商业化
风电：叶片故障模拟
医疗器械：手术机器人异常场景训练
航空航天：罕见气象条件下的飞行模拟

过去这些场景靠蒙特卡洛仿真,要写大量领域代码。现在可以用世界模型从少量真实数据生成海量反事实场景。这不只是性能提升，是成本结构性的下降。

③ 如果你做投资/创业，关注”具身基础模型”赛道

历史规律告诉我们:每一波 AI 浪潮的早期最大赢家，是”卖铲子”的公司，不是”挖金子”的公司。

LLM 时代的卖铲子:Scale AI(数据标注)、CoreWeave(算力)、Weights & Biases(实验管理)
世界模型时代的卖铲子会是谁？低成本获取高质量具身数据的公司——包括遥操作数据采集、人类视频蒸馏、合成数据生成

2026-2027 年这个赛道会有大额融资，创业窗口期正在打开。

七、FAQ:不是 AI 行业的人需要关心吗？

写到这里，我猜你可能有几个”我不是 AI 行业的人，我看这个有意义吗”的问题。统一回答一下。

🤔 Q1:我不是 AI 行业从业者，要不要关心世界模型？

简短回答：作为知识，值得了解;作为技能，不必现在学。

世界模型是 AI 行业接下来 18-36 个月的主线之一，了解它能让你看懂新闻、听懂会议、跟上节奏。但如果你做的是金融、医疗、教育、法律、零售、制造业等垂直行业，世界模型对你目前工作的直接影响有限——它是 AI 工具的能力上限提升，不是终端用户的功能变化。

判断标准:如果你工作中会用到”AI Agent 自动执行任务”或”AI 看图/看视频生成内容”,世界模型会影响这些工具的稳定性。如果你的工作和 AI 工具的”内部机制”无关，那你只需要看 1-2 篇综述，知道有这么回事就行。

🤔 Q2:我是个做传统软件/Web/移动端工程师，世界模型跟我有什么关系？

关系是间接的，但有具体抓手。

世界模型本身主要被 AI 研究员和机器人工程师直接使用。但它会影响你日常会用到的几个东西：

云厂商的 GPU 调度模型:“AI 工厂”思路会渗透到云算力定价模型，你做云成本优化时要懂
AI 工具链的稳定性:Claude Code、Cursor、Cline 这些 AI 编码工具的底层会逐渐融合世界模型思想，你做工具集成时要知道
垂直行业 Agent:你如果给客户做行业 Agent(法律、医疗、教育),世界模型会让 Agent 的”反事实推理”能力增强 (比如 Agent 能预判”我这样调用 API，下游会怎样”)

判断标准:如果你现在的工作是”调用 AI API 完成任务”,世界模型影响的是 API 后面跑的模型;如果你做的是 AI 之外的”传统逻辑”,影响有限。

🤔 Q3:世界模型会让 LLM 工程师失业吗？

不会。世界模型需要 LLM 工程师，也创造新的 LLM 岗位。

具体说：

不会消失:Prompt engineering、LLM 微调、RAG、Agent 编排——这些技能仍然有用
会进化:LLM 工程师需要懂一些世界模型概念 (动作条件、潜在空间、规划),但不需要自己训世界模型
会新增:世界模型工程师、具身智能工程师、机器人 RL 工程师——这些岗位 2026 年才开始出现，2027-2028 年才大量招聘

判断标准:LLM 工程师的”保命技能”是”理解 LLM 的能力边界，并把它包装成产品”。世界模型扩大了 LLM 的能力边界 (从”聊天”到”能预测物理世界”),但不会让 LLM 工程师失去价值——反而会创造新的”用 LLM + 世界模型做产品”的需求。

🤔 Q4:大厂和小公司，世界模型怎么布局？

大厂:烧得起钱，直接做基础模型。Google(Gemini Robotics)、Meta(V-JEPA 2)、NVIDIA(Cosmos、DreamDojo)、Apple(据传在内部研究)、字节 (Seed Robotics)、阿里 (通义具身)、华为 (盘古具身)——都在 2025-2026 年有大额投入。如果你在大厂，关注内部具身智能/世界模型团队，争取转岗或参与。

小公司:烧不起基础模型的钱，但可以做三件事：

垂直应用:用别人的世界模型 API 做行业应用 (类似当年用 OpenAI API 做 ChatGPT 套壳)
数据服务:做具身数据采集、人类视频蒸馏、合成数据生成——这是”卖铲子”
工具链:做世界模型训练/评估/部署的工具，类似 LLM 时代的 LangChain/LlamaIndex

判断标准:大厂押基础模型，小公司押应用 + 数据 + 工具——和 LLM 时代的格局一样。

🤔 Q5:学生/研究者，现在入局世界模型晚不晚？

不晚，但要选对切入点。

世界模型现在处于”基础模型刚出现、杀手级应用未出现”的阶段，类似 2018-2019 年的 LLM。这意味着：

做基础模型:竞争激烈，LeCun、Meta、Google、NVIDIA 都在，小实验室很难正面竞争
做应用:机会巨大，任何”世界模型 + 垂直行业”的组合都可能出爆款
做评估:世界模型的”物理理解”评测刚起步——怎么量化一个模型是真懂物理还是只会生成好看的画面，这类基准 (如 Physics-IQ 这种测视频模型物理常识的工作) 还有大量基准设计和人工验证任务要做
做数据:具身数据采集、合成数据生成、人类视频标注——大量工程化机会

给学生的具体建议:

本科：从 Dreamer V1/V2 的开源实现开始读，跑通 Atari 训练
硕士：在 Dreamer V3、V-JEPA 2、GAIA-1 三个里挑一个复现关键模块
博士：避开”我也训一个更大的世界模型”的赛道，选”世界模型 + 某垂直领域 (机器人/医疗/金融)“的交叉点

八、如何自己入门：从 0 到 1 的资源清单

如果你看完前面还是觉得”我应该自己跑一跑”,下面是按难度递进的 4 层资源，选你够得着的开始就行。

🎬 第一层：科普视频/文章 (1-2 小时入门)

适合:完全没听过世界模型、想快速建立直觉的读者。

Datawhale learn-world-model 开源教程(github.com/datawhalechina/learn-world-model)——中文社区做的”从 0 到 1”系列，带配套代码，最适合中文母语者起步
张小珺《商业访谈录》第 133 期：对谢赛宁的 7 小时马拉松访谈——AMI Labs 首席科学官第一次接受访谈，世界模型、JEPA、为什么”硅谷被 LLM 催眠”全讲透了，中文世界目前信息密度最高的一手材料
Yann LeCun 在 Meta AI 的演讲 (2022):他在公开场合多次讲 JEPA 和世界模型，B 站/YouTube 上都有搬运版。看 30 分钟你能 get “为什么 LeCun 看不上 LLM”
NVIDIA Cosmos 官方介绍视频:工业界视角，看 20 分钟能明白”世界模型在自动驾驶/机器人里到底怎么用”

📄 第二层：入门论文 (1-2 周深读)

适合:有 ML 基础 (懂 Transformer、RL 基础)、想理解技术细节的读者。

World Models(arXiv:1803.10122)——入门必读，虽然年代早 (2018) 但 V/M/C 框架至今没变，30 页就能读完
Mastering Diverse Domains through World Models / Dreamer V3(arXiv:2301.04104)——理解了 World Models 后读 Dreamer V3，你能看到 RSSM、潜在空间、奖励学习是怎么组合的
GAIA-1(arXiv:2309.17080)——自动驾驶视角，理解”世界模型 = 多模态条件生成”在工业里怎么做

📚 第三层：必读经典 (2-4 周攻坚)

适合:**想成为世界模型方向研究者、要在简历/项目里写”我做过世界模型”**的读者。

A Path Towards Autonomous Machine Intelligence(LeCun, 2022, OpenReview)——这是”路线图”性质的纲领，理解 LeCun 的整体思考
Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model / MuZero(arXiv:1911.08265)——理解”世界模型驱动规划”的经典实现
V-JEPA 2(arXiv:2506.09985)——Meta 2025 年最新工作，代表 JEPA 路线的当下 SOTA，必读

🛠️ 第四层：动手项目 (1-3 个月实操)

适合:想真正跑起来、写进简历或作品集的读者。

Dreamer V3 官方实现(github.com/danijar/dreamerv3)——Danijar Hafner 团队官方代码，自带 Atari/Minecraft/DM Control 等环境，你只要会 PyTorch 就能跑通
World Models 简化复现(github.com/ctallec/world-models)——2018 年那篇论文的 PyTorch 复现，小到单卡能跑，适合”先跑起来再说”
LeRobot(github.com/huggingface/lerobot)——Hugging Face 出的机器人 + 世界模型集成框架，如果你有真实/仿真机械臂，这是 2025-2026 年最活跃的开源项目之一
NVIDIA Cosmos + Isaac Sim——如果你是做自动驾驶/机器人仿真的，直接用 NVIDIA 商业平台，工业级工具链

怎么选？

完全没基础:从第一层 Datawhale 教程开始
有 ML 基础但没碰过 RL:先读第二层 World Models 论文，再读 Dreamer V3
已经在做 AI 相关工作:直接跳到第三层，精读 V-JEPA 2
想发论文/做项目:第四层里挑一个跑通，在 README 里写清楚复现的细节

别试图一次全学完。世界模型是一个 5-10 年长跑的方向，先在一个细分里建立”能讲清楚”的水平，比广撒网更有用。

九、结尾：一个被 LLM 掩盖的暗流，正在变成主流

过去三年，AI 行业的剧本是:“AGI = 更大的 LLM”。这个剧本让 OpenAI 成为最有钱的公司，让英伟达成为市值最大的芯片公司，让”prompt engineering”成为一门显学。

2026 年初的这些信号 (AMI Labs 10.3 亿美元、World Labs 10 亿美元、Gemini Robotics 路线图、V-JEPA 2 零样本机器人部署) 说明:剧本正在被改写。

新剧本的核心问题是:“AI 能不能理解物理世界的因果结构，而不只是人类语言的统计模式？” 世界模型是这个问题目前最清晰的答案形式——它不一定是最终答案，但它已经让”以 LLM 为中心”的路径不再是唯一选择。

对从业者来说，这是过去 3 年最值得重新思考技术路线的时刻。 不是因为 LLM 错了，而是因为 LLM 不够了。

📚 参考资料

LeCun, Y. (2022). A Path Towards Autonomous Machine Intelligence. OpenReview.
Ha, D. & Schmidhuber, J. (2018). World Models. arXiv:1803.10122.
Schrittwieser, J. et al. (2019). Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero). arXiv:1911.08265. DeepMind.
Hafner, D. et al. (2023). Mastering Diverse Domains through World Models (DreamerV3). arXiv:2301.04104.
Hu, A. et al. (2023). GAIA-1: A Generative World Model for Autonomous Driving. arXiv:2309.17080. Wayve.
Assran, M. et al. (2025). V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning. arXiv:2506.09985. Meta FAIR.
Gao, S. et al. (2026). DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos. arXiv:2602.06949. NVIDIA.
张小珺《商业访谈录》第 133 期：对谢赛宁的 7 小时马拉松访谈 (2026 年 3 月)。

作者注:本文涉及的融资数字、人物职务、论文编号、数据集规模均已逐条独立核验 (截至 2026 年 6 月)。AMI Labs 估值为投前口径;World Labs 融资信息以 2026 年 2 月公开披露为准。

👆 如果这篇文章对你有帮助，欢迎:

转发给你身边做 AI 的朋友
关注我们，后续会持续拆解世界模型的技术细节
在评论区聊聊：你看好三巨头里的哪条路线？

2026 年 AI 圈最被低估的暗流：世界模型，正在悄悄变成主战场