一、第一性原理:世界模型和 LLM 到底差在哪
搜索”世界模型”,会看到一长串互相矛盾的定义:有人说它是视频生成模型,有人说它是自动驾驶仿真器,有人把它和 AGI 划等号,有人觉得它是新瓶装旧酒。我们先把它的边界划清楚。
一句话定义:世界模型是给定”当前观测 + 即将执行的动作”,预测”下一时刻观测”的模型。
注意三个关键词:当前观测、动作、下一时刻观测。
把这三个关键词和 LLM 对比一下:
- LLM 回答”世界是什么样”——它是一个旁观者,告诉你已知世界的语言模式
- 世界模型回答”如果我这样做,世界会怎么变”——它是一个参与者,告诉你你的选择会带来什么后果
这个区别听起来抽象,但它是 LLM 和世界模型最本质的分歧。
举两个例子:
例 1:玻璃杯掉下来
- LLM 能流畅地告诉你”玻璃杯掉下来会摔碎”
- 世界模型能告诉你”玻璃杯从 80cm 高度掉到大理石台面会怎么碎、碎片会怎么弹”——具体多少块、弹多远,取决于你训练时用的物理数据
例 2:自动驾驶
- LLM 能告诉你”雨天路滑,需要减速”
- 世界模型能告诉你”在当前路面摩擦系数、视野遮挡、车速组合下,跟车距离多少会进入不可恢复的碰撞轨迹”——具体数字取决于你建模的物理细节
前者是语言层面的常识,后者是物理层面的预测。这两种”知道”,是两种不同的智能。
LeCun 在 2022 年发布的报告《A Path Towards Autonomous Machine Intelligence》(OpenReview, 2022) 里,把世界模型定位为”自主智能的三大支柱之一”,另外两个是”内在动机驱动的行为”和”分层联合嵌入架构”。他的核心论断是:真正的智能需要对世界的因果预测能力,语言只是这种预测能力的一种输出接口,不是基础。
这个观点和过去三年的 LLM 主流叙事截然相反——它认为 LLM 是个”很有用的捷径”,但不是”AGI 的必经之路”。
二、为什么偏偏是 2026 年:三件事同时成熟
世界模型不是新概念。1943 年,英国心理学家 Kenneth Craik 就提出”大脑维护着一个现实的小尺度模型”。之后的几十年里,控制论、卡尔曼滤波器 (1960s 阿波罗导航)、隐马尔可夫模型、循环神经网络——都各自在做”预测未来状态”的工作。
但这些技术一直是分散的、各自发展的,从未被统一冠以”世界模型”这个名字。
为什么 2026 年突然变成了主战场? 因为三件事恰好同时撞到一起。
第一件事:视频生成突然变强,带出了一个深刻追问
2024-2025 年,Google 的 Genie、Veo,NVIDIA 的 Cosmos,OpenAI 的 Sora 等视频生成模型,质量出现了跨越式提升。但一个深刻的问题浮出水面:
生成质量高 ≠ 物理理解深
一个能生成逼真猫的视频模型,可能完全不理解”猫有四条腿、重力让它不会飞”这件事。当研究者开始认真追问”这些视频模型到底有没有学到物理规律”时,世界模型从一个学术问题变成了一个工程问题。
第二件事:具身智能撞上数据墙
通用机器人需要大量遥操作数据——让人戴着 VR 设备一帧一帧操作机器人,记录动作。这种数据贵到离谱 (据业内估算,单小时采集成本可达数千美元量级)。
而 YouTube、TikTok、Instagram 上有数以百万小时计的人类日常视频。学术界最大的第一视角公开数据集 Ego4D 约 3,700 小时;NVIDIA 今年 2 月发布的 DreamDojo,其预训练数据集 DreamDojo-HV 已经做到了 44,711 小时——比此前最大的世界模型训练集时长多 15 倍、场景多 2,000 倍。能不能用这些人类视频预训练一个”物理世界常识”模型,再用少量机器人数据微调?
这就是”具身基础模型”的命题。它和世界模型几乎天然耦合:你需要一个能预测”我这样移动手臂,世界会怎么变”的模型,才能把人类视频里的”物理规律”蒸馏到机器人。
第三件事:自动驾驶证明了反事实仿真的商业价值
Wayve 在 2023 年发布了 GAIA-1(arXiv:2309.17080),全称 “Generative AI for Autonomy”,把视频生成、文本、动作作为联合输入,生成”同一路口不同天气/不同行人行为”的驾驶视频变体。
这件事的工业意义是:用世界模型生成罕见危险场景的合成数据,比单纯累积真实路测里程效率高出一个数量级。你想让你的自动驾驶系统在”卡车横穿马路 + 暴雨 + 逆光”这种场景里训练 1000 次?真实世界里你可能跑 10 年也遇不到这么多;但世界模型可以生成无限多。
Wayve 在 2024 年与英伟达等产业伙伴建立战略合作 (具体合作车企与商业化进展以 Wayve 官方披露为准),把这个思路从论文推向生产线。它证明了世界模型不是”学术玩具”,而是有明确商业回报的工业技术。
三件事撞在一起,叠加 2024-2025 年视频生成模型的飞跃,就出现了 2026 年初我们看到的现象:
- LeCun 和谢赛宁等人创立 AMI Labs,3 月完成 10.3 亿美元种子轮融资,明确对标”以 LLM 为中心”的硅谷主流
- 李飞飞的 World Labs 在 2 月以 50 亿美元估值融资 10 亿美元,主打”空间智能”
- Demis Hassabis 在访谈中明确说 Gemini 的演进方向是”成为世界模型”,但路径是在 LLM 上叠加具身推理能力
三位顶级大脑同时押注同一赛道,与三件事成熟在时间上重合——这两者共同放大了”世界模型”在 2026 年的声量。
三、它们的分歧:三巨头在赌什么
但”押注同一赛道”不等于”押注同一路线”。这是 2026 年 AI 行业最重要的路线分歧。
🅰️ 路线 A:LeCun 派——推翻 LLM,从头建非生成式世界模型
LeCun 的核心论点是:LLM 处理的是人类发明的符号系统,是对真实世界的”二次抽象”;真正的智能需要直接从连续的感官信号中建模物理世界。
AMI Labs(全称 Advanced Machine Intelligence,2025 年 12 月成立于巴黎,2026 年 3 月以 35 亿美元投前估值完成 10.3 亿美元种子轮——这是欧洲史上最大的种子轮,在全球新创 AI 实验室里仅次于 Thinking Machines 的 20 亿美元。Alex LeBrun 担任 CEO,LeCun 担任执行董事长) 押注的技术路线是 JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构)——不生成像素,直接在语义空间里预测状态变迁。
谢赛宁 (AMI Labs 联合创始人兼首席科学官,Diffusion Transformers 架构的共同作者) 在张小珺《商业访谈录》那场 7 小时马拉松访谈里,有两句话流传很广。一句是:“Silicon Valley is very LLM-pilled——硅谷已经深陷于 LLM,完全被它催眠了。” 另一句是:“语言是鸦片,它是智能的某种捷径,但也可能让研究者丧失训练’视觉大脑’的机会。”
Meta 在 2025 年 6 月发布的 V-JEPA 2(arXiv:2506.09985) 是这条路线的最新里程碑:1M+ 小时视频预训练 (具体参数量以论文披露为准),含 8B 参数的 LLM 对齐版本用于视频问答,以及 V-JEPA 2-AC——一个用不到 62 小时无标注机器人视频后训练、能在 Franka 机械臂上零样本完成 pick-and-place 任务的世界模型。
“零样本”意味着:V-JEPA 2-AC 在它从未见过的新实验室环境里,没有任何特定任务训练或奖励信号,直接用图像目标就能完成抓取。
🅱️ 路线 B:Hassabis 派——保留 LLM,叠加多模态和具身推理
Hassabis 的逻辑是:LLM 已经积累了几千年人类书写知识的压缩表示,在这个基础上叠加视觉、空间感知、强化学习,比从头建一套新架构更务实。Gemini Robotics 就是这个路线的产物。
这条路线有一个非常有力的实用论据:LLM 在常识推理、语言指令理解、跨任务泛化上已经足够强,而这些恰恰是纯 RSSM / JEPA 架构最弱的地方。Gemini Robotics 的思路是:不需要从零建立物理直觉,直接借用 LLM 里已经压缩好的”世界常识”,再让模型学会把这些常识映射到连续的物理动作上。
🅲 路线 C:李飞飞派——从 3D 空间表示切入
李飞飞的 World Labs 走的是第三条路:先把”世界”本身生成出来。其产品 Marble 从文本、图像、视频等输入生成可探索的 3D 环境,同时输出高斯泼溅 (Gaussian splats) 用于视觉浏览和网格 (mesh) 供下游程序使用。
这条路线的赌注是:空间表示是物理理解的基座——机器人训练、自动驾驶仿真、影视游戏制作,都需要一个几何上站得住的三维世界,而不只是看起来像的视频帧。50 亿美元估值融资 10 亿美元,资本市场对这个判断给出了真金白银的定价。
🅳 第四种声音:怀疑派——方向可能对,但时机可能没到
还有一种声音最少被公开讨论,但在业界私下流传很广:视觉数据的”语义密度”远低于语言。
- 一句话可以传达一个完整命题
- 一帧 1080p 视频 (约 200 万像素) 承载的命题性信息 (谁、在哪、做什么) 压缩成文字不过几十个词
用同等数据训练,视觉能传达的语义量远小于文字。要训练出能力对标当前 LLM 的世界模型,所需数据量可能比 LLM 高好几个数量级,产出的能力却可能还不如当前最基础的视觉 - 语言模型 (具体数字以该领域后续基准测试为准)。
持这种观点的人不反对世界模型的方向,他们反对的是现在就大规模押注——在视觉数据密度问题没有根本突破之前,所需的目标函数、计算规模、数据量都还远远不够。
几条路线不是非此即彼。LeCun 用融资和职业生涯押注新架构;Hassabis 用工程路径逼近同一个目标;李飞飞从空间表示切入;怀疑者在追问”就算方向对,现在的条件够吗”。这些都是真问题,胜负还没分。
四、五大技术路线,一张表
不展开技术细节 (每个都可以写一篇文章),但你需要知道”现在主要的技术路径长什么样”。
- RNN / RSSM:代表 Dreamer V3(arXiv:2301.04104)。押注样本效率、端到端 RL。代价:像素级质量不如 Diffusion。
- Transformer + 离散 token:代表 STORM / IRIS。押注训练效率、长程建模。代价:视觉细节有损。
- Diffusion:代表 Diamond / Wayve GAIA-1(arXiv:2309.17080)。押注视觉质量、物理真实性。代价:计算开销大、不可微。
- JEPA(非生成式):代表 V-JEPA 2(arXiv:2506.09985)。押注意义理解、AGI 路线。代价:不能生成视频,落地路径模糊。
- Embodied World Model:代表 NVIDIA DreamDojo(arXiv:2602.06949)。押注数据效率、跨形态迁移。代价:早期,泛化性未充分验证。
MuZero(DeepMind 2019, arXiv:1911.08265) 是这个领域的另一个里程碑——它在国际象棋、围棋、Atari 等完全不同的游戏上,不预先知道规则,只学习一个”能预测 reward、policy、value 的内部模型”,就能达到 superhuman 水平。它证明了一件事:“内部世界模型”是规划能力的核心。
Dreamer V3 更进一步——单套超参数,在超过 150 个任务上 (Atari、Minecraft、机器人控制等 8 个领域) 都取得有竞争力结果。它还是第一个在 Minecraft 里从零开始、不用人类数据、不用课程学习就挖到钻石的算法。
这些里程碑放在一起说明了一件事:世界模型不是 PPT 概念,而是有清晰技术演进路径、能产出可复现成果的工程方向。
五、四个常见误解,先讲清楚
在往下讲”对你意味着什么”之前,我想先扫掉四个最常见的误解,免得你读完后带着错误印象去跟同事讲。
❌ 误解 1:世界模型 = 视频生成模型
这是 2024-2025 年最普遍的混淆。Sora、Genie、Veo 爆火后,很多人把”能生成视频的 AI”等同于”世界模型”。
这不对。视频生成模型的训练目标是”下一帧长什么样”,没有动作条件——它是一个旁观者,不是参与者。世界模型的核心是”给定动作,预测下一观测”,这个”动作条件”是它和视频生成模型最本质的区别。
类比:视频生成模型是”AI 看的电影”,世界模型是”AI 玩的游戏”——后者必须能根据玩家操作改变剧情。
不过,两者正在融合:V-JEPA 2 用视频预训练学到世界模型,GAIA-1 用视频生成做自动驾驶仿真。“视频生成”是手段,“世界模型”是目的。
❌ 误解 2:世界模型 = 仿真器/Simulator
很多工业读者第一反应是”世界模型不就是个高级版的 GTA/CARLA?”。
这是把世界模型用窄了。仿真器是”给定规则,生成轨迹”;世界模型是”从数据中学规则,再生成轨迹”。
具体差别:
- 仿真器:你告诉它”摩擦系数 0.7、坡度 5°“,它按牛顿力学算出结果
- 世界模型:你给它 100 小时真实驾驶视频,它自己学出”在这种路面这种天气这种车速下,会发生什么”
仿真器需要专家写规则;世界模型从数据中涌现规则。前者是显式建模,后者是隐式建模。
工业落地时,两者经常混用——你用世界模型生成”反事实场景”,再丢给仿真器做物理验证。
❌ 误解 3:世界模型是 2024-2025 年才出现的新东西
每次新风口起来,媒体都喜欢包装成”全新突破”。世界模型不是。
它的技术根脉至少 80 年:
- 1943 年 Craik 提出”大脑维护小尺度模型”
- 1960 年代卡尔曼滤波器 (阿波罗导航)
- 1980-2000 年代 HMM、动态贝叶斯网络
- 2018 年 Ha & Schmidhuber 的 World Models 论文正式命名
- 2019 年 MuZero、2023 年 Dreamer V3、2025 年 V-JEPA 2
“世界模型”这个标签是 2018 年才被统一的,但它描述的技术贯穿整个 AI 史。过去叫”内部模型""动力学模型""预测模型”的东西,本质都是世界模型。
这意味着:你以为的”新风口”,其实是你重新发现的旧大陆。
❌ 误解 4:押注世界模型 = 押注 AGI
这是 LeCun 的赌注,但不是所有人的赌注。Hassabis、李飞飞的路线都承认世界模型重要,但不认为它是 AGI 的唯一路径。
更准确的说法是:世界模型是”具身智能”的核心组件,但具身智能不一定是 AGI 的全部。
打个比方:你做一道菜,世界模型是”火候”——很重要,但”食材选择、刀工、调味、摆盘”也是不可缺的。世界模型能让你做菜更精准,但不能保证你做出米其林。
把世界模型当 AGI 的同义词,会过度承诺;把它当具身智能的同义词,会更接近事实。
六、对你意味着什么:3 条 takeaway
如果你是 AI 开发者、产品经理、或者在 AI 行业做战略决策,这一波世界模型浪潮和你有什么关系?我给三条具体的建议。
① 如果你做对话 Agent,2026 年开始考虑”具身友好性”
未来 3 年 AI 行业的核心战场会从”对话”转移到”具身”。不是说你要现在去做机器人,而是说你在做技术选型时要考虑:
- 你的模型能否被下游世界模型微调?
- 你的 Agent 框架是否支持动作条件接口 (而不只是对话接口)?
- 你的记忆系统是否能表达”我在物理世界做过的动作”?
这些今天看起来”超前”的考量,18 个月后会变成”标配”。
② 如果你做工业 AI,关注”安全仿真”路线
世界模型在 B 端的爆发点不是”机器人能力”,而是反事实安全仿真。
- 汽车:Wayve GAIA-1 已经商业化
- 风电:叶片故障模拟
- 医疗器械:手术机器人异常场景训练
- 航空航天:罕见气象条件下的飞行模拟
过去这些场景靠蒙特卡洛仿真,要写大量领域代码。现在可以用世界模型从少量真实数据生成海量反事实场景。这不只是性能提升,是成本结构性的下降。
③ 如果你做投资/创业,关注”具身基础模型”赛道
历史规律告诉我们:每一波 AI 浪潮的早期最大赢家,是”卖铲子”的公司,不是”挖金子”的公司。
- LLM 时代的卖铲子:Scale AI(数据标注)、CoreWeave(算力)、Weights & Biases(实验管理)
- 世界模型时代的卖铲子会是谁?低成本获取高质量具身数据的公司——包括遥操作数据采集、人类视频蒸馏、合成数据生成
2026-2027 年这个赛道会有大额融资,创业窗口期正在打开。
七、FAQ:不是 AI 行业的人需要关心吗?
写到这里,我猜你可能有几个”我不是 AI 行业的人,我看这个有意义吗”的问题。统一回答一下。
🤔 Q1:我不是 AI 行业从业者,要不要关心世界模型?
简短回答:作为知识,值得了解;作为技能,不必现在学。
世界模型是 AI 行业接下来 18-36 个月的主线之一,了解它能让你看懂新闻、听懂会议、跟上节奏。但如果你做的是金融、医疗、教育、法律、零售、制造业等垂直行业,世界模型对你目前工作的直接影响有限——它是 AI 工具的能力上限提升,不是终端用户的功能变化。
判断标准:如果你工作中会用到”AI Agent 自动执行任务”或”AI 看图/看视频生成内容”,世界模型会影响这些工具的稳定性。如果你的工作和 AI 工具的”内部机制”无关,那你只需要看 1-2 篇综述,知道有这么回事就行。
🤔 Q2:我是个做传统软件/Web/移动端工程师,世界模型跟我有什么关系?
关系是间接的,但有具体抓手。
世界模型本身主要被 AI 研究员和机器人工程师直接使用。但它会影响你日常会用到的几个东西:
- 云厂商的 GPU 调度模型:“AI 工厂”思路会渗透到云算力定价模型,你做云成本优化时要懂
- AI 工具链的稳定性:Claude Code、Cursor、Cline 这些 AI 编码工具的底层会逐渐融合世界模型思想,你做工具集成时要知道
- 垂直行业 Agent:你如果给客户做行业 Agent(法律、医疗、教育),世界模型会让 Agent 的”反事实推理”能力增强 (比如 Agent 能预判”我这样调用 API,下游会怎样”)
判断标准:如果你现在的工作是”调用 AI API 完成任务”,世界模型影响的是 API 后面跑的模型;如果你做的是 AI 之外的”传统逻辑”,影响有限。
🤔 Q3:世界模型会让 LLM 工程师失业吗?
不会。世界模型需要 LLM 工程师,也创造新的 LLM 岗位。
具体说:
- 不会消失:Prompt engineering、LLM 微调、RAG、Agent 编排——这些技能仍然有用
- 会进化:LLM 工程师需要懂一些世界模型概念 (动作条件、潜在空间、规划),但不需要自己训世界模型
- 会新增:世界模型工程师、具身智能工程师、机器人 RL 工程师——这些岗位 2026 年才开始出现,2027-2028 年才大量招聘
判断标准:LLM 工程师的”保命技能”是”理解 LLM 的能力边界,并把它包装成产品”。世界模型扩大了 LLM 的能力边界 (从”聊天”到”能预测物理世界”),但不会让 LLM 工程师失去价值——反而会创造新的”用 LLM + 世界模型做产品”的需求。
🤔 Q4:大厂和小公司,世界模型怎么布局?
大厂:烧得起钱,直接做基础模型。Google(Gemini Robotics)、Meta(V-JEPA 2)、NVIDIA(Cosmos、DreamDojo)、Apple(据传在内部研究)、字节 (Seed Robotics)、阿里 (通义具身)、华为 (盘古具身)——都在 2025-2026 年有大额投入。如果你在大厂,关注内部具身智能/世界模型团队,争取转岗或参与。
小公司:烧不起基础模型的钱,但可以做三件事:
- 垂直应用:用别人的世界模型 API 做行业应用 (类似当年用 OpenAI API 做 ChatGPT 套壳)
- 数据服务:做具身数据采集、人类视频蒸馏、合成数据生成——这是”卖铲子”
- 工具链:做世界模型训练/评估/部署的工具,类似 LLM 时代的 LangChain/LlamaIndex
判断标准:大厂押基础模型,小公司押应用 + 数据 + 工具——和 LLM 时代的格局一样。
🤔 Q5:学生/研究者,现在入局世界模型晚不晚?
不晚,但要选对切入点。
世界模型现在处于”基础模型刚出现、杀手级应用未出现”的阶段,类似 2018-2019 年的 LLM。这意味着:
- 做基础模型:竞争激烈,LeCun、Meta、Google、NVIDIA 都在,小实验室很难正面竞争
- 做应用:机会巨大,任何”世界模型 + 垂直行业”的组合都可能出爆款
- 做评估:世界模型的”物理理解”评测刚起步——怎么量化一个模型是真懂物理还是只会生成好看的画面,这类基准 (如 Physics-IQ 这种测视频模型物理常识的工作) 还有大量基准设计和人工验证任务要做
- 做数据:具身数据采集、合成数据生成、人类视频标注——大量工程化机会
给学生的具体建议:
- 本科:从 Dreamer V1/V2 的开源实现开始读,跑通 Atari 训练
- 硕士:在 Dreamer V3、V-JEPA 2、GAIA-1 三个里挑一个复现关键模块
- 博士:避开”我也训一个更大的世界模型”的赛道,选”世界模型 + 某垂直领域 (机器人/医疗/金融)“的交叉点
八、如何自己入门:从 0 到 1 的资源清单
如果你看完前面还是觉得”我应该自己跑一跑”,下面是按难度递进的 4 层资源,选你够得着的开始就行。
🎬 第一层:科普视频/文章 (1-2 小时入门)
适合:完全没听过世界模型、想快速建立直觉的读者。
- Datawhale learn-world-model 开源教程(github.com/datawhalechina/learn-world-model)——中文社区做的”从 0 到 1”系列,带配套代码,最适合中文母语者起步
- 张小珺《商业访谈录》第 133 期:对谢赛宁的 7 小时马拉松访谈——AMI Labs 首席科学官第一次接受访谈,世界模型、JEPA、为什么”硅谷被 LLM 催眠”全讲透了,中文世界目前信息密度最高的一手材料
- Yann LeCun 在 Meta AI 的演讲 (2022):他在公开场合多次讲 JEPA 和世界模型,B 站/YouTube 上都有搬运版。看 30 分钟你能 get “为什么 LeCun 看不上 LLM”
- NVIDIA Cosmos 官方介绍视频:工业界视角,看 20 分钟能明白”世界模型在自动驾驶/机器人里到底怎么用”
📄 第二层:入门论文 (1-2 周深读)
适合:有 ML 基础 (懂 Transformer、RL 基础)、想理解技术细节的读者。
- World Models(arXiv:1803.10122)——入门必读,虽然年代早 (2018) 但 V/M/C 框架至今没变,30 页就能读完
- Mastering Diverse Domains through World Models / Dreamer V3(arXiv:2301.04104)——理解了 World Models 后读 Dreamer V3,你能看到 RSSM、潜在空间、奖励学习是怎么组合的
- GAIA-1(arXiv:2309.17080)——自动驾驶视角,理解”世界模型 = 多模态条件生成”在工业里怎么做
📚 第三层:必读经典 (2-4 周攻坚)
适合:**想成为世界模型方向研究者、要在简历/项目里写”我做过世界模型”**的读者。
- A Path Towards Autonomous Machine Intelligence(LeCun, 2022, OpenReview)——这是”路线图”性质的纲领,理解 LeCun 的整体思考
- Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model / MuZero(arXiv:1911.08265)——理解”世界模型驱动规划”的经典实现
- V-JEPA 2(arXiv:2506.09985)——Meta 2025 年最新工作,代表 JEPA 路线的当下 SOTA,必读
🛠️ 第四层:动手项目 (1-3 个月实操)
适合:想真正跑起来、写进简历或作品集的读者。
- Dreamer V3 官方实现(github.com/danijar/dreamerv3)——Danijar Hafner 团队官方代码,自带 Atari/Minecraft/DM Control 等环境,你只要会 PyTorch 就能跑通
- World Models 简化复现(github.com/ctallec/world-models)——2018 年那篇论文的 PyTorch 复现,小到单卡能跑,适合”先跑起来再说”
- LeRobot(github.com/huggingface/lerobot)——Hugging Face 出的机器人 + 世界模型集成框架,如果你有真实/仿真机械臂,这是 2025-2026 年最活跃的开源项目之一
- NVIDIA Cosmos + Isaac Sim——如果你是做自动驾驶/机器人仿真的,直接用 NVIDIA 商业平台,工业级工具链
怎么选?
- 完全没基础:从第一层 Datawhale 教程开始
- 有 ML 基础但没碰过 RL:先读第二层 World Models 论文,再读 Dreamer V3
- 已经在做 AI 相关工作:直接跳到第三层,精读 V-JEPA 2
- 想发论文/做项目:第四层里挑一个跑通,在 README 里写清楚复现的细节
别试图一次全学完。世界模型是一个 5-10 年长跑的方向,先在一个细分里建立”能讲清楚”的水平,比广撒网更有用。
九、结尾:一个被 LLM 掩盖的暗流,正在变成主流
过去三年,AI 行业的剧本是:“AGI = 更大的 LLM”。这个剧本让 OpenAI 成为最有钱的公司,让英伟达成为市值最大的芯片公司,让”prompt engineering”成为一门显学。
2026 年初的这些信号 (AMI Labs 10.3 亿美元、World Labs 10 亿美元、Gemini Robotics 路线图、V-JEPA 2 零样本机器人部署) 说明:剧本正在被改写。
新剧本的核心问题是:“AI 能不能理解物理世界的因果结构,而不只是人类语言的统计模式?” 世界模型是这个问题目前最清晰的答案形式——它不一定是最终答案,但它已经让”以 LLM 为中心”的路径不再是唯一选择。
对从业者来说,这是过去 3 年最值得重新思考技术路线的时刻。 不是因为 LLM 错了,而是因为 LLM 不够了。
📚 参考资料
- LeCun, Y. (2022). A Path Towards Autonomous Machine Intelligence. OpenReview.
- Ha, D. & Schmidhuber, J. (2018). World Models. arXiv:1803.10122.
- Schrittwieser, J. et al. (2019). Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero). arXiv:1911.08265. DeepMind.
- Hafner, D. et al. (2023). Mastering Diverse Domains through World Models (DreamerV3). arXiv:2301.04104.
- Hu, A. et al. (2023). GAIA-1: A Generative World Model for Autonomous Driving. arXiv:2309.17080. Wayve.
- Assran, M. et al. (2025). V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning. arXiv:2506.09985. Meta FAIR.
- Gao, S. et al. (2026). DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos. arXiv:2602.06949. NVIDIA.
- 张小珺《商业访谈录》第 133 期:对谢赛宁的 7 小时马拉松访谈 (2026 年 3 月)。
作者注:本文涉及的融资数字、人物职务、论文编号、数据集规模均已逐条独立核验 (截至 2026 年 6 月)。AMI Labs 估值为投前口径;World Labs 融资信息以 2026 年 2 月公开披露为准。
👆 如果这篇文章对你有帮助,欢迎:
- 转发给你身边做 AI 的朋友
- 关注我们,后续会持续拆解世界模型的技术细节
- 在评论区聊聊:你看好三巨头里的哪条路线?