大模型云服务产品已上线!一键接入DeepSeek-V4、Kimi-K2.6等海量模型,按量计费,稳定易用, 立即体验
共绩算力

2026 年 AI 圈最被低估的暗流:世界模型,正在悄悄变成主战场

2026年6月10日
"ChatGPT 让全世界以为"AGI = 更大的 LLM"。但 2026 年开年,三位 AI 圈最响亮的名字同时站出来说:<b>不一定</b>。 他们押注的同一条赛道,有一个 70 年没人统一命名的老名字——<b>世界模型 (World Model)</b>。 这篇科普不堆术语,不丢公式,试图回答三个问题:<b>它到底是什么?为什么偏偏是 2026 年?它和我的工作有什么关系?</b>"
Shiyuh
Shiyuh
技术传道者/AI 应用落地

一、第一性原理:世界模型和 LLM 到底差在哪

搜索”世界模型”,会看到一长串互相矛盾的定义:有人说它是视频生成模型,有人说它是自动驾驶仿真器,有人把它和 AGI 划等号,有人觉得它是新瓶装旧酒。我们先把它的边界划清楚。

一句话定义:世界模型是给定”当前观测 + 即将执行的动作”,预测”下一时刻观测”的模型。

注意三个关键词:当前观测、动作、下一时刻观测

把这三个关键词和 LLM 对比一下:

这个区别听起来抽象,但它是 LLM 和世界模型最本质的分歧

举两个例子:

例 1:玻璃杯掉下来

例 2:自动驾驶

前者是语言层面的常识,后者是物理层面的预测。这两种”知道”,是两种不同的智能。

LeCun 在 2022 年发布的报告《A Path Towards Autonomous Machine Intelligence》(OpenReview, 2022) 里,把世界模型定位为”自主智能的三大支柱之一”,另外两个是”内在动机驱动的行为”和”分层联合嵌入架构”。他的核心论断是:真正的智能需要对世界的因果预测能力,语言只是这种预测能力的一种输出接口,不是基础

这个观点和过去三年的 LLM 主流叙事截然相反——它认为 LLM 是个”很有用的捷径”,但不是”AGI 的必经之路”。


二、为什么偏偏是 2026 年:三件事同时成熟

世界模型不是新概念。1943 年,英国心理学家 Kenneth Craik 就提出”大脑维护着一个现实的小尺度模型”。之后的几十年里,控制论、卡尔曼滤波器 (1960s 阿波罗导航)、隐马尔可夫模型、循环神经网络——都各自在做”预测未来状态”的工作。

但这些技术一直是分散的、各自发展的,从未被统一冠以”世界模型”这个名字。

为什么 2026 年突然变成了主战场? 因为三件事恰好同时撞到一起。

第一件事:视频生成突然变强,带出了一个深刻追问

2024-2025 年,Google 的 Genie、Veo,NVIDIA 的 Cosmos,OpenAI 的 Sora 等视频生成模型,质量出现了跨越式提升。但一个深刻的问题浮出水面:

生成质量高 ≠ 物理理解深

一个能生成逼真猫的视频模型,可能完全不理解”猫有四条腿、重力让它不会飞”这件事。当研究者开始认真追问”这些视频模型到底有没有学到物理规律”时,世界模型从一个学术问题变成了一个工程问题。

第二件事:具身智能撞上数据墙

通用机器人需要大量遥操作数据——让人戴着 VR 设备一帧一帧操作机器人,记录动作。这种数据贵到离谱 (据业内估算,单小时采集成本可达数千美元量级)。

而 YouTube、TikTok、Instagram 上有数以百万小时计的人类日常视频。学术界最大的第一视角公开数据集 Ego4D 约 3,700 小时;NVIDIA 今年 2 月发布的 DreamDojo,其预训练数据集 DreamDojo-HV 已经做到了 44,711 小时——比此前最大的世界模型训练集时长多 15 倍、场景多 2,000 倍。能不能用这些人类视频预训练一个”物理世界常识”模型,再用少量机器人数据微调?

这就是”具身基础模型”的命题。它和世界模型几乎天然耦合:你需要一个能预测”我这样移动手臂,世界会怎么变”的模型,才能把人类视频里的”物理规律”蒸馏到机器人

第三件事:自动驾驶证明了反事实仿真的商业价值

Wayve 在 2023 年发布了 GAIA-1(arXiv:2309.17080),全称 “Generative AI for Autonomy”,把视频生成、文本、动作作为联合输入,生成”同一路口不同天气/不同行人行为”的驾驶视频变体。

这件事的工业意义是:用世界模型生成罕见危险场景的合成数据,比单纯累积真实路测里程效率高出一个数量级。你想让你的自动驾驶系统在”卡车横穿马路 + 暴雨 + 逆光”这种场景里训练 1000 次?真实世界里你可能跑 10 年也遇不到这么多;但世界模型可以生成无限多。

Wayve 在 2024 年与英伟达等产业伙伴建立战略合作 (具体合作车企与商业化进展以 Wayve 官方披露为准),把这个思路从论文推向生产线。它证明了世界模型不是”学术玩具”,而是有明确商业回报的工业技术。

三件事撞在一起,叠加 2024-2025 年视频生成模型的飞跃,就出现了 2026 年初我们看到的现象:

三位顶级大脑同时押注同一赛道,与三件事成熟在时间上重合——这两者共同放大了”世界模型”在 2026 年的声量。


三、它们的分歧:三巨头在赌什么

但”押注同一赛道”不等于”押注同一路线”。这是 2026 年 AI 行业最重要的路线分歧

🅰️ 路线 A:LeCun 派——推翻 LLM,从头建非生成式世界模型

LeCun 的核心论点是:LLM 处理的是人类发明的符号系统,是对真实世界的”二次抽象”;真正的智能需要直接从连续的感官信号中建模物理世界

AMI Labs(全称 Advanced Machine Intelligence,2025 年 12 月成立于巴黎,2026 年 3 月以 35 亿美元投前估值完成 10.3 亿美元种子轮——这是欧洲史上最大的种子轮,在全球新创 AI 实验室里仅次于 Thinking Machines 的 20 亿美元。Alex LeBrun 担任 CEO,LeCun 担任执行董事长) 押注的技术路线是 JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构)——不生成像素,直接在语义空间里预测状态变迁。

谢赛宁 (AMI Labs 联合创始人兼首席科学官,Diffusion Transformers 架构的共同作者) 在张小珺《商业访谈录》那场 7 小时马拉松访谈里,有两句话流传很广。一句是:“Silicon Valley is very LLM-pilled——硅谷已经深陷于 LLM,完全被它催眠了。” 另一句是:“语言是鸦片,它是智能的某种捷径,但也可能让研究者丧失训练’视觉大脑’的机会。”

Meta 在 2025 年 6 月发布的 V-JEPA 2(arXiv:2506.09985) 是这条路线的最新里程碑:1M+ 小时视频预训练 (具体参数量以论文披露为准),含 8B 参数的 LLM 对齐版本用于视频问答,以及 V-JEPA 2-AC——一个用不到 62 小时无标注机器人视频后训练、能在 Franka 机械臂上零样本完成 pick-and-place 任务的世界模型。

“零样本”意味着:V-JEPA 2-AC 在它从未见过的新实验室环境里,没有任何特定任务训练或奖励信号,直接用图像目标就能完成抓取

🅱️ 路线 B:Hassabis 派——保留 LLM,叠加多模态和具身推理

Hassabis 的逻辑是:LLM 已经积累了几千年人类书写知识的压缩表示,在这个基础上叠加视觉、空间感知、强化学习,比从头建一套新架构更务实。Gemini Robotics 就是这个路线的产物。

这条路线有一个非常有力的实用论据:LLM 在常识推理、语言指令理解、跨任务泛化上已经足够强,而这些恰恰是纯 RSSM / JEPA 架构最弱的地方。Gemini Robotics 的思路是:不需要从零建立物理直觉,直接借用 LLM 里已经压缩好的”世界常识”,再让模型学会把这些常识映射到连续的物理动作上。

🅲 路线 C:李飞飞派——从 3D 空间表示切入

李飞飞的 World Labs 走的是第三条路:先把”世界”本身生成出来。其产品 Marble 从文本、图像、视频等输入生成可探索的 3D 环境,同时输出高斯泼溅 (Gaussian splats) 用于视觉浏览和网格 (mesh) 供下游程序使用。

这条路线的赌注是:空间表示是物理理解的基座——机器人训练、自动驾驶仿真、影视游戏制作,都需要一个几何上站得住的三维世界,而不只是看起来像的视频帧。50 亿美元估值融资 10 亿美元,资本市场对这个判断给出了真金白银的定价。

🅳 第四种声音:怀疑派——方向可能对,但时机可能没到

还有一种声音最少被公开讨论,但在业界私下流传很广:视觉数据的”语义密度”远低于语言

用同等数据训练,视觉能传达的语义量远小于文字。要训练出能力对标当前 LLM 的世界模型,所需数据量可能比 LLM 高好几个数量级,产出的能力却可能还不如当前最基础的视觉 - 语言模型 (具体数字以该领域后续基准测试为准)。

持这种观点的人不反对世界模型的方向,他们反对的是现在就大规模押注——在视觉数据密度问题没有根本突破之前,所需的目标函数、计算规模、数据量都还远远不够。

几条路线不是非此即彼。LeCun 用融资和职业生涯押注新架构;Hassabis 用工程路径逼近同一个目标;李飞飞从空间表示切入;怀疑者在追问”就算方向对,现在的条件够吗”。这些都是真问题,胜负还没分。


四、五大技术路线,一张表

不展开技术细节 (每个都可以写一篇文章),但你需要知道”现在主要的技术路径长什么样”。

MuZero(DeepMind 2019, arXiv:1911.08265) 是这个领域的另一个里程碑——它在国际象棋、围棋、Atari 等完全不同的游戏上,不预先知道规则,只学习一个”能预测 reward、policy、value 的内部模型”,就能达到 superhuman 水平。它证明了一件事:“内部世界模型”是规划能力的核心

Dreamer V3 更进一步——单套超参数,在超过 150 个任务上 (Atari、Minecraft、机器人控制等 8 个领域) 都取得有竞争力结果。它还是第一个在 Minecraft 里从零开始、不用人类数据、不用课程学习就挖到钻石的算法。

这些里程碑放在一起说明了一件事:世界模型不是 PPT 概念,而是有清晰技术演进路径、能产出可复现成果的工程方向。


五、四个常见误解,先讲清楚

在往下讲”对你意味着什么”之前,我想先扫掉四个最常见的误解,免得你读完后带着错误印象去跟同事讲。

❌ 误解 1:世界模型 = 视频生成模型

这是 2024-2025 年最普遍的混淆。Sora、Genie、Veo 爆火后,很多人把”能生成视频的 AI”等同于”世界模型”。

这不对。视频生成模型的训练目标是”下一帧长什么样”,没有动作条件——它是一个旁观者,不是参与者。世界模型的核心是”给定动作,预测下一观测”,这个”动作条件”是它和视频生成模型最本质的区别。

类比:视频生成模型是”AI 看的电影”,世界模型是”AI 玩的游戏”——后者必须能根据玩家操作改变剧情。

不过,两者正在融合:V-JEPA 2 用视频预训练学到世界模型,GAIA-1 用视频生成做自动驾驶仿真。“视频生成”是手段,“世界模型”是目的

❌ 误解 2:世界模型 = 仿真器/Simulator

很多工业读者第一反应是”世界模型不就是个高级版的 GTA/CARLA?”。

这是把世界模型用窄了。仿真器是”给定规则,生成轨迹”;世界模型是”从数据中学规则,再生成轨迹”。

具体差别:

仿真器需要专家写规则;世界模型从数据中涌现规则。前者是显式建模,后者是隐式建模。

工业落地时,两者经常混用——你用世界模型生成”反事实场景”,再丢给仿真器做物理验证。

❌ 误解 3:世界模型是 2024-2025 年才出现的新东西

每次新风口起来,媒体都喜欢包装成”全新突破”。世界模型不是。

它的技术根脉至少 80 年:

“世界模型”这个标签是 2018 年才被统一的,但它描述的技术贯穿整个 AI 史。过去叫”内部模型""动力学模型""预测模型”的东西,本质都是世界模型。

这意味着:你以为的”新风口”,其实是你重新发现的旧大陆。

❌ 误解 4:押注世界模型 = 押注 AGI

这是 LeCun 的赌注,但不是所有人的赌注。Hassabis、李飞飞的路线都承认世界模型重要,但不认为它是 AGI 的唯一路径。

更准确的说法是:世界模型是”具身智能”的核心组件,但具身智能不一定是 AGI 的全部

打个比方:你做一道菜,世界模型是”火候”——很重要,但”食材选择、刀工、调味、摆盘”也是不可缺的。世界模型能让你做菜更精准,但不能保证你做出米其林。

把世界模型当 AGI 的同义词,会过度承诺;把它当具身智能的同义词,会更接近事实


六、对你意味着什么:3 条 takeaway

如果你是 AI 开发者、产品经理、或者在 AI 行业做战略决策,这一波世界模型浪潮和你有什么关系?我给三条具体的建议。

① 如果你做对话 Agent,2026 年开始考虑”具身友好性”

未来 3 年 AI 行业的核心战场会从”对话”转移到”具身”。不是说你要现在去做机器人,而是说你在做技术选型时要考虑:

这些今天看起来”超前”的考量,18 个月后会变成”标配”。

② 如果你做工业 AI,关注”安全仿真”路线

世界模型在 B 端的爆发点不是”机器人能力”,而是反事实安全仿真

过去这些场景靠蒙特卡洛仿真,要写大量领域代码。现在可以用世界模型从少量真实数据生成海量反事实场景。这不只是性能提升,是成本结构性的下降

③ 如果你做投资/创业,关注”具身基础模型”赛道

历史规律告诉我们:每一波 AI 浪潮的早期最大赢家,是”卖铲子”的公司,不是”挖金子”的公司

2026-2027 年这个赛道会有大额融资,创业窗口期正在打开。


七、FAQ:不是 AI 行业的人需要关心吗?

写到这里,我猜你可能有几个”我不是 AI 行业的人,我看这个有意义吗”的问题。统一回答一下。

🤔 Q1:我不是 AI 行业从业者,要不要关心世界模型?

简短回答:作为知识,值得了解;作为技能,不必现在学

世界模型是 AI 行业接下来 18-36 个月的主线之一,了解它能让你看懂新闻、听懂会议、跟上节奏。但如果你做的是金融、医疗、教育、法律、零售、制造业等垂直行业,世界模型对你目前工作的直接影响有限——它是 AI 工具的能力上限提升,不是终端用户的功能变化。

判断标准:如果你工作中会用到”AI Agent 自动执行任务”或”AI 看图/看视频生成内容”,世界模型会影响这些工具的稳定性。如果你的工作和 AI 工具的”内部机制”无关,那你只需要看 1-2 篇综述,知道有这么回事就行。

🤔 Q2:我是个做传统软件/Web/移动端工程师,世界模型跟我有什么关系?

关系是间接的,但有具体抓手

世界模型本身主要被 AI 研究员和机器人工程师直接使用。但它会影响你日常会用到的几个东西:

判断标准:如果你现在的工作是”调用 AI API 完成任务”,世界模型影响的是 API 后面跑的模型;如果你做的是 AI 之外的”传统逻辑”,影响有限。

🤔 Q3:世界模型会让 LLM 工程师失业吗?

不会世界模型需要 LLM 工程师,也创造新的 LLM 岗位

具体说:

判断标准:LLM 工程师的”保命技能”是”理解 LLM 的能力边界,并把它包装成产品”。世界模型扩大了 LLM 的能力边界 (从”聊天”到”能预测物理世界”),但不会让 LLM 工程师失去价值——反而会创造新的”用 LLM + 世界模型做产品”的需求。

🤔 Q4:大厂和小公司,世界模型怎么布局?

大厂:烧得起钱,直接做基础模型。Google(Gemini Robotics)、Meta(V-JEPA 2)、NVIDIA(Cosmos、DreamDojo)、Apple(据传在内部研究)、字节 (Seed Robotics)、阿里 (通义具身)、华为 (盘古具身)——都在 2025-2026 年有大额投入。如果你在大厂,关注内部具身智能/世界模型团队,争取转岗或参与。

小公司:烧不起基础模型的钱,但可以做三件事:

  1. 垂直应用:用别人的世界模型 API 做行业应用 (类似当年用 OpenAI API 做 ChatGPT 套壳)
  2. 数据服务:做具身数据采集、人类视频蒸馏、合成数据生成——这是”卖铲子”
  3. 工具链:做世界模型训练/评估/部署的工具,类似 LLM 时代的 LangChain/LlamaIndex

判断标准:大厂押基础模型,小公司押应用 + 数据 + 工具——和 LLM 时代的格局一样。

🤔 Q5:学生/研究者,现在入局世界模型晚不晚?

不晚,但要选对切入点

世界模型现在处于”基础模型刚出现、杀手级应用未出现”的阶段,类似 2018-2019 年的 LLM。这意味着:

给学生的具体建议:


八、如何自己入门:从 0 到 1 的资源清单

如果你看完前面还是觉得”我应该自己跑一跑”,下面是按难度递进的 4 层资源,选你够得着的开始就行。

🎬 第一层:科普视频/文章 (1-2 小时入门)

适合:完全没听过世界模型、想快速建立直觉的读者。

📄 第二层:入门论文 (1-2 周深读)

适合:有 ML 基础 (懂 Transformer、RL 基础)、想理解技术细节的读者。

📚 第三层:必读经典 (2-4 周攻坚)

适合:**想成为世界模型方向研究者、要在简历/项目里写”我做过世界模型”**的读者。

🛠️ 第四层:动手项目 (1-3 个月实操)

适合:想真正跑起来、写进简历或作品集的读者。

怎么选?

别试图一次全学完。世界模型是一个 5-10 年长跑的方向,先在一个细分里建立”能讲清楚”的水平,比广撒网更有用。


九、结尾:一个被 LLM 掩盖的暗流,正在变成主流

过去三年,AI 行业的剧本是:“AGI = 更大的 LLM”。这个剧本让 OpenAI 成为最有钱的公司,让英伟达成为市值最大的芯片公司,让”prompt engineering”成为一门显学。

2026 年初的这些信号 (AMI Labs 10.3 亿美元、World Labs 10 亿美元、Gemini Robotics 路线图、V-JEPA 2 零样本机器人部署) 说明:剧本正在被改写

新剧本的核心问题是:“AI 能不能理解物理世界的因果结构,而不只是人类语言的统计模式?” 世界模型是这个问题目前最清晰的答案形式——它不一定是最终答案,但它已经让”以 LLM 为中心”的路径不再是唯一选择。

对从业者来说,这是过去 3 年最值得重新思考技术路线的时刻。 不是因为 LLM 错了,而是因为 LLM 不够了。


📚 参考资料

作者注:本文涉及的融资数字、人物职务、论文编号、数据集规模均已逐条独立核验 (截至 2026 年 6 月)。AMI Labs 估值为投前口径;World Labs 融资信息以 2026 年 2 月公开披露为准。


👆 如果这篇文章对你有帮助,欢迎:

准备好开始您的 AI 之旅了吗?

读完这篇文章,想必您对 AI 技术有了更深的了解。现在就来体验共绩算力,让您的想法快速变成现实。

✓ 已有 10 万 + 开发者在使用

✓ 99.9% 服务可用性

✓ 开箱即用的容器托管