最近世界模型有多火，不用我多说了。李飞飞下场创业，Google 的 Genie 把实时交互世界玩出花，国内 Matrix-Game 这类开源项目一个接一个。我自己在公司是干什么的呢，研究模型部署镜像的。最近打的全是世界模型，打到手软。打包的间隙，我突然冒出一个念头：这波热潮，源头到底在哪？于是我顺着论文的引用链，一路往回翻。翻到了 2023 年 9 月，一家叫 Wayve 的英国自动驾驶公司，发的一篇论文。GAIA-1。那天晚上我本来打算扫一眼就睡的。结果一口气读到凌晨两点。读完只有一个感受：今天所有人在卷的东西，这篇论文三年前就把剧本写完了。先说 Wayve 是谁。一家伦敦的自动驾驶创业公司，2023 年的时候在国内基本没什么声量。但你现在回头看，2024 年 5 月，软银领投，英伟达和微软跟投，给了他们 10.5 亿美金。那一轮之后，所有人都开始问:Wayve 凭什么？凭的东西，有很大一部分，就写在这篇 GAIA-1 里。

这篇论文要解决的问题，说出来特别朴素。

自动驾驶最难的，其实不是”看清楚路上有什么”。感知这件事，2023 年就已经做得不错了。最难的是预测：如果我现在变道，旁边那辆车会怎么反应？人类司机每秒钟都在脑子里跑这个推演。我们管这个推演器，叫世界模型。但在 GAIA-1 之前，造世界模型有两条路，各有各的死穴。

第一条路，传统世界模型。Dreamer、MuZero 这一脉，在游戏和仿真里封神。但它们依赖标注数据，内部表示是低维的，生成不了逼真的画面。搬到真实街道上，直接歇菜。

第二条路，视频生成模型。画面越来越真，后来的 Sora 就是这条路的巅峰。但它有个根本问题：它学的是”什么样的视频看起来合理”,不是”世界接下来会发生什么”。你没法问 Sora:我变道的话，后车会怎样？它听不懂”我”是谁。一边会思考但画不出来，一边画得出来但不会思考。GAIA-1 干的事，就是把这两个瘸子，拼成了一个能走路的人。

怎么拼的？

说出来你可能不信：把开车，变成了文字接龙。GPT 是怎么工作的，大家都知道了。把文字切成 token，然后预测下一个 token。GAIA-1 把这套搬到了驾驶上。摄像头每一帧画面，切成 576 个 token。一句场景描述，比如”前方红灯”,切成 32 个 token。方向盘和油门，也就是速度和转向，切成 2 个 token。全部排成一串，喂给一个 65 亿参数的 Transformer。任务只有一个：猜下一个 token 是什么。猜出来的 token，再丢给一个 26 亿参数的视频扩散模型，渲染成高清画面。一个负责想，一个负责画。我看到这个架构的时候，第一反应是，这不就是个”驾驶版 GPT”吗。对，它就是。而且论文写得明明白白，我们就是冲着 GPT 的配方去的。因为 GPT 配方有一个被反复验证过的、无法拒绝的优点：能堆。数据能堆，参数能堆，堆了就涨。这个伏笔，后面会炸。

但是，直接照搬 GPT，有个坑。

文字天生就是离散的 token，画面不是。画面切成 token 的方式，决定了模型学到什么。这里面有个特别精妙的细节，是我全文最喜欢的设计。普通的切法，切出来的 token 记的是像素纹理。砖墙的纹路，树叶的细节，柏油路的颗粒感。这些信息，对”预测世界怎么变”来说，屁用没有。砖墙的纹路再清楚，也不会告诉你旁边那辆车要不要变道。Wayve 的做法是，在切 token 的时候，强行让 token 去对齐一个叫 DINO 的视觉模型的特征。DINO 的特征有个特点：天然带语义。车是车，路是路，天是天。蒸馏完之后，世界模型操作的就不再是”像素碎片”,而是一套粗糙的”世界词汇”。打个比方。一个学生背课文，可以一个字一个字背字形，也可以理解了意思再记。前者背得再熟，你问他这段讲了什么，他傻眼。GAIA-1 选了后者。它不是在背画面，它是在理解场景里有什么东西。

然后是喂数据。

4700 小时的伦敦真实驾驶视频，2019 到 2023 年，大概 4.2 亿帧。训练用的卡：世界模型 64 张 A100 跑了 15 天，解码器 32 张 A100 又是 15 天。2023 年，这是创业公司里相当下血本的配置。放 2026 年看，说实话，就是一个中型团队咬咬牙的事。我自己天天在 GPU 云上部署模型，对这个量级太有体感了。三年时间，训练同等规模模型的门槛，肉眼可见地塌了下来。这也是为什么今天世界模型能百花齐放。不是大家突然变聪明了，是入场券变便宜了。

好，重头戏来了。模型训完了，它到底学到了什么？论文里有一个实验，我读到的时候，凌晨一点半，一个人坐在那，起了一身鸡皮疙瘩。前面说了，训练数据是 4700 小时的真实驾驶，全部来自专家司机。也就是说，这个模型这辈子，没见过一次乱开车。它的世界里，所有司机都规规矩矩。然后研究人员干了一件事：强行给它输入一个指令——保持速度，猛打方向盘，冲出车道。一个它从未见过的动作。你猜它生成了什么？车真的冲出去了。画面的 3D 几何完全正确，路沿、视角、车身姿态，全都对。这还不是最狠的。最狠的是，在另一组实验里，他们强行让车朝对向车道开。生成的画面里，对向来的那辆车，主动打方向避让了。我直接坐直了。它没见过任何一次事故，没见过任何一次违章，但它推演出了”如果我乱来，世界会怎么回应我”。这意味着什么？意味着它学到的不是”画面 A 后面通常跟着画面 B”这种统计规律。它学到的是因果:我的动作，是这个世界演化的一个变量。这就是视频生成模型和世界模型的分界线。前者是统计，后者是因果。Sora 再逼真，它的世界里也没有”你”。GAIA-1 的世界里，有。判断一个模型是不是真·世界模型，我现在就用这一条标准：它能不能回答反事实问题。没发生过的事，它推不推演得出来。

还有一组实验也很有意思。同一个路口，同一段视频开头，让模型反复往下猜。第一次，对面那辆白车倒车让行，自车通过。第二次，自车减速，让白车先走。两个结局，完全不同，但都合理。这说明它建模的不是”唯一的未来”,而是未来的概率分布。人类老司机的预判，其实就是这个东西。不是笃定对方一定让你，而是脑子里同时挂着好几种可能，随时准备应对。一个模型开始有了这种”心里没底但都有准备”的状态，我觉得，这比画质重要一百倍。

接下来这部分，是我认为全文含金量最高的一节。但它在论文里只占了一页，大部分解读文章直接跳过了。Scaling law。Wayve 训了一堆小模型，最小的只有 65 万参数——是正式版 6.5B 的万分之一。他们用这些小模型的表现，拟合出一条幂律曲线，然后预测:6.5B 的大模型训完之后，损失会落在哪个位置。结果，几乎分毫不差。用不到正式训练二十分之一的算力，提前算出了大模型的命。这件事的意义，远远超出这篇论文本身。它证明了:LLM 的 scaling law，原封不动地迁移到了世界模型上。翻译成人话：世界模型的性能提升，是可以提前报价的。砸多少卡，收多少数据，能换来多少提升，开训之前就能算账。一个领域从”炼丹”变成”工程”,标志就是回报变得可预测。后来这三年，各家公司敢往世界模型上砸真金白银，底气就是从这页纸开始

论文里还有一堆特别”工程笔记”味的细节，我挑两个给技术口的朋友。

第一个，采样策略。他们发现，如果每步都选概率最高的 token(argmax),生成的未来会鬼打墙——画面陷入重复循环，跟语言模型生成车轱辘话一个病。如果老老实实按概率分布采样，又会采到分布长尾上的怪 token，模型直接崩坏。最后试出来 top-k=50 最稳，生成 token 的困惑度分布，和真实画面最接近。第二个，更离谱。视频解码的时候，他们发现从最后一帧往前倒着解码,画面里的物体更稳定，地平线不闪。为什么？论文没解释。就是试出来的。我特别喜欢这种细节。它提醒你，再光鲜的论文背后，也是一群人在深夜里一个参数一个参数试出来的。跟我们调 vLLM 参数没什么本质区别。

当然，GAIA-1 有很明显的局限，论文自己也认了。

自回归生成，不实时。生成一段未来要慢慢算，没法拿来真的开车。数据只有伦敦。左舵国家的司机看了直摇头。评估全是定性展示，没有量化基准。说白了就是”你看这个视频多牛”,但牛多少，没数。所以它的定位，是一个离线的”神经仿真器”:给自动驾驶系统造训练数据、造极端场景、造对抗样本的工厂。

而 2026 年的这批世界模型，追求的是实时交互。你按一下方向键，世界立刻响应。这中间隔着什么？隔着三年的推理优化。蒸馏、并行解码、KV cache，全是脏活累活。也就是我现在天天打交道的那些东西。但你仔细看，变的全是工程。token 化一切、自回归预测、靠 scaling law 堆性能——这套配方，三年了，一个字没改。Wayve 自己也沿着这条线继续走，后来发了 GAIA-2，从单摄像头扩到了多摄像头。软银那 10.5 亿美金，投的就是这条已经被验证的路。

最后说点感受。

这几年看 AI，我有一个越来越强烈的体会:AI 的进步，越来越不是”发明新范式”,而是”把一个范式推平所有领域”。文字，图像，视频，代码，蛋白质，然后是世界本身。GPT 配方一路平推过去。GAIA-1 在这条战线上的位置，就是插在”真实物理世界”门口的第一面旗。它不是第一个世界模型，画质也早被后来者甩开。但它是第一个证明了”物理世界也能玩文字接龙，而且越堆越强”的工作。后面三年所有的热闹，都是在这个证明上做加法。风口上的东西，大家都在抢着看。但风的源头，往往安安静静地躺在三年前的 arXiv 里，没什么人翻。

你最近有没有回头读过什么”老东西”,结果发现比追新闻有用得多的？评论区聊聊。谢谢你看我的文章，我们，下次再见。

2026年最火的世界模型,剧本三年前就写好了