大模型云服务产品已上线!一键接入DeepSeek-V4、Kimi-K2.6等海量模型,按量计费,稳定易用, 立即体验
共绩算力

2026年最火的世界模型,剧本三年前就写好了

2026年6月11日
"2026 年最火的世界模型,剧本三年前就写好了。"
Shiyuh
Shiyuh
技术传道者/AI 应用落地

最近世界模型有多火,不用我多说了。李飞飞下场创业,Google 的 Genie 把实时交互世界玩出花,国内 Matrix-Game 这类开源项目一个接一个。我自己在公司是干什么的呢,研究模型部署镜像的。最近打的全是世界模型,打到手软。打包的间隙,我突然冒出一个念头:这波热潮,源头到底在哪?于是我顺着论文的引用链,一路往回翻。翻到了 2023 年 9 月,一家叫 Wayve 的英国自动驾驶公司,发的一篇论文。GAIA-1。那天晚上我本来打算扫一眼就睡的。结果一口气读到凌晨两点。读完只有一个感受:今天所有人在卷的东西,这篇论文三年前就把剧本写完了。先说 Wayve 是谁。一家伦敦的自动驾驶创业公司,2023 年的时候在国内基本没什么声量。但你现在回头看,2024 年 5 月,软银领投,英伟达和微软跟投,给了他们 10.5 亿美金。那一轮之后,所有人都开始问:Wayve 凭什么?凭的东西,有很大一部分,就写在这篇 GAIA-1 里。

这篇论文要解决的问题,说出来特别朴素。

自动驾驶最难的,其实不是”看清楚路上有什么”。感知这件事,2023 年就已经做得不错了。最难的是预测:如果我现在变道,旁边那辆车会怎么反应?人类司机每秒钟都在脑子里跑这个推演。我们管这个推演器,叫世界模型。但在 GAIA-1 之前,造世界模型有两条路,各有各的死穴。

第一条路,传统世界模型。Dreamer、MuZero 这一脉,在游戏和仿真里封神。但它们依赖标注数据,内部表示是低维的,生成不了逼真的画面。搬到真实街道上,直接歇菜。

第二条路,视频生成模型。画面越来越真,后来的 Sora 就是这条路的巅峰。但它有个根本问题:它学的是”什么样的视频看起来合理”,不是”世界接下来会发生什么”。你没法问 Sora:我变道的话,后车会怎样?它听不懂”我”是谁。一边会思考但画不出来,一边画得出来但不会思考。GAIA-1 干的事,就是把这两个瘸子,拼成了一个能走路的人。


怎么拼的?

说出来你可能不信:把开车,变成了文字接龙。GPT 是怎么工作的,大家都知道了。把文字切成 token,然后预测下一个 token。GAIA-1 把这套搬到了驾驶上。摄像头每一帧画面,切成 576 个 token。一句场景描述,比如”前方红灯”,切成 32 个 token。方向盘和油门,也就是速度和转向,切成 2 个 token。全部排成一串,喂给一个 65 亿参数的 Transformer。任务只有一个:猜下一个 token 是什么。猜出来的 token,再丢给一个 26 亿参数的视频扩散模型,渲染成高清画面。一个负责想,一个负责画。我看到这个架构的时候,第一反应是,这不就是个”驾驶版 GPT”吗。对,它就是。而且论文写得明明白白,我们就是冲着 GPT 的配方去的。因为 GPT 配方有一个被反复验证过的、无法拒绝的优点:能堆。数据能堆,参数能堆,堆了就涨。这个伏笔,后面会炸。


但是,直接照搬 GPT,有个坑。

文字天生就是离散的 token,画面不是。画面切成 token 的方式,决定了模型学到什么。这里面有个特别精妙的细节,是我全文最喜欢的设计。普通的切法,切出来的 token 记的是像素纹理。砖墙的纹路,树叶的细节,柏油路的颗粒感。这些信息,对”预测世界怎么变”来说,屁用没有。砖墙的纹路再清楚,也不会告诉你旁边那辆车要不要变道。Wayve 的做法是,在切 token 的时候,强行让 token 去对齐一个叫 DINO 的视觉模型的特征。DINO 的特征有个特点:天然带语义。车是车,路是路,天是天。蒸馏完之后,世界模型操作的就不再是”像素碎片”,而是一套粗糙的”世界词汇”。打个比方。一个学生背课文,可以一个字一个字背字形,也可以理解了意思再记。前者背得再熟,你问他这段讲了什么,他傻眼。GAIA-1 选了后者。它不是在背画面,它是在理解场景里有什么东西。


然后是喂数据。

4700 小时的伦敦真实驾驶视频,2019 到 2023 年,大概 4.2 亿帧。训练用的卡:世界模型 64 张 A100 跑了 15 天,解码器 32 张 A100 又是 15 天。2023 年,这是创业公司里相当下血本的配置。放 2026 年看,说实话,就是一个中型团队咬咬牙的事。我自己天天在 GPU 云上部署模型,对这个量级太有体感了。三年时间,训练同等规模模型的门槛,肉眼可见地塌了下来。这也是为什么今天世界模型能百花齐放。不是大家突然变聪明了,是入场券变便宜了。


好,重头戏来了。模型训完了,它到底学到了什么?论文里有一个实验,我读到的时候,凌晨一点半,一个人坐在那,起了一身鸡皮疙瘩。前面说了,训练数据是 4700 小时的真实驾驶,全部来自专家司机。也就是说,这个模型这辈子,没见过一次乱开车。它的世界里,所有司机都规规矩矩。然后研究人员干了一件事:强行给它输入一个指令——保持速度,猛打方向盘,冲出车道。一个它从未见过的动作。你猜它生成了什么?车真的冲出去了。画面的 3D 几何完全正确,路沿、视角、车身姿态,全都对。这还不是最狠的。最狠的是,在另一组实验里,他们强行让车朝对向车道开。生成的画面里,对向来的那辆车,主动打方向避让了。我直接坐直了。它没见过任何一次事故,没见过任何一次违章,但它推演出了”如果我乱来,世界会怎么回应我”。这意味着什么?意味着它学到的不是”画面 A 后面通常跟着画面 B”这种统计规律。它学到的是因果:我的动作,是这个世界演化的一个变量。这就是视频生成模型和世界模型的分界线。前者是统计,后者是因果。Sora 再逼真,它的世界里也没有”你”。GAIA-1 的世界里,有。判断一个模型是不是真·世界模型,我现在就用这一条标准:它能不能回答反事实问题。没发生过的事,它推不推演得出来。


还有一组实验也很有意思。同一个路口,同一段视频开头,让模型反复往下猜。第一次,对面那辆白车倒车让行,自车通过。第二次,自车减速,让白车先走。两个结局,完全不同,但都合理。这说明它建模的不是”唯一的未来”,而是未来的概率分布。人类老司机的预判,其实就是这个东西。不是笃定对方一定让你,而是脑子里同时挂着好几种可能,随时准备应对。一个模型开始有了这种”心里没底但都有准备”的状态,我觉得,这比画质重要一百倍。


接下来这部分,是我认为全文含金量最高的一节。但它在论文里只占了一页,大部分解读文章直接跳过了。Scaling law。Wayve 训了一堆小模型,最小的只有 65 万参数——是正式版 6.5B 的万分之一。他们用这些小模型的表现,拟合出一条幂律曲线,然后预测:6.5B 的大模型训完之后,损失会落在哪个位置。结果,几乎分毫不差。用不到正式训练二十分之一的算力,提前算出了大模型的命。这件事的意义,远远超出这篇论文本身。它证明了:LLM 的 scaling law,原封不动地迁移到了世界模型上。翻译成人话:世界模型的性能提升,是可以提前报价的。砸多少卡,收多少数据,能换来多少提升,开训之前就能算账。一个领域从”炼丹”变成”工程”,标志就是回报变得可预测。后来这三年,各家公司敢往世界模型上砸真金白银,底气就是从这页纸开始


论文里还有一堆特别”工程笔记”味的细节,我挑两个给技术口的朋友

第一个,采样策略。他们发现,如果每步都选概率最高的 token(argmax),生成的未来会鬼打墙——画面陷入重复循环,跟语言模型生成车轱辘话一个病。如果老老实实按概率分布采样,又会采到分布长尾上的怪 token,模型直接崩坏。最后试出来 top-k=50 最稳,生成 token 的困惑度分布,和真实画面最接近。第二个,更离谱。视频解码的时候,他们发现从最后一帧往前倒着解码,画面里的物体更稳定,地平线不闪。为什么?论文没解释。就是试出来的。我特别喜欢这种细节。它提醒你,再光鲜的论文背后,也是一群人在深夜里一个参数一个参数试出来的。跟我们调 vLLM 参数没什么本质区别。


当然,GAIA-1 有很明显的局限,论文自己也认了。

自回归生成,不实时。生成一段未来要慢慢算,没法拿来真的开车。数据只有伦敦。左舵国家的司机看了直摇头。评估全是定性展示,没有量化基准。说白了就是”你看这个视频多牛”,但牛多少,没数。所以它的定位,是一个离线的”神经仿真器”:给自动驾驶系统造训练数据、造极端场景、造对抗样本的工厂。

而 2026 年的这批世界模型,追求的是实时交互。你按一下方向键,世界立刻响应。这中间隔着什么?隔着三年的推理优化。蒸馏、并行解码、KV cache,全是脏活累活。也就是我现在天天打交道的那些东西。但你仔细看,变的全是工程。token 化一切、自回归预测、靠 scaling law 堆性能——这套配方,三年了,一个字没改。Wayve 自己也沿着这条线继续走,后来发了 GAIA-2,从单摄像头扩到了多摄像头。软银那 10.5 亿美金,投的就是这条已经被验证的路。


最后说点感受。

这几年看 AI,我有一个越来越强烈的体会:AI 的进步,越来越不是”发明新范式”,而是”把一个范式推平所有领域”。文字,图像,视频,代码,蛋白质,然后是世界本身。GPT 配方一路平推过去。GAIA-1 在这条战线上的位置,就是插在”真实物理世界”门口的第一面旗。它不是第一个世界模型,画质也早被后来者甩开。但它是第一个证明了”物理世界也能玩文字接龙,而且越堆越强”的工作。后面三年所有的热闹,都是在这个证明上做加法。风口上的东西,大家都在抢着看。但风的源头,往往安安静静地躺在三年前的 arXiv 里,没什么人翻。

你最近有没有回头读过什么”老东西”,结果发现比追新闻有用得多的?评论区聊聊。谢谢你看我的文章,我们,下次再见。

准备好开始您的 AI 之旅了吗?

读完这篇文章,想必您对 AI 技术有了更深的了解。现在就来体验共绩算力,让您的想法快速变成现实。

✓ 已有 10 万 + 开发者在使用

✓ 99.9% 服务可用性

✓ 开箱即用的容器托管