大模型云服务产品已上线!一键接入DeepSeek-V4、Kimi-K2.6等海量模型,按量计费,稳定易用, 立即体验
共绩算力

世界模型会"自我修正"了,但它修的是画面,不是局面

2026年6月9日
"读 Sutton《Toward Enactive Artificial Intelligence》,顺手把 Matrix-Game 3.0 拿来对照着跑了一遍"
Shiyuh
Shiyuh
技术传道者/AI 应用落地

半个月前,Richard Sutton——强化学习的那个 Sutton,2024 年图灵奖得主——和 Banafsheh Rafiee 合写挂了一篇论文,《Toward Enactive Artificial Intelligence》(arXiv 2605.24238,5 月 22 日)。没有模型、没有实验、没有 benchmark、没有一张图,纯论证,11 页里前 7 页全是散文。里面有一刀砍得特别狠:他说大规模视频生成系统只是在”延续一个模式”,一旦模式断裂——红绿灯坏了、需要有人介入了——它没有任何东西可以 fallback。而一个真正的智能体能在规律崩掉时介入、修正、探索。他原话的分界是:区别不在准不准,在种类。我读到这一刀,第一反应是想反驳。因为我手上刚好打包过一个世界模型 Matrix-Game 3.0,而它的招牌技术贡献,字面意思就是一套”自我修正(self-correction)“机制——专门用来对付长程生成里模式跑偏的情况。Sutton 说视频模型”模式断裂时没东西可依靠”,这玩意儿主打的恰恰是”模式断裂时怎么自我修正”。这不正好打脸吗?把它认真跑起来、把技术报告读完之后,我收回了这句话。它不仅没打脸,反而让我第一次真正读懂了 Sutton 那句”不在准不准,在种类”。这篇就讲一件事:世界模型的”自我修正”,修的到底是什么。剧透——它修的是画面的可信度,不是局面的对错。这两件事差的不是程度,是种类。

这是一篇立场论文,不是工作。它没打算给你跑出什么 SOTA,它要重新定义”感知”这件事。经典 AI 的默认假设是:大脑是个中央处理器,感官把信号送进来,大脑编码、处理、建出一个世界的内部表征,再据此下达行动指令。感知在前,行动在后,世界在外面,agent 在里面。Sutton 这篇站的是enactive(生成认知)的立场,把这套整个掀翻:感知不是被动接收,而是主动”做”出来的。你不是先看清世界再行动,而是通过行动才看清世界。用论文的话说,感知就是掌握”我的身体动作如何改变我的感官输入”这套规律(sensorimotor contingencies)——眼睛往左转,画面往右移,你对视觉的理解,本质上是对这套动作 - 感知耦合的掌握,而不是对一张静态图像的解码。

论文挑了四个它认为对 AI 最重要的概念,每个都用同一个对比模板过一遍——主流 AI 做到哪、RL 做到哪、enactive 的理想是什么:

经验(Experience)

:规则系统根本没有经验;监督学习和 LLM 用的是人类采集标注好的数据,一次性学完;只有 RL 让 agent 自己跟环境交互、自己产生数据。这条直接接到 Sutton 去年那篇《Welcome to the Era of Experience》——这篇论文其实是那篇檄文的哲学地基。

行动 - 感知不可分

:主流 AI 是”先感知后行动”;enactive 说感知本身就是一种行动。世界模型的争议全挂在这一节,下面细讲。

自主性(Autonomy)

:用两个问题切——agent 能不能自评?成功标准是它自己长出来的,还是外部塞给它的?LLM 两条都不行;控制系统能连续自评但目标外部设定;RL 能跨整条轨迹评估(“这行为带来的长期后果好不好”),但 reward 函数仍是外部给的。没有一个达到”规范性(normativity)从 agent 自我维持中自然涌现”。记住 normativity 这个词,它是后面所有判断的根。

具身(Embodiment)

:身体不是事后接上的外设,是感知得以可能的前提条件。主流 AI 是无身体的、静态数据上的模式识别。四节读下来,论文的核心姿态很清楚:RL 在结构上比 LLM/监督学习更接近真正的认知——它让 agent 自己产生经验、把行动放在学习的中心、有了跨时间的评估。但 RL 也只是”接近”,远没到位:评估标准还是外部 reward 塞的,感知还是被当成行动的前置,具身还是被当成实现细节。而被它点名批得最直接的,是视频生成。

论文那个例子:一个学会了红绿灯规律的系统,能准确预测红黄绿的顺序,但这只是在”追踪规律”,不是”理解这个顺序可以被怎样改变”。灯坏了、被打断了、需要疏导交通了——它没有任何东西可以依靠。生成式视频模型能续一个模式;enactive 系统能在模式断裂时决定下一步做什么。

记住这条线:续规律 vs. 规律崩了之后决定怎么办。

接下来我要拿 Matrix-Game 3.0 去对照这条线。动手之前,有一个口径必须先讲清楚,不然容易误会。Sutton 这篇论文里,从头到尾没提过 Matrix-Game,也没提任何 2026 年的模型——他批的对象写的是”视频生成系统”,他引用的世界模型定义还是 2018 年 Ha & Schmidhuber 那篇老的。更有意思的是:在第 3 节里,他其实把”world models(Ha & Schmidhuber, 2018)“列在了好的一边,说它们捕捉了行动 - 感知耦合。所以下面这套——“Matrix-Game 的自我修正修向分布而不是修向 stake""它骑在论文自己划的缝上”——是我基于实战推出来的论证,不是 Sutton 的结论。论文说的是 A(视频生成只会续规律),我接着往下推的是 B(一个主打自我修正的交互式世界模型,到底跨没跨过那条线)。把这层分清楚,既不冤枉 Sutton,也才看得出这篇文章比单纯导读多想的那一层在哪。

Matrix-Game 3.0 是 Skywork 三月底开源的交互式世界模型。我去把它的架构和我自己跑的体感对齐了一下。

它的底子是 Wan2.2-TI2V-5B 这个视频扩散骨架,在前 15 个 DiT block 里注入鼠标键盘的 action 条件,能做到 720p、40 FPS 的实时流式生成,分钟级长程保持一致。换句话说,它不是Sora 那种纯被动的文生视频——它吃你的操作,你按一下,它生成下一帧。从这个角度看,action 确实进来了,它看起来已经站在了”行动 - 感知耦合”的好的一边。它真正的招牌贡献,是一套叫error collection & injection的东西。训练时它把预测残差 δ = x̂ − x 收进一个 error buffer,再主动往输入里注入扰动 x̃ = x + γδ,去模拟”不完美的条件输入”,目的写得明明白白:让模型在长程自回归 rollout 里学会自我修正,弥合”干净数据训练”和”带噪声的自回归推理”之间的差距。读到这我就乐了。Sutton 说视频模型”模式断裂时没东西可 fallback”,而这个模型的头号卖点,字面意思就是”模式断裂时的自我修正机制”。两边用的是同一个词。但把它跑起来、再回头看这套机制的目标函数,事情就反转了。它的自我修正,是修向训练分布的。error buffer 干的事,是当生成帧开始漂移、累积误差、变得不像干净数据时,把它拉回”看起来像训练数据该有的样子”。它修正的目标是视觉上可信。你在里面做一件训练分布里没有的事——把镜头怼到一个它从没见过的角度、做一个物理上不可能的动作——它不会”诊断出哪里不对、然后介入改变局面”,它会编一个看起来合理的下一帧把你糊弄过去。它在做梦,不是在排查。这就是 Sutton 那句”不在准不准,在种类”的实证。Matrix-Game 的”修正”和 enactive 的”修正”,是两种东西::朝着训练分布修。目标 = 让画面继续可信。在乎的是”像不像”。

enactive agent:朝着自身的目标和存续修。目标 = 利害(normativity)。在乎的是”是不是”。红绿灯坏了我要介入,是因为撞车这件事对我有后果。差别的根,在于stake(利害)。Matrix-Game 对自己生成出来的世界没有任何利害关系——下一帧是真是假、那辆车撞不撞,它毫不在意,它只在意像不像。它的 self-correction 是为了”看起来对”,不是为了”真的对”。action conditioning 和 error buffer 让它看起来跨过了那条线。功能上它没跨过去——它只是把”续规律”这件事,在噪声下做得更稳了。它把模式续得更长、更不容易崩;但它续的,依然是模式。

这是只有摸过这个具体模型的人才会注意到的一点,也再次声明——这是我的观察,不是 Sutton 的话。前面说了,论文第 3 节把”world models(Ha & Schmidhuber, 2018)“列在好的一边(行动 - 感知耦合),却在同一节把”生成式视频模型”摁在坏的一边(只会续规律)。Matrix-Game 3.0 偏偏骑在这道缝上。它架构上是个视频扩散模型(Wan2.2 骨架,坏的一边),功能上是 action-conditioned 的世界模型(Ha-Schmidhuber 那一脉,好的一边)。它同时是这条线的两边。那这条线到底该画在哪?我自己的答案,被实战定死了:判据不是”action 进没进来”,是”修正修向哪里”。action 进来了不代表行动和感知就不可分了——只要它的修正依然修向数据分布、而不是修向某个 agent 自己的目标,它就还在坏的一边,只是穿了好的一边的衣服。(这里我得守住边界:我说的是”它和 enactive agent 不是一个种类”,不是”世界模型啥都不懂、不懂物理”。后者是个会被 benchmark 一巴掌打回来的强断言。Matrix-Game 把物理规律续得相当好——它缺的不是准确度,是 stake。)

Sutton 在论文最后自己抛了几个开放问题,其中一个是:AI 的”具身”到底算什么——一个机器人身体,还是一个带工具和 API 的软件 agent?这个问题对我不抽象。我每天在做的,就是让 agent 去调用算力、调用工具、用 A2A 协议互相调。如果”带 API 的软件 agent”也算一种具身,那 Matrix-Game 缺的就不是身体——它有输入、有输出、有跟你交互的回路。它缺的是那个更深的东西:会不会因为结果对自己有利害,而去改变局面,而不只是把画面续下去。也许真正的分界从来不是”有没有身体”,而是”有没有 stake”。一个会自我修正的模型,和一个会因为在意结果而修正自己的 agent,中间隔的不是一个版本号,是一整个种类。世界模型已经学会了把模式续得很长、很稳、很可信。下一个问题是:它什么时候会开始在意自己续出来的是不是真的。你觉得呢——一个永远只在乎”像不像”、从不在乎”是不是”的系统,能不能算”懂”?

准备好开始您的 AI 之旅了吗?

读完这篇文章,想必您对 AI 技术有了更深的了解。现在就来体验共绩算力,让您的想法快速变成现实。

✓ 已有 10 万 + 开发者在使用

✓ 99.9% 服务可用性

✓ 开箱即用的容器托管