半个月前，Richard Sutton——强化学习的那个 Sutton，2024 年图灵奖得主——和 Banafsheh Rafiee 合写挂了一篇论文，《Toward Enactive Artificial Intelligence》（arXiv 2605.24238，5 月 22 日）。没有模型、没有实验、没有 benchmark、没有一张图，纯论证，11 页里前 7 页全是散文。里面有一刀砍得特别狠：他说大规模视频生成系统只是在”延续一个模式”，一旦模式断裂——红绿灯坏了、需要有人介入了——它没有任何东西可以 fallback。而一个真正的智能体能在规律崩掉时介入、修正、探索。他原话的分界是：区别不在准不准，在种类。我读到这一刀，第一反应是想反驳。因为我手上刚好打包过一个世界模型 Matrix-Game 3.0，而它的招牌技术贡献，字面意思就是一套”自我修正（self-correction）“机制——专门用来对付长程生成里模式跑偏的情况。Sutton 说视频模型”模式断裂时没东西可依靠”，这玩意儿主打的恰恰是”模式断裂时怎么自我修正”。这不正好打脸吗？把它认真跑起来、把技术报告读完之后，我收回了这句话。它不仅没打脸，反而让我第一次真正读懂了 Sutton 那句”不在准不准，在种类”。这篇就讲一件事：世界模型的”自我修正”，修的到底是什么。剧透——它修的是画面的可信度，不是局面的对错。这两件事差的不是程度，是种类。

这是一篇立场论文，不是工作。它没打算给你跑出什么 SOTA，它要重新定义”感知”这件事。经典 AI 的默认假设是：大脑是个中央处理器，感官把信号送进来，大脑编码、处理、建出一个世界的内部表征，再据此下达行动指令。感知在前，行动在后，世界在外面，agent 在里面。Sutton 这篇站的是enactive（生成认知）的立场，把这套整个掀翻：感知不是被动接收，而是主动”做”出来的。你不是先看清世界再行动，而是通过行动才看清世界。用论文的话说，感知就是掌握”我的身体动作如何改变我的感官输入”这套规律（sensorimotor contingencies）——眼睛往左转，画面往右移，你对视觉的理解，本质上是对这套动作 - 感知耦合的掌握，而不是对一张静态图像的解码。

论文挑了四个它认为对 AI 最重要的概念，每个都用同一个对比模板过一遍——主流 AI 做到哪、RL 做到哪、enactive 的理想是什么：

经验（Experience）

：规则系统根本没有经验；监督学习和 LLM 用的是人类采集标注好的数据，一次性学完；只有 RL 让 agent 自己跟环境交互、自己产生数据。这条直接接到 Sutton 去年那篇《Welcome to the Era of Experience》——这篇论文其实是那篇檄文的哲学地基。

行动 - 感知不可分

：主流 AI 是”先感知后行动”；enactive 说感知本身就是一种行动。世界模型的争议全挂在这一节，下面细讲。

自主性（Autonomy）

：用两个问题切——agent 能不能自评？成功标准是它自己长出来的，还是外部塞给它的？LLM 两条都不行；控制系统能连续自评但目标外部设定；RL 能跨整条轨迹评估（“这行为带来的长期后果好不好”），但 reward 函数仍是外部给的。没有一个达到”规范性（normativity）从 agent 自我维持中自然涌现”。记住 normativity 这个词，它是后面所有判断的根。

具身（Embodiment）

：身体不是事后接上的外设，是感知得以可能的前提条件。主流 AI 是无身体的、静态数据上的模式识别。四节读下来，论文的核心姿态很清楚：RL 在结构上比 LLM/监督学习更接近真正的认知——它让 agent 自己产生经验、把行动放在学习的中心、有了跨时间的评估。但 RL 也只是”接近”，远没到位：评估标准还是外部 reward 塞的，感知还是被当成行动的前置，具身还是被当成实现细节。而被它点名批得最直接的，是视频生成。

论文那个例子：一个学会了红绿灯规律的系统，能准确预测红黄绿的顺序，但这只是在”追踪规律”，不是”理解这个顺序可以被怎样改变”。灯坏了、被打断了、需要疏导交通了——它没有任何东西可以依靠。生成式视频模型能续一个模式；enactive 系统能在模式断裂时决定下一步做什么。

记住这条线：续规律 vs. 规律崩了之后决定怎么办。

接下来我要拿 Matrix-Game 3.0 去对照这条线。动手之前，有一个口径必须先讲清楚，不然容易误会。Sutton 这篇论文里，从头到尾没提过 Matrix-Game，也没提任何 2026 年的模型——他批的对象写的是”视频生成系统”，他引用的世界模型定义还是 2018 年 Ha & Schmidhuber 那篇老的。更有意思的是：在第 3 节里，他其实把”world models（Ha & Schmidhuber, 2018）“列在了好的一边，说它们捕捉了行动 - 感知耦合。所以下面这套——“Matrix-Game 的自我修正修向分布而不是修向 stake""它骑在论文自己划的缝上”——是我基于实战推出来的论证，不是 Sutton 的结论。论文说的是 A（视频生成只会续规律），我接着往下推的是 B（一个主打自我修正的交互式世界模型，到底跨没跨过那条线）。把这层分清楚，既不冤枉 Sutton，也才看得出这篇文章比单纯导读多想的那一层在哪。

Matrix-Game 3.0 是 Skywork 三月底开源的交互式世界模型。我去把它的架构和我自己跑的体感对齐了一下。

它的底子是 Wan2.2-TI2V-5B 这个视频扩散骨架，在前 15 个 DiT block 里注入鼠标键盘的 action 条件，能做到 720p、40 FPS 的实时流式生成，分钟级长程保持一致。换句话说，它不是Sora 那种纯被动的文生视频——它吃你的操作，你按一下，它生成下一帧。从这个角度看，action 确实进来了，它看起来已经站在了”行动 - 感知耦合”的好的一边。它真正的招牌贡献，是一套叫error collection & injection的东西。训练时它把预测残差 δ = x̂ − x 收进一个 error buffer，再主动往输入里注入扰动 x̃ = x + γδ，去模拟”不完美的条件输入”，目的写得明明白白：让模型在长程自回归 rollout 里学会自我修正，弥合”干净数据训练”和”带噪声的自回归推理”之间的差距。读到这我就乐了。Sutton 说视频模型”模式断裂时没东西可 fallback”，而这个模型的头号卖点，字面意思就是”模式断裂时的自我修正机制”。两边用的是同一个词。但把它跑起来、再回头看这套机制的目标函数，事情就反转了。它的自我修正，是修向训练分布的。error buffer 干的事，是当生成帧开始漂移、累积误差、变得不像干净数据时，把它拉回”看起来像训练数据该有的样子”。它修正的目标是视觉上可信。你在里面做一件训练分布里没有的事——把镜头怼到一个它从没见过的角度、做一个物理上不可能的动作——它不会”诊断出哪里不对、然后介入改变局面”，它会编一个看起来合理的下一帧把你糊弄过去。它在做梦，不是在排查。这就是 Sutton 那句”不在准不准，在种类”的实证。Matrix-Game 的”修正”和 enactive 的”修正”，是两种东西：：朝着训练分布修。目标 = 让画面继续可信。在乎的是”像不像”。

enactive agent：朝着自身的目标和存续修。目标 = 利害（normativity）。在乎的是”是不是”。红绿灯坏了我要介入，是因为撞车这件事对我有后果。差别的根，在于stake（利害）。Matrix-Game 对自己生成出来的世界没有任何利害关系——下一帧是真是假、那辆车撞不撞，它毫不在意，它只在意像不像。它的 self-correction 是为了”看起来对”，不是为了”真的对”。action conditioning 和 error buffer 让它看起来跨过了那条线。功能上它没跨过去——它只是把”续规律”这件事，在噪声下做得更稳了。它把模式续得更长、更不容易崩；但它续的，依然是模式。

这是只有摸过这个具体模型的人才会注意到的一点，也再次声明——这是我的观察，不是 Sutton 的话。前面说了，论文第 3 节把”world models（Ha & Schmidhuber, 2018）“列在好的一边（行动 - 感知耦合），却在同一节把”生成式视频模型”摁在坏的一边（只会续规律）。Matrix-Game 3.0 偏偏骑在这道缝上。它架构上是个视频扩散模型（Wan2.2 骨架，坏的一边），功能上是 action-conditioned 的世界模型（Ha-Schmidhuber 那一脉，好的一边）。它同时是这条线的两边。那这条线到底该画在哪？我自己的答案，被实战定死了：判据不是”action 进没进来”，是”修正修向哪里”。action 进来了不代表行动和感知就不可分了——只要它的修正依然修向数据分布、而不是修向某个 agent 自己的目标，它就还在坏的一边，只是穿了好的一边的衣服。（这里我得守住边界：我说的是”它和 enactive agent 不是一个种类”，不是”世界模型啥都不懂、不懂物理”。后者是个会被 benchmark 一巴掌打回来的强断言。Matrix-Game 把物理规律续得相当好——它缺的不是准确度，是 stake。）

Sutton 在论文最后自己抛了几个开放问题，其中一个是：AI 的”具身”到底算什么——一个机器人身体，还是一个带工具和 API 的软件 agent？这个问题对我不抽象。我每天在做的，就是让 agent 去调用算力、调用工具、用 A2A 协议互相调。如果”带 API 的软件 agent”也算一种具身，那 Matrix-Game 缺的就不是身体——它有输入、有输出、有跟你交互的回路。它缺的是那个更深的东西：会不会因为结果对自己有利害，而去改变局面，而不只是把画面续下去。也许真正的分界从来不是”有没有身体”，而是”有没有 stake”。一个会自我修正的模型，和一个会因为在意结果而修正自己的 agent，中间隔的不是一个版本号，是一整个种类。世界模型已经学会了把模式续得很长、很稳、很可信。下一个问题是：它什么时候会开始在意自己续出来的是不是真的。你觉得呢——一个永远只在乎”像不像”、从不在乎”是不是”的系统，能不能算”懂”？

世界模型会"自我修正"了，但它修的是画面，不是局面

经验（Experience）

行动 - 感知不可分

自主性（Autonomy）

具身（Embodiment）

准备好开始您的 AI 之旅了吗？