时间来到 2026 年年中，世界模型 (World Model) 依然是 AI 领域最受关注的方向之一。刚刚过去的六月格外热闹：海外这边，一家创业公司完成了大额融资、英伟达开源了新一代世界基础模型;国内这边，阿里和昆仑万维也几乎同期亮出了自己的具身与世界模型成果。把这些事拼在一起，透露出一个比模型本身更值得注意的趋势——围绕世界模型的竞争，正在从”谁的模型更强”延伸到”谁的算力更合适、谁的生态更开放”。

下面把这个月的几条关键动态梳理一遍。先用一张时间线快速导览：

下文按事件的重要性、而非时间顺序展开。

Odyssey 完成 3.1 亿美元 B 轮，估值 14.5 亿美元

6 月 17 日，专注实时世界模型的创业公司 Odyssey 宣布完成 3.1 亿美元 B 轮融资，投后估值 14.5 亿美元。本轮由 Natural Capital 领投，亚马逊、AMD Ventures、Google 旗下 GV、EQT 以及与情报机构关联的基金 In-Q-Tel 等参与。

更值得关注的是投资方的变化。四个月前，英伟达的风投部门 NVentures 还参与了 Odyssey 的 A 轮;而在这次 B 轮中，英伟达没有出现。取而代之的是英伟达的芯片竞争对手 AMD Ventures，以及亚马逊——后者还将 AWS 设为 Odyssey 的首选云平台，并提供自研的 Trainium 芯片。

Trainium 是亚马逊面向大规模训练与推理设计的自研芯片，定位是对英伟达 GPU 的替代。世界模型需要实时模拟持续存在、物理自洽的环境，对算力吞吐和延迟约束都非常苛刻，这类负载正是各家自研芯片想要争取的场景。

Odyssey 由自动驾驶行业出身的 Oliver Cameron 和 Jeff Hawke 创立，团队约 55 人，分布在帕洛阿尔托、伦敦和苏黎世，成员来自 DeepMind、特斯拉、Waymo、苹果和 Wayve。公司近期的研究成果包括用于物理仿真的 Odyssey-2 Max、实时多模态世界模型 Starchild-1、支持多智能体共享仿真的 Agora-1，以及探索主动学习的 PROWL。CEO Cameron 表示，这轮融资将帮助团队推进通用世界模型，争取实现这个领域的”GPT-3 时刻”。

英伟达发布并开源 Cosmos 3

6 月 1 日，在 GTC Taipei 上，英伟达发布了新一代世界基础模型 Cosmos 3，并以开源形式放出。

与此前 Cosmos 系列把理解、生成、动作分散在不同模型中不同，Cosmos 3 采用混合 Transformer(Mixture-of-Transformers) 架构，把三件事统一进一个模型。它由两个部分组成：负责理解和规划的 Reasoner(自回归视觉语言模型),以及负责生成物理感知视频、声音和动作的 Generator(扩散路径)。信息从 Reasoner 单向流向 Generator，即”先理解，再生成”。

几个对部署和落地比较重要的细节：

模型分档:Cosmos3-Super(约 64B，基于阿里 Qwen3-VL 32B 初始化)、Cosmos3-Nano(同样基于 Qwen3-VL),以及计划后续发布的端侧 Cosmos3-Edge(4B)。
生成能力：支持 256p / 480p / 720p，帧数 5 到 300、默认 189 帧，约相当于 24 FPS 下 7.9 秒视频;音频为 48kHz 立体声。
动作条件：覆盖相机、车辆、第一视角、单臂、双臂、人形等多种具身形态，可直接用于机器人和自动驾驶的策略训练。
开放程度：权重以 OpenMDW-1.1 许可放出，发布后数日 GitHub 星标已达约 8.7k。

值得一提的是，英伟达的旗舰世界模型选择了阿里的开源 Qwen3-VL 作为底座。同时，英伟达还联合 Agile Robots、Black Forest Labs、Runway、Skild AI 等成立了 Cosmos Coalition，推动开源世界模型的协作。对于需要在自有平台上部署、二次开发世界模型的团队来说，一个开源、且自带具身动作接口的模型，是相当实际的基础设施。

阿里发布 Qwen-RobotSuite，把世界模型放进具身套件

六月中旬，阿里发布了首套面向物理机器人的具身 AI 模型组合 Qwen-RobotSuite，由三个独立的基础模型组成，分别处理操作、世界建模和导航三类问题，都构建在 Qwen 的视觉语言底座上。

其中和世界模型直接相关的是 Qwen-RobotWorld:一个以自然语言为统一动作接口的视频世界模型，从当前观测出发，预测物理上合理的未来视觉轨迹，覆盖机器人操作、自动驾驶、室内导航和人到机器人的迁移等场景。它采用 60 层 MMDiT 架构，搭配一个冻结的 Qwen2.5-VL 编码器，官方称其在 EWMBench 和 DreamGen Bench 两个基准上综合排名第一。它的三个主要用途也很清晰：为策略训练生成合成数据、作为可规模化的策略评估虚拟环境，以及为下游机器人控制提供语言引导的规划信号。

另外两个分别是用于操作的 Qwen-RobotManip(基于 Qwen3.5-4B，把异构机器人数据统一成一个 80 维动作向量，在 RoboChallenge 相关榜单上居首) 和用于导航的 Qwen-RobotNav(基于 Qwen3-VL，提供 2B / 4B / 8B 三个尺寸)。需要注意的是，这三者中 RobotManip 和 RobotNav 提供了公开的 GitHub 仓库，而 RobotWorld 目前只以研究论文的形式发布。

智源大会聚焦世界模型，Matrix-Game 3.5 提前披露

6 月 12—13 日，第八届智源大会在北京举行，世界模型是本届最受关注的议题之一，来自具身智能、机器人控制、游戏引擎、物理 AI 基础设施等方向的研究者各自给出了技术路线。

会上，昆仑万维旗下 Skywork 首席科学家刘扬在世界模型分论坛首次系统披露了 Matrix-Game 3.5 的核心技术突破。相比今年 3 月发布、以 5B 蒸馏模型实现 720P@40FPS 实时生成、采用 MIT 许可开源的 Matrix-Game 3.0,3.5 的最大变化是从游戏场景向真实场景全面扩展，支持多风格动态切换与指令控制，并引入了 NPC 交互能力，同时升级了长时记忆。据介绍，Matrix-Game 3.5 计划于 2026 年 7 月正式发布，团队近期还会放出包含更多技术细节的报告。

刘扬在演讲中也提出了一个值得记录的判断：他认为”状态预测”和”动作生成”应当联合训练，而不是分开处理——一个更完整的世界模型，是对状态与动作的联合理解与联合生成，而非单向地”观测世界、预测下一帧”。这与英伟达 Cosmos 3 把理解、生成、动作统一进一个模型的思路，在方向上不谋而合。

整个赛道：资本仍在快速涌入

把今年以来的几笔融资放在一起，可以看出资金正在向这个方向集中:Runway 在二月完成 3.15 亿美元融资，估值达到 53 亿美元;Yann LeCun 创办的 AMI Labs 在三月融资逾 10 亿美元，产品尚未发布;Decart.ai 融资 3 亿美元，开发 Lucy 和 Oasis 两个世界模型;李飞飞的 World Labs 推出了 Marble;Google DeepMind 的 Genie 已在 Waymo 内部使用。Fortune 六七月刊更是直接以”AI 的下一个前沿从词语走向世界模型”作为封面主题。

不过，行业内也有更冷静的声音。今年五月一篇流传较广的调研指出，“世界模型”已经成为 2026 年被使用得最宽泛的概念之一——arXiv 上相当比例的视频生成论文都会在标题里冠以 “World Model”,但各家对它的定义并不一致。同时，长程一致性、物理理解、开放世界泛化等核心难题仍未真正解决。换句话说，热度和技术成熟度之间，目前还有不小的差距。

小结

把六月的这几件事放在一起看，指向同一个判断：世界模型正在被资本和大厂当作”下一类基础模型”来对待，竞争也随之外溢到了两个层面——算力和生态。

算力这一层，Odyssey 在 A 轮之后转向 AMD 和 AWS Trainium，英伟达则用开源 Cosmos 3 巩固自己在物理 AI 生态中的位置，双方都在围绕”这类高强度负载用什么算力跑”做布局。生态这一层，从英伟达的 Cosmos 3、阿里的 Qwen-RobotSuite，到即将开源的 Matrix-Game 3.5，可以看到越来越多团队选择把世界模型以开源、可部署的形式放出来——而且其中多个都构建在 Qwen 这样的国产开源底座之上。

世界模型的六月：一笔融资、一个开源模型，和一场算力站队

Odyssey 完成 3.1 亿美元 B 轮，估值 14.5 亿美元

英伟达发布并开源 Cosmos 3

阿里发布 Qwen-RobotSuite，把世界模型放进具身套件

智源大会聚焦世界模型，Matrix-Game 3.5 提前披露

整个赛道：资本仍在快速涌入

小结

准备好开始您的 AI 之旅了吗？