时间来到 2026 年年中,世界模型 (World Model) 依然是 AI 领域最受关注的方向之一。刚刚过去的六月格外热闹:海外这边,一家创业公司完成了大额融资、英伟达开源了新一代世界基础模型;国内这边,阿里和昆仑万维也几乎同期亮出了自己的具身与世界模型成果。把这些事拼在一起,透露出一个比模型本身更值得注意的趋势——围绕世界模型的竞争,正在从”谁的模型更强”延伸到”谁的算力更合适、谁的生态更开放”。
下面把这个月的几条关键动态梳理一遍。先用一张时间线快速导览:
下文按事件的重要性、而非时间顺序展开。
Odyssey 完成 3.1 亿美元 B 轮,估值 14.5 亿美元
6 月 17 日,专注实时世界模型的创业公司 Odyssey 宣布完成 3.1 亿美元 B 轮融资,投后估值 14.5 亿美元。本轮由 Natural Capital 领投,亚马逊、AMD Ventures、Google 旗下 GV、EQT 以及与情报机构关联的基金 In-Q-Tel 等参与。
更值得关注的是投资方的变化。四个月前,英伟达的风投部门 NVentures 还参与了 Odyssey 的 A 轮;而在这次 B 轮中,英伟达没有出现。取而代之的是英伟达的芯片竞争对手 AMD Ventures,以及亚马逊——后者还将 AWS 设为 Odyssey 的首选云平台,并提供自研的 Trainium 芯片。
Trainium 是亚马逊面向大规模训练与推理设计的自研芯片,定位是对英伟达 GPU 的替代。世界模型需要实时模拟持续存在、物理自洽的环境,对算力吞吐和延迟约束都非常苛刻,这类负载正是各家自研芯片想要争取的场景。
Odyssey 由自动驾驶行业出身的 Oliver Cameron 和 Jeff Hawke 创立,团队约 55 人,分布在帕洛阿尔托、伦敦和苏黎世,成员来自 DeepMind、特斯拉、Waymo、苹果和 Wayve。公司近期的研究成果包括用于物理仿真的 Odyssey-2 Max、实时多模态世界模型 Starchild-1、支持多智能体共享仿真的 Agora-1,以及探索主动学习的 PROWL。CEO Cameron 表示,这轮融资将帮助团队推进通用世界模型,争取实现这个领域的”GPT-3 时刻”。
英伟达发布并开源 Cosmos 3
6 月 1 日,在 GTC Taipei 上,英伟达发布了新一代世界基础模型 Cosmos 3,并以开源形式放出。
与此前 Cosmos 系列把理解、生成、动作分散在不同模型中不同,Cosmos 3 采用混合 Transformer(Mixture-of-Transformers) 架构,把三件事统一进一个模型。它由两个部分组成:负责理解和规划的 Reasoner(自回归视觉语言模型),以及负责生成物理感知视频、声音和动作的 Generator(扩散路径)。信息从 Reasoner 单向流向 Generator,即”先理解,再生成”。
几个对部署和落地比较重要的细节:
- 模型分档:Cosmos3-Super(约 64B,基于阿里 Qwen3-VL 32B 初始化)、Cosmos3-Nano(同样基于 Qwen3-VL),以及计划后续发布的端侧 Cosmos3-Edge(4B)。
- 生成能力:支持 256p / 480p / 720p,帧数 5 到 300、默认 189 帧,约相当于 24 FPS 下 7.9 秒视频;音频为 48kHz 立体声。
- 动作条件:覆盖相机、车辆、第一视角、单臂、双臂、人形等多种具身形态,可直接用于机器人和自动驾驶的策略训练。
- 开放程度:权重以 OpenMDW-1.1 许可放出,发布后数日 GitHub 星标已达约 8.7k。
值得一提的是,英伟达的旗舰世界模型选择了阿里的开源 Qwen3-VL 作为底座。同时,英伟达还联合 Agile Robots、Black Forest Labs、Runway、Skild AI 等成立了 Cosmos Coalition,推动开源世界模型的协作。对于需要在自有平台上部署、二次开发世界模型的团队来说,一个开源、且自带具身动作接口的模型,是相当实际的基础设施。
阿里发布 Qwen-RobotSuite,把世界模型放进具身套件
六月中旬,阿里发布了首套面向物理机器人的具身 AI 模型组合 Qwen-RobotSuite,由三个独立的基础模型组成,分别处理操作、世界建模和导航三类问题,都构建在 Qwen 的视觉语言底座上。
其中和世界模型直接相关的是 Qwen-RobotWorld:一个以自然语言为统一动作接口的视频世界模型,从当前观测出发,预测物理上合理的未来视觉轨迹,覆盖机器人操作、自动驾驶、室内导航和人到机器人的迁移等场景。它采用 60 层 MMDiT 架构,搭配一个冻结的 Qwen2.5-VL 编码器,官方称其在 EWMBench 和 DreamGen Bench 两个基准上综合排名第一。它的三个主要用途也很清晰:为策略训练生成合成数据、作为可规模化的策略评估虚拟环境,以及为下游机器人控制提供语言引导的规划信号。
另外两个分别是用于操作的 Qwen-RobotManip(基于 Qwen3.5-4B,把异构机器人数据统一成一个 80 维动作向量,在 RoboChallenge 相关榜单上居首) 和用于导航的 Qwen-RobotNav(基于 Qwen3-VL,提供 2B / 4B / 8B 三个尺寸)。需要注意的是,这三者中 RobotManip 和 RobotNav 提供了公开的 GitHub 仓库,而 RobotWorld 目前只以研究论文的形式发布。
智源大会聚焦世界模型,Matrix-Game 3.5 提前披露
6 月 12—13 日,第八届智源大会在北京举行,世界模型是本届最受关注的议题之一,来自具身智能、机器人控制、游戏引擎、物理 AI 基础设施等方向的研究者各自给出了技术路线。
会上,昆仑万维旗下 Skywork 首席科学家刘扬在世界模型分论坛首次系统披露了 Matrix-Game 3.5 的核心技术突破。相比今年 3 月发布、以 5B 蒸馏模型实现 720P@40FPS 实时生成、采用 MIT 许可开源的 Matrix-Game 3.0,3.5 的最大变化是从游戏场景向真实场景全面扩展,支持多风格动态切换与指令控制,并引入了 NPC 交互能力,同时升级了长时记忆。据介绍,Matrix-Game 3.5 计划于 2026 年 7 月正式发布,团队近期还会放出包含更多技术细节的报告。
刘扬在演讲中也提出了一个值得记录的判断:他认为”状态预测”和”动作生成”应当联合训练,而不是分开处理——一个更完整的世界模型,是对状态与动作的联合理解与联合生成,而非单向地”观测世界、预测下一帧”。这与英伟达 Cosmos 3 把理解、生成、动作统一进一个模型的思路,在方向上不谋而合。
整个赛道:资本仍在快速涌入
把今年以来的几笔融资放在一起,可以看出资金正在向这个方向集中:Runway 在二月完成 3.15 亿美元融资,估值达到 53 亿美元;Yann LeCun 创办的 AMI Labs 在三月融资逾 10 亿美元,产品尚未发布;Decart.ai 融资 3 亿美元,开发 Lucy 和 Oasis 两个世界模型;李飞飞的 World Labs 推出了 Marble;Google DeepMind 的 Genie 已在 Waymo 内部使用。Fortune 六七月刊更是直接以”AI 的下一个前沿从词语走向世界模型”作为封面主题。
不过,行业内也有更冷静的声音。今年五月一篇流传较广的调研指出,“世界模型”已经成为 2026 年被使用得最宽泛的概念之一——arXiv 上相当比例的视频生成论文都会在标题里冠以 “World Model”,但各家对它的定义并不一致。同时,长程一致性、物理理解、开放世界泛化等核心难题仍未真正解决。换句话说,热度和技术成熟度之间,目前还有不小的差距。
小结
把六月的这几件事放在一起看,指向同一个判断:世界模型正在被资本和大厂当作”下一类基础模型”来对待,竞争也随之外溢到了两个层面——算力和生态。
算力这一层,Odyssey 在 A 轮之后转向 AMD 和 AWS Trainium,英伟达则用开源 Cosmos 3 巩固自己在物理 AI 生态中的位置,双方都在围绕”这类高强度负载用什么算力跑”做布局。生态这一层,从英伟达的 Cosmos 3、阿里的 Qwen-RobotSuite,到即将开源的 Matrix-Game 3.5,可以看到越来越多团队选择把世界模型以开源、可部署的形式放出来——而且其中多个都构建在 Qwen 这样的国产开源底座之上。