大模型云服务产品已上线!一键接入DeepSeek-V4、Kimi-K2.6等海量模型,按量计费,稳定易用, 立即体验
共绩算力

世界模型的六月:一笔融资、一个开源模型,和一场算力站队

2026年6月18日
"世界模型的六月:一笔融资、一个开源模型,和一场算力站队"
Shiyuh
Shiyuh
技术传道者/AI 应用落地

时间来到 2026 年年中,世界模型 (World Model) 依然是 AI 领域最受关注的方向之一。刚刚过去的六月格外热闹:海外这边,一家创业公司完成了大额融资、英伟达开源了新一代世界基础模型;国内这边,阿里和昆仑万维也几乎同期亮出了自己的具身与世界模型成果。把这些事拼在一起,透露出一个比模型本身更值得注意的趋势——围绕世界模型的竞争,正在从”谁的模型更强”延伸到”谁的算力更合适、谁的生态更开放”。

下面把这个月的几条关键动态梳理一遍。先用一张时间线快速导览:

下文按事件的重要性、而非时间顺序展开。

Odyssey 完成 3.1 亿美元 B 轮,估值 14.5 亿美元

6 月 17 日,专注实时世界模型的创业公司 Odyssey 宣布完成 3.1 亿美元 B 轮融资,投后估值 14.5 亿美元。本轮由 Natural Capital 领投,亚马逊、AMD Ventures、Google 旗下 GV、EQT 以及与情报机构关联的基金 In-Q-Tel 等参与。

更值得关注的是投资方的变化。四个月前,英伟达的风投部门 NVentures 还参与了 Odyssey 的 A 轮;而在这次 B 轮中,英伟达没有出现。取而代之的是英伟达的芯片竞争对手 AMD Ventures,以及亚马逊——后者还将 AWS 设为 Odyssey 的首选云平台,并提供自研的 Trainium 芯片。

Trainium 是亚马逊面向大规模训练与推理设计的自研芯片,定位是对英伟达 GPU 的替代。世界模型需要实时模拟持续存在、物理自洽的环境,对算力吞吐和延迟约束都非常苛刻,这类负载正是各家自研芯片想要争取的场景。

Odyssey 由自动驾驶行业出身的 Oliver Cameron 和 Jeff Hawke 创立,团队约 55 人,分布在帕洛阿尔托、伦敦和苏黎世,成员来自 DeepMind、特斯拉、Waymo、苹果和 Wayve。公司近期的研究成果包括用于物理仿真的 Odyssey-2 Max、实时多模态世界模型 Starchild-1、支持多智能体共享仿真的 Agora-1,以及探索主动学习的 PROWL。CEO Cameron 表示,这轮融资将帮助团队推进通用世界模型,争取实现这个领域的”GPT-3 时刻”。

英伟达发布并开源 Cosmos 3

6 月 1 日,在 GTC Taipei 上,英伟达发布了新一代世界基础模型 Cosmos 3,并以开源形式放出。

与此前 Cosmos 系列把理解、生成、动作分散在不同模型中不同,Cosmos 3 采用混合 Transformer(Mixture-of-Transformers) 架构,把三件事统一进一个模型。它由两个部分组成:负责理解和规划的 Reasoner(自回归视觉语言模型),以及负责生成物理感知视频、声音和动作的 Generator(扩散路径)。信息从 Reasoner 单向流向 Generator,即”先理解,再生成”。

几个对部署和落地比较重要的细节:

值得一提的是,英伟达的旗舰世界模型选择了阿里的开源 Qwen3-VL 作为底座。同时,英伟达还联合 Agile Robots、Black Forest Labs、Runway、Skild AI 等成立了 Cosmos Coalition,推动开源世界模型的协作。对于需要在自有平台上部署、二次开发世界模型的团队来说,一个开源、且自带具身动作接口的模型,是相当实际的基础设施。

阿里发布 Qwen-RobotSuite,把世界模型放进具身套件

六月中旬,阿里发布了首套面向物理机器人的具身 AI 模型组合 Qwen-RobotSuite,由三个独立的基础模型组成,分别处理操作、世界建模和导航三类问题,都构建在 Qwen 的视觉语言底座上。

其中和世界模型直接相关的是 Qwen-RobotWorld:一个以自然语言为统一动作接口的视频世界模型,从当前观测出发,预测物理上合理的未来视觉轨迹,覆盖机器人操作、自动驾驶、室内导航和人到机器人的迁移等场景。它采用 60 层 MMDiT 架构,搭配一个冻结的 Qwen2.5-VL 编码器,官方称其在 EWMBench 和 DreamGen Bench 两个基准上综合排名第一。它的三个主要用途也很清晰:为策略训练生成合成数据、作为可规模化的策略评估虚拟环境,以及为下游机器人控制提供语言引导的规划信号。

另外两个分别是用于操作的 Qwen-RobotManip(基于 Qwen3.5-4B,把异构机器人数据统一成一个 80 维动作向量,在 RoboChallenge 相关榜单上居首) 和用于导航的 Qwen-RobotNav(基于 Qwen3-VL,提供 2B / 4B / 8B 三个尺寸)。需要注意的是,这三者中 RobotManip 和 RobotNav 提供了公开的 GitHub 仓库,而 RobotWorld 目前只以研究论文的形式发布。

智源大会聚焦世界模型,Matrix-Game 3.5 提前披露

6 月 12—13 日,第八届智源大会在北京举行,世界模型是本届最受关注的议题之一,来自具身智能、机器人控制、游戏引擎、物理 AI 基础设施等方向的研究者各自给出了技术路线。

会上,昆仑万维旗下 Skywork 首席科学家刘扬在世界模型分论坛首次系统披露了 Matrix-Game 3.5 的核心技术突破。相比今年 3 月发布、以 5B 蒸馏模型实现 720P@40FPS 实时生成、采用 MIT 许可开源的 Matrix-Game 3.0,3.5 的最大变化是从游戏场景向真实场景全面扩展,支持多风格动态切换与指令控制,并引入了 NPC 交互能力,同时升级了长时记忆。据介绍,Matrix-Game 3.5 计划于 2026 年 7 月正式发布,团队近期还会放出包含更多技术细节的报告。

刘扬在演讲中也提出了一个值得记录的判断:他认为”状态预测”和”动作生成”应当联合训练,而不是分开处理——一个更完整的世界模型,是对状态与动作的联合理解与联合生成,而非单向地”观测世界、预测下一帧”。这与英伟达 Cosmos 3 把理解、生成、动作统一进一个模型的思路,在方向上不谋而合。

整个赛道:资本仍在快速涌入

把今年以来的几笔融资放在一起,可以看出资金正在向这个方向集中:Runway 在二月完成 3.15 亿美元融资,估值达到 53 亿美元;Yann LeCun 创办的 AMI Labs 在三月融资逾 10 亿美元,产品尚未发布;Decart.ai 融资 3 亿美元,开发 Lucy 和 Oasis 两个世界模型;李飞飞的 World Labs 推出了 Marble;Google DeepMind 的 Genie 已在 Waymo 内部使用。Fortune 六七月刊更是直接以”AI 的下一个前沿从词语走向世界模型”作为封面主题。

不过,行业内也有更冷静的声音。今年五月一篇流传较广的调研指出,“世界模型”已经成为 2026 年被使用得最宽泛的概念之一——arXiv 上相当比例的视频生成论文都会在标题里冠以 “World Model”,但各家对它的定义并不一致。同时,长程一致性、物理理解、开放世界泛化等核心难题仍未真正解决。换句话说,热度和技术成熟度之间,目前还有不小的差距。

小结

把六月的这几件事放在一起看,指向同一个判断:世界模型正在被资本和大厂当作”下一类基础模型”来对待,竞争也随之外溢到了两个层面——算力和生态。

算力这一层,Odyssey 在 A 轮之后转向 AMD 和 AWS Trainium,英伟达则用开源 Cosmos 3 巩固自己在物理 AI 生态中的位置,双方都在围绕”这类高强度负载用什么算力跑”做布局。生态这一层,从英伟达的 Cosmos 3、阿里的 Qwen-RobotSuite,到即将开源的 Matrix-Game 3.5,可以看到越来越多团队选择把世界模型以开源、可部署的形式放出来——而且其中多个都构建在 Qwen 这样的国产开源底座之上。

准备好开始您的 AI 之旅了吗?

读完这篇文章,想必您对 AI 技术有了更深的了解。现在就来体验共绩算力,让您的想法快速变成现实。

✓ 已有 10 万 + 开发者在使用

✓ 99.9% 服务可用性

✓ 开箱即用的容器托管