2026年最火的世界模型,剧本三年前就写好了
最近世界模型有多火,不用我多说了。李飞飞下场创业,Google 的 Genie 把实时交互世界玩出花,国内 Matrix-Game 这类开源项目一个接一个。我自己在公司是干什么的呢,研究模型部署镜像的。最近打的全是世界模型,打到手软。打包的间隙,我突然冒出一个念头:这波热潮,源头到底在哪?于是我顺着...
探索前沿技术,分享实践经验,追踪行业动态
--- 一、第一性原理:世界模型和 LLM 到底差在哪 搜索"世界模型",会看到一长串互相矛盾的定义:有人说它是视频生成模型,有人说它是自动驾驶仿真器,有人把它和 AGI 划等号,有人觉得它是新瓶装旧酒。我们先把它的边界划清楚。 一句话定义:世界模型是给定"当前观测 + 即将执行的动作",预测"下一...
6 月 4 日,李飞飞和 World Labs 团队发了一篇新文章。 开头第一句话就很狠: "The world is not made of words."(世界不是由词语构成的。) 这是去年 11 月那篇《From Words to Worlds》的续篇。上一篇讲的是"空间智能是 AI 的下一个...
半个月前,Richard Sutton——强化学习的那个 Sutton,2024 年图灵奖得主——和 Banafsheh Rafiee 合写挂了一篇论文,《Toward Enactive Artificial Intelligence》(arXiv 2605.24238,5 月 22 日)。没有模...
信号 1:中国 AI 视频生成完成"从模型秀到工作流嵌入"的跃迁 2024-2025 年,可灵、Sora、Runway、Pika 还在"卷参数、卷 demo、卷哪个生成的 5 秒镜头最像样"。2026 年的关键词变了:工作流嵌入。 可灵这次戛纳发布的措辞很微妙——"AI is entering r...
> 一个 Agent 跟你说"任务完成"的时候,你信吗? > 当一个 LLM 评测榜单上某个 Agent 拿了 85 分,你想过它可能"三次里只成功一次"吗? > Claw-Eval 是 ModelScope 团队新开源的端到端 Agent 评测框架,300 个人工验证任务,从完成度、安全性、鲁棒性...
「技能」(skill)正在成为 Agent 系统里一个越来越关键的抽象:它把能力从庞大的模型权重里解耦出来,封装成可执行的代码、操作流程或领域指令,让 Agent 能像搭积木一样组合调用。逻辑上,这是 Agent 持续变强的天然路径——它应该能自己造技能、自己存、自己挑、自己改,而不必每一步都等人来...
大学毕业之后,想凑齐八到十二个人打一局完整的狼人杀,几乎成了奢侈。可这游戏真正迷人的地方,从来不只是社交本身——而是那套逻辑推演、话术博弈,以及在只言片语里反复确认谁在说谎的过程。 Wolfcha 想还原的,正是后面这部分。 它的设定很简单:一桌人里只有你是真人,其余七到十一个座位,全部交给大语言模...
2026 年 5 月,OpenAI 宣布它的一个内部模型,反驳了离散几何领域一个悬置了近 80 年的猜想。 这个问题本身简单得惊人。1946 年,数学家 Erdős 提出了"单位距离问题":在平面上放 n 个点,最多能有多少对点之间的距离恰好等于 1?近 80 年里,数学界普遍相信,规整的方形网格...
> 这是上面那套漫画的正文。漫画里阿哲的那一晚,我想很多带过团队的人都熟。下面把那晚背后的事,讲透一点。 做技术负责人的人,都有过阿哲那一晚。 大促前夜,监控大屏上那条流量曲线开始往上翘。你盯着它,手心冒汗,脑子里只有一个念头:这波别崩。 崩了,老板第一个找你;不崩,也没人记得你熬了通宵。 这是这...
红杉的 xbench 放了份测评,让 AI 去药企当"科研实习生",从头到尾做一遍真实的数据分析。 结果很炸:最强的 AI 拿了 73 分,把人类实习生 40 到 50 分的平均线甩在了后面。 这两天的解读,标题全是"AI 超过人类科学家"。 我也认真读了。然后我想说一句可能不太讨喜的话—— 那个...
做 AI 的人都有个习惯动作:要跑个活,先去租台 GPU。 租一台 4090,按小时计费,开机,跑任务,跑完……记得关机。 就这最后一步,我栽过太多次。 有一次跑一批图,半夜跑完,我睡了。第二天中午想起来——那台卡空转了 12 个小时,啥也没干,钱照烧。 后来我研究了一下共绩算力那个 Job 批处...
哈喽,我是时雨。 天天在公司用 Claude 做产品。 写 PRD、跑 Eval、调 Prompt、部署模型、push 镜像、改 Skill—— 基本上一天 8 小时都在和它对话。 上周加完班,凌晨两点刷到 Anthropic 自己出的《AI 原生创业手册》。 本来想随便扫一眼睡觉,结果越看越坐直—...
跑模型、做训练,你是否也经历过这样的"算力焦虑"? 机器 24 小时开着,业务高峰期急需扩容,却发现一卡难求,任务只能排队苦等; 业务低谷期,算力闲置空转,看着云服务商的账单,总感觉在为大量的"无用时间"买单; 想要提前锁定资源,又担心一次性投入太大,最后利用率不高,成本难以收回…… 这就像你为了...
在 AI 时代做产品经理,有一层反讽:我的工作反而比以往更像「人在做事」。 产品管理从来不是纯「码字写方案」,而是在 手工艺(craft)与 对齐(alignment)之间拉扯。作者在文中回忆,很长一段时间里她的周议程被后者占满:跨职能会议、对齐、状态汇报、以及和工程一起看 backlog。凭直觉很...
只有当对话节奏逼近 人类说话的自然节拍 时,语音 AI 才会「好听、好用」。网络一旦在中间插一脚,人类会立刻听成:尴尬停顿、抢话不完整、打断(barge-in)变慢。这对 ChatGPT 语音模式、使用 Realtime API 的开发者、交互式 Agent 流水线,以及「边听边推理」的模型形式都成...
如果你在近 60 天里尝试过高规格 GPU 算力申请,多半已经感到「规则变了」:H100 难订,B200 在各家的可订窗口都偏紧,长租合约单价相较 2025 年 10 月左右普遍抬升约 四成,全行业 按需(on-demand)剩余容量 也变得少见。 作者认为,这并非短期波动,而是 AI 基础设施市场...
不少团队不仅把 Automatic1111(AUTOMATIC1111 stable-diffusion-webui)当图形界面用,还直接把它当 HTTP API 层。在这种架构上扩缩容时,冷启动少几秒往往就是少付几轮排队与超时——如果你正在压 A1111 的安装与启动时间,下面的两条 Docker...
