如果你在近 60 天里尝试过高规格 GPU 算力申请,多半已经感到「规则变了」:H100 难订,B200 在各家的可订窗口都偏紧,长租合约单价相较 2025 年 10 月左右普遍抬升约 四成,全行业 按需(on-demand)剩余容量 也变得少见。
作者认为,这并非短期波动,而是 AI 基础设施市场进入供给超长周期(supply supercycle) 的信号——团队需要用新的方式思考 算力策略。
推高「紧缺」的三条结构性力量
当前缺口并非单一事件,而是 三类供给约束同时撞在一起:
1)NAND / 存储与存储器产线的「换乘」
2023 年前后,主要 NAND 厂商经历过一轮痛苦的 疫情后供给过剩,一度伴随产线关停与稼动率调整。近两三年,产线大量 改造以转向 HBM3——而 HBM3 又成为 AI 加速器的关键需求来源。
改造完成后,客观上 挤占了传统 NAND 与部分 DRAM 产能。到今天,存储器侧往往成为 GPU 制造链条上的「卡脖子」环节。
2)超大规模云厂商的「长线包厂」
微软、Meta、Google 等 hyperscaler 不仅在买 GPU,还在 提前锁定 3 年以上的工厂产出承诺。其运营逻辑直白:只要产得出来,就会被我吃完。
留给 独立云厂商、新一代云(neocloud)、以及大量企业自采 的,往往是 余下的那一截弹性。
3)英伟达架构换代带来的「空窗」
Hopper(H100/H200) 与 Ada Lovelace 条线进入停产/收缩,为 Blackwell(B200 等) 让路。市场上 难以再稳定拿到「增量 Hopper」大单;而 Blackwell 爬坡 需要时间,装机基座切换 会在全行业制造一段 结构性缺口。
三件事叠加的结果是:GPU 租赁与云算力市场正在从 买方友好 转向 供给方握有定价权,且 短期难以扭回。
数据在说什么?
基于 183 个国家 开发者的匿名平台数据,刻画需求侧变化。核心判断是:需求加速度高于此前预测。
值得关注的几条现象级描述(均为原文口径、需结合你自己的业务验证):
- B200 使用量在 2025 年量级增长约 25 倍;
- vLLM 已支撑其平台上约 40% 的 LLM 推理端点——反映行业向 高吞吐、持续算力消耗型 推理服务迁移;
- 约 70% 的视频生成类端点包含 超分辨率或增强阶段——单请求的算力密度 上升而非下降;
- 模型版图 快速分化:Qwen 超过 Llama,成为部署量最大的开源 LLM 之一;用例从蛋白质结构、机器人运动学到实时编程助手等跨度极大。
结论:AI 负载不再是「实验室玩具」,而是 生产级基础设施;而生产级基础设施需要 可预期、可扩容的算力,这正是全球供应链 未曾按此规模设计 的地方。
SemiAnalysis 等机构对 GPU 租赁市场 的拆解也与宏观叙事一致:H100 合约价 从 去年 10 月约 $1.70/GPU·小时 抬到 2026 年 3 月约 $2.35/GPU·小时;大额成交更多发生在 合约市场 而非瞬时现货;全行业从「卷低价」过渡到 更强的定价能力:短合约被压低优先级或改为 可抢占,预付/预付款块变常见,容量块往往绑定承诺消费。
看向更下一代散热与土建
文中还提到:英伟达下一代 Vera Rubin 架构(原文写作“Vera Ruben”,业界多对应“Vera Rubin”) 会把 散热复杂度再抬一档——高密度平台往往需要 液冷,数据中心要么上 集中管路,要么在机架级部署 CRAC/制冷能力。美国大量机房由 旧电信局站 改造而来,承重与液冷改造 并非默认选项,可承载 Vera Rubin 级机柜 的 可用不动产 可能进一步紧张。
一句话:「便宜、充沛的按需高端 GPU」时代,至少暂时按下了暂停键。
对 AI 建设者意味着什么?
1)容量规划从「可选项」变成「必答题」
对 H100 / H200 / B200 / B300 档需求,按小时临时扩容 的空间在收窄;更现实的节奏是 按周、按月 乃至更长的排期。把算力采购当「顺手点一下」的团队,会先撞到 扩容天花板。
2)「能跨多种 GPU 跑」是真正的护城河
供应链向 数据中心级 SKU(如 RTX PRO 6000、B200、B300)倾斜时,新卡放量往往更快;而 上一代/过渡代(如 H200)在停产叙事下反而可能 越来越难拿。流水线若 绑死单一卡型,暴露在 拿不到货 与 价格波动 上的风险最大。
3)训练/推理效率 = 成本控制力的核心
涨价环境下,量化、投机解码(speculative decoding)、批调度、框架选型(vLLM、SGLang 等) 不再是「锦上添花」,而是决定 单机经济模型是否成立。平台上最成熟的团队仅靠 Serving 优化 就能在同一硬件上多榨出 约 2~3 倍吞吐——这类差距会在账单上直接被放大。
4)Serverless 在高价 GPU 周期里更吃香
显卡贵且稀缺时,为空闲 GPU 付钱就更亏。缩到零(scale-to-zero) 的推理形态,更符合 突发型(bursty) 负载:图像生成、视频链路、离线批推理等。
5)承诺容量换更好条款
行业普遍通过 长约/承诺用量 换 更低单价与更可预期的配额;纯 现货池 跑 生产核心业务 的风险在上升——除非你明确接受 可被抢占与中断成本。
供给侧在如何回应?
- Blackwell 供给:文中引用行业预期,到 2026 年中前后 Blackwell 供给有望接近翻两番(约为原先四倍量级)——具体以供应链通报为准;
- 新数据中心:全球各家 新机柜与电力陆续上线;
作者强调:堆卡量不是唯一答案。平台侧把 Pod 初始化失败率压低约 94%(文中数据)等价于让更多时间花在干活而不是重试。更快的周转、更聪明的调度分配、以及对开发者「从想法到上线」链路的投资,在供给紧缺周期里会直接变成 经济杠杆。文中将其与 Flash(Docker-free serverless SDK)、Serverless Private Pools 等产品叙事挂钩,并预告 2026 Q2 将有更多围绕 GPU 利用效率 的能力发布。
更大图景
GPU 紧缺在某种程度上反而是 AI 生态变健康 的信号:负载从实验室走向生产、推理增速超过旧预测、基础设施市场做实且仍在变大。
但同时也意味着:选谁家的云、用哪条路线上线、如何做架构拆分,会直接决定你能不能 在这段周期里稳定扩容,还是永远在 排队等容量。