如果你在近 60 天里尝试过高规格 GPU 算力申请，多半已经感到「规则变了」：H100 难订，B200 在各家的可订窗口都偏紧，长租合约单价相较 2025 年 10 月左右普遍抬升约四成，全行业 按需（on-demand）剩余容量 也变得少见。

作者认为，这并非短期波动，而是 AI 基础设施市场进入供给超长周期（supply supercycle） 的信号——团队需要用新的方式思考 算力策略。

推高「紧缺」的三条结构性力量

当前缺口并非单一事件，而是 三类供给约束同时撞在一起：

1）NAND / 存储与存储器产线的「换乘」

2023 年前后，主要 NAND 厂商经历过一轮痛苦的 疫情后供给过剩，一度伴随产线关停与稼动率调整。近两三年，产线大量 改造以转向 HBM3——而 HBM3 又成为 AI 加速器的关键需求来源。

改造完成后，客观上 挤占了传统 NAND 与部分 DRAM 产能。到今天，存储器侧往往成为 GPU 制造链条上的「卡脖子」环节。

2）超大规模云厂商的「长线包厂」

微软、Meta、Google 等 hyperscaler 不仅在买 GPU，还在 提前锁定 3 年以上的工厂产出承诺。其运营逻辑直白：只要产得出来，就会被我吃完。

留给 独立云厂商、新一代云（neocloud）、以及大量企业自采 的，往往是 余下的那一截弹性。

3）英伟达架构换代带来的「空窗」

Hopper（H100/H200） 与 Ada Lovelace 条线进入停产/收缩，为 Blackwell（B200 等） 让路。市场上 难以再稳定拿到「增量 Hopper」大单；而 Blackwell 爬坡 需要时间，装机基座切换 会在全行业制造一段 结构性缺口。

三件事叠加的结果是：GPU 租赁与云算力市场正在从 买方友好 转向 供给方握有定价权，且 短期难以扭回。

数据在说什么？

基于 183 个国家 开发者的匿名平台数据，刻画需求侧变化。核心判断是：需求加速度高于此前预测。

值得关注的几条现象级描述（均为原文口径、需结合你自己的业务验证）：

B200 使用量在 2025 年量级增长约 25 倍；
vLLM 已支撑其平台上约 40% 的 LLM 推理端点——反映行业向 高吞吐、持续算力消耗型 推理服务迁移；
约 70% 的视频生成类端点包含 超分辨率或增强阶段——单请求的算力密度 上升而非下降；
模型版图 快速分化：Qwen 超过 Llama，成为部署量最大的开源 LLM 之一；用例从蛋白质结构、机器人运动学到实时编程助手等跨度极大。

结论：AI 负载不再是「实验室玩具」，而是 生产级基础设施；而生产级基础设施需要 可预期、可扩容的算力，这正是全球供应链 未曾按此规模设计 的地方。

SemiAnalysis 等机构对 GPU 租赁市场 的拆解也与宏观叙事一致：H100 合约价 从 去年 10 月约 $1.70/GPU·小时 抬到 2026 年 3 月约 $2.35/GPU·小时；大额成交更多发生在 合约市场 而非瞬时现货；全行业从「卷低价」过渡到 更强的定价能力：短合约被压低优先级或改为 可抢占，预付/预付款块变常见，容量块往往绑定承诺消费。

看向更下一代散热与土建

文中还提到：英伟达下一代 Vera Rubin 架构（原文写作“Vera Ruben”，业界多对应“Vera Rubin”） 会把 散热复杂度再抬一档——高密度平台往往需要液冷，数据中心要么上 集中管路，要么在机架级部署 CRAC/制冷能力。美国大量机房由 旧电信局站 改造而来，承重与液冷改造 并非默认选项，可承载 Vera Rubin 级机柜 的 可用不动产 可能进一步紧张。

一句话：「便宜、充沛的按需高端 GPU」时代，至少暂时按下了暂停键。

对 AI 建设者意味着什么？

1）容量规划从「可选项」变成「必答题」

对 H100 / H200 / B200 / B300 档需求，按小时临时扩容 的空间在收窄；更现实的节奏是 按周、按月 乃至更长的排期。把算力采购当「顺手点一下」的团队，会先撞到 扩容天花板。

2）「能跨多种 GPU 跑」是真正的护城河

供应链向 数据中心级 SKU（如 RTX PRO 6000、B200、B300）倾斜时，新卡放量往往更快；而 上一代/过渡代（如 H200）在停产叙事下反而可能 越来越难拿。流水线若 绑死单一卡型，暴露在 拿不到货 与 价格波动 上的风险最大。

3）训练/推理效率 = 成本控制力的核心

涨价环境下，量化、投机解码（speculative decoding）、批调度、框架选型（vLLM、SGLang 等） 不再是「锦上添花」，而是决定 单机经济模型是否成立。平台上最成熟的团队仅靠 Serving 优化 就能在同一硬件上多榨出 约 2～3 倍吞吐——这类差距会在账单上直接被放大。

4）Serverless 在高价 GPU 周期里更吃香

显卡贵且稀缺时，为空闲 GPU 付钱就更亏。缩到零（scale-to-zero） 的推理形态，更符合 突发型（bursty） 负载：图像生成、视频链路、离线批推理等。

5）承诺容量换更好条款

行业普遍通过 长约/承诺用量 换 更低单价与更可预期的配额；纯 现货池 跑 生产核心业务 的风险在上升——除非你明确接受 可被抢占与中断成本。

供给侧在如何回应？

Blackwell 供给：文中引用行业预期，到 2026 年中前后 Blackwell 供给有望接近翻两番（约为原先四倍量级）——具体以供应链通报为准；
新数据中心：全球各家 新机柜与电力陆续上线；

作者强调：堆卡量不是唯一答案。平台侧把 Pod 初始化失败率压低约 94%（文中数据）等价于让更多时间花在干活而不是重试。更快的周转、更聪明的调度分配、以及对开发者「从想法到上线」链路的投资，在供给紧缺周期里会直接变成 经济杠杆。文中将其与 Flash（Docker-free serverless SDK）、Serverless Private Pools 等产品叙事挂钩，并预告 2026 Q2 将有更多围绕 GPU 利用效率 的能力发布。

更大图景

GPU 紧缺在某种程度上反而是 AI 生态变健康 的信号：负载从实验室走向生产、推理增速超过旧预测、基础设施市场做实且仍在变大。

但同时也意味着：选谁家的云、用哪条路线上线、如何做架构拆分，会直接决定你能不能 在这段周期里稳定扩容，还是永远在 排队等容量。

GPU 供给超长周期：AI 建设者指南