近日,全球人工智能行业面临新的挑战。据多家媒体报道及行业内部消息,英伟达(NVIDIA)面向数据中心的高端GPU,特别是H100、H200及A100系列,出现严重供应短缺。此次短缺已导致中国及全球范围内多家AI初创公司及大型科技企业的采购与部署计划受阻,可能影响其大模型训练与推理服务的进展。
此次供应紧张主要影响用于训练和运行大型语言模型(LLM)的高性能计算卡。据知情人士透露,部分AI公司原定于本季度交付的GPU订单已被推迟,新的订单交付周期被延长至数月甚至更久。

“供应链的波动正在成为AI基础设施建设的最大变量之一。对于资金流紧张的初创公司而言,无法按时获得算力可能意味着产品迭代的延迟和市场竞争力的流失。” —— 某国际投行科技行业分析师报告摘录。
此次短缺并非单一原因造成,而是多重因素叠加的结果:

此次短缺的影响正在向产业链上下游传导。

对AI公司: 最直接的影响是研发进度放缓。训练更大、更复杂的模型需要庞大的算力堆砌,硬件不到位,算法迭代就可能停滞。资金雄厚的巨头可能通过长期协议锁定产能,而初创公司将面临更高的算力获取门槛和成本压力。

对云计算厂商: 亚马逊AWS、微软Azure、谷歌云等是英伟达GPU的最大采购方。它们的AI云服务实例也出现供不应求的情况,可能限制客户按需扩展的能力,并促使它们加快自研AI芯片(如AWS Inferentia/Trainium、谷歌TPU)的部署。

对竞争对手的机遇: 这为AMD(Instinct MI300系列)和英特尔(Gaudi系列)等竞争对手提供了市场切入的窗口。一些AI公司开始评估或测试替代方案,以构建多元化的算力来源。
行业分析普遍认为,高端GPU的紧张局面在2024年内难以彻底缓解。台积电已表示正积极扩大CoWoS产能,但新产能完全释放需要时间。
面对现状,AI行业正在采取多种策略应对:
此次短缺事件凸显了在AI飞速发展的当下,底层算力基础设施已成为至关重要的战略资源。如何构建稳定、高效且成本可控的算力供给体系,将是整个行业未来数年持续面临的核心挑战。