当您部署一个大型语言模型API或训练一个计算机视觉模型时,第一个问题通常是关于准确率和效率。但近年来,我们与客户的交流中,一个日益频繁的问题是:“这次训练/推理的碳排放是多少?”这标志着行业关注点正从纯粹的性能竞赛,转向对技术环境成本的严肃审视。AI碳足迹计算正是回答这个问题的核心工具,它不再是可选项,而是负责任创新的基准线。
许多人误以为AI的碳排放只来自训练阶段,尤其是像GPT-3这样的大模型。然而在实际部署中,我们发现碳足迹贯穿模型的全生命周期。一个全面的计算必须涵盖以下层面:直接能源消耗(运行硬件所需的电力)、隐含碳(制造服务器、GPU,甚至建设数据中心本身的碳排放),以及运营间接排放(如冷却系统的能耗)。例如,一台额定功率为350 kW的AI训练服务器集群,其年耗电量巨大,但制造这些GPU所消耗的资源和能源,其隐含碳可能相当于它运行数年的直接排放。
我们曾为一个客户分析其图像识别服务链的碳足迹,起初只关注了模型推理的功耗。但深入追踪后发现,用于数据预处理和存储的中转服务器,以及为保障低延迟而全球部署的边缘节点,其总碳排放占比超过了核心AI算力的40%。这个案例清晰地表明,碎片化的计算会严重低估真实影响。
早期,行业普遍采用基于运行时间和区域电网平均碳强度的粗略估算法。公式很简单:碳排放量 = 功耗(kW)× 运行时间(h)× 电网排放因子(kg CO₂e/kWh)。这种方法的问题在于,它假设硬件始终以最大功耗运行,且电网因子是固定值。实际上,GPU的利用率(Utilization)波动很大,从10%到98%都有可能,而电网的碳强度在一天中随着可再生能源(如风电、光伏)的接入比例变化而动态变化。
因此,更专业的AI碳足迹计算需要引入更精细的工具和方法:
基于我们协助多个团队实施的经验,我们建议按以下步骤开展首次系统性的计算,避免常见陷阱。
第一步:明确边界与范围
确定您要计算的是单个训练任务、一个推理服务,还是整个AI项目的全生命周期?我们建议从一次具体的模型训练任务开始,边界清晰,数据易得。记录下使用的硬件型号(如NVIDIA A100 80GB PCIe)、数量、总运行时长(从数据加载到模型保存完毕)。
第二步:采集能耗数据
这是最关键的一步。如果无法接入硬件监控工具,一个折中但更准确的方法是使用性能功耗模型。例如,实测发现NVIDIA A100 GPU在FP16精度下进行矩阵运算时,其功耗与利用率呈高度线性相关。您可以记录下nvidia-smi显示的GPU利用率均值,再根据该型号的TDP(热设计功耗,如A100为400W)进行折算。同时,不要忘记计入CPU和内存的功耗,它们通常占总功耗的15%-25%。
第三步:确定碳强度系数
这是误差的主要来源之一。请务必使用特定时间、特定地点的电网排放因子。例如,2023年华北区域电网的平均排放因子约为0.941 kg CO₂e/kWh,但如果您在夜间利用风电富余时进行训练,实际因子可能低至0.3左右。如果您的数据中心签订了绿色电力采购协议(PPA),则需要使用协议中约定的因子。Источник: 生态环境部 (MEE) 发布的《省级温室气体清单编制指南》。
第四步:计算与报告
将总能耗(kWh)乘以碳强度系数,得到直接碳排放。为体现专业性,建议将隐含碳作为单独项列出或进行说明。最终报告应包含:计算边界、数据来源、假设条件、总碳排放量,以及最重要的——碳强度指标,如“本次训练排放二氧化碳当量XX kg,平均每训练一个epoch排放YY kg”。
计算本身不是目的,指导减排才是。根据我们的观察,最有效的措施往往在计算开始之前。
必须承认,当前的AI碳足迹计算仍面临挑战。硬件隐含碳的数据难以获取且不透明;云服务商提供的碳排放报告颗粒度不一;行业也缺乏完全统一的标准。但这不应成为不作为的理由。我们建议从业者从今天开始,至少采用一种方法进行跟踪和记录,建立自己的基线数据。
趋势已经非常明确。全球范围内,从欧盟的《企业可持续发展报告指令》(CSRD)到中国“双碳”目标下的相关政策,要求企业披露包括数字业务在内的环境信息已成必然。同时,投资者和客户也越来越关注技术的绿色属性。率先掌握精准AI碳足迹计算能力的企业,不仅是在履行环境责任,更是在积累面向未来的竞争优势。它让不可见的成本变得可见,从而驱动创新朝着更高效、更可持续的方向发展。现在就开始您的第一次计算吧,这或许是您为AI项目所做的最有远见的“数据标注”工作。