AI奔跑为何需要“冷却”护航
本报记者 朱平 整理
全球进入人工智能竞速赛,大模型背后的算力竞赛愈演愈烈。算力,作为数据处理能力的核心,其背后是庞大的算力基础设施——成千上万台服务器在数据中心昼夜不停地运转。然而,算力每提升一步,伴随而来的是惊人的能源消耗,其中散热已成为制约发展的关键瓶颈之一。
那么,为什么算力时代的热耗问题如此突出?
首先,人工智能模型的训练过程是典型的“电老虎”。以拥有1750亿参数的GPT-3为例,其单次训练耗电量高达约128.7万度,相当于美国121户家庭一年的用电总量。而随着模型参数规模不断攀升,训练所需电力更是呈几何级增长。
但这仅仅是开始。训练完成后的“推理阶段”——即用户日常使用AI的过程,耗电量同样惊人。据国际能源署2024年数据,ChatGPT每响应一次请求,平均耗电2.9瓦时,相当于点亮一个60瓦灯泡近三分钟。随着AI应用普及,海量用户持续调用模型,累积耗电量将不断攀升。
有数据显示,在AI数据中心内部,电力消耗主要来自两部分:约40%用于计算本身,另外40%则用于设备冷却,其余为其他信息技术设备用电。芯片在工作时热流密度极高,局部热点可达150W/cm,这样的热流密度意味着在指甲盖大小的面积上,每秒产生的热量足以在几分钟内烧开一杯水。如果不能及时散热,芯片性能会急剧下降,甚至引发故障,严重影响AI服务的稳定性与效率。
由此可见,算力的每一次飞跃,都伴随着散热技术的严峻考验。在算力竞赛的背后,实则也是一场“散热攻坚战”。唯有突破散热瓶颈,才能为AI的持续奔跑提供坚实保障。
本报记者 朱平 整理