供电和散热从来不是配角,决定整个数据中心能不能良好运转。
根据中学学过的能量守恒定律,算力和散热之间是 1:1 的严格能量关系。算力其实是芯片上几百亿个晶体管在飞快地开关,芯片处理信息消耗掉的电能,会 1:1 转化成热能。
芯片要持续干活,温度就必须压在一个安全线以下,比如 105°C。说到底,散热系统排热的速度,必须大于等于芯片发热的速度。
一旦散热跟不上发热,热量在芯片内部堆积,会自动触发降频保护,直接影响有多少算力能实际运转。
AI 大模型训练,是成千上万张 GPU 连续几周甚至几个月一直保持在 90% 以上的高负载,几乎一刻不停。供电系统和散热系统都得按照 100% 满负荷、长时间不间断来设计。
这就是 Vertiv 业务的来源,提供工业级的供电分配设备,和能长时间连续运转的制冷系统。
芯片内部的晶体管开关做运算。具体用多少电,主要看三方面,
1)同时在工作的开关有多少?
2)每秒开关多少次?
3)用多高的电压。