智算弱电学习系统
课程概览制冷系统M3-02:液冷技术深度解析

M3-02:液冷技术深度解析

模块3 / Day 12 难度:★★★★☆(中高,涉及新兴技术路线与跨系统影响) 学习目标:理解液冷技术的工程原理与发展动因,掌握冷板式和浸没式两种主流方案的架构差异,理解液冷对弱电系统设计的深层影响,并能为平谷项目规划液冷升级路径。 预计学习时间:3~4小时(含诊断题练习) 前置知识:M3-01 制冷原理与方案对比


一、风冷的天花板在哪里?

1.1 从生活场景理解风冷瓶颈

你家的电风扇在夏天吹人的时候,如果室温只有30°C,你觉得凉快。但如果室温飙到45°C,风扇再怎么吹你也觉得热——因为空气本身就是热的,吹风只是加速了热交换,并不能突破空气导热能力的物理极限。

数据中心的风冷散热面对的是同样的物理限制:空气的导热能力太弱了。

1.2 空气 vs 水 vs 液冷工质:导热能力对比

物理参数空气氟化液(如3M Novec)矿物油
比热容 (kJ/kg·K)1.04.21.0~1.11.7~2.0
热导率 (W/m·K)0.0260.600.06~0.070.13
密度 (kg/m³)1.210001600~1800850~900
单位体积携热能力1(基准)~3400~1600~1500

关键数字水的单位体积携热能力是空气的3400倍。这意味着同样带走1kW的热量,用水只需要空气体积的1/3400。这就是液冷效率远高于风冷的根本物理原因。

1.3 风冷散热的功率密度天花板

理论分析:风冷散热的极限取决于:

  1. 空气的携热能力(已知:很低)
  2. 可用的气流空间(机柜内部空间有限)
  3. 服务器风扇的可用功率和噪声限制

实践结论

功率密度风冷可行性说明
<8 kW/柜✅ 完全可行传统CRAH方案即可
8~15 kW/柜⚠️ 勉强可行需要列间空调、增大风量、严格的气流管理
15~25 kW/柜❌ 基本不可行风量需求巨大,噪音极高,制冷效率急剧下降
25~40 kW/柜❌ 完全不可行必须引入液冷
>40 kW/柜❌ 完全不可行纯液冷(浸没式)几乎是唯一选择

速记口诀"八千以下风冷够,三万以上必液冷"——8kW/柜以下风冷方案成熟可靠,30kW/柜以上必须液冷介入。

1.4 GPU时代:功耗密度的爆发

为什么现在液冷突然变得这么热? 因为AI/GPU时代来了。

GPU功耗的演进

GPU型号(NVIDIA)发布年份单卡TDP8卡服务器功耗
V1002017300W~3,000W
A1002020400W~6,000W
H100(SXM5)2022700W~10,200W
H2002023700W~10,200W
B200(SXM)20241000W~14,400W
GB200 NVL72(机柜级)2024~40,000W/柜

关键趋势:GPU单卡功耗从2017年的300W增长到2024年的1000W,5年增长3倍多。单机柜功耗从3kW飙升到40kW甚至更高。风冷的天花板已经被彻底击穿。

平谷项目的视角

  • 当前规划6kW/柜,部署通用GPU服务器(如A100级别),风冷完全满足
  • 如果未来升级到H100/B200,单机柜功耗将达到10~15kW,风冷方案面临压力
  • 如果部署GB200 NVL72,单机柜功耗40kW+,必须液冷
  • 因此,在基础设施设计中预留液冷升级接口是一个有远见的决策

🔖 诊断问题 1.1

  • Q1(记忆层):水的单位体积携热能力是空气的多少倍?
  • Q2(理解层):为什么GPU功耗密度的提升导致风冷方案不可行?从热物理角度分析。
  • Q3(应用层):如果平谷项目计划在3年内将部分机柜升级为H100服务器(单柜10kW),现在的风冷基础设施需要做哪些准备?

二、冷板式液冷(Cold Plate Liquid Cooling)

2.1 什么是冷板式液冷?

核心原理:在CPU/GPU芯片表面安装一块金属冷板(Cold Plate),冷板内部有微通道,冷却液在冷板微通道中流过,直接吸收芯片产生的热量。

生活类比:想象一下你在炒菜时手被烫了,本能地把手伸到水龙头下面冲冷水——冷水直接流过烫伤的皮肤表面,快速带走热量。冷板液冷就是这个原理:冷却液直接在芯片表面"流水冲洗式"地带走热量。

2.2 冷板式液冷架构图

┌──────────────── 服务器内部 ────────────────────┐
│                                                │
│  ┌─────┐    ┌─────┐    ┌─────┐    ┌─────┐    │
│  │ GPU │    │ GPU │    │ GPU │    │ GPU │    │
│  │  1  │    │  2  │    │  3  │    │  4  │    │
│  └──┬──┘    └──┬──┘    └──┬──┘    └──┬──┘    │
│     │冷板      │冷板      │冷板      │冷板     │
│     │          │          │          │         │
│     └────┬─────┴────┬─────┴────┬─────┘         │
│          │          │          │                │
│    ┌─────┴──────────┴──────────┴─────┐         │
│    │     服务器内部液冷管路              │         │
│    │  (供液管 + 回液管)               │         │
│    └──────────────┬──────────────────┘         │
│                   │                             │
│              快接接头                             │
│      (Quick-Connect Coupling)                  │
└───────────────────┼─────────────────────────────┘
                    │
                    │ 二次侧管路(服务器↔CDU)
                    │
┌───────────────────┼─────────────────────────────┐
│                   ▼                              │
│          ┌────────────────┐                      │
│          │   CDU(冷量分配单元)│                  │
│          │  Coolant        │                     │
│          │  Distribution   │                     │
│          │  Unit           │                     │
│          └───────┬────────┘                      │
│                  │                               │
│         一次侧管路(CDU↔冷水机组/干冷器)           │
│                  │                               │
│                  ▼                               │
│       ┌──────────────────┐                       │
│       │ 冷水机组 / 干冷器   │                     │
│       │ (散热到室外)      │                     │
│       └──────────────────┘                       │
└──────────────────────────────────────────────────┘

2.3 CDU:冷量分配单元(核心设备详解)

CDU(Coolant Distribution Unit) 是冷板式液冷系统的"心脏",相当于风冷系统中冷水机组的角色。

CDU的核心功能

┌──────────────────────────────────────────┐
│                CDU 内部结构                │
│                                          │
│  一次侧 ←─── 板式换热器 ───→ 二次侧       │
│  (设施冷水)  (热交换)    (服务器冷却液)  │
│                                          │
│  一次侧特征:                              │
│  - 介质:普通冷冻水                         │
│  - 温度:7~18°C 供水                       │
│  - 与设施冷水系统连接                        │
│  - 压力相对稳定                             │
│                                          │
│  二次侧特征:                              │
│  - 介质:去离子水或专用冷却液                 │
│  - 温度:25~45°C 供液                      │
│  - 直接流入服务器冷板                        │
│  - 需要精确的流量和压力控制                   │
│  - 有循环泵、过滤器、膨胀罐等                 │
│                                          │
│  其他组件:                                │
│  - 循环泵(驱动二次侧液体循环)               │
│  - 过滤器(去除微粒,保护冷板微通道)           │
│  - 膨胀罐(补偿液体热胀冷缩)                 │
│  - 压力传感器、温度传感器、流量计              │
│  - 漏液检测模块                             │
│  - 控制器(PLC或嵌入式控制)                  │
└──────────────────────────────────────────┘

为什么需要一次侧和二次侧分开?

  1. 安全隔离:二次侧液体直接接触IT设备,一旦泄漏后果严重。一次侧和二次侧通过换热器隔离,即使一次侧管路出问题也不会影响到服务器
  2. 水质控制:二次侧使用去离子水或专用冷却液,导电性极低,即使微量泄漏也不会导致短路。而一次侧用普通冷冻水即可,降低水处理成本
  3. 压力独立:二次侧管路在服务器内部,压力需求和一次侧不同。分开控制更安全

CDU关键参数

参数典型值
单台制冷量50~350 kW
一次侧供水温度7~18°C
二次侧供液温度25~45°C
二次侧流量20~100 L/min(取决于热负荷)
二次侧工作压力0.1~0.4 MPa
外形尺寸通常19英寸机架式,4~8U高

2.4 冷板的微观世界

冷板虽然从外面看只是一块金属块,但内部的微通道设计是液冷散热的关键。

冷板剖面示意:

  ┌──────────────── 冷板上盖 ────────────────┐
  │  ╔════╗  ╔════╗  ╔════╗  ╔════╗          │
  │  ║    ║  ║    ║  ║    ║  ║    ║   ← 微通道│
  │  ║冷却║  ║冷却║  ║冷却║  ║冷却║   (宽度    │
  │  ║液体║  ║液体║  ║液体║  ║液体║    0.1~1mm)│
  │  ║ ↓  ║  ║ ↓  ║  ║ ↓  ║  ║ ↓  ║          │
  │  ╚════╝  ╚════╝  ╚════╝  ╚════╝          │
  ├──────────────── 冷板底面 ────────────────┤
  │          (与芯片表面紧密贴合)              │
  │           ↑ ↑ ↑ 热量 ↑ ↑ ↑                │
  └──────────── GPU/CPU 芯片 ──────────────┘

  冷板材质:铜(热导率 ~400 W/m·K)或铝(~200 W/m·K)
  微通道工艺:CNC精密加工或3D打印
  热阻:0.01~0.05 K/W(远低于风冷散热器)

冷板 vs 传统风冷散热器对比

对比维度风冷散热器(铜底+热管+鳍片)冷板(微通道液冷)
热阻0.1~0.5 K/W0.01~0.05 K/W
散热能力<350W/芯片>1000W/芯片
体积大(需要鳍片面积)(液体在紧凑空间高效换热)
噪声高(需要高速风扇)(无需服务器内风扇或降低转速)
维护简单(灰尘清理)较复杂(管路检查、液体更换)

2.5 冷板式液冷的关键优势

  1. 精确散热:冷板贴在芯片表面,热量在产生点就被带走,不经过空气"中间人"
  2. 兼容性好:只需更换散热器为冷板,服务器主板不需要大改,可以沿用现有机柜
  3. 混合部署:服务器其他低发热组件(内存、硬盘、电源)仍可用风冷,只有CPU/GPU用液冷——这就是"风液混合"方案
  4. 运维影响相对小:运维人员仍然在常规机房环境中工作,机柜形态与传统相似

2.6 冷板式液冷的注意事项

  1. 接头泄漏风险:管路连接点(尤其是快接接头)是泄漏的高发区。虽然二次侧使用低导电液体,但泄漏仍可能造成短路和设备损坏
  2. 服务器维护流程变化:更换服务器或部件时需要先断开液冷管路、排液、操作后重新注液和排气
  3. 并非100%散热:冷板只冷却CPU/GPU,其他组件仍需风冷辅助。服务器风扇不能完全去除,只是降低转速
  4. 管路规划:每一排机柜需要供液和回液主管,管路安装、保温、固定都是新增的工程内容

🔖 诊断问题 2.1

  • Q1(记忆层):CDU的全称是什么?它在冷板液冷系统中的角色是什么?
  • Q2(理解层):CDU为什么要分为一次侧和二次侧?如果取消换热器直接用冷冻水流过冷板会怎样?
  • Q3(应用层):如果平谷项目的一排机柜有20台8卡GPU服务器(每台10kW),CDU需要多大的制冷量?需要几台CDU?

三、浸没式液冷(Immersion Cooling)

3.1 什么是浸没式液冷?

核心原理:把整台服务器(或整块主板)直接浸泡在不导电的冷却液中,冷却液与所有发热元件直接接触,全面吸热。

生活类比:把一块烧红的铁放进一桶水里——"嗤"的一声,热量瞬间被水带走。浸没式液冷就是这个原理的工程化实现(当然,用的是不导电的特殊液体而不是水)。

3.2 单相浸没 vs 两相浸没

浸没式液冷分为两种技术路线,区别在于冷却液在工作过程中是否发生相变(液体→气体)。

3.2.1 单相浸没(Single-Phase Immersion)

原理:服务器浸泡在冷却液中,冷却液吸热后温度升高但不沸腾(始终保持液态),通过外部换热器将热量传递给设施冷水系统。

┌────────────── 浸没式液冷槽 ──────────────┐
│                                          │
│   冷却液(40~55°C热液)                    │
│   ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑                  │
│   ┌────┐  ┌────┐  ┌────┐  ┌────┐        │
│   │服务│  │服务│  │服务│  │服务│         │
│   │器1 │  │器2 │  │器3 │  │器4 │ ← 竖插  │
│   │    │  │    │  │    │  │    │   或横放 │
│   └────┘  └────┘  └────┘  └────┘        │
│   冷却液(25~35°C冷液)← 从底部注入       │
│                                          │
└───────────────┬──────────────────────────┘
                │ 热液排出
                ▼
        ┌───────────────┐
        │  外部换热器     │ ← 与设施冷水换热
        │ (板式换热器)  │
        └───────┬───────┘
                │ 冷却后液体回流
                ▼
           回到浸没槽底部

单相浸没的冷却液选择

冷却液类型代表产品沸点优点缺点
矿物油壳牌Diala S4>300°C价格低、环保粘度较高,维护时沾黏
合成酯油绿色液冷GreenDEF>250°C生物可降解价格中等
氟化液3M Novec 710061°C不燃、低粘度、挥发性好价格极高($50~100/L)

矿物油方案的特点

  • 成本优势明显(约 ¥2050/L vs 氟化液 ¥300700/L)
  • 但维护时拆装设备会带出油液,操作麻烦
  • 长期浸泡可能影响部分连接器的材料兼容性

3.2.2 两相浸没(Two-Phase Immersion)

原理:服务器浸泡在低沸点氟化液中,芯片发热使冷却液在芯片表面沸腾(液体→气体),气体上升到液面上方的冷凝器,放热冷凝回液体后滴落回液槽。

┌──────────── 两相浸没液冷槽 ──────────────┐
│                                          │
│   ┌──────── 冷凝器(顶部)────────┐      │
│   │  气体 →→→ 冷凝为液体 →→→ 滴落  │      │
│   │  (与设施冷水换热)             │      │
│   └──────────────────────────────┘      │
│   ↑ ↑ ↑ 蒸汽上升 ↑ ↑ ↑                  │
│   ~~~~~ 液面 ~~~~~                       │
│                                          │
│   ┌────┐  ┌────┐  ┌────┐  ┌────┐        │
│   │服务│  │服务│  │服务│  │服务│         │
│   │器1 │  │器2 │  │器3 │  │器4 │         │
│   │    │  │    │  │    │  │    │         │
│   │泡泡│  │泡泡│  │泡泡│  │泡泡│         │
│   │↑↑↑│  │↑↑↑│  │↑↑↑│  │↑↑↑│         │
│   └────┘  └────┘  └────┘  └────┘        │
│                                          │
│   芯片表面沸腾产生气泡,气泡上升带走大量热量  │
│   (利用汽化潜热,散热效率极高)              │
└──────────────────────────────────────────┘

为什么两相比单相更高效?

关键在于汽化潜热。液体蒸发为气体时吸收的热量(潜热)远大于液体单纯升温吸收的热量(显热)。

散热方式换热系数(W/m²·K)
自然对流(空气)5~25
强制对流(风扇+空气)25~250
强制对流(液体)250~10,000
沸腾换热(两相)2,500~100,000

关键数字两相沸腾换热的效率是强制风冷的100~1000倍。这就是为什么两相浸没能处理极端高密度负荷。

两相浸没的冷却液

必须使用低沸点氟化液,常见选择:

产品沸点GWP(全球变暖潜能值)价格
3M Novec 64949°C1极高
3M Novec 710061°C297极高
3M Fluorinert FC-7256°C9300高(已逐步淘汰)

注意:3M已于2025年宣布逐步停产PFAS类氟化液(包括Novec系列),这给两相浸没液冷的长期发展带来了不确定性。行业正在寻找替代工质。

3.3 单相浸没 vs 两相浸没对比

对比维度单相浸没两相浸没
散热原理液体升温吸热(显热)液体沸腾吸热(潜热)
换热效率极高
冷却液矿物油/合成酯/氟化液仅低沸点氟化液
冷却液成本低~中(矿物油最便宜)极高(只能用氟化液)
系统复杂度较低(需要循环泵)较高(需要密封冷凝器)
运维难度中等(拆装设备带液)较高(密封要求严格)
温度均匀性极好(沸腾使液面温度一致)
适用功率密度20~80 kW/柜50~150+ kW/柜
成熟度较成熟(商用案例增多)尚处于大规模部署初期
环保风险低(矿物油/合成酯环保)(氟化液PFAS监管)
行业趋势主流方向观望中(受工质供应影响)

速记口诀"单相便宜油来泡,两相沸腾氟化搞;单相成熟可大用,两相极端受限制"

🔖 诊断问题 3.1

  • Q1(记忆层):两相浸没和单相浸没的核心区别是什么?两相利用了什么物理原理?
  • Q2(理解层):为什么两相浸没必须使用低沸点氟化液而不能用矿物油?
  • Q3(应用层):考虑到3M停产氟化液的消息,如果你是数据中心方案设计师,现在推荐客户采用两相浸没还是单相浸没?理由是什么?

四、液冷对弱电系统的影响

4.1 为什么弱电工程师需要懂液冷?

作为弱电智能化方案架构师,你可能会问:"液冷不是暖通(HVAC)的事吗?跟我弱电有什么关系?"

关系非常大

弱电子系统受液冷影响的方面
综合布线机柜内布线方式改变、线缆防液保护
环境监控(BA/BMS)漏液检测传感器、温度监控点位、流量监控
安防监控浸没槽区域的视频覆盖、门禁设计
消防浸没液的燃烧特性影响灭火方案选择
配电监控CDU的供配电和监控接入
网络光纤/铜缆的防液保护和走线路径

4.2 漏液检测系统(关键新增系统)

液冷数据中心中,漏液检测是一个全新的弱电子系统,在传统风冷机房中不存在(或仅在冷冻水管路附近有少量部署)。

4.2.1 检测原理

常见漏液检测技术

技术类型原理优点缺点
感应线缆(绳式)线缆表面有电极,液体导电触发报警可检测整条线路任意位置对不导电液体(氟化液)无效
定点式探测器放置在特定位置的圆盘/探头安装简单、精确定位只能检测放置点
光纤式液体改变光纤折射率触发报警不受电磁干扰、可用于非导电液体成本高
湿度传感器检测局部湿度突变间接检测,可预警响应较慢

重要注意:如果液冷工质是不导电的氟化液或矿物油,传统的感应线缆式漏液检测可能失效(因为这些液体不导电)。必须选用光纤式或专用碳氢化合物检测传感器

4.2.2 漏液检测布点设计

冷板式液冷的漏液检测布点:

┌──────────────── 机柜列 ──────────────────┐
│                                          │
│  ┌──┐  ┌──┐  ┌──┐  ┌──┐  ┌──┐  ┌──┐  │
│  │柜│  │柜│  │柜│  │柜│  │柜│  │柜│  │
│  │1 │  │2 │  │3 │  │4 │  │5 │  │6 │  │
│  └──┘  └──┘  └──┘  └──┘  └──┘  └──┘  │
│  [漏液感应线缆沿机柜底部连续布设] ~~~~~~~~ │
│                                          │
│  CDU位置:[定点探测器 × 2] + [接水盘]      │
│                                          │
│  供液管路:[感应线缆绕管] 或 [沿管滴水盘]   │
│                                          │
│  架空地板下:[区域感应线缆] 按通道布设       │
│                                          │
└──────────────────────────────────────────┘

浸没式液冷的漏液检测布点:
- 液冷槽底部:定点探测器(检测槽体泄漏)
- 液冷槽周围地面:感应线缆环绕
- 供回液管路沿线:感应线缆
- CDU进出口:定点探测器

4.2.3 报警联动

漏液报警需要与BMS/BA系统联动:

漏液检测器触发
      │
      ├─→ BMS系统报警(声光报警 + 手机推送)
      ├─→ 关闭该段管路电动阀门(止漏)
      ├─→ 启动排水泵(如设置了集水坑)
      ├─→ 视频监控系统自动调取泄漏区域画面
      └─→ 记录到运维工单系统

4.3 温度监控点位变化

传统风冷机房的温度监控

监控位置目的
机柜前门(进风侧)监控送风温度
机柜后门(排风侧)监控回风温度
冷通道/热通道监控气流温度分布
架空地板下监控送风静压箱温度

液冷系统的温度监控(新增/变化)

监控位置目的传感器类型
CDU一次侧供水温度确认设施冷水正常Pt100热电阻
CDU一次侧回水温度评估换热效果Pt100热电阻
CDU二次侧供液温度关键指标——送达芯片的液体温度Pt100热电阻
CDU二次侧回液温度关键指标——离开芯片的液体温度Pt100热电阻
CDU二次侧流量确认液体循环正常电磁流量计
浸没槽液温(多点)监控槽内温度分布Pt100或热电偶
浸没槽液面高度防止液面过低暴露设备液位传感器
芯片表面温度直接监控芯片温度服务器BMC读取

关键变化:从传统的"空气温度监控"变为"液体温度+流量+液位"的复合监控。弱电工程师需要设计更多的传感器接入点和更复杂的监控拓扑。

4.4 综合布线防护

液冷环境对综合布线的特殊要求:

场景要求说明
冷板式机柜内布线线缆远离管路接头防止泄漏时液体沿线缆蔓延
浸没式使用耐液浸泡的线缆普通PVC护套线缆长期浸泡会劣化
光纤保护防液保护套管氟化液可能侵蚀部分光纤涂覆层
管路穿越液冷管路与线缆桥架交叉处设防漏挡板防止管路泄漏波及线缆
浸没槽出线密封出线口防止液体蒸气逸出

4.5 消防系统考虑

冷却液类型燃烧特性消防影响
矿物油可燃(闪点>170°C)需要考虑油类火灾灭火(泡沫或气体)
合成酯低燃(闪点>250°C)低风险,常规气体灭火即可
氟化液不可燃无额外消防要求
去离子水(冷板式二次侧)不可燃但泄漏后可能导致电气火灾

速记口诀"液冷弱电五大变:漏液检测必须建,温控点位翻了番,布线防液要防范,消防方案看液选,监控联动全打通"

🔖 诊断问题 4.1

  • Q1(记忆层):液冷数据中心新增了哪个传统风冷机房不存在的弱电子系统?
  • Q2(理解层):为什么传统的感应线缆式漏液检测对氟化液无效?应该用什么替代方案?
  • Q3(应用层):如果你负责平谷项目的一栋楼(1520个机柜)的液冷改造弱电方案,请列出你需要新增设计的5个弱电子系统/功能点。

五、风冷 vs 冷板液冷 vs 浸没液冷:三者全面对比

对比维度风冷(CRAH)冷板式液冷浸没式液冷
散热介质空气去离子水/冷却液氟化液/矿物油
散热效率基准(1×)高(10~50×)极高(100~1000×)
适用功率密度<8~15 kW/柜8~40 kW/柜20~150+ kW/柜
PUE贡献PUE 1.3~1.6PUE 1.1~1.25PUE 1.02~1.15
初始投资基准1.3~1.5×1.5~2.5×
运营成本(10年TCO)高(电费占大头)(节能抵消投资)(极高能效)
运维复杂度低(成熟技术)高(新技术、新流程)
占地面积大(需要气流空间)(高密度紧凑)
噪声高(大量风扇)
机柜形态标准19英寸机柜标准机柜+管路专用液冷槽
服务器兼容性所有标准服务器需冷板定制散热器需完全定制
综合布线标准方案需增加防护需全面重新设计
漏液风险有(管路接头)有(槽体密封)
技术成熟度★★★★★★★★★★★★
平谷项目适用性当前方案(6kW/柜)未来升级路径1未来升级路径2

六、液冷数据中心的PUE优势

6.1 为什么液冷能大幅降低PUE?

回顾PUE的定义:

PUE = 数据中心总能耗 / IT设备能耗

制冷系统是总能耗中除IT设备外最大的单一能耗项。在传统风冷数据中心中,制冷能耗约占总能耗的30~40%

液冷降低PUE的途径:

节能途径风冷液冷节能幅度
压缩机能耗需要低温冷冻水(7°C)可用高温冷水(18~25°C)或自然冷却降低40~60%
服务器风扇高速运转,单台50~200W低速或取消,单台0~50W降低50~100%
水泵能耗大流量低温差小流量高温差(液体携热强)降低20~30%
自然冷却时间需室外<7~10°C需室外<25~35°C大幅延长

6.2 不同制冷方案的PUE对比

PUE数值对比(年均值估算):

              1.0    1.1    1.2    1.3    1.4    1.5    1.6
               |      |      |      |      |      |      |
风冷(传统)    |──────────────────────████████████████|
               |                    1.3~1.5           |
               |      |      |      |      |      |      |
风冷(优化)    |────────────████████████|              |
               |          1.2~1.35    |              |
               |      |      |      |      |      |      |
冷板液冷        |──████████████|                        |
               | 1.1~1.25    |                        |
               |      |      |      |      |      |      |
浸没液冷        |████|                                  |
               |1.02~1.15                              |
               |      |      |      |      |      |      |

关键数字:从风冷PUE 1.4 优化到液冷PUE 1.1,对于平谷项目54.7MW IT负荷,每年可节省制冷电费:

54,700kW × (0.4 - 0.1) × 8760h × ¥0.8/kWh ≈ ¥1.15亿/年

这是一个惊人的数字,足以在3~5年内收回液冷系统的额外投资。


七、智算中心为什么倾向液冷?

7.1 GPU功耗密度的必然要求

重申前面的数据:

AI芯片功耗趋势:

  单卡TDP(W)
  1200 |                              ●  B200
  1000 |                         ●
   800 |
   700 |                    ●  H100
   600 |
   500 |
   400 |               ●  A100
   300 |          ●  V100
   200 |
   100 |
     0 ├────┬────┬────┬────┬────┬────→ 年份
      2016 2018 2020 2022 2024 2026

趋势:每2年功耗增长约50~70%
结论:到2026~2027年,单卡功耗可能超过1500W
      单机柜功耗可能达到50~100kW
      风冷彻底无法应对

7.2 AI训练对散热一致性的要求

AI大模型训练的特殊性:

  1. 数千张GPU协同计算:训练大模型时,数千张GPU通过高速网络(如InfiniBand/NVLink)协同工作,所有GPU必须保持同步
  2. 短板效应:如果其中一张GPU因为散热不良而降频(Thermal Throttling),整个训练任务的速度将由这张最慢的GPU决定
  3. 温度一致性要求:需要所有GPU的温度保持在极窄的范围内(差异<5°C),以确保性能一致

液冷在温度一致性方面的优势

散热方案GPU间温度差异说明
风冷5~15°C受气流分布不均影响大
冷板液冷2~5°C液体流量可精确控制
浸没液冷<2°C所有芯片浸在同一液体中

7.3 空间利用效率

液冷允许更高密度的部署:

方案同样10MW IT负荷所需面积
风冷(6kW/柜)~1,667 机柜 → 约 3,300 m²
冷板液冷(20kW/柜)~500 机柜 → 约 1,000 m²
浸没液冷(50kW/柜)~200 液冷槽 → 约 600 m²

关键认知:液冷不仅是散热问题的解决方案,更是数据中心空间利用效率的根本性提升。同样的建筑面积可以容纳3~5倍的算力。


八、平谷项目:液冷升级路径规划

8.1 当前状态与未来需求

维度当前(Phase 1)近期升级(Phase 2)远期规划(Phase 3)
单柜功率6kW10~15kW30~50kW
GPU型号A100级别H100/H200B200/GB200+
制冷方案风冷CRAH风冷+冷板液冷混合液冷为主
PUE目标≤1.25≤1.2≤1.15
预计时间2024-20252025-20272027-2030

8.2 液冷预留设计建议

在Phase 1建设时,应为未来液冷升级预留以下条件:

基础设施预留

预留项具体要求预留成本占比
冷冻水管路预留在机房层预留液冷管路走向空间和管道井~2%
CDU安装位置在每排机柜末端预留CDU位置(宽800mm×深1200mm)~1%
楼板承重按液冷设备重量(液冷槽满载可达2000kg/m²)设计~3%
供配电余量CDU泵组需要额外供电(每台CDU约3~5kW)~2%
排水设施预留集水坑和排水管路~1%

弱电系统预留

预留项具体要求
漏液检测管路预留在架空地板下和管路走向预留感应线缆路由
温度/流量传感器接口BMS系统预留CDU和液冷管路的传感器接入端口
监控网络端口为CDU控制器预留以太网接口和管理VLAN
视频监控覆盖液冷设备区域预留摄像头安装点位

总预留成本估算:约占Phase 1建设总投资的5~10%,但可以避免未来改造时的大规模停机和破坏性施工。

速记口诀"花一成留后路,省十倍改造苦"——预留5~10%的成本,可以节省未来数倍的改造代价。

8.3 升级路径推荐

Phase 1(当前)           Phase 2(2~3年后)        Phase 3(5年后)
6kW/柜,纯风冷            部分柜升级到15kW          部分柜升级到30~50kW
                          引入冷板液冷              全面液冷

┌──────────┐        ┌──────────────┐       ┌──────────────┐
│ 风冷CRAH  │        │ 风冷CRAH      │       │ 风冷CRAH      │
│ 全部机柜   │  ──→   │ + CDU+冷板     │ ──→   │ + CDU+冷板     │
│           │        │ (高密柜区)    │       │ + 浸没槽       │
└──────────┘        └──────────────┘       │ (超高密区)    │
                                           └──────────────┘

关键决策点:
- Phase 2触发条件:GPU服务器单柜功耗>10kW
- Phase 3触发条件:GPU服务器单柜功耗>30kW

🔖 诊断问题 8.1

  • Q1(记忆层):平谷项目Phase 1预留液冷的总成本约占建设投资的多少?
  • Q2(理解层):为什么在Phase 1就需要预留液冷条件?不预留的风险是什么?
  • Q3(应用层):作为弱电方案架构师,请列出你在Phase 1需要为液冷预留的5个弱电系统设计点。

九、关键设备选型参数

9.1 CDU选型要点

参数选型考虑
制冷量按所服务的IT负荷×1.1安全系数选型
二次侧流量根据热负荷和供回液温差计算:Q = P / (ρ × Cp × ΔT)
二次侧压力需满足最远端服务器的管路压降需求
接口一次侧:DN50DN100法兰/卡箍;二次侧:DN25DN50
冗余N+1配置(每组CDU有备用)
监控接口Modbus TCP/IP 或 SNMP,接入BMS
外形机架式(4~8U)或落地式

9.2 管路材质选择

管路位置推荐材质理由
一次侧主管碳钢/不锈钢承压能力强,成本合理
二次侧主管不锈钢304/316耐腐蚀,确保水质不被污染
二次侧支管(到服务器)不锈钢软管或EPDM软管需要柔性连接,便于服务器插拔
快接接头不锈钢+防滴漏设计断开时不漏液

9.3 流量计算示例

场景:一排20个机柜,每柜10kW GPU服务器,使用冷板液冷。

计算

已知:
- 总热负荷 P = 20 × 10 = 200 kW
- 假设冷板液冷承担70%热负荷 = 140 kW
  (其余30%由辅助风冷散热——内存、硬盘、电源等)
- 二次侧冷却液:去离子水
- 密度 ρ = 1000 kg/m³
- 比热容 Cp = 4.2 kJ/(kg·K) = 4200 J/(kg·K)
- 供液温度 25°C,回液温度 35°C,温差 ΔT = 10K

流量计算:
Q = P / (ρ × Cp × ΔT)
Q = 140,000 W / (1000 kg/m³ × 4200 J/(kg·K) × 10 K)
Q = 140,000 / 42,000,000
Q = 0.00333 m³/s
Q = 3.33 L/s = 200 L/min

CDU选型:
- 单台CDU制冷量 150kW,1台足够(但N+1冗余需要2台)
- 二次侧流量能力需 ≥200 L/min

速记口诀(流量计算):"功率除以密比温"—— Q = P / (ρ × Cp × ΔT)


十、速记卡汇总

🃏 卡片1:风冷瓶颈

水的携热能力 = 空气的3400倍
风冷天花板:~15kW/柜(勉强)
30kW以上:必须液冷
口诀:"八千以下风冷够,三万以上必液冷"
GPU功耗趋势:每2年增长50~70%

🃏 卡片2:冷板液冷架构

冷板(贴芯片) → 二次侧管路 → CDU → 一次侧管路 → 冷水机组/干冷器
CDU = Coolant Distribution Unit(冷量分配单元)
一次侧:设施冷冻水(7~18°C)
二次侧:去离子水/专用液体(25~45°C供液)
一二次侧通过板式换热器隔离(安全+水质控制)

🃏 卡片3:浸没式液冷

单相浸没:液体只升温不沸腾,矿物油/合成酯/氟化液
两相浸没:液体沸腾(潜热),仅低沸点氟化液
两相效率 >> 单相 >> 风冷(沸腾换热系数是风冷100~1000倍)
口诀:"单相便宜油来泡,两相沸腾氟化搞"
注意:3M停产氟化液→两相前景存疑

🃏 卡片4:液冷对弱电的影响

五大变化:
1. 新增漏液检测系统
2. 温度监控点位翻倍(液温+流量+液位)
3. 综合布线需防液保护
4. 消防方案看冷却液类型
5. 监控联动(BMS+视频+门禁)全面升级
口诀:"漏液检测必须建,温控点位翻了番"

🃏 卡片5:三种制冷方案PUE

风冷(传统):PUE 1.3~1.5
风冷(优化):PUE 1.2~1.35
冷板液冷:PUE 1.1~1.25
浸没液冷:PUE 1.02~1.15
口诀:"风一三,板一一,浸一零"(取典型值近似)

🃏 卡片6:平谷液冷升级路径

Phase 1:6kW/柜 → 纯风冷 → PUE≤1.25
Phase 2:10~15kW/柜 → 风冷+冷板 → PUE≤1.2
Phase 3:30~50kW/柜 → 全面液冷 → PUE≤1.15
预留成本:5~10%(花一成留后路)
口诀:"花一成留后路,省十倍改造苦"

🃏 卡片7:流量计算

Q = P / (ρ × Cp × ΔT)
Q:流量(m³/s)
P:热负荷(W)
ρ:密度(kg/m³),水=1000
Cp:比热容(J/(kg·K)),水=4200
ΔT:供回液温差(K)
口诀:"功率除以密比温"

十一、综合诊断题

第一组:记忆层

D2-1:水的单位体积携热能力是空气的多少倍?

D2-2:冷板式液冷中CDU的全称是什么?CDU内部最核心的组件是什么?

D2-3:两相浸没液冷利用了什么物理原理使其散热效率极高?

D2-4:列举液冷对弱电系统影响的3个方面。

D2-5:NVIDIA GPU单卡功耗从V100到B200经历了怎样的增长?

第二组:理解层

D2-6:CDU为什么要分一次侧和二次侧?如果直接用设施冷冻水流过冷板有什么风险?

D2-7:为什么单相浸没更可能成为主流方向而非两相浸没?(至少给出两个原因)

D2-8:液冷数据中心的PUE为什么远低于风冷?请从至少3个能耗环节分析。

D2-9:为什么AI训练对GPU温度一致性的要求特别高?温度不一致会导致什么问题?

第三组:应用层

D2-10:平谷项目Phase 1使用风冷方案,你认为在弱电设计中应该为液冷预留哪些条件?(至少列出5项)

D2-11:一个客户要新建一个500柜的数据中心,计划全部部署H100服务器(单柜约10kW)。请推荐制冷方案并给出理由。

D2-12:计算题——一个液冷区域有30个机柜,每柜15kW,冷板承担80%热负荷,使用去离子水(Cp=4200 J/(kg·K)),供回液温差8K。请计算所需的二次侧流量(L/min),并据此选择CDU规格。


诊断题参考答案

D2-1:约3400倍

D2-2:CDU = Coolant Distribution Unit(冷量分配单元)。核心组件是板式换热器,用于隔离一次侧(设施冷水)和二次侧(服务器冷却液)。

D2-3汽化潜热(相变吸热)。液体在芯片表面沸腾时,从液态变为气态,吸收大量潜热,换热系数可达强制风冷的100~1000倍。

D2-4:(1)新增漏液检测系统;(2)温度/流量/液位监控点位大幅增加;(3)综合布线需要防液保护;(4)消防方案需根据冷却液类型调整;(5)监控联动策略需要全面升级。(列出任意3项即可)

D2-5:V100(2017)300W → A100(2020)400W → H100(2022)700W → B200(2024)1000W。5年内从300W增长到1000W,增长超过3倍

D2-6:分开的原因:(1)安全隔离——设施冷冻水含有水处理化学品,如果直接流入服务器内部,泄漏后导电性强,可能导致严重短路;(2)水质控制——二次侧使用去离子水,导电性极低,即使微量泄漏也不会立即导致短路;(3)压力独立——一次侧和二次侧压力需求不同,分开控制更安全。如果取消换热器直接用冷冻水:水质不可控(可能含杂质堵塞微通道),泄漏后导电性强(直接短路烧毁设备),且一次侧水压波动可能损坏服务器内部管路。

D2-7:(1)冷却液成本和供应——两相必须使用低沸点氟化液,价格极高($50~100/L),且3M已宣布停产PFAS类产品,长期供应存疑;单相可以用便宜的矿物油或合成酯。(2)系统成熟度——单相浸没技术更简单(不涉及相变控制、冷凝器设计),商用案例更多。(3)环保法规——氟化液属于PFAS类化合物,全球监管趋严,未来可能面临使用限制。

D2-8:(1)压缩机能耗降低40~60%——液冷可以用更高温度的冷水(18~25°C vs 7°C),甚至更多时间使用自然冷却,压缩机负荷大减;(2)服务器风扇能耗降低50~100%——液冷直接在芯片散热,服务器内部风扇可以大幅降速或取消;(3)水泵能耗降低——液体携热能力强,相同热负荷需要的流量小得多;(4)自然冷却时间延长——液冷系统的冷却液温度更高,在更高的室外温度下就能使用自然冷却。

D2-9:AI大模型训练时,数千张GPU通过高速网络协同计算(如数据并行、模型并行)。所有GPU必须保持计算同步——在每个训练step结束时需要同步梯度。如果其中一张GPU因温度过高而触发热降频(Thermal Throttling),其计算速度下降,其他所有GPU都必须等待这张最慢的GPU完成计算后才能继续下一步。整个训练任务的速度由最慢的GPU决定(木桶效应)。因此,所有GPU的温度需要保持一致(差异<5°C),以确保性能一致。液冷(尤其是浸没式)的温度均匀性远优于风冷。

D2-10:Phase 1弱电液冷预留项(至少5项):

  1. 漏液检测管路预留:在架空地板下和机柜列末端预留感应线缆走线路由
  2. BMS传感器接口预留:为未来CDU的温度、流量、压力传感器预留BMS接入端口和I/O模块
  3. 监控网络端口:为CDU控制器预留以太网交换机端口和管理VLAN
  4. 视频监控点位预留:在未来CDU安装位置和液冷管路走向预留摄像头安装位和线缆
  5. 配电监控预留:为CDU供电回路预留智能电表和配电监控接口
  6. 集水坑液位传感器预留:在机房低洼处预留集水坑和液位传感器安装位

D2-11:推荐方案:冷板液冷(为主)+ 风冷CRAH(辅助)的混合方案

  • 理由1:10kW/柜处于风冷和液冷的过渡区,纯风冷需要列间空调、气流管理复杂且能效不佳
  • 理由2:冷板液冷承担CPU/GPU的主要热负荷(约70%),CRAH处理内存、硬盘等辅助散热
  • 理由3:PUE可达1.15~1.2,长期运营成本优于纯风冷
  • 理由4:如果未来升级到H200/B200(更高功耗),冷板液冷基础设施可以直接复用

D2-12:计算过程:

已知:
- 总IT负荷:30 × 15 = 450 kW
- 冷板承担80%:450 × 0.8 = 360 kW
- Cp = 4200 J/(kg·K)
- ρ = 1000 kg/m³
- ΔT = 8 K

流量计算:
Q = P / (ρ × Cp × ΔT)
Q = 360,000 / (1000 × 4200 × 8)
Q = 360,000 / 33,600,000
Q = 0.01071 m³/s
Q = 10.71 L/s = 643 L/min

CDU选型:
- 制冷量需求:360 kW
- 如选200kW级CDU:需要2台工作 + 1台备用 = 3台
- 如选350kW级CDU:需要1台工作 + 1台备用 = 2台(推荐)
- 流量需求:≥643 L/min

本文件学习检查清单

  • 能解释风冷散热的物理瓶颈(空气携热能力限制)
  • 能画出冷板液冷的系统架构(冷板→CDU→冷水机组)
  • 能区分单相浸没和两相浸没的原理与适用场景
  • 能说出液冷对弱电系统的5个主要影响
  • 能完成CDU流量的基本计算
  • 能为平谷项目规划液冷升级路径和弱电预留方案
  • 能在风冷、冷板液冷、浸没液冷之间做出合理的方案选型