M3-02：液冷技术深度解析

模块3 / Day 12 难度：★★★★☆（中高，涉及新兴技术路线与跨系统影响）学习目标：理解液冷技术的工程原理与发展动因，掌握冷板式和浸没式两种主流方案的架构差异，理解液冷对弱电系统设计的深层影响，并能为平谷项目规划液冷升级路径。预计学习时间：3~4小时（含诊断题练习）前置知识：M3-01 制冷原理与方案对比

一、风冷的天花板在哪里？

1.1 从生活场景理解风冷瓶颈

你家的电风扇在夏天吹人的时候，如果室温只有30°C，你觉得凉快。但如果室温飙到45°C，风扇再怎么吹你也觉得热——因为空气本身就是热的，吹风只是加速了热交换，并不能突破空气导热能力的物理极限。

数据中心的风冷散热面对的是同样的物理限制：空气的导热能力太弱了。

1.2 空气 vs 水 vs 液冷工质：导热能力对比

物理参数	空气	水	氟化液（如3M Novec）	矿物油
比热容 (kJ/kg·K)	1.0	4.2	1.0~1.1	1.7~2.0
热导率 (W/m·K)	0.026	0.60	0.06~0.07	0.13
密度 (kg/m³)	1.2	1000	1600~1800	850~900
单位体积携热能力	1（基准）	~3400	~1600	~1500

关键数字：水的单位体积携热能力是空气的3400倍。这意味着同样带走1kW的热量，用水只需要空气体积的1/3400。这就是液冷效率远高于风冷的根本物理原因。

1.3 风冷散热的功率密度天花板

理论分析：风冷散热的极限取决于：

空气的携热能力（已知：很低）
可用的气流空间（机柜内部空间有限）
服务器风扇的可用功率和噪声限制

实践结论：

功率密度	风冷可行性	说明
<8 kW/柜	✅ 完全可行	传统CRAH方案即可
8~15 kW/柜	⚠️ 勉强可行	需要列间空调、增大风量、严格的气流管理
15~25 kW/柜	❌ 基本不可行	风量需求巨大，噪音极高，制冷效率急剧下降
25~40 kW/柜	❌ 完全不可行	必须引入液冷
>40 kW/柜	❌ 完全不可行	纯液冷（浸没式）几乎是唯一选择

速记口诀："八千以下风冷够，三万以上必液冷"——8kW/柜以下风冷方案成熟可靠，30kW/柜以上必须液冷介入。

1.4 GPU时代：功耗密度的爆发

为什么现在液冷突然变得这么热？ 因为AI/GPU时代来了。

GPU功耗的演进：

GPU型号（NVIDIA）	发布年份	单卡TDP	8卡服务器功耗
V100	2017	300W	~3,000W
A100	2020	400W	~6,000W
H100（SXM5）	2022	700W	~10,200W
H200	2023	700W	~10,200W
B200（SXM）	2024	1000W	~14,400W
GB200 NVL72（机柜级）	2024	—	~40,000W/柜

关键趋势：GPU单卡功耗从2017年的300W增长到2024年的1000W，5年增长3倍多。单机柜功耗从3kW飙升到40kW甚至更高。风冷的天花板已经被彻底击穿。

平谷项目的视角：

当前规划6kW/柜，部署通用GPU服务器（如A100级别），风冷完全满足
如果未来升级到H100/B200，单机柜功耗将达到10~15kW，风冷方案面临压力
如果部署GB200 NVL72，单机柜功耗40kW+，必须液冷
因此，在基础设施设计中预留液冷升级接口是一个有远见的决策

🔖 诊断问题 1.1

Q1（记忆层）：水的单位体积携热能力是空气的多少倍？
Q2（理解层）：为什么GPU功耗密度的提升导致风冷方案不可行？从热物理角度分析。
Q3（应用层）：如果平谷项目计划在3年内将部分机柜升级为H100服务器（单柜10kW），现在的风冷基础设施需要做哪些准备？

二、冷板式液冷（Cold Plate Liquid Cooling）

2.1 什么是冷板式液冷？

核心原理：在CPU/GPU芯片表面安装一块金属冷板（Cold Plate），冷板内部有微通道，冷却液在冷板微通道中流过，直接吸收芯片产生的热量。

生活类比：想象一下你在炒菜时手被烫了，本能地把手伸到水龙头下面冲冷水——冷水直接流过烫伤的皮肤表面，快速带走热量。冷板液冷就是这个原理：冷却液直接在芯片表面"流水冲洗式"地带走热量。

2.2 冷板式液冷架构图

┌──────────────── 服务器内部 ────────────────────┐
│                                                │
│  ┌─────┐    ┌─────┐    ┌─────┐    ┌─────┐    │
│  │ GPU │    │ GPU │    │ GPU │    │ GPU │    │
│  │  1  │    │  2  │    │  3  │    │  4  │    │
│  └──┬──┘    └──┬──┘    └──┬──┘    └──┬──┘    │
│     │冷板      │冷板      │冷板      │冷板     │
│     │          │          │          │         │
│     └────┬─────┴────┬─────┴────┬─────┘         │
│          │          │          │                │
│    ┌─────┴──────────┴──────────┴─────┐         │
│    │     服务器内部液冷管路              │         │
│    │  （供液管 + 回液管）               │         │
│    └──────────────┬──────────────────┘         │
│                   │                             │
│              快接接头                             │
│      （Quick-Connect Coupling）                  │
└───────────────────┼─────────────────────────────┘
                    │
                    │ 二次侧管路（服务器↔CDU）
                    │
┌───────────────────┼─────────────────────────────┐
│                   ▼                              │
│          ┌────────────────┐                      │
│          │   CDU（冷量分配单元）│                  │
│          │  Coolant        │                     │
│          │  Distribution   │                     │
│          │  Unit           │                     │
│          └───────┬────────┘                      │
│                  │                               │
│         一次侧管路（CDU↔冷水机组/干冷器）           │
│                  │                               │
│                  ▼                               │
│       ┌──────────────────┐                       │
│       │ 冷水机组 / 干冷器   │                     │
│       │ （散热到室外）      │                     │
│       └──────────────────┘                       │
└──────────────────────────────────────────────────┘

2.3 CDU：冷量分配单元（核心设备详解）

CDU（Coolant Distribution Unit） 是冷板式液冷系统的"心脏"，相当于风冷系统中冷水机组的角色。

CDU的核心功能：

┌──────────────────────────────────────────┐
│                CDU 内部结构                │
│                                          │
│  一次侧 ←─── 板式换热器 ───→ 二次侧       │
│  （设施冷水）  （热交换）    （服务器冷却液）  │
│                                          │
│  一次侧特征：                              │
│  - 介质：普通冷冻水                         │
│  - 温度：7~18°C 供水                       │
│  - 与设施冷水系统连接                        │
│  - 压力相对稳定                             │
│                                          │
│  二次侧特征：                              │
│  - 介质：去离子水或专用冷却液                 │
│  - 温度：25~45°C 供液                      │
│  - 直接流入服务器冷板                        │
│  - 需要精确的流量和压力控制                   │
│  - 有循环泵、过滤器、膨胀罐等                 │
│                                          │
│  其他组件：                                │
│  - 循环泵（驱动二次侧液体循环）               │
│  - 过滤器（去除微粒，保护冷板微通道）           │
│  - 膨胀罐（补偿液体热胀冷缩）                 │
│  - 压力传感器、温度传感器、流量计              │
│  - 漏液检测模块                             │
│  - 控制器（PLC或嵌入式控制）                  │
└──────────────────────────────────────────┘

为什么需要一次侧和二次侧分开？

安全隔离：二次侧液体直接接触IT设备，一旦泄漏后果严重。一次侧和二次侧通过换热器隔离，即使一次侧管路出问题也不会影响到服务器
水质控制：二次侧使用去离子水或专用冷却液，导电性极低，即使微量泄漏也不会导致短路。而一次侧用普通冷冻水即可，降低水处理成本
压力独立：二次侧管路在服务器内部，压力需求和一次侧不同。分开控制更安全

CDU关键参数：

参数	典型值
单台制冷量	50~350 kW
一次侧供水温度	7~18°C
二次侧供液温度	25~45°C
二次侧流量	20~100 L/min（取决于热负荷）
二次侧工作压力	0.1~0.4 MPa
外形尺寸	通常19英寸机架式，4~8U高

2.4 冷板的微观世界

冷板虽然从外面看只是一块金属块，但内部的微通道设计是液冷散热的关键。

冷板剖面示意：

  ┌──────────────── 冷板上盖 ────────────────┐
  │  ╔════╗  ╔════╗  ╔════╗  ╔════╗          │
  │  ║    ║  ║    ║  ║    ║  ║    ║   ← 微通道│
  │  ║冷却║  ║冷却║  ║冷却║  ║冷却║   （宽度    │
  │  ║液体║  ║液体║  ║液体║  ║液体║    0.1~1mm）│
  │  ║ ↓  ║  ║ ↓  ║  ║ ↓  ║  ║ ↓  ║          │
  │  ╚════╝  ╚════╝  ╚════╝  ╚════╝          │
  ├──────────────── 冷板底面 ────────────────┤
  │          （与芯片表面紧密贴合）              │
  │           ↑ ↑ ↑ 热量 ↑ ↑ ↑                │
  └──────────── GPU/CPU 芯片 ──────────────┘

  冷板材质：铜（热导率 ~400 W/m·K）或铝（~200 W/m·K）
  微通道工艺：CNC精密加工或3D打印
  热阻：0.01~0.05 K/W（远低于风冷散热器）

冷板 vs 传统风冷散热器对比：

对比维度	风冷散热器（铜底+热管+鳍片）	冷板（微通道液冷）
热阻	0.1~0.5 K/W	0.01~0.05 K/W
散热能力	<350W/芯片	>1000W/芯片
体积	大（需要鳍片面积）	小（液体在紧凑空间高效换热）
噪声	高（需要高速风扇）	低（无需服务器内风扇或降低转速）
维护	简单（灰尘清理）	较复杂（管路检查、液体更换）

2.5 冷板式液冷的关键优势

精确散热：冷板贴在芯片表面，热量在产生点就被带走，不经过空气"中间人"
兼容性好：只需更换散热器为冷板，服务器主板不需要大改，可以沿用现有机柜
混合部署：服务器其他低发热组件（内存、硬盘、电源）仍可用风冷，只有CPU/GPU用液冷——这就是"风液混合"方案
运维影响相对小：运维人员仍然在常规机房环境中工作，机柜形态与传统相似

2.6 冷板式液冷的注意事项

接头泄漏风险：管路连接点（尤其是快接接头）是泄漏的高发区。虽然二次侧使用低导电液体，但泄漏仍可能造成短路和设备损坏
服务器维护流程变化：更换服务器或部件时需要先断开液冷管路、排液、操作后重新注液和排气
并非100%散热：冷板只冷却CPU/GPU，其他组件仍需风冷辅助。服务器风扇不能完全去除，只是降低转速
管路规划：每一排机柜需要供液和回液主管，管路安装、保温、固定都是新增的工程内容

🔖 诊断问题 2.1

Q1（记忆层）：CDU的全称是什么？它在冷板液冷系统中的角色是什么？
Q2（理解层）：CDU为什么要分为一次侧和二次侧？如果取消换热器直接用冷冻水流过冷板会怎样？
Q3（应用层）：如果平谷项目的一排机柜有20台8卡GPU服务器（每台10kW），CDU需要多大的制冷量？需要几台CDU？

三、浸没式液冷（Immersion Cooling）

3.1 什么是浸没式液冷？

核心原理：把整台服务器（或整块主板）直接浸泡在不导电的冷却液中，冷却液与所有发热元件直接接触，全面吸热。

生活类比：把一块烧红的铁放进一桶水里——"嗤"的一声，热量瞬间被水带走。浸没式液冷就是这个原理的工程化实现（当然，用的是不导电的特殊液体而不是水）。

3.2 单相浸没 vs 两相浸没

浸没式液冷分为两种技术路线，区别在于冷却液在工作过程中是否发生相变（液体→气体）。

3.2.1 单相浸没（Single-Phase Immersion）

原理：服务器浸泡在冷却液中，冷却液吸热后温度升高但不沸腾（始终保持液态），通过外部换热器将热量传递给设施冷水系统。

┌────────────── 浸没式液冷槽 ──────────────┐
│                                          │
│   冷却液（40~55°C热液）                    │
│   ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑                  │
│   ┌────┐  ┌────┐  ┌────┐  ┌────┐        │
│   │服务│  │服务│  │服务│  │服务│         │
│   │器1 │  │器2 │  │器3 │  │器4 │ ← 竖插  │
│   │    │  │    │  │    │  │    │   或横放 │
│   └────┘  └────┘  └────┘  └────┘        │
│   冷却液（25~35°C冷液）← 从底部注入       │
│                                          │
└───────────────┬──────────────────────────┘
                │ 热液排出
                ▼
        ┌───────────────┐
        │  外部换热器     │ ← 与设施冷水换热
        │ （板式换热器）  │
        └───────┬───────┘
                │ 冷却后液体回流
                ▼
           回到浸没槽底部

单相浸没的冷却液选择：

冷却液类型	代表产品	沸点	优点	缺点
矿物油	壳牌Diala S4	>300°C	价格低、环保	粘度较高，维护时沾黏
合成酯油	绿色液冷GreenDEF	>250°C	生物可降解	价格中等
氟化液	3M Novec 7100	61°C	不燃、低粘度、挥发性好	价格极高（$50~100/L）

矿物油方案的特点：

成本优势明显（约 ¥20~~50/L vs 氟化液 ¥300~~700/L）
但维护时拆装设备会带出油液，操作麻烦
长期浸泡可能影响部分连接器的材料兼容性

3.2.2 两相浸没（Two-Phase Immersion）

原理：服务器浸泡在低沸点氟化液中，芯片发热使冷却液在芯片表面沸腾（液体→气体），气体上升到液面上方的冷凝器，放热冷凝回液体后滴落回液槽。

┌──────────── 两相浸没液冷槽 ──────────────┐
│                                          │
│   ┌──────── 冷凝器（顶部）────────┐      │
│   │  气体 →→→ 冷凝为液体 →→→ 滴落  │      │
│   │  （与设施冷水换热）             │      │
│   └──────────────────────────────┘      │
│   ↑ ↑ ↑ 蒸汽上升 ↑ ↑ ↑                  │
│   ~~~~~ 液面 ~~~~~                       │
│                                          │
│   ┌────┐  ┌────┐  ┌────┐  ┌────┐        │
│   │服务│  │服务│  │服务│  │服务│         │
│   │器1 │  │器2 │  │器3 │  │器4 │         │
│   │    │  │    │  │    │  │    │         │
│   │泡泡│  │泡泡│  │泡泡│  │泡泡│         │
│   │↑↑↑│  │↑↑↑│  │↑↑↑│  │↑↑↑│         │
│   └────┘  └────┘  └────┘  └────┘        │
│                                          │
│   芯片表面沸腾产生气泡，气泡上升带走大量热量  │
│   （利用汽化潜热，散热效率极高）              │
└──────────────────────────────────────────┘

为什么两相比单相更高效？

关键在于汽化潜热。液体蒸发为气体时吸收的热量（潜热）远大于液体单纯升温吸收的热量（显热）。

散热方式	换热系数（W/m²·K）
自然对流（空气）	5~25
强制对流（风扇+空气）	25~250
强制对流（液体）	250~10,000
沸腾换热（两相）	2,500~100,000

关键数字：两相沸腾换热的效率是强制风冷的100~1000倍。这就是为什么两相浸没能处理极端高密度负荷。

两相浸没的冷却液：

必须使用低沸点氟化液，常见选择：

产品	沸点	GWP（全球变暖潜能值）	价格
3M Novec 649	49°C	1	极高
3M Novec 7100	61°C	297	极高
3M Fluorinert FC-72	56°C	9300	高（已逐步淘汰）

注意：3M已于2025年宣布逐步停产PFAS类氟化液（包括Novec系列），这给两相浸没液冷的长期发展带来了不确定性。行业正在寻找替代工质。

3.3 单相浸没 vs 两相浸没对比

对比维度	单相浸没	两相浸没
散热原理	液体升温吸热（显热）	液体沸腾吸热（潜热）
换热效率	高	极高
冷却液	矿物油/合成酯/氟化液	仅低沸点氟化液
冷却液成本	低~中（矿物油最便宜）	极高（只能用氟化液）
系统复杂度	较低（需要循环泵）	较高（需要密封冷凝器）
运维难度	中等（拆装设备带液）	较高（密封要求严格）
温度均匀性	好	极好（沸腾使液面温度一致）
适用功率密度	20~80 kW/柜	50~150+ kW/柜
成熟度	较成熟（商用案例增多）	尚处于大规模部署初期
环保风险	低（矿物油/合成酯环保）	高（氟化液PFAS监管）
行业趋势	主流方向	观望中（受工质供应影响）

速记口诀："单相便宜油来泡，两相沸腾氟化搞；单相成熟可大用，两相极端受限制"

🔖 诊断问题 3.1

Q1（记忆层）：两相浸没和单相浸没的核心区别是什么？两相利用了什么物理原理？
Q2（理解层）：为什么两相浸没必须使用低沸点氟化液而不能用矿物油？
Q3（应用层）：考虑到3M停产氟化液的消息，如果你是数据中心方案设计师，现在推荐客户采用两相浸没还是单相浸没？理由是什么？

四、液冷对弱电系统的影响

4.1 为什么弱电工程师需要懂液冷？

作为弱电智能化方案架构师，你可能会问："液冷不是暖通（HVAC）的事吗？跟我弱电有什么关系？"

关系非常大：

弱电子系统	受液冷影响的方面
综合布线	机柜内布线方式改变、线缆防液保护
环境监控（BA/BMS）	漏液检测传感器、温度监控点位、流量监控
安防监控	浸没槽区域的视频覆盖、门禁设计
消防	浸没液的燃烧特性影响灭火方案选择
配电监控	CDU的供配电和监控接入
网络	光纤/铜缆的防液保护和走线路径

4.2 漏液检测系统（关键新增系统）

液冷数据中心中，漏液检测是一个全新的弱电子系统，在传统风冷机房中不存在（或仅在冷冻水管路附近有少量部署）。

4.2.1 检测原理

常见漏液检测技术：

技术类型	原理	优点	缺点
感应线缆（绳式）	线缆表面有电极，液体导电触发报警	可检测整条线路任意位置	对不导电液体（氟化液）无效
定点式探测器	放置在特定位置的圆盘/探头	安装简单、精确定位	只能检测放置点
光纤式	液体改变光纤折射率触发报警	不受电磁干扰、可用于非导电液体	成本高
湿度传感器	检测局部湿度突变	间接检测，可预警	响应较慢

重要注意：如果液冷工质是不导电的氟化液或矿物油，传统的感应线缆式漏液检测可能失效（因为这些液体不导电）。必须选用光纤式或专用碳氢化合物检测传感器。

4.2.2 漏液检测布点设计

冷板式液冷的漏液检测布点：

┌──────────────── 机柜列 ──────────────────┐
│                                          │
│  ┌──┐  ┌──┐  ┌──┐  ┌──┐  ┌──┐  ┌──┐  │
│  │柜│  │柜│  │柜│  │柜│  │柜│  │柜│  │
│  │1 │  │2 │  │3 │  │4 │  │5 │  │6 │  │
│  └──┘  └──┘  └──┘  └──┘  └──┘  └──┘  │
│  [漏液感应线缆沿机柜底部连续布设] ~~~~~~~~ │
│                                          │
│  CDU位置：[定点探测器 × 2] + [接水盘]      │
│                                          │
│  供液管路：[感应线缆绕管] 或 [沿管滴水盘]   │
│                                          │
│  架空地板下：[区域感应线缆] 按通道布设       │
│                                          │
└──────────────────────────────────────────┘

浸没式液冷的漏液检测布点：
- 液冷槽底部：定点探测器（检测槽体泄漏）
- 液冷槽周围地面：感应线缆环绕
- 供回液管路沿线：感应线缆
- CDU进出口：定点探测器

4.2.3 报警联动

漏液报警需要与BMS/BA系统联动：

漏液检测器触发
      │
      ├─→ BMS系统报警（声光报警 + 手机推送）
      ├─→ 关闭该段管路电动阀门（止漏）
      ├─→ 启动排水泵（如设置了集水坑）
      ├─→ 视频监控系统自动调取泄漏区域画面
      └─→ 记录到运维工单系统

4.3 温度监控点位变化

传统风冷机房的温度监控：

监控位置	目的
机柜前门（进风侧）	监控送风温度
机柜后门（排风侧）	监控回风温度
冷通道/热通道	监控气流温度分布
架空地板下	监控送风静压箱温度

液冷系统的温度监控（新增/变化）：

监控位置	目的	传感器类型
CDU一次侧供水温度	确认设施冷水正常	Pt100热电阻
CDU一次侧回水温度	评估换热效果	Pt100热电阻
CDU二次侧供液温度	关键指标——送达芯片的液体温度	Pt100热电阻
CDU二次侧回液温度	关键指标——离开芯片的液体温度	Pt100热电阻
CDU二次侧流量	确认液体循环正常	电磁流量计
浸没槽液温（多点）	监控槽内温度分布	Pt100或热电偶
浸没槽液面高度	防止液面过低暴露设备	液位传感器
芯片表面温度	直接监控芯片温度	服务器BMC读取

关键变化：从传统的"空气温度监控"变为"液体温度+流量+液位"的复合监控。弱电工程师需要设计更多的传感器接入点和更复杂的监控拓扑。

4.4 综合布线防护

液冷环境对综合布线的特殊要求：

场景	要求	说明
冷板式机柜内布线	线缆远离管路接头	防止泄漏时液体沿线缆蔓延
浸没式	使用耐液浸泡的线缆	普通PVC护套线缆长期浸泡会劣化
光纤保护	防液保护套管	氟化液可能侵蚀部分光纤涂覆层
管路穿越	液冷管路与线缆桥架交叉处设防漏挡板	防止管路泄漏波及线缆
浸没槽出线	密封出线口	防止液体蒸气逸出

4.5 消防系统考虑

冷却液类型	燃烧特性	消防影响
矿物油	可燃（闪点>170°C）	需要考虑油类火灾灭火（泡沫或气体）
合成酯	低燃（闪点>250°C）	低风险，常规气体灭火即可
氟化液	不可燃	无额外消防要求
去离子水（冷板式二次侧）	不可燃	但泄漏后可能导致电气火灾

速记口诀："液冷弱电五大变：漏液检测必须建，温控点位翻了番，布线防液要防范，消防方案看液选，监控联动全打通"

🔖 诊断问题 4.1

Q1（记忆层）：液冷数据中心新增了哪个传统风冷机房不存在的弱电子系统？
Q2（理解层）：为什么传统的感应线缆式漏液检测对氟化液无效？应该用什么替代方案？
Q3（应用层）：如果你负责平谷项目的一栋楼（1520个机柜）的液冷改造弱电方案，请列出你需要新增设计的5个弱电子系统/功能点。

五、风冷 vs 冷板液冷 vs 浸没液冷：三者全面对比

对比维度	风冷（CRAH）	冷板式液冷	浸没式液冷
散热介质	空气	去离子水/冷却液	氟化液/矿物油
散热效率	基准（1×）	高（10~50×）	极高（100~1000×）
适用功率密度	<8~15 kW/柜	8~40 kW/柜	20~150+ kW/柜
PUE贡献	PUE 1.3~1.6	PUE 1.1~1.25	PUE 1.02~1.15
初始投资	基准	1.3~1.5×	1.5~2.5×
运营成本（10年TCO）	高（电费占大头）	中（节能抵消投资）	低（极高能效）
运维复杂度	低（成熟技术）	中	高（新技术、新流程）
占地面积	大（需要气流空间）	中	小（高密度紧凑）
噪声	高（大量风扇）	中	低
机柜形态	标准19英寸机柜	标准机柜+管路	专用液冷槽
服务器兼容性	所有标准服务器	需冷板定制散热器	需完全定制
综合布线	标准方案	需增加防护	需全面重新设计
漏液风险	无	有（管路接头）	有（槽体密封）
技术成熟度	★★★★★	★★★★	★★★
平谷项目适用性	当前方案（6kW/柜）	未来升级路径1	未来升级路径2

六、液冷数据中心的PUE优势

6.1 为什么液冷能大幅降低PUE？

回顾PUE的定义：

PUE = 数据中心总能耗 / IT设备能耗

制冷系统是总能耗中除IT设备外最大的单一能耗项。在传统风冷数据中心中，制冷能耗约占总能耗的30~40%。

液冷降低PUE的途径：

节能途径	风冷	液冷	节能幅度
压缩机能耗	需要低温冷冻水（7°C）	可用高温冷水（18~25°C）或自然冷却	降低40~60%
服务器风扇	高速运转，单台50~200W	低速或取消，单台0~50W	降低50~100%
水泵能耗	大流量低温差	小流量高温差（液体携热强）	降低20~30%
自然冷却时间	需室外<7~10°C	需室外<25~35°C	大幅延长

6.2 不同制冷方案的PUE对比

PUE数值对比（年均值估算）：

              1.0    1.1    1.2    1.3    1.4    1.5    1.6
               |      |      |      |      |      |      |
风冷（传统）    |──────────────────────████████████████|
               |                    1.3~1.5           |
               |      |      |      |      |      |      |
风冷（优化）    |────────────████████████|              |
               |          1.2~1.35    |              |
               |      |      |      |      |      |      |
冷板液冷        |──████████████|                        |
               | 1.1~1.25    |                        |
               |      |      |      |      |      |      |
浸没液冷        |████|                                  |
               |1.02~1.15                              |
               |      |      |      |      |      |      |

关键数字：从风冷PUE 1.4 优化到液冷PUE 1.1，对于平谷项目54.7MW IT负荷，每年可节省制冷电费：

54,700kW × (0.4 - 0.1) × 8760h × ¥0.8/kWh ≈ ¥1.15亿/年

这是一个惊人的数字，足以在3~5年内收回液冷系统的额外投资。

七、智算中心为什么倾向液冷？

7.1 GPU功耗密度的必然要求

重申前面的数据：

AI芯片功耗趋势：

  单卡TDP（W）
  1200 |                              ●  B200
  1000 |                         ●
   800 |
   700 |                    ●  H100
   600 |
   500 |
   400 |               ●  A100
   300 |          ●  V100
   200 |
   100 |
     0 ├────┬────┬────┬────┬────┬────→ 年份
      2016 2018 2020 2022 2024 2026

趋势：每2年功耗增长约50~70%
结论：到2026~2027年，单卡功耗可能超过1500W
      单机柜功耗可能达到50~100kW
      风冷彻底无法应对

7.2 AI训练对散热一致性的要求

AI大模型训练的特殊性：

数千张GPU协同计算：训练大模型时，数千张GPU通过高速网络（如InfiniBand/NVLink）协同工作，所有GPU必须保持同步
短板效应：如果其中一张GPU因为散热不良而降频（Thermal Throttling），整个训练任务的速度将由这张最慢的GPU决定
温度一致性要求：需要所有GPU的温度保持在极窄的范围内（差异<5°C），以确保性能一致

液冷在温度一致性方面的优势：

散热方案	GPU间温度差异	说明
风冷	5~15°C	受气流分布不均影响大
冷板液冷	2~5°C	液体流量可精确控制
浸没液冷	<2°C	所有芯片浸在同一液体中

7.3 空间利用效率

液冷允许更高密度的部署：

方案	同样10MW IT负荷所需面积
风冷（6kW/柜）	~1,667 机柜 → 约 3,300 m²
冷板液冷（20kW/柜）	~500 机柜 → 约 1,000 m²
浸没液冷（50kW/柜）	~200 液冷槽 → 约 600 m²

关键认知：液冷不仅是散热问题的解决方案，更是数据中心空间利用效率的根本性提升。同样的建筑面积可以容纳3~5倍的算力。

八、平谷项目：液冷升级路径规划

8.1 当前状态与未来需求

维度	当前（Phase 1）	近期升级（Phase 2）	远期规划（Phase 3）
单柜功率	6kW	10~15kW	30~50kW
GPU型号	A100级别	H100/H200	B200/GB200+
制冷方案	风冷CRAH	风冷+冷板液冷混合	液冷为主
PUE目标	≤1.25	≤1.2	≤1.15
预计时间	2024-2025	2025-2027	2027-2030

8.2 液冷预留设计建议

在Phase 1建设时，应为未来液冷升级预留以下条件：

基础设施预留：

预留项	具体要求	预留成本占比
冷冻水管路预留	在机房层预留液冷管路走向空间和管道井	~2%
CDU安装位置	在每排机柜末端预留CDU位置（宽800mm×深1200mm）	~1%
楼板承重	按液冷设备重量（液冷槽满载可达2000kg/m²）设计	~3%
供配电余量	CDU泵组需要额外供电（每台CDU约3~5kW）	~2%
排水设施	预留集水坑和排水管路	~1%

弱电系统预留：

预留项	具体要求
漏液检测管路预留	在架空地板下和管路走向预留感应线缆路由
温度/流量传感器接口	BMS系统预留CDU和液冷管路的传感器接入端口
监控网络端口	为CDU控制器预留以太网接口和管理VLAN
视频监控覆盖	液冷设备区域预留摄像头安装点位

总预留成本估算：约占Phase 1建设总投资的5~10%，但可以避免未来改造时的大规模停机和破坏性施工。

速记口诀："花一成留后路，省十倍改造苦"——预留5~10%的成本，可以节省未来数倍的改造代价。

8.3 升级路径推荐

Phase 1（当前）           Phase 2（2~3年后）        Phase 3（5年后）
6kW/柜，纯风冷            部分柜升级到15kW          部分柜升级到30~50kW
                          引入冷板液冷              全面液冷

┌──────────┐        ┌──────────────┐       ┌──────────────┐
│ 风冷CRAH  │        │ 风冷CRAH      │       │ 风冷CRAH      │
│ 全部机柜   │  ──→   │ + CDU+冷板     │ ──→   │ + CDU+冷板     │
│           │        │ （高密柜区）    │       │ + 浸没槽       │
└──────────┘        └──────────────┘       │ （超高密区）    │
                                           └──────────────┘

关键决策点：
- Phase 2触发条件：GPU服务器单柜功耗>10kW
- Phase 3触发条件：GPU服务器单柜功耗>30kW

🔖 诊断问题 8.1

Q1（记忆层）：平谷项目Phase 1预留液冷的总成本约占建设投资的多少？
Q2（理解层）：为什么在Phase 1就需要预留液冷条件？不预留的风险是什么？
Q3（应用层）：作为弱电方案架构师，请列出你在Phase 1需要为液冷预留的5个弱电系统设计点。

九、关键设备选型参数

9.1 CDU选型要点

参数	选型考虑
制冷量	按所服务的IT负荷×1.1安全系数选型
二次侧流量	根据热负荷和供回液温差计算：Q = P / (ρ × Cp × ΔT)
二次侧压力	需满足最远端服务器的管路压降需求
接口	一次侧：DN50~~DN100法兰/卡箍；二次侧：DN25~~DN50
冗余	N+1配置（每组CDU有备用）
监控接口	Modbus TCP/IP 或 SNMP，接入BMS
外形	机架式（4~8U）或落地式

9.2 管路材质选择

管路位置	推荐材质	理由
一次侧主管	碳钢/不锈钢	承压能力强，成本合理
二次侧主管	不锈钢304/316	耐腐蚀，确保水质不被污染
二次侧支管（到服务器）	不锈钢软管或EPDM软管	需要柔性连接，便于服务器插拔
快接接头	不锈钢+防滴漏设计	断开时不漏液

9.3 流量计算示例

场景：一排20个机柜，每柜10kW GPU服务器，使用冷板液冷。

计算：

已知：
- 总热负荷 P = 20 × 10 = 200 kW
- 假设冷板液冷承担70%热负荷 = 140 kW
  （其余30%由辅助风冷散热——内存、硬盘、电源等）
- 二次侧冷却液：去离子水
- 密度 ρ = 1000 kg/m³
- 比热容 Cp = 4.2 kJ/(kg·K) = 4200 J/(kg·K)
- 供液温度 25°C，回液温度 35°C，温差 ΔT = 10K

流量计算：
Q = P / (ρ × Cp × ΔT)
Q = 140,000 W / (1000 kg/m³ × 4200 J/(kg·K) × 10 K)
Q = 140,000 / 42,000,000
Q = 0.00333 m³/s
Q = 3.33 L/s = 200 L/min

CDU选型：
- 单台CDU制冷量 150kW，1台足够（但N+1冗余需要2台）
- 二次侧流量能力需 ≥200 L/min

速记口诀（流量计算）："功率除以密比温"—— Q = P / (ρ × Cp × ΔT)

十、速记卡汇总

🃏 卡片1：风冷瓶颈

水的携热能力 = 空气的3400倍
风冷天花板：~15kW/柜（勉强）
30kW以上：必须液冷
口诀："八千以下风冷够，三万以上必液冷"
GPU功耗趋势：每2年增长50~70%

🃏 卡片2：冷板液冷架构

冷板（贴芯片） → 二次侧管路 → CDU → 一次侧管路 → 冷水机组/干冷器
CDU = Coolant Distribution Unit（冷量分配单元）
一次侧：设施冷冻水（7~18°C）
二次侧：去离子水/专用液体（25~45°C供液）
一二次侧通过板式换热器隔离（安全+水质控制）

🃏 卡片3：浸没式液冷

单相浸没：液体只升温不沸腾，矿物油/合成酯/氟化液
两相浸没：液体沸腾（潜热），仅低沸点氟化液
两相效率 >> 单相 >> 风冷（沸腾换热系数是风冷100~1000倍）
口诀："单相便宜油来泡，两相沸腾氟化搞"
注意：3M停产氟化液→两相前景存疑

🃏 卡片4：液冷对弱电的影响

五大变化：
1. 新增漏液检测系统
2. 温度监控点位翻倍（液温+流量+液位）
3. 综合布线需防液保护
4. 消防方案看冷却液类型
5. 监控联动（BMS+视频+门禁）全面升级
口诀："漏液检测必须建，温控点位翻了番"

🃏 卡片5：三种制冷方案PUE

风冷（传统）：PUE 1.3~1.5
风冷（优化）：PUE 1.2~1.35
冷板液冷：PUE 1.1~1.25
浸没液冷：PUE 1.02~1.15
口诀："风一三，板一一，浸一零"（取典型值近似）

🃏 卡片6：平谷液冷升级路径

Phase 1：6kW/柜 → 纯风冷 → PUE≤1.25
Phase 2：10~15kW/柜 → 风冷+冷板 → PUE≤1.2
Phase 3：30~50kW/柜 → 全面液冷 → PUE≤1.15
预留成本：5~10%（花一成留后路）
口诀："花一成留后路，省十倍改造苦"

🃏 卡片7：流量计算

Q = P / (ρ × Cp × ΔT)
Q：流量（m³/s）
P：热负荷（W）
ρ：密度（kg/m³），水=1000
Cp：比热容（J/(kg·K)），水=4200
ΔT：供回液温差（K）
口诀："功率除以密比温"

十一、综合诊断题

第一组：记忆层

D2-1：水的单位体积携热能力是空气的多少倍？

D2-2：冷板式液冷中CDU的全称是什么？CDU内部最核心的组件是什么？

D2-3：两相浸没液冷利用了什么物理原理使其散热效率极高？

D2-4：列举液冷对弱电系统影响的3个方面。

D2-5：NVIDIA GPU单卡功耗从V100到B200经历了怎样的增长？

第二组：理解层

D2-6：CDU为什么要分一次侧和二次侧？如果直接用设施冷冻水流过冷板有什么风险？

D2-7：为什么单相浸没更可能成为主流方向而非两相浸没？（至少给出两个原因）

D2-8：液冷数据中心的PUE为什么远低于风冷？请从至少3个能耗环节分析。

D2-9：为什么AI训练对GPU温度一致性的要求特别高？温度不一致会导致什么问题？

第三组：应用层

D2-10：平谷项目Phase 1使用风冷方案，你认为在弱电设计中应该为液冷预留哪些条件？（至少列出5项）

D2-11：一个客户要新建一个500柜的数据中心，计划全部部署H100服务器（单柜约10kW）。请推荐制冷方案并给出理由。

D2-12：计算题——一个液冷区域有30个机柜，每柜15kW，冷板承担80%热负荷，使用去离子水（Cp=4200 J/(kg·K)），供回液温差8K。请计算所需的二次侧流量（L/min），并据此选择CDU规格。

诊断题参考答案

D2-1：约3400倍。

D2-2：CDU = Coolant Distribution Unit（冷量分配单元）。核心组件是板式换热器，用于隔离一次侧（设施冷水）和二次侧（服务器冷却液）。

D2-3：汽化潜热（相变吸热）。液体在芯片表面沸腾时，从液态变为气态，吸收大量潜热，换热系数可达强制风冷的100~1000倍。

D2-4：（1）新增漏液检测系统；（2）温度/流量/液位监控点位大幅增加；（3）综合布线需要防液保护；（4）消防方案需根据冷却液类型调整；（5）监控联动策略需要全面升级。（列出任意3项即可）

D2-5：V100（2017）300W → A100（2020）400W → H100（2022）700W → B200（2024）1000W。5年内从300W增长到1000W，增长超过3倍。

D2-6：分开的原因：（1）安全隔离——设施冷冻水含有水处理化学品，如果直接流入服务器内部，泄漏后导电性强，可能导致严重短路；（2）水质控制——二次侧使用去离子水，导电性极低，即使微量泄漏也不会立即导致短路；（3）压力独立——一次侧和二次侧压力需求不同，分开控制更安全。如果取消换热器直接用冷冻水：水质不可控（可能含杂质堵塞微通道），泄漏后导电性强（直接短路烧毁设备），且一次侧水压波动可能损坏服务器内部管路。

D2-7：（1）冷却液成本和供应——两相必须使用低沸点氟化液，价格极高（$50~100/L），且3M已宣布停产PFAS类产品，长期供应存疑；单相可以用便宜的矿物油或合成酯。（2）系统成熟度——单相浸没技术更简单（不涉及相变控制、冷凝器设计），商用案例更多。（3）环保法规——氟化液属于PFAS类化合物，全球监管趋严，未来可能面临使用限制。

D2-8：（1）压缩机能耗降低40~60%——液冷可以用更高温度的冷水（18~25°C vs 7°C），甚至更多时间使用自然冷却，压缩机负荷大减；（2）服务器风扇能耗降低50~100%——液冷直接在芯片散热，服务器内部风扇可以大幅降速或取消；（3）水泵能耗降低——液体携热能力强，相同热负荷需要的流量小得多；（4）自然冷却时间延长——液冷系统的冷却液温度更高，在更高的室外温度下就能使用自然冷却。

D2-9：AI大模型训练时，数千张GPU通过高速网络协同计算（如数据并行、模型并行）。所有GPU必须保持计算同步——在每个训练step结束时需要同步梯度。如果其中一张GPU因温度过高而触发热降频（Thermal Throttling），其计算速度下降，其他所有GPU都必须等待这张最慢的GPU完成计算后才能继续下一步。整个训练任务的速度由最慢的GPU决定（木桶效应）。因此，所有GPU的温度需要保持一致（差异<5°C），以确保性能一致。液冷（尤其是浸没式）的温度均匀性远优于风冷。

D2-10：Phase 1弱电液冷预留项（至少5项）：

漏液检测管路预留：在架空地板下和机柜列末端预留感应线缆走线路由
BMS传感器接口预留：为未来CDU的温度、流量、压力传感器预留BMS接入端口和I/O模块
监控网络端口：为CDU控制器预留以太网交换机端口和管理VLAN
视频监控点位预留：在未来CDU安装位置和液冷管路走向预留摄像头安装位和线缆
配电监控预留：为CDU供电回路预留智能电表和配电监控接口
集水坑液位传感器预留：在机房低洼处预留集水坑和液位传感器安装位

D2-11：推荐方案：冷板液冷（为主）+ 风冷CRAH（辅助）的混合方案。

理由1：10kW/柜处于风冷和液冷的过渡区，纯风冷需要列间空调、气流管理复杂且能效不佳
理由2：冷板液冷承担CPU/GPU的主要热负荷（约70%），CRAH处理内存、硬盘等辅助散热
理由3：PUE可达1.15~1.2，长期运营成本优于纯风冷
理由4：如果未来升级到H200/B200（更高功耗），冷板液冷基础设施可以直接复用

D2-12：计算过程：

已知：
- 总IT负荷：30 × 15 = 450 kW
- 冷板承担80%：450 × 0.8 = 360 kW
- Cp = 4200 J/(kg·K)
- ρ = 1000 kg/m³
- ΔT = 8 K

流量计算：
Q = P / (ρ × Cp × ΔT)
Q = 360,000 / (1000 × 4200 × 8)
Q = 360,000 / 33,600,000
Q = 0.01071 m³/s
Q = 10.71 L/s = 643 L/min

CDU选型：
- 制冷量需求：360 kW
- 如选200kW级CDU：需要2台工作 + 1台备用 = 3台
- 如选350kW级CDU：需要1台工作 + 1台备用 = 2台（推荐）
- 流量需求：≥643 L/min

本文件学习检查清单：

能解释风冷散热的物理瓶颈（空气携热能力限制）

能画出冷板液冷的系统架构（冷板→CDU→冷水机组）

能区分单相浸没和两相浸没的原理与适用场景

能说出液冷对弱电系统的5个主要影响

能完成CDU流量的基本计算

能为平谷项目规划液冷升级路径和弱电预留方案

能在风冷、冷板液冷、浸没液冷之间做出合理的方案选型