M3-02:液冷技术深度解析
模块3 / Day 12 难度:★★★★☆(中高,涉及新兴技术路线与跨系统影响) 学习目标:理解液冷技术的工程原理与发展动因,掌握冷板式和浸没式两种主流方案的架构差异,理解液冷对弱电系统设计的深层影响,并能为平谷项目规划液冷升级路径。 预计学习时间:3~4小时(含诊断题练习) 前置知识:M3-01 制冷原理与方案对比
一、风冷的天花板在哪里?
1.1 从生活场景理解风冷瓶颈
你家的电风扇在夏天吹人的时候,如果室温只有30°C,你觉得凉快。但如果室温飙到45°C,风扇再怎么吹你也觉得热——因为空气本身就是热的,吹风只是加速了热交换,并不能突破空气导热能力的物理极限。
数据中心的风冷散热面对的是同样的物理限制:空气的导热能力太弱了。
1.2 空气 vs 水 vs 液冷工质:导热能力对比
| 物理参数 | 空气 | 水 | 氟化液(如3M Novec) | 矿物油 |
|---|---|---|---|---|
| 比热容 (kJ/kg·K) | 1.0 | 4.2 | 1.0~1.1 | 1.7~2.0 |
| 热导率 (W/m·K) | 0.026 | 0.60 | 0.06~0.07 | 0.13 |
| 密度 (kg/m³) | 1.2 | 1000 | 1600~1800 | 850~900 |
| 单位体积携热能力 | 1(基准) | ~3400 | ~1600 | ~1500 |
关键数字:水的单位体积携热能力是空气的3400倍。这意味着同样带走1kW的热量,用水只需要空气体积的1/3400。这就是液冷效率远高于风冷的根本物理原因。
1.3 风冷散热的功率密度天花板
理论分析:风冷散热的极限取决于:
- 空气的携热能力(已知:很低)
- 可用的气流空间(机柜内部空间有限)
- 服务器风扇的可用功率和噪声限制
实践结论:
| 功率密度 | 风冷可行性 | 说明 |
|---|---|---|
| <8 kW/柜 | ✅ 完全可行 | 传统CRAH方案即可 |
| 8~15 kW/柜 | ⚠️ 勉强可行 | 需要列间空调、增大风量、严格的气流管理 |
| 15~25 kW/柜 | ❌ 基本不可行 | 风量需求巨大,噪音极高,制冷效率急剧下降 |
| 25~40 kW/柜 | ❌ 完全不可行 | 必须引入液冷 |
| >40 kW/柜 | ❌ 完全不可行 | 纯液冷(浸没式)几乎是唯一选择 |
速记口诀:"八千以下风冷够,三万以上必液冷"——8kW/柜以下风冷方案成熟可靠,30kW/柜以上必须液冷介入。
1.4 GPU时代:功耗密度的爆发
为什么现在液冷突然变得这么热? 因为AI/GPU时代来了。
GPU功耗的演进:
| GPU型号(NVIDIA) | 发布年份 | 单卡TDP | 8卡服务器功耗 |
|---|---|---|---|
| V100 | 2017 | 300W | ~3,000W |
| A100 | 2020 | 400W | ~6,000W |
| H100(SXM5) | 2022 | 700W | ~10,200W |
| H200 | 2023 | 700W | ~10,200W |
| B200(SXM) | 2024 | 1000W | ~14,400W |
| GB200 NVL72(机柜级) | 2024 | — | ~40,000W/柜 |
关键趋势:GPU单卡功耗从2017年的300W增长到2024年的1000W,5年增长3倍多。单机柜功耗从3kW飙升到40kW甚至更高。风冷的天花板已经被彻底击穿。
平谷项目的视角:
- 当前规划6kW/柜,部署通用GPU服务器(如A100级别),风冷完全满足
- 如果未来升级到H100/B200,单机柜功耗将达到10~15kW,风冷方案面临压力
- 如果部署GB200 NVL72,单机柜功耗40kW+,必须液冷
- 因此,在基础设施设计中预留液冷升级接口是一个有远见的决策
🔖 诊断问题 1.1
- Q1(记忆层):水的单位体积携热能力是空气的多少倍?
- Q2(理解层):为什么GPU功耗密度的提升导致风冷方案不可行?从热物理角度分析。
- Q3(应用层):如果平谷项目计划在3年内将部分机柜升级为H100服务器(单柜10kW),现在的风冷基础设施需要做哪些准备?
二、冷板式液冷(Cold Plate Liquid Cooling)
2.1 什么是冷板式液冷?
核心原理:在CPU/GPU芯片表面安装一块金属冷板(Cold Plate),冷板内部有微通道,冷却液在冷板微通道中流过,直接吸收芯片产生的热量。
生活类比:想象一下你在炒菜时手被烫了,本能地把手伸到水龙头下面冲冷水——冷水直接流过烫伤的皮肤表面,快速带走热量。冷板液冷就是这个原理:冷却液直接在芯片表面"流水冲洗式"地带走热量。
2.2 冷板式液冷架构图
┌──────────────── 服务器内部 ────────────────────┐
│ │
│ ┌─────┐ ┌─────┐ ┌─────┐ ┌─────┐ │
│ │ GPU │ │ GPU │ │ GPU │ │ GPU │ │
│ │ 1 │ │ 2 │ │ 3 │ │ 4 │ │
│ └──┬──┘ └──┬──┘ └──┬──┘ └──┬──┘ │
│ │冷板 │冷板 │冷板 │冷板 │
│ │ │ │ │ │
│ └────┬─────┴────┬─────┴────┬─────┘ │
│ │ │ │ │
│ ┌─────┴──────────┴──────────┴─────┐ │
│ │ 服务器内部液冷管路 │ │
│ │ (供液管 + 回液管) │ │
│ └──────────────┬──────────────────┘ │
│ │ │
│ 快接接头 │
│ (Quick-Connect Coupling) │
└───────────────────┼─────────────────────────────┘
│
│ 二次侧管路(服务器↔CDU)
│
┌───────────────────┼─────────────────────────────┐
│ ▼ │
│ ┌────────────────┐ │
│ │ CDU(冷量分配单元)│ │
│ │ Coolant │ │
│ │ Distribution │ │
│ │ Unit │ │
│ └───────┬────────┘ │
│ │ │
│ 一次侧管路(CDU↔冷水机组/干冷器) │
│ │ │
│ ▼ │
│ ┌──────────────────┐ │
│ │ 冷水机组 / 干冷器 │ │
│ │ (散热到室外) │ │
│ └──────────────────┘ │
└──────────────────────────────────────────────────┘
2.3 CDU:冷量分配单元(核心设备详解)
CDU(Coolant Distribution Unit) 是冷板式液冷系统的"心脏",相当于风冷系统中冷水机组的角色。
CDU的核心功能:
┌──────────────────────────────────────────┐
│ CDU 内部结构 │
│ │
│ 一次侧 ←─── 板式换热器 ───→ 二次侧 │
│ (设施冷水) (热交换) (服务器冷却液) │
│ │
│ 一次侧特征: │
│ - 介质:普通冷冻水 │
│ - 温度:7~18°C 供水 │
│ - 与设施冷水系统连接 │
│ - 压力相对稳定 │
│ │
│ 二次侧特征: │
│ - 介质:去离子水或专用冷却液 │
│ - 温度:25~45°C 供液 │
│ - 直接流入服务器冷板 │
│ - 需要精确的流量和压力控制 │
│ - 有循环泵、过滤器、膨胀罐等 │
│ │
│ 其他组件: │
│ - 循环泵(驱动二次侧液体循环) │
│ - 过滤器(去除微粒,保护冷板微通道) │
│ - 膨胀罐(补偿液体热胀冷缩) │
│ - 压力传感器、温度传感器、流量计 │
│ - 漏液检测模块 │
│ - 控制器(PLC或嵌入式控制) │
└──────────────────────────────────────────┘
为什么需要一次侧和二次侧分开?
- 安全隔离:二次侧液体直接接触IT设备,一旦泄漏后果严重。一次侧和二次侧通过换热器隔离,即使一次侧管路出问题也不会影响到服务器
- 水质控制:二次侧使用去离子水或专用冷却液,导电性极低,即使微量泄漏也不会导致短路。而一次侧用普通冷冻水即可,降低水处理成本
- 压力独立:二次侧管路在服务器内部,压力需求和一次侧不同。分开控制更安全
CDU关键参数:
| 参数 | 典型值 |
|---|---|
| 单台制冷量 | 50~350 kW |
| 一次侧供水温度 | 7~18°C |
| 二次侧供液温度 | 25~45°C |
| 二次侧流量 | 20~100 L/min(取决于热负荷) |
| 二次侧工作压力 | 0.1~0.4 MPa |
| 外形尺寸 | 通常19英寸机架式,4~8U高 |
2.4 冷板的微观世界
冷板虽然从外面看只是一块金属块,但内部的微通道设计是液冷散热的关键。
冷板剖面示意:
┌──────────────── 冷板上盖 ────────────────┐
│ ╔════╗ ╔════╗ ╔════╗ ╔════╗ │
│ ║ ║ ║ ║ ║ ║ ║ ║ ← 微通道│
│ ║冷却║ ║冷却║ ║冷却║ ║冷却║ (宽度 │
│ ║液体║ ║液体║ ║液体║ ║液体║ 0.1~1mm)│
│ ║ ↓ ║ ║ ↓ ║ ║ ↓ ║ ║ ↓ ║ │
│ ╚════╝ ╚════╝ ╚════╝ ╚════╝ │
├──────────────── 冷板底面 ────────────────┤
│ (与芯片表面紧密贴合) │
│ ↑ ↑ ↑ 热量 ↑ ↑ ↑ │
└──────────── GPU/CPU 芯片 ──────────────┘
冷板材质:铜(热导率 ~400 W/m·K)或铝(~200 W/m·K)
微通道工艺:CNC精密加工或3D打印
热阻:0.01~0.05 K/W(远低于风冷散热器)
冷板 vs 传统风冷散热器对比:
| 对比维度 | 风冷散热器(铜底+热管+鳍片) | 冷板(微通道液冷) |
|---|---|---|
| 热阻 | 0.1~0.5 K/W | 0.01~0.05 K/W |
| 散热能力 | <350W/芯片 | >1000W/芯片 |
| 体积 | 大(需要鳍片面积) | 小(液体在紧凑空间高效换热) |
| 噪声 | 高(需要高速风扇) | 低(无需服务器内风扇或降低转速) |
| 维护 | 简单(灰尘清理) | 较复杂(管路检查、液体更换) |
2.5 冷板式液冷的关键优势
- 精确散热:冷板贴在芯片表面,热量在产生点就被带走,不经过空气"中间人"
- 兼容性好:只需更换散热器为冷板,服务器主板不需要大改,可以沿用现有机柜
- 混合部署:服务器其他低发热组件(内存、硬盘、电源)仍可用风冷,只有CPU/GPU用液冷——这就是"风液混合"方案
- 运维影响相对小:运维人员仍然在常规机房环境中工作,机柜形态与传统相似
2.6 冷板式液冷的注意事项
- 接头泄漏风险:管路连接点(尤其是快接接头)是泄漏的高发区。虽然二次侧使用低导电液体,但泄漏仍可能造成短路和设备损坏
- 服务器维护流程变化:更换服务器或部件时需要先断开液冷管路、排液、操作后重新注液和排气
- 并非100%散热:冷板只冷却CPU/GPU,其他组件仍需风冷辅助。服务器风扇不能完全去除,只是降低转速
- 管路规划:每一排机柜需要供液和回液主管,管路安装、保温、固定都是新增的工程内容
🔖 诊断问题 2.1
- Q1(记忆层):CDU的全称是什么?它在冷板液冷系统中的角色是什么?
- Q2(理解层):CDU为什么要分为一次侧和二次侧?如果取消换热器直接用冷冻水流过冷板会怎样?
- Q3(应用层):如果平谷项目的一排机柜有20台8卡GPU服务器(每台10kW),CDU需要多大的制冷量?需要几台CDU?
三、浸没式液冷(Immersion Cooling)
3.1 什么是浸没式液冷?
核心原理:把整台服务器(或整块主板)直接浸泡在不导电的冷却液中,冷却液与所有发热元件直接接触,全面吸热。
生活类比:把一块烧红的铁放进一桶水里——"嗤"的一声,热量瞬间被水带走。浸没式液冷就是这个原理的工程化实现(当然,用的是不导电的特殊液体而不是水)。
3.2 单相浸没 vs 两相浸没
浸没式液冷分为两种技术路线,区别在于冷却液在工作过程中是否发生相变(液体→气体)。
3.2.1 单相浸没(Single-Phase Immersion)
原理:服务器浸泡在冷却液中,冷却液吸热后温度升高但不沸腾(始终保持液态),通过外部换热器将热量传递给设施冷水系统。
┌────────────── 浸没式液冷槽 ──────────────┐
│ │
│ 冷却液(40~55°C热液) │
│ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ │
│ ┌────┐ ┌────┐ ┌────┐ ┌────┐ │
│ │服务│ │服务│ │服务│ │服务│ │
│ │器1 │ │器2 │ │器3 │ │器4 │ ← 竖插 │
│ │ │ │ │ │ │ │ │ 或横放 │
│ └────┘ └────┘ └────┘ └────┘ │
│ 冷却液(25~35°C冷液)← 从底部注入 │
│ │
└───────────────┬──────────────────────────┘
│ 热液排出
▼
┌───────────────┐
│ 外部换热器 │ ← 与设施冷水换热
│ (板式换热器) │
└───────┬───────┘
│ 冷却后液体回流
▼
回到浸没槽底部
单相浸没的冷却液选择:
| 冷却液类型 | 代表产品 | 沸点 | 优点 | 缺点 |
|---|---|---|---|---|
| 矿物油 | 壳牌Diala S4 | >300°C | 价格低、环保 | 粘度较高,维护时沾黏 |
| 合成酯油 | 绿色液冷GreenDEF | >250°C | 生物可降解 | 价格中等 |
| 氟化液 | 3M Novec 7100 | 61°C | 不燃、低粘度、挥发性好 | 价格极高($50~100/L) |
矿物油方案的特点:
- 成本优势明显(约 ¥20
50/L vs 氟化液 ¥300700/L) - 但维护时拆装设备会带出油液,操作麻烦
- 长期浸泡可能影响部分连接器的材料兼容性
3.2.2 两相浸没(Two-Phase Immersion)
原理:服务器浸泡在低沸点氟化液中,芯片发热使冷却液在芯片表面沸腾(液体→气体),气体上升到液面上方的冷凝器,放热冷凝回液体后滴落回液槽。
┌──────────── 两相浸没液冷槽 ──────────────┐
│ │
│ ┌──────── 冷凝器(顶部)────────┐ │
│ │ 气体 →→→ 冷凝为液体 →→→ 滴落 │ │
│ │ (与设施冷水换热) │ │
│ └──────────────────────────────┘ │
│ ↑ ↑ ↑ 蒸汽上升 ↑ ↑ ↑ │
│ ~~~~~ 液面 ~~~~~ │
│ │
│ ┌────┐ ┌────┐ ┌────┐ ┌────┐ │
│ │服务│ │服务│ │服务│ │服务│ │
│ │器1 │ │器2 │ │器3 │ │器4 │ │
│ │ │ │ │ │ │ │ │ │
│ │泡泡│ │泡泡│ │泡泡│ │泡泡│ │
│ │↑↑↑│ │↑↑↑│ │↑↑↑│ │↑↑↑│ │
│ └────┘ └────┘ └────┘ └────┘ │
│ │
│ 芯片表面沸腾产生气泡,气泡上升带走大量热量 │
│ (利用汽化潜热,散热效率极高) │
└──────────────────────────────────────────┘
为什么两相比单相更高效?
关键在于汽化潜热。液体蒸发为气体时吸收的热量(潜热)远大于液体单纯升温吸收的热量(显热)。
| 散热方式 | 换热系数(W/m²·K) |
|---|---|
| 自然对流(空气) | 5~25 |
| 强制对流(风扇+空气) | 25~250 |
| 强制对流(液体) | 250~10,000 |
| 沸腾换热(两相) | 2,500~100,000 |
关键数字:两相沸腾换热的效率是强制风冷的100~1000倍。这就是为什么两相浸没能处理极端高密度负荷。
两相浸没的冷却液:
必须使用低沸点氟化液,常见选择:
| 产品 | 沸点 | GWP(全球变暖潜能值) | 价格 |
|---|---|---|---|
| 3M Novec 649 | 49°C | 1 | 极高 |
| 3M Novec 7100 | 61°C | 297 | 极高 |
| 3M Fluorinert FC-72 | 56°C | 9300 | 高(已逐步淘汰) |
注意:3M已于2025年宣布逐步停产PFAS类氟化液(包括Novec系列),这给两相浸没液冷的长期发展带来了不确定性。行业正在寻找替代工质。
3.3 单相浸没 vs 两相浸没对比
| 对比维度 | 单相浸没 | 两相浸没 |
|---|---|---|
| 散热原理 | 液体升温吸热(显热) | 液体沸腾吸热(潜热) |
| 换热效率 | 高 | 极高 |
| 冷却液 | 矿物油/合成酯/氟化液 | 仅低沸点氟化液 |
| 冷却液成本 | 低~中(矿物油最便宜) | 极高(只能用氟化液) |
| 系统复杂度 | 较低(需要循环泵) | 较高(需要密封冷凝器) |
| 运维难度 | 中等(拆装设备带液) | 较高(密封要求严格) |
| 温度均匀性 | 好 | 极好(沸腾使液面温度一致) |
| 适用功率密度 | 20~80 kW/柜 | 50~150+ kW/柜 |
| 成熟度 | 较成熟(商用案例增多) | 尚处于大规模部署初期 |
| 环保风险 | 低(矿物油/合成酯环保) | 高(氟化液PFAS监管) |
| 行业趋势 | 主流方向 | 观望中(受工质供应影响) |
速记口诀:"单相便宜油来泡,两相沸腾氟化搞;单相成熟可大用,两相极端受限制"
🔖 诊断问题 3.1
- Q1(记忆层):两相浸没和单相浸没的核心区别是什么?两相利用了什么物理原理?
- Q2(理解层):为什么两相浸没必须使用低沸点氟化液而不能用矿物油?
- Q3(应用层):考虑到3M停产氟化液的消息,如果你是数据中心方案设计师,现在推荐客户采用两相浸没还是单相浸没?理由是什么?
四、液冷对弱电系统的影响
4.1 为什么弱电工程师需要懂液冷?
作为弱电智能化方案架构师,你可能会问:"液冷不是暖通(HVAC)的事吗?跟我弱电有什么关系?"
关系非常大:
| 弱电子系统 | 受液冷影响的方面 |
|---|---|
| 综合布线 | 机柜内布线方式改变、线缆防液保护 |
| 环境监控(BA/BMS) | 漏液检测传感器、温度监控点位、流量监控 |
| 安防监控 | 浸没槽区域的视频覆盖、门禁设计 |
| 消防 | 浸没液的燃烧特性影响灭火方案选择 |
| 配电监控 | CDU的供配电和监控接入 |
| 网络 | 光纤/铜缆的防液保护和走线路径 |
4.2 漏液检测系统(关键新增系统)
液冷数据中心中,漏液检测是一个全新的弱电子系统,在传统风冷机房中不存在(或仅在冷冻水管路附近有少量部署)。
4.2.1 检测原理
常见漏液检测技术:
| 技术类型 | 原理 | 优点 | 缺点 |
|---|---|---|---|
| 感应线缆(绳式) | 线缆表面有电极,液体导电触发报警 | 可检测整条线路任意位置 | 对不导电液体(氟化液)无效 |
| 定点式探测器 | 放置在特定位置的圆盘/探头 | 安装简单、精确定位 | 只能检测放置点 |
| 光纤式 | 液体改变光纤折射率触发报警 | 不受电磁干扰、可用于非导电液体 | 成本高 |
| 湿度传感器 | 检测局部湿度突变 | 间接检测,可预警 | 响应较慢 |
重要注意:如果液冷工质是不导电的氟化液或矿物油,传统的感应线缆式漏液检测可能失效(因为这些液体不导电)。必须选用光纤式或专用碳氢化合物检测传感器。
4.2.2 漏液检测布点设计
冷板式液冷的漏液检测布点:
┌──────────────── 机柜列 ──────────────────┐
│ │
│ ┌──┐ ┌──┐ ┌──┐ ┌──┐ ┌──┐ ┌──┐ │
│ │柜│ │柜│ │柜│ │柜│ │柜│ │柜│ │
│ │1 │ │2 │ │3 │ │4 │ │5 │ │6 │ │
│ └──┘ └──┘ └──┘ └──┘ └──┘ └──┘ │
│ [漏液感应线缆沿机柜底部连续布设] ~~~~~~~~ │
│ │
│ CDU位置:[定点探测器 × 2] + [接水盘] │
│ │
│ 供液管路:[感应线缆绕管] 或 [沿管滴水盘] │
│ │
│ 架空地板下:[区域感应线缆] 按通道布设 │
│ │
└──────────────────────────────────────────┘
浸没式液冷的漏液检测布点:
- 液冷槽底部:定点探测器(检测槽体泄漏)
- 液冷槽周围地面:感应线缆环绕
- 供回液管路沿线:感应线缆
- CDU进出口:定点探测器
4.2.3 报警联动
漏液报警需要与BMS/BA系统联动:
漏液检测器触发
│
├─→ BMS系统报警(声光报警 + 手机推送)
├─→ 关闭该段管路电动阀门(止漏)
├─→ 启动排水泵(如设置了集水坑)
├─→ 视频监控系统自动调取泄漏区域画面
└─→ 记录到运维工单系统
4.3 温度监控点位变化
传统风冷机房的温度监控:
| 监控位置 | 目的 |
|---|---|
| 机柜前门(进风侧) | 监控送风温度 |
| 机柜后门(排风侧) | 监控回风温度 |
| 冷通道/热通道 | 监控气流温度分布 |
| 架空地板下 | 监控送风静压箱温度 |
液冷系统的温度监控(新增/变化):
| 监控位置 | 目的 | 传感器类型 |
|---|---|---|
| CDU一次侧供水温度 | 确认设施冷水正常 | Pt100热电阻 |
| CDU一次侧回水温度 | 评估换热效果 | Pt100热电阻 |
| CDU二次侧供液温度 | 关键指标——送达芯片的液体温度 | Pt100热电阻 |
| CDU二次侧回液温度 | 关键指标——离开芯片的液体温度 | Pt100热电阻 |
| CDU二次侧流量 | 确认液体循环正常 | 电磁流量计 |
| 浸没槽液温(多点) | 监控槽内温度分布 | Pt100或热电偶 |
| 浸没槽液面高度 | 防止液面过低暴露设备 | 液位传感器 |
| 芯片表面温度 | 直接监控芯片温度 | 服务器BMC读取 |
关键变化:从传统的"空气温度监控"变为"液体温度+流量+液位"的复合监控。弱电工程师需要设计更多的传感器接入点和更复杂的监控拓扑。
4.4 综合布线防护
液冷环境对综合布线的特殊要求:
| 场景 | 要求 | 说明 |
|---|---|---|
| 冷板式机柜内布线 | 线缆远离管路接头 | 防止泄漏时液体沿线缆蔓延 |
| 浸没式 | 使用耐液浸泡的线缆 | 普通PVC护套线缆长期浸泡会劣化 |
| 光纤保护 | 防液保护套管 | 氟化液可能侵蚀部分光纤涂覆层 |
| 管路穿越 | 液冷管路与线缆桥架交叉处设防漏挡板 | 防止管路泄漏波及线缆 |
| 浸没槽出线 | 密封出线口 | 防止液体蒸气逸出 |
4.5 消防系统考虑
| 冷却液类型 | 燃烧特性 | 消防影响 |
|---|---|---|
| 矿物油 | 可燃(闪点>170°C) | 需要考虑油类火灾灭火(泡沫或气体) |
| 合成酯 | 低燃(闪点>250°C) | 低风险,常规气体灭火即可 |
| 氟化液 | 不可燃 | 无额外消防要求 |
| 去离子水(冷板式二次侧) | 不可燃 | 但泄漏后可能导致电气火灾 |
速记口诀:"液冷弱电五大变:漏液检测必须建,温控点位翻了番,布线防液要防范,消防方案看液选,监控联动全打通"
🔖 诊断问题 4.1
- Q1(记忆层):液冷数据中心新增了哪个传统风冷机房不存在的弱电子系统?
- Q2(理解层):为什么传统的感应线缆式漏液检测对氟化液无效?应该用什么替代方案?
- Q3(应用层):如果你负责平谷项目的一栋楼(1520个机柜)的液冷改造弱电方案,请列出你需要新增设计的5个弱电子系统/功能点。
五、风冷 vs 冷板液冷 vs 浸没液冷:三者全面对比
| 对比维度 | 风冷(CRAH) | 冷板式液冷 | 浸没式液冷 |
|---|---|---|---|
| 散热介质 | 空气 | 去离子水/冷却液 | 氟化液/矿物油 |
| 散热效率 | 基准(1×) | 高(10~50×) | 极高(100~1000×) |
| 适用功率密度 | <8~15 kW/柜 | 8~40 kW/柜 | 20~150+ kW/柜 |
| PUE贡献 | PUE 1.3~1.6 | PUE 1.1~1.25 | PUE 1.02~1.15 |
| 初始投资 | 基准 | 1.3~1.5× | 1.5~2.5× |
| 运营成本(10年TCO) | 高(电费占大头) | 中(节能抵消投资) | 低(极高能效) |
| 运维复杂度 | 低(成熟技术) | 中 | 高(新技术、新流程) |
| 占地面积 | 大(需要气流空间) | 中 | 小(高密度紧凑) |
| 噪声 | 高(大量风扇) | 中 | 低 |
| 机柜形态 | 标准19英寸机柜 | 标准机柜+管路 | 专用液冷槽 |
| 服务器兼容性 | 所有标准服务器 | 需冷板定制散热器 | 需完全定制 |
| 综合布线 | 标准方案 | 需增加防护 | 需全面重新设计 |
| 漏液风险 | 无 | 有(管路接头) | 有(槽体密封) |
| 技术成熟度 | ★★★★★ | ★★★★ | ★★★ |
| 平谷项目适用性 | 当前方案(6kW/柜) | 未来升级路径1 | 未来升级路径2 |
六、液冷数据中心的PUE优势
6.1 为什么液冷能大幅降低PUE?
回顾PUE的定义:
PUE = 数据中心总能耗 / IT设备能耗
制冷系统是总能耗中除IT设备外最大的单一能耗项。在传统风冷数据中心中,制冷能耗约占总能耗的30~40%。
液冷降低PUE的途径:
| 节能途径 | 风冷 | 液冷 | 节能幅度 |
|---|---|---|---|
| 压缩机能耗 | 需要低温冷冻水(7°C) | 可用高温冷水(18~25°C)或自然冷却 | 降低40~60% |
| 服务器风扇 | 高速运转,单台50~200W | 低速或取消,单台0~50W | 降低50~100% |
| 水泵能耗 | 大流量低温差 | 小流量高温差(液体携热强) | 降低20~30% |
| 自然冷却时间 | 需室外<7~10°C | 需室外<25~35°C | 大幅延长 |
6.2 不同制冷方案的PUE对比
PUE数值对比(年均值估算):
1.0 1.1 1.2 1.3 1.4 1.5 1.6
| | | | | | |
风冷(传统) |──────────────────────████████████████|
| 1.3~1.5 |
| | | | | | |
风冷(优化) |────────────████████████| |
| 1.2~1.35 | |
| | | | | | |
冷板液冷 |──████████████| |
| 1.1~1.25 | |
| | | | | | |
浸没液冷 |████| |
|1.02~1.15 |
| | | | | | |
关键数字:从风冷PUE 1.4 优化到液冷PUE 1.1,对于平谷项目54.7MW IT负荷,每年可节省制冷电费:
54,700kW × (0.4 - 0.1) × 8760h × ¥0.8/kWh ≈ ¥1.15亿/年
这是一个惊人的数字,足以在3~5年内收回液冷系统的额外投资。
七、智算中心为什么倾向液冷?
7.1 GPU功耗密度的必然要求
重申前面的数据:
AI芯片功耗趋势:
单卡TDP(W)
1200 | ● B200
1000 | ●
800 |
700 | ● H100
600 |
500 |
400 | ● A100
300 | ● V100
200 |
100 |
0 ├────┬────┬────┬────┬────┬────→ 年份
2016 2018 2020 2022 2024 2026
趋势:每2年功耗增长约50~70%
结论:到2026~2027年,单卡功耗可能超过1500W
单机柜功耗可能达到50~100kW
风冷彻底无法应对
7.2 AI训练对散热一致性的要求
AI大模型训练的特殊性:
- 数千张GPU协同计算:训练大模型时,数千张GPU通过高速网络(如InfiniBand/NVLink)协同工作,所有GPU必须保持同步
- 短板效应:如果其中一张GPU因为散热不良而降频(Thermal Throttling),整个训练任务的速度将由这张最慢的GPU决定
- 温度一致性要求:需要所有GPU的温度保持在极窄的范围内(差异<5°C),以确保性能一致
液冷在温度一致性方面的优势:
| 散热方案 | GPU间温度差异 | 说明 |
|---|---|---|
| 风冷 | 5~15°C | 受气流分布不均影响大 |
| 冷板液冷 | 2~5°C | 液体流量可精确控制 |
| 浸没液冷 | <2°C | 所有芯片浸在同一液体中 |
7.3 空间利用效率
液冷允许更高密度的部署:
| 方案 | 同样10MW IT负荷所需面积 |
|---|---|
| 风冷(6kW/柜) | ~1,667 机柜 → 约 3,300 m² |
| 冷板液冷(20kW/柜) | ~500 机柜 → 约 1,000 m² |
| 浸没液冷(50kW/柜) | ~200 液冷槽 → 约 600 m² |
关键认知:液冷不仅是散热问题的解决方案,更是数据中心空间利用效率的根本性提升。同样的建筑面积可以容纳3~5倍的算力。
八、平谷项目:液冷升级路径规划
8.1 当前状态与未来需求
| 维度 | 当前(Phase 1) | 近期升级(Phase 2) | 远期规划(Phase 3) |
|---|---|---|---|
| 单柜功率 | 6kW | 10~15kW | 30~50kW |
| GPU型号 | A100级别 | H100/H200 | B200/GB200+ |
| 制冷方案 | 风冷CRAH | 风冷+冷板液冷混合 | 液冷为主 |
| PUE目标 | ≤1.25 | ≤1.2 | ≤1.15 |
| 预计时间 | 2024-2025 | 2025-2027 | 2027-2030 |
8.2 液冷预留设计建议
在Phase 1建设时,应为未来液冷升级预留以下条件:
基础设施预留:
| 预留项 | 具体要求 | 预留成本占比 |
|---|---|---|
| 冷冻水管路预留 | 在机房层预留液冷管路走向空间和管道井 | ~2% |
| CDU安装位置 | 在每排机柜末端预留CDU位置(宽800mm×深1200mm) | ~1% |
| 楼板承重 | 按液冷设备重量(液冷槽满载可达2000kg/m²)设计 | ~3% |
| 供配电余量 | CDU泵组需要额外供电(每台CDU约3~5kW) | ~2% |
| 排水设施 | 预留集水坑和排水管路 | ~1% |
弱电系统预留:
| 预留项 | 具体要求 |
|---|---|
| 漏液检测管路预留 | 在架空地板下和管路走向预留感应线缆路由 |
| 温度/流量传感器接口 | BMS系统预留CDU和液冷管路的传感器接入端口 |
| 监控网络端口 | 为CDU控制器预留以太网接口和管理VLAN |
| 视频监控覆盖 | 液冷设备区域预留摄像头安装点位 |
总预留成本估算:约占Phase 1建设总投资的5~10%,但可以避免未来改造时的大规模停机和破坏性施工。
速记口诀:"花一成留后路,省十倍改造苦"——预留5~10%的成本,可以节省未来数倍的改造代价。
8.3 升级路径推荐
Phase 1(当前) Phase 2(2~3年后) Phase 3(5年后)
6kW/柜,纯风冷 部分柜升级到15kW 部分柜升级到30~50kW
引入冷板液冷 全面液冷
┌──────────┐ ┌──────────────┐ ┌──────────────┐
│ 风冷CRAH │ │ 风冷CRAH │ │ 风冷CRAH │
│ 全部机柜 │ ──→ │ + CDU+冷板 │ ──→ │ + CDU+冷板 │
│ │ │ (高密柜区) │ │ + 浸没槽 │
└──────────┘ └──────────────┘ │ (超高密区) │
└──────────────┘
关键决策点:
- Phase 2触发条件:GPU服务器单柜功耗>10kW
- Phase 3触发条件:GPU服务器单柜功耗>30kW
🔖 诊断问题 8.1
- Q1(记忆层):平谷项目Phase 1预留液冷的总成本约占建设投资的多少?
- Q2(理解层):为什么在Phase 1就需要预留液冷条件?不预留的风险是什么?
- Q3(应用层):作为弱电方案架构师,请列出你在Phase 1需要为液冷预留的5个弱电系统设计点。
九、关键设备选型参数
9.1 CDU选型要点
| 参数 | 选型考虑 |
|---|---|
| 制冷量 | 按所服务的IT负荷×1.1安全系数选型 |
| 二次侧流量 | 根据热负荷和供回液温差计算:Q = P / (ρ × Cp × ΔT) |
| 二次侧压力 | 需满足最远端服务器的管路压降需求 |
| 接口 | 一次侧:DN50 |
| 冗余 | N+1配置(每组CDU有备用) |
| 监控接口 | Modbus TCP/IP 或 SNMP,接入BMS |
| 外形 | 机架式(4~8U)或落地式 |
9.2 管路材质选择
| 管路位置 | 推荐材质 | 理由 |
|---|---|---|
| 一次侧主管 | 碳钢/不锈钢 | 承压能力强,成本合理 |
| 二次侧主管 | 不锈钢304/316 | 耐腐蚀,确保水质不被污染 |
| 二次侧支管(到服务器) | 不锈钢软管或EPDM软管 | 需要柔性连接,便于服务器插拔 |
| 快接接头 | 不锈钢+防滴漏设计 | 断开时不漏液 |
9.3 流量计算示例
场景:一排20个机柜,每柜10kW GPU服务器,使用冷板液冷。
计算:
已知:
- 总热负荷 P = 20 × 10 = 200 kW
- 假设冷板液冷承担70%热负荷 = 140 kW
(其余30%由辅助风冷散热——内存、硬盘、电源等)
- 二次侧冷却液:去离子水
- 密度 ρ = 1000 kg/m³
- 比热容 Cp = 4.2 kJ/(kg·K) = 4200 J/(kg·K)
- 供液温度 25°C,回液温度 35°C,温差 ΔT = 10K
流量计算:
Q = P / (ρ × Cp × ΔT)
Q = 140,000 W / (1000 kg/m³ × 4200 J/(kg·K) × 10 K)
Q = 140,000 / 42,000,000
Q = 0.00333 m³/s
Q = 3.33 L/s = 200 L/min
CDU选型:
- 单台CDU制冷量 150kW,1台足够(但N+1冗余需要2台)
- 二次侧流量能力需 ≥200 L/min
速记口诀(流量计算):"功率除以密比温"—— Q = P / (ρ × Cp × ΔT)
十、速记卡汇总
🃏 卡片1:风冷瓶颈
水的携热能力 = 空气的3400倍
风冷天花板:~15kW/柜(勉强)
30kW以上:必须液冷
口诀:"八千以下风冷够,三万以上必液冷"
GPU功耗趋势:每2年增长50~70%
🃏 卡片2:冷板液冷架构
冷板(贴芯片) → 二次侧管路 → CDU → 一次侧管路 → 冷水机组/干冷器
CDU = Coolant Distribution Unit(冷量分配单元)
一次侧:设施冷冻水(7~18°C)
二次侧:去离子水/专用液体(25~45°C供液)
一二次侧通过板式换热器隔离(安全+水质控制)
🃏 卡片3:浸没式液冷
单相浸没:液体只升温不沸腾,矿物油/合成酯/氟化液
两相浸没:液体沸腾(潜热),仅低沸点氟化液
两相效率 >> 单相 >> 风冷(沸腾换热系数是风冷100~1000倍)
口诀:"单相便宜油来泡,两相沸腾氟化搞"
注意:3M停产氟化液→两相前景存疑
🃏 卡片4:液冷对弱电的影响
五大变化:
1. 新增漏液检测系统
2. 温度监控点位翻倍(液温+流量+液位)
3. 综合布线需防液保护
4. 消防方案看冷却液类型
5. 监控联动(BMS+视频+门禁)全面升级
口诀:"漏液检测必须建,温控点位翻了番"
🃏 卡片5:三种制冷方案PUE
风冷(传统):PUE 1.3~1.5
风冷(优化):PUE 1.2~1.35
冷板液冷:PUE 1.1~1.25
浸没液冷:PUE 1.02~1.15
口诀:"风一三,板一一,浸一零"(取典型值近似)
🃏 卡片6:平谷液冷升级路径
Phase 1:6kW/柜 → 纯风冷 → PUE≤1.25
Phase 2:10~15kW/柜 → 风冷+冷板 → PUE≤1.2
Phase 3:30~50kW/柜 → 全面液冷 → PUE≤1.15
预留成本:5~10%(花一成留后路)
口诀:"花一成留后路,省十倍改造苦"
🃏 卡片7:流量计算
Q = P / (ρ × Cp × ΔT)
Q:流量(m³/s)
P:热负荷(W)
ρ:密度(kg/m³),水=1000
Cp:比热容(J/(kg·K)),水=4200
ΔT:供回液温差(K)
口诀:"功率除以密比温"
十一、综合诊断题
第一组:记忆层
D2-1:水的单位体积携热能力是空气的多少倍?
D2-2:冷板式液冷中CDU的全称是什么?CDU内部最核心的组件是什么?
D2-3:两相浸没液冷利用了什么物理原理使其散热效率极高?
D2-4:列举液冷对弱电系统影响的3个方面。
D2-5:NVIDIA GPU单卡功耗从V100到B200经历了怎样的增长?
第二组:理解层
D2-6:CDU为什么要分一次侧和二次侧?如果直接用设施冷冻水流过冷板有什么风险?
D2-7:为什么单相浸没更可能成为主流方向而非两相浸没?(至少给出两个原因)
D2-8:液冷数据中心的PUE为什么远低于风冷?请从至少3个能耗环节分析。
D2-9:为什么AI训练对GPU温度一致性的要求特别高?温度不一致会导致什么问题?
第三组:应用层
D2-10:平谷项目Phase 1使用风冷方案,你认为在弱电设计中应该为液冷预留哪些条件?(至少列出5项)
D2-11:一个客户要新建一个500柜的数据中心,计划全部部署H100服务器(单柜约10kW)。请推荐制冷方案并给出理由。
D2-12:计算题——一个液冷区域有30个机柜,每柜15kW,冷板承担80%热负荷,使用去离子水(Cp=4200 J/(kg·K)),供回液温差8K。请计算所需的二次侧流量(L/min),并据此选择CDU规格。
诊断题参考答案
D2-1:约3400倍。
D2-2:CDU = Coolant Distribution Unit(冷量分配单元)。核心组件是板式换热器,用于隔离一次侧(设施冷水)和二次侧(服务器冷却液)。
D2-3:汽化潜热(相变吸热)。液体在芯片表面沸腾时,从液态变为气态,吸收大量潜热,换热系数可达强制风冷的100~1000倍。
D2-4:(1)新增漏液检测系统;(2)温度/流量/液位监控点位大幅增加;(3)综合布线需要防液保护;(4)消防方案需根据冷却液类型调整;(5)监控联动策略需要全面升级。(列出任意3项即可)
D2-5:V100(2017)300W → A100(2020)400W → H100(2022)700W → B200(2024)1000W。5年内从300W增长到1000W,增长超过3倍。
D2-6:分开的原因:(1)安全隔离——设施冷冻水含有水处理化学品,如果直接流入服务器内部,泄漏后导电性强,可能导致严重短路;(2)水质控制——二次侧使用去离子水,导电性极低,即使微量泄漏也不会立即导致短路;(3)压力独立——一次侧和二次侧压力需求不同,分开控制更安全。如果取消换热器直接用冷冻水:水质不可控(可能含杂质堵塞微通道),泄漏后导电性强(直接短路烧毁设备),且一次侧水压波动可能损坏服务器内部管路。
D2-7:(1)冷却液成本和供应——两相必须使用低沸点氟化液,价格极高($50~100/L),且3M已宣布停产PFAS类产品,长期供应存疑;单相可以用便宜的矿物油或合成酯。(2)系统成熟度——单相浸没技术更简单(不涉及相变控制、冷凝器设计),商用案例更多。(3)环保法规——氟化液属于PFAS类化合物,全球监管趋严,未来可能面临使用限制。
D2-8:(1)压缩机能耗降低40~60%——液冷可以用更高温度的冷水(18~25°C vs 7°C),甚至更多时间使用自然冷却,压缩机负荷大减;(2)服务器风扇能耗降低50~100%——液冷直接在芯片散热,服务器内部风扇可以大幅降速或取消;(3)水泵能耗降低——液体携热能力强,相同热负荷需要的流量小得多;(4)自然冷却时间延长——液冷系统的冷却液温度更高,在更高的室外温度下就能使用自然冷却。
D2-9:AI大模型训练时,数千张GPU通过高速网络协同计算(如数据并行、模型并行)。所有GPU必须保持计算同步——在每个训练step结束时需要同步梯度。如果其中一张GPU因温度过高而触发热降频(Thermal Throttling),其计算速度下降,其他所有GPU都必须等待这张最慢的GPU完成计算后才能继续下一步。整个训练任务的速度由最慢的GPU决定(木桶效应)。因此,所有GPU的温度需要保持一致(差异<5°C),以确保性能一致。液冷(尤其是浸没式)的温度均匀性远优于风冷。
D2-10:Phase 1弱电液冷预留项(至少5项):
- 漏液检测管路预留:在架空地板下和机柜列末端预留感应线缆走线路由
- BMS传感器接口预留:为未来CDU的温度、流量、压力传感器预留BMS接入端口和I/O模块
- 监控网络端口:为CDU控制器预留以太网交换机端口和管理VLAN
- 视频监控点位预留:在未来CDU安装位置和液冷管路走向预留摄像头安装位和线缆
- 配电监控预留:为CDU供电回路预留智能电表和配电监控接口
- 集水坑液位传感器预留:在机房低洼处预留集水坑和液位传感器安装位
D2-11:推荐方案:冷板液冷(为主)+ 风冷CRAH(辅助)的混合方案。
- 理由1:10kW/柜处于风冷和液冷的过渡区,纯风冷需要列间空调、气流管理复杂且能效不佳
- 理由2:冷板液冷承担CPU/GPU的主要热负荷(约70%),CRAH处理内存、硬盘等辅助散热
- 理由3:PUE可达1.15~1.2,长期运营成本优于纯风冷
- 理由4:如果未来升级到H200/B200(更高功耗),冷板液冷基础设施可以直接复用
D2-12:计算过程:
已知:
- 总IT负荷:30 × 15 = 450 kW
- 冷板承担80%:450 × 0.8 = 360 kW
- Cp = 4200 J/(kg·K)
- ρ = 1000 kg/m³
- ΔT = 8 K
流量计算:
Q = P / (ρ × Cp × ΔT)
Q = 360,000 / (1000 × 4200 × 8)
Q = 360,000 / 33,600,000
Q = 0.01071 m³/s
Q = 10.71 L/s = 643 L/min
CDU选型:
- 制冷量需求:360 kW
- 如选200kW级CDU:需要2台工作 + 1台备用 = 3台
- 如选350kW级CDU:需要1台工作 + 1台备用 = 2台(推荐)
- 流量需求:≥643 L/min
本文件学习检查清单:
- 能解释风冷散热的物理瓶颈(空气携热能力限制)
- 能画出冷板液冷的系统架构(冷板→CDU→冷水机组)
- 能区分单相浸没和两相浸没的原理与适用场景
- 能说出液冷对弱电系统的5个主要影响
- 能完成CDU流量的基本计算
- 能为平谷项目规划液冷升级路径和弱电预留方案
- 能在风冷、冷板液冷、浸没液冷之间做出合理的方案选型