M5-04 智算中心特殊规划要点
模块5 · Day 23 | 机房规划与空间设计
学习者:王鸿才 | 目标岗位:弱电智能化解决方案架构师(智算中心) 项目锚点:北京平谷智算数据中心(9120个6kW机柜,6栋建筑,其中B2楼为AI训练高密区) 核心命题:传统IDC经验 ≠ 智算中心能力,从6kW/柜到60kW+/柜,每一步都是全新挑战
导言:智算中心颠覆了传统数据中心的哪些假设?
如果你在传统IDC工作了5年,掌握了机柜布局、综合布线、精密空调这些技能,来到智算中心的第一感受可能是:很多东西不管用了。
传统IDC(CPU服务器为主) 智算中心(GPU服务器为主)
─────────────────────────────────────────────────────
功耗密度:4-6 kW/柜 功耗密度:30-100 kW/柜(最高10倍差异)
主要热量:空气冷却即可 主要热量:需要液冷介质直接带走
网络带宽:10G-100G/服务器 网络带宽:200G-800G/服务器(InfiniBand)
网络延迟:微秒级容忍 网络延迟:纳秒级要求(all-reduce通信)
存储需求:通用存储 存储需求:超高带宽(NVMe/全闪),千亿参数模型
运维特点:定期维护 运维特点:AI作业不中断,故障秒级影响
供电方式:单相/三相均可 供电方式:高密三相,定制PDU必需
扩容模式:机柜级扩容 扩容模式:GPU POD级扩容(最小单元512-4096 GPU)
本章的学习目标:
- 理解AI训练作业的独特特点及其对基础设施的特殊要求
- 掌握高密度区域(GPU区)的规划方法论
- 了解智算中心网络规划的特殊性(InfiniBand / RoCE)
- 掌握液冷技术选型和CDU布置原则
- 能够编写平谷项目B2楼的完整规划方案
1. 智算中心 vs 传统IDC:核心差异深度解析
1.1 GPU服务器的物理特性
典型GPU服务器规格对比:
CPU服务器(通用计算) GPU服务器(AI训练)
─────────────────────────────────────────────────────────
DELL R750(典型2U服务器) NVIDIA DGX H100(典型8-GPU机器)
CPU:2×Intel Xeon 32核 GPU:8×NVIDIA H100 SXM5 80GB
内存:384 GB DDR5 CPU:2×Intel Xeon Scalable
存储:8×SSD NVMe 内存:2 TB DDR5
功耗:350-600W(可变) 存储:8×NVMe SSD(30 TB)
重量:22 kg(满配) 功耗:10,200W(最大!)
尺寸:2U(86.8mm高) 重量:**118 kg**(仅机器本身)
制冷:标准空气冷却 尺寸:10U(至少444mm)
制冷:需要液冷辅助(GPU TDP 700W/颗)
单机柜功耗对比:
传统2U CPU服务器机柜(42U):
装机率:20台(6kW满配,300W/台)
机柜功耗:20 × 300W = 6,000W = **6 kW/柜**
GPU服务器机柜(42U,10U/台):
理论装机率:4台(42U / 10U = 4.2 → 取4台)
机柜功耗:4 × 10,200W = 40,800W = **40.8 kW/柜**(~7倍差异!)
超高密度GPU机柜(定制OCP Open19机型,2U-4U):
某些NVIDIA GH200超级芯片配置:
机柜功耗可达 **100 kW+/柜**(配合液冷)
核心数字:GPU服务器与CPU服务器功耗密度差异达 7-17倍,这是智算中心规划的根本挑战。
1.2 AI训练作业的特点
AI训练作业与传统云计算负载有根本不同:
传统云计算负载特点:
负荷波动:大(白天高,夜间低;峰谷比可达5:1)
作业时长:短(HTTP请求毫秒级,VM实例按需开关)
通信模式:南北向(客户端-服务器)为主
故障容忍:单节点故障影响少数用户
功耗曲线:锯齿状,有明显峰谷
AI训练作业特点:
负荷波动:极小!(训练作业连续满负荷运行,24/7)
作业时长:极长(GPT-3训练:34天;GPT-4:数月)
通信模式:东西向(GPU间all-reduce通信)占绝对主导
故障容忍:任一GPU故障 → 整个训练作业暂停/重启(严重影响!)
功耗曲线:接近矩形波(持续在最大功耗的90-95%运行)
AI训练作业对基础设施的影响:
| 特点 | 对供电的影响 | 对制冷的影响 | 对网络的影响 |
|---|---|---|---|
| 持续高负荷 | UPS/PDU不能按平均值选型,必须按峰值 | 冷却系统需持续满负荷运行,不能降频 | 网络必须7×24持续提供满带宽 |
| 作业时间长 | 年用电量接近理论最大值 | 制冷系统磨损大,需更高维护标准 | 长达数月的连续数据传输 |
| 东西向通信 | — | — | 与传统南北向流量模型完全相反,需用InfiniBand或RoCE |
| 故障零容忍 | 需N+1甚至2N冗余 | 制冷故障必须秒级响应 | 网络收敛时间必须极短 |
1.3 规划挑战总结
智算中心规划面临的7大挑战:
挑战1:热密度管理(功耗密度10倍于传统)
→ 空气冷却不够用,必须引入液冷
挑战2:供电密度升级(单柜63A三相,普通5A插座不够用)
→ 重新设计PDU和配电系统
挑战3:网络带宽激增(单服务器800Gbps vs 传统10Gbps)
→ 全新布线标准(InfiniBand DAC/AOC/光纤)
挑战4:结构承重(GPU服务器+液冷设备比CPU服务器重3-5倍)
→ 楼板专项加固
挑战5:液冷管道(冷板液冷需要二次冷媒回路)
→ CDU布置,管道走线,防泄漏设计
挑战6:故障快速响应(训练作业无法容忍中断)
→ 智能运维,预测性维护,毫秒级切换
挑战7:模块化扩容(GPU集群以POD为单位部署)
→ 规划时预留POD边界,供电/制冷/网络可按POD扩容
2. 高密度区域(GPU区)规划
2.1 机柜功率密度升级路径
平谷项目B2楼作为AI训练区,需要规划功率密度的升级路径:
功率密度演进路线图(B2楼规划):
阶段 时间节点 功率密度 冷却方式 架构重点
─────────────────────────────────────────────────────────────
Phase 1 2024-2025 6 kW/柜 精密空调 初始部署,使用标准空冷GPU服务器
Phase 2 2025-2026 30 kW/柜 空冷+列间空调 高密度空气冷却(需热通道封闭)
Phase 3 2026-2027 60 kW/柜 冷板液冷 冷板液冷改造,CDU部署
Phase 4 2027+ 100kW+/柜 浸没液冷 下一代Blackwell/后续架构
─────────────────────────────────────────────────────────────
设计原则:Phase 1建设时,必须为Phase 3/4预留!
□ 地板下液冷管道预留通道(φ100mm管道槽位)
□ 机柜间距加大(从1.4m扩到1.8m冷通道),为CDU预留空间
□ 楼板加固至 ≥12 kN/m²(Phase 3液冷设备更重)
□ CDU用水接口预留(每组16-32台GPU服务器配1台CDU)
2.2 不同功率密度的冷却方式选型
功率密度 vs 冷却方式选择矩阵:
功率密度 推荐冷却方式 PUE预期 备注
─────────────────────────────────────────────────
≤6 kW/柜 精密空调(CRAC/CRAH) 1.2-1.4 标准数据中心方案
6-15 kW/柜 CRAH+冷通道封闭 1.15-1.3 配合高温冷冻水
15-30 kW/柜 列间空调(In-Row) 1.15-1.25 列间直接吸热风
30-60 kW/柜 冷板液冷(Direct Liquid Cooling)1.1-1.2 高效导热
60-100kW/柜 冷板液冷+辅助空冷 1.05-1.15 组合方案
>100kW/柜 浸没液冷(Immersion) 1.03-1.1 极致能效
─────────────────────────────────────────────────
平谷B2楼Phase 3规划(60kW/柜)选择:冷板液冷
理由:
1. 冷板液冷改造成本低(相比浸没液冷)
2. 现有GPU服务器(如NVIDIA HGX H100)支持冷板液冷选件
3. CDU(冷量分配单元)可靠性高,成熟产品
4. PUE可达1.1-1.15(超过空冷方案的1.25-1.3)
2.3 冷板液冷(Direct Liquid Cooling)技术详解
系统架构:
冷板液冷系统架构(平谷B2楼):
外部冷却水(来自制冷机房)
↓
┌───────────────────┐
│ CDU │ 冷量分配单元(Coolant Distribution Unit)
│ (Coolant Distri- │ ├── 泵组(主+备)
│ bution Unit) │ ├── 换热器(冷冻水→冷媒水转换)
│ │ ├── 定压/补水装置
│ │ └── 监控传感器(温度/压力/流量)
└─────────┬───────────┘
│ 冷媒水(25°C供水,35°C回水)
│ 工质:去离子水(DI Water)或乙二醇水溶液
↓
┌─────────────────────────────────────────────────┐
│ GPU服务器机架(16台GPU服务器/组) │
│ 每台服务器内部: │
│ CPU冷板 ─── 串联冷板回路 ─── GPU冷板×8 │
│ 内存冷板(可选) │
│ PCIe冷板(可选) │
│ 剩余散热:风扇(HEX,Heat Exchanger)排走 │
└─────────────────────────────────────────────────┘
冷板液冷关键参数(平谷B2楼设计值):
| 参数 | 数值 | 说明 |
|---|---|---|
| 冷媒进水温度 | 25°C | 高温进水(提高CDU效率) |
| 冷媒回水温度 | 35°C | 10°C温差,流量经济 |
| CDU制冷量 | 100 kW/台 | 覆盖16台GPU服务器(每台6kW) |
| CDU效率 | ≥98% | 热交换效率(制冷量/送水热量) |
| 液冷覆盖比例 | 60-70% | 液冷带走60-70%热量,风扇带走30-40% |
| 防泄漏等级 | IP68 | 液冷管接头,防止冷媒泄漏 |
为什么冷媒进水可以是25°C(这么高)?
传统空调冷冻水:7°C(目标将房间降到20°C,需要相当大的温差)
冷板液冷冷媒:25°C
→ 冷媒直接接触GPU芯片(通过铜/铝冷板导热)
→ 芯片温度通常在60-85°C(结温),与25°C冷媒有35-60°C温差
→ 温差足够,不需要更低温度的冷媒
→ 冷冻水供水温度 25°C(CDU换热器内5°C端差)→ 30°C供水即可
→ 对应冷水机组COP极高(接近10.0)
→ 冬天甚至可以完全不开冷水机组(北京室外温度 < 25°C 长达8个月!)
2.4 CDU(冷量分配单元)选址与容量规划
CDU布置原则:
原则1:就近原则
CDU紧靠服务的GPU机架(最大距离:5-8m,超过此距离管道压降和热损失增大)
原则2:N+1冗余
每个CDU组配备N+1泵组(主泵故障时备泵自动接管)
原则3:独立区域
CDU落脚处需独立防水区域(液盘+地漏),防止泄漏扩散
原则4:维修通道
CDU正面/侧面预留600mm维修空间
CDU背面(冷却水接口)预留800mm操作空间
平谷B2楼CDU数量估算(Phase 3,60kW/柜):
B2楼机柜总数:1520柜(60kW/柜)
每台CDU能力:100 kW
需要CDU数量:1520×60 kW / 100 kW = 912台(!太多)
实际上:并非所有机柜同时100%利用,且60kW是峰值
按70%负载率:1520×60×70% / 100 = 638台
加N+1冗余:638 × (n+1)/n(每4台为一组,1备)= 638 × 1.25 = **798台CDU**
注:这是Phase 3的规模,Phase 1(6kW/柜)时不需要CDU,Phase 2(30kW)时约400台
2.5 液冷预留管路设计(Phase 1就要做好)
这是最容易被忽视的规划要点:Phase 1建设时必须为液冷预留管路。
液冷预留管路清单(B2楼建设期预留):
1. 地板下液冷主管道(DN100,不锈钢/PPR)
路径:从制冷机房(冷源)→ 地板下管廊 → B2楼各排机柜
预留:供水管+回水管,各1根,带保温
连接方式:预留带盲盖的快接支管,间距1.5m(对应每组机架位置)
2. 机柜行内液冷分支管路
路径:主管道 → 每组16台GPU服务器
管径:DN25(每组,供水+回水)
预留:机柜顶部或底部留有管道入口(Phase 1用盲盖封堵)
3. CDU安装空间预留
每排机柜一端或中部预留 600mm × 1000mm × 2000mm空间
地板上做防水处理(液盘,高度50mm)
预留电源接口(CDU用电:约 3-5 kW/台,三相供电)
4. 冷却水主管道(从制冷机房)
一期:以冷冻水为主(供空调用)
预留:液冷专用管道支管,与空调管道并行
关键:液冷用水比空调冷冻水要求更高(含矿量、PH值、腐蚀性控制)
3. 网络规划:智算中心的"血管"
3.1 网络类型与带宽需求
智算中心有四张独立的网络:
智算中心四网架构:
网络1:计算网络(Compute Network)
用途:GPU间通信(梯度同步、参数交换)
技术:InfiniBand HDR(200Gbps)或 HDR100(100Gbps)
RoCE v2(以太网之上的RDMA)
特殊要求:纳秒级延迟,零丢包(RoCE需要无损以太网)
平谷B2楼:InfiniBand HDR(200Gbps),双轨(主+备)
网络2:存储网络(Storage Network)
用途:访问训练数据集、模型检查点(Checkpoint)
技术:100GbE(或400GbE)+ NVMe-oF 或 S3 API
特殊要求:高带宽(TB级模型读取需要数百Gbps持续带宽)
平谷B2楼:100GbE双链路
网络3:管理网络(Management Network)
用途:IPMI/BMC带外管理,系统安装,健康监控
技术:1GbE(带外)
特殊要求:物理隔离(独立交换机,不与业务网络混用)
平谷B2楼:1GbE独立管理网
网络4:业务网络(Service Network / Out-of-Band Business)
用途:用户任务提交、结果下载
技术:10/25GbE(用户接入层)
特殊要求:与计算网络隔离(不同物理交换机)
平谷全园区:25GbE接入,100GbE汇聚
3.2 InfiniBand 布线特殊要求
InfiniBand是智算中心的核心区别于传统IDC的网络技术,布线有特殊要求:
InfiniBand HDR(200Gbps)布线规格:
线缆类型 最大传输距离 成本 典型应用
─────────────────────────────────────────────────────────
被动铜缆(Passive DAC)1m 最低 同机架内连接
主动铜缆(Active DAC) 3m 低 相邻机架
主动光缆(AOC) 100m 中 机柜行内
多模光纤(OM4) 100m(可接头)中高 机柜行间
单模光纤(OS2) 2km+ 高 跨机房/跨建筑
─────────────────────────────────────────────────────────
平谷B2楼布线选型原则:
同机柜内(GPU服务器到IB交换机):被动铜缆(1m DAC)
同排机柜到TOR交换机:主动铜缆(3m DAC)
TOR到叶子交换机(1m-15m):AOC或OM4多模光纤
叶子到主干交换机(15m-50m):OM4多模光纤
主干到核心(50m+):单模光纤
InfiniBand 拓扑:肥树(Fat-Tree)
平谷B2楼InfiniBand肥树拓扑(简化示意):
Level 3(核心层): [IB Core 1] [IB Core 2] ... 高端48端口IB交换机
/ | \ / | \
Level 2(叶子层): [Leaf1][Leaf2][Leaf3][Leaf4]... 48端口IB交换机
| | | |
Level 1(服务器): [GPU 服务器] [GPU 服务器] ...
每台服务器双卡200Gbps(上行+备用)
特点:
任意两台GPU服务器之间带宽 = 200Gbps
全双工,无拥塞(非阻塞交换)
all-reduce通信中,带宽利用率接近 理论最大值
肥树网络规模(平谷B2楼,1520台GPU服务器×2端口/台):
需要TOR交换机(48端口):(1520×2) / 48 = 63台(向上行×2)
需要Leaf交换机:63台 × 2 / 48 = 约3台(多级)
具体配置需要专业IB架构设计
3.3 RoCE(RDMA over Converged Ethernet)方案
如果预算有限或标准化要求,可使用RoCE代替InfiniBand:
RoCE vs InfiniBand 对比:
InfiniBand HDR RoCE v2(100GbE)
延迟: 约 600ns 约 2-5μs(更高)
带宽: 200Gbps/端口 100Gbps/端口
生态: NVIDIA NVLink优先 通用以太网生态
无损网络: 原生支持 需要PFC+ECN配置(复杂)
成本: 高(专用IB硬件) 低(普通交换机)
维护难度: 高 中
平谷B2选择: **首选InfiniBand** 备选(Phase 1过渡用)
RoCE无损以太网(Lossless Ethernet)要求:
如果使用RoCE,交换机必须配置:
- PFC(Priority Flow Control):基于优先级的流控,防止关键流量被丢弃
- ECN(Explicit Congestion Notification):显式拥塞通知,提前减速防止丢包
- DCQCN(DC Quantized Congestion Notification):拥塞控制算法(微软/NVIDIA研发)
3.4 存储网络规划
AI训练存储需求估算(平谷B2楼):
训练数据访问带宽需求:
GPU服务器数量:1520台(按Phase 3,每台10kW)
每台GPU服务器计算速度:H100 = 3.35 PFLOPS(BF16)
每秒需要读取训练数据:约 1-10 GB/s/服务器(取决于模型大小)
极端情况(LLM预训练,数据密集):
全B2楼存储带宽需求:1520台 × 5 GB/s = **7.6 TB/s**!
→ 普通NAS根本支撑不了,需要分布式并行文件系统
→ 推荐:GPFS/IBM Spectrum Scale(≥1TB/s聚合带宽)
Lustre(开源,超算常用)
DAOS(英特尔,高性能NVMe支持)
网络带宽配置:
存储服务器:每台 4×100GbE(400Gbps),约60-100台存储服务器
存储交换机:100GbE / 400GbE spine-leaf
计算服务器到存储交换机:每台 2×100GbE
平谷B2楼存储网络配置:
计算节点:2×100GbE(存储专用)
存储节点:4×100GbE(RAID/RDMA)
存储总线交换机:400GbE(汇聚层)
3.5 网络带宽总估算(全园区)
平谷全园区9120机柜主干带宽估算:
南北向(外部访问):
互联网接入:9120机柜 × 平均 1Gbps/机柜 = 9.12 Tbps
实际对外出口:考虑5:1收敛,需要约 **2 Tbps** 出口带宽
东西向(园区内部):
机柜间通信(B2楼AI训练内部):接近无阻塞(IB满带宽)
跨楼通信(B2到B3存储):100GbE × 1520服务器 × 2 ≈ 304 Tbps(B2楼内部East-West)
楼间互联主干:至少 **100Gbps × 多条**(通过园区核心交换机)
园区核心交换机要求:
400GbE核心交换机,48端口400GbE = 19.2 Tbps交换容量
需要多台400GbE核心交换机组成MLAG集群
对外出口:
运营商BGP多路出口
总带宽:**≥ 2 Tbps**(考虑5:1收敛比)
物理接口:10×200Gbps 或 20×100Gbps
4. 供电规划升级
4.1 高密度柜供电:三相 vs 单相
为什么GPU机柜必须用三相供电?
单相供电(普通家用/小功率服务器):
单相供电最大功率(230V,32A):230 × 32 = 7,360W ≈ 7.4 kW
→ 勉强能用于6kW/柜(单台PDU)
→ 但PDU温度高,可靠性差,需要双PDU则需16A/相
三相供电(工业/高密度):
三相供电功率(230V × √3 = 400V线电压,63A):400 × 63 × √3 = 43,600W ≈ 43.6 kW
→ 轻松覆盖30-40kW/柜
→ 三相平衡,每相负载约14.5 kW,线电流63A
平谷B2楼(30kW/柜)供电方案:
每柜配置:2×三相PDU(A路+B路,分别来自不同UPS输出)
每个PDU规格:三相,63A主路,下端 12× 32A C19插座
单柜最大功率:63A × 400V = 25.2 kW(单路)→ 双路 50.4 kW ≥ 30kW ✓
安全系数:30kW / 50.4kW = 59.5%(满足≤80%负载率要求)
4.2 定制化PDU选型
PDU(Power Distribution Unit)类型对比:
类型 功能 适用场景 价格
─────────────────────────────────────────────────────
基本型PDU 仅分配电源 普通机柜,低成本 低
计量型PDU 整机柜用电计量 一般监控 中
智能PDU 逐插座计量+远程控制 高密度智算中心 高
定制高密PDU 三相+高安培+特殊插座 GPU高密区 极高
─────────────────────────────────────────────────────
平谷B2楼GPU高密区PDU选型:
品牌:Vertiv / APC / Raritan / Raritan Dominion
规格:0U(挂墙式)或1U
输入:三相,380/400V,63A(IEC 60309红色)
输出:12× C19(32A,用于GPU服务器的C20插头)
或 6× NEMA L6-30R(北美标准,某些GPU服务器)
计量:逐插座独立计量(1W精度)
监控:SNMP/Modbus TCP接口,接入DCIM
报警:过流报警(>95%额定电流),温度报警
价格:约 3-5万元/台(高密智能PDU)
每柜配置:2台(A路+B路),合计 6-10万元/柜(PDU成本)
B2楼全部PDU成本:1520柜 × 8万 = **1.22亿元**(PDU单项!)
4.3 智能PDU(Smart PDU):逐插座计量监控
智能PDU的核心价值:
场景:一个GPU服务器突然过热,需要排查原因
传统PDU:
只知道机柜总用电量(例如:28kW),无法定位到哪台服务器异常
需要工程师进入机房逐台检查,费时费力
智能PDU(逐插座计量):
实时显示每个插座的电压/电流/功率/功率因数
发现:第7号插座(第3台GPU服务器A电源)用电从 4.8kW 突降到 2.1kW
→ 立即判断:该服务器A路电源故障,B路在独立承担(负载偏高)
→ 提前预警,避免B路也过载导致服务器完全断电
在智算中心:
1台GPU服务器出问题 = 整个训练作业中断 = 可能损失数小时的计算结果(检查点前的全部工作丢失)
逐插座监控的ROI(投资回报):极高
逐插座计量的数据量:
平谷B2楼智能PDU数据量:
每柜:2台PDU × 12插座/台 = 24个监控点
全B2楼:1520柜 × 24 = **36,480个插座监控点**
采集频率:每30秒采集一次(实时性需求)
每天数据量:36,480点 × 2880次/天 × 10字节/次 = **1.05 GB/天**
→ 需要DCIM系统支持高并发数据采集
→ 数据库选型:时序数据库(InfluxDB / Prometheus)效率最高
5. 运维规划
5.1 智算中心自动化运维(AI Ops)
传统数据中心的"人工巡检+人工处理"模式在智算中心已经不可持续:
为什么传统运维模式失效?
问题1:规模问题
9120台机柜 × 每柜约20台服务器 = 183,000台服务器
人工巡检:每台检查5分钟 = 15,250人时/次 → 一个月才能巡完一遍
→ 故障发现时间:平均15天(已经不可接受)
问题2:速度问题
GPU训练作业不容忍慢速响应
服务器过热:如果30分钟内没有处理 → GPU永久损坏(结温超过95°C)
网络抖动:如果5分钟没有处理 → 训练作业MPI集合通信超时,作业崩溃
问题3:复杂度问题
GPU服务器故障模式复杂:GPU显存错误、PCIe降速、NVLink断链...
传统运维人员没有这些经验
→ 必须引入 AI Ops(人工智能运维)
AI Ops 核心功能模块:
智算中心 AI Ops 平台架构:
┌──────────────────────────────────────────────────────┐
│ AI Ops 平台(统一运维平台) │
├──────────────┬──────────────┬──────────────────────── │
│ 数据采集层 │ 分析决策层 │ 执行处置层 │
│ │ │ │
│ DCIM传感器 │ 故障预测 │ 自动工单 │
│ 服务器BMC │ 根因分析 │ 自动重启/迁移 │
│ 网络监控 │ 容量规划 │ 通知运维人员 │
│ 视频监控 │ 能耗优化 │ 备件申请 │
└──────────────┴──────────────┴──────────────────────── │
↑ 采集 ↓ 执行
所有基础设施传感器 所有自动化执行接口
(温度/电流/流量/ (BMC/IPMI/SNMP/
视频/门禁/...) Redfish API/...)
5.2 故障预测与预防性维护
GPU服务器常见故障预测模型:
典型预测性维护场景(平谷B2楼):
场景1:GPU显存温度预警
监控指标:GPU显存温度(每5秒采集)
正常范围:≤85°C
预警规则:连续10分钟 > 80°C → 发出预警
预测逻辑:温度上升斜率 > 2°C/min → 预计30分钟内达到告警值
处置:自动降低GPU时钟频率(限速),通知运维降低房间温度
场景2:冷板液冷流量异常
监控指标:CDU出口流量(L/min)
正常范围:单台GPU服务器:2-3 L/min
预警规则:流量下降 > 20% 持续5分钟
预测逻辑:流量缓慢下降趋势(可能是管道堵塞)
处置:隔离该服务器的液冷回路,切换备用路径,派遣维修
场景3:UPS电池容量衰退
监控指标:电池充电/放电曲线(每次测试后记录)
正常范围:电池容量 ≥ 80% 额定容量
预测逻辑:基于历史数据拟合电池老化曲线,预测剩余使用寿命
处置:提前6个月申请备件,安排计划性更换(不影响在线业务)
5.3 带外管理网络(BMC/IPMI)
带外管理(Out-of-Band Management) 是智算中心运维的基础设施:
带外管理原理:
在服务器主机操作系统之外,通过独立的管理控制器(BMC/iDRAC/iLO)
远程访问服务器,即使操作系统挂死也能管理
BMC(Baseboard Management Controller):
独立的嵌入式芯片(ARM架构),独立供电(待机电源)
提供:
├── 远程控制台(视频输出,键盘/鼠标模拟)
├── 电源控制(远程开机/关机/重启)
├── 传感器数据(温度/电流/风扇转速/CPU使用率)
├── 事件日志(硬件故障历史)
└── 固件刷新(远程更新BIOS/固件)
IPMI(Intelligent Platform Management Interface):标准协议
Redfish:新一代RESTful API(DMTF标准,越来越多厂商支持)
平谷B2楼BMC网络规划:
每台GPU服务器:1×1GbE BMC接口(独立)
1520台服务器:1520个BMC接口
汇聚到独立的1GbE管理交换机(与业务网络物理隔离)
BMC网段:192.168.100.0/16(独立地址空间)
DCIM平台通过Redfish API批量管理所有BMC
6. 平谷项目综合规划方案完整版(一页纸总结)
╔══════════════════════════════════════════════════════════════════════╗
║ 北京平谷智算数据中心 综合规划方案摘要 ║
╠══════════════════════════════════════════════════════════════════════╣
║ 基本参数 ║
║ ───────────────────────────────────────────────────────────────── ║
║ 总机柜:9120个(6栋×1520柜) 额定功率:6kW/柜(Phase 1) ║
║ 总IT功耗:43.8 MW(80%利用率) 目标PUE:≤1.20(优化后) ║
╠══════════════════════════════════════════════════════════════════════╣
║ 建筑功能分配 ║
║ B1:核心网络+通用计算,B2:AI训练(GPU高密,30kW→100kW升级路径) ║
║ B3:AI推理+全闪存储,B4:通用计算(弹性),B5:容灾,B6:运维+测试 ║
╠══════════════════════════════════════════════════════════════════════╣
║ 空间布局 ║
║ 冷通道:1.4m(B2:1.8m),热通道:1.2m,主消防:2.0m ║
║ 架空地板:450mm(标准)/ 600mm(B2高密),开孔率25-40% ║
║ 净高:≥3.0m(地板面到天花板) ║
╠══════════════════════════════════════════════════════════════════════╣
║ 承重 ║
║ 标准机房:≥8.0 kN/m²(GB50174 A级) ║
║ B2高密区:≥12 kN/m²(专项加固) ║
║ UPS/电池室:≥10-16 kN/m² ║
╠══════════════════════════════════════════════════════════════════════╣
║ 制冷方案 ║
║ 标准区(B1/B3-B6):冷水机组+CRAH+冷热通道封闭 ║
║ 冷冻水:12°C供/18°C回,COP≥5.0,自然冷却3600h/年 ║
║ B2高密区(Phase 3):冷板液冷,25°C冷媒,CDU(100kW/台), ║
║ 液冷覆盖65%,辅助空冷35% ║
╠══════════════════════════════════════════════════════════════════════╣
║ 网络 ║
║ B2计算网络:InfiniBand HDR 200Gbps,肥树拓扑,全双工无阻塞 ║
║ 存储网络:100GbE,分布式文件系统(GPFS/Lustre),带宽7.6TB/s(B2) ║
║ 管理网络:1GbE独立带外网(BMC/IPMI/Redfish),192.168.x.x ║
║ 对外出口:≥2 Tbps BGP多路(电信+联通+移动) ║
╠══════════════════════════════════════════════════════════════════════╣
║ 供电 ║
║ 等级:GB50174 A级(2N冗余) ║
║ 市电:双路10kV(来自不同变电站,不同方向引入) ║
║ UPS:模块化在线双变换,部分柜ECO模式 ║
║ PDU(标准区):智能PDU,逐插座计量 ║
║ PDU(B2高密):三相63A定制PDU,双路(A+B),逐插座计量 ║
╠══════════════════════════════════════════════════════════════════════╣
║ PUE目标与优化策略 ║
║ 基础PUE(无优化):~1.365 ║
║ 优化策略:①12°C高温冷冻水(-0.086) ②热通道封闭(-0.091) ║
║ ③变频控制(-0.016) ④ECO模式(-0.024) ║
║ 目标PUE:≤1.20 满足工信部要求(≤1.3),达到绿色数据中心四星 ║
╠══════════════════════════════════════════════════════════════════════╣
║ 运维 ║
║ DCIM:全覆盖(100%),支持36,480+个逐插座监控点 ║
║ AI Ops:故障预测、自动处置、容量规划 ║
║ 带外管理:Redfish API统一管理所有BMC ║
║ SLA:关键AI训练区 RTO < 5分钟,RPO = 0(实时检查点) ║
╠══════════════════════════════════════════════════════════════════════╣
║ 年耗电与碳排 ║
║ 年总耗电:4.60亿度 年碳排:21.4万吨CO₂(含20%绿电后) ║
║ 节能对比(vs PUE=1.5):每年多节约 1.15亿度,节约电费 8050万元 ║
╚══════════════════════════════════════════════════════════════════════╝
7. 模块5综合速记总表
╔══════════════════════════════════════════════════════════════════╗
║ 模块5 全部核心数字速记总表(Day 20-23) ║
╠══════════════════════════════════════════════════════════════════╣
║ ║
║ 【GB50174规范数字】 ║
║ A级承重 ≥ 8.0 kN/m² | 冷通道 ≥ 1.2m | 热通道 ≥ 1.0m ║
║ 消防通道 ≥ 1.5m | 净高 ≥ 3.0m | 温度 18-27°C ║
║ 进线双路(2个方向)| 开孔率 ≥ 25% ║
║ ║
║ 【机柜相关数字】 ║
║ 6kW机柜重量 ≈ 850 kg(含余量) ║
║ 机柜正下方等效均布:≈ 14 kN/m²(需结构验算,非规范对比值) ║
║ 42U标准柜:600W × 1000D × 2000H mm ║
║ 柜脚:4个,100×100mm/脚 ║
║ ║
║ 【架空地板】 ║
║ 高度:300/450/600mm → 标准选450,高密选600 ║
║ 承重:重型 ≥ 15 kN/m²,超重型 ≥ 20 kN/m² ║
║ 热通道下方:盲板,不开孔 ║
║ ║
║ 【PUE相关】 ║
║ PUE = 总用电/IT用电 = 1 + 非IT/IT ║
║ 平谷IT功耗:9120×6×80% = 43,776 kW = 43.8 MW ║
║ 基础PUE:1.365 → 优化目标:≤1.20 ║
║ 制冷占非IT能耗:73%(最大单项,优化重点) ║
║ 冷冻水7°C→12°C:冷机节能 30% ║
║ 自然冷却:北京 3500-4000h/年(约40%时间) ║
║ 工信部要求:PUE ≤ 1.3 | 绿色四星:PUE ≤ 1.25 ║
║ ║
║ 【智算中心特殊参数】 ║
║ GPU服务器功耗:CPU 6kW/柜 vs GPU 40kW+/柜(约7倍差异) ║
║ NVIDIA DGX H100重量:118 kg(3倍于CPU服务器) ║
║ 液冷预留管路:Phase 1建设时必须预留 ║
║ CDU冷媒进水温度:25°C(高温进水,COP极高) ║
║ InfiniBand HDR带宽:200Gbps(智算计算网络) ║
║ BMC管理:Redfish API,独立1GbE管理网 ║
║ ║
║ 【记忆口诀】 ║
║ "四流":人要授权,物要路线,气要隔离,电要双路 ║
║ 荷载换算:重量(kg) ÷ 100 = 荷载(kN) ║
║ 节能重点:制冷第一(73%),供电第二(27%) ║
║ 智算三特殊:超高密、液冷、InfiniBand ║
╚══════════════════════════════════════════════════════════════════╝
8. Day 23 2σ 诊断问题
Q1(记忆层)
- GPU服务器(单台DGX H100)的功耗是 ______W,重量约 ______kg。
- 传统6kW机柜放CPU服务器约20台,若换成10kW/台的GPU服务器,同样机柜最多放 ______台。
- 智算中心四张网络的名称:、、、。
- InfiniBand HDR的单端口带宽为 ______Gbps。
- 冷板液冷冷媒进水温度设计为 ______°C。
答案:
- 10,200W(约10kW),118 kg
- 6,000W / 10,000W/台 = 0.6,取0台(一台都放不满,因为1台就超过6kW额定)→ 实际应调整为30kW柜,放3台
- 计算网络(InfiniBand/RoCE)、存储网络、管理网络(带外BMC)、业务网络
- 200 Gbps
- 25°C
Q2(理解层)
-
AI训练作业与传统云计算工作负载在"故障容忍度"上有什么根本差异?这对数据中心基础设施设计产生了什么影响? 参考答案:传统云计算:单节点故障影响范围有限(少数用户,其他节点继续服务);AI训练:整个分布式训练任务用到的所有GPU节点需要全部正常,任一节点故障导致整个作业暂停/重启,损失可能是数小时的计算结果。影响:数据中心各系统(供电/制冷/网络)的冗余等级需要更高,响应时间需要更短(秒级vs分钟级),需要更精细的预测性维护,服务器需要实时检查点机制。
-
为什么高密度GPU区域(60kW/柜)不能简单地"开更多空调"解决,而必须引入液冷? 参考答案:空气冷却的物理极限:空气比热容低(1 kJ/kg·°C,水的约1/4000),相同质量的空气能带走的热量远少于水。对于60kW的机柜,需要的冷风量会导致机柜内风速极高(>10 m/s),产生噪声且影响服务器可靠性;同时风阻增大需要更大风机功率。液冷直接接触热源,换热效率高10-100倍,是唯一经济可行的方案。
-
InfiniBand "肥树拓扑"为什么比传统树形拓扑更适合AI训练? 参考答案:传统树形拓扑(SPINE-LEAF):越往上层,带宽越窄(收敛),边缘节点带宽远大于核心节点。AI训练的all-reduce通信:每个GPU都需要与其他所有GPU通信(梯度同步),需要任意两节点之间都有满带宽。肥树拓扑:上层交换机端口数=下层汇聚端口数×2(一半上行,一半下行),保证非阻塞,任意节点对之间带宽=单链路带宽,无收敛。
Q3(应用层):综合设计题
题目:你是平谷项目B2楼的弱电设计负责人,业主提出以下要求:
- Phase 1:部署800台GPU服务器(8×A100,功耗6.4kW/台)
- 每组16台GPU服务器共享一台InfiniBand TOR交换机(48端口,每台服务器2端口)
- 未来Phase 3要升级为冷板液冷(当前Phase 1只用空冷)
- 要求采用DCIM系统实时监控每台服务器的用电情况
请回答以下子问题:
- Phase 1机柜数量(每柜2台GPU服务器,双路6.4kW PDU);
- 计算TOR交换机数量;
- 列出Phase 1建设时必须为Phase 3预留的3项措施;
- 计算每栋楼需要多少个PDU插座监控点(每柜2个PDU,每个PDU有12个插座)。
参考答案:
-
每柜放2台GPU服务器(6.4kW×2=12.8kW/柜,超过6kW标准) → 实际应用:若设计为12.8kW/柜,需要特殊柜供电(三相PDU) → 机柜数 = 800 / 2 = 400柜 → 每柜功率:12.8 kW(双路三相PDU,每路6.4kW)
-
TOR交换机数量:
- 每台GPU服务器:2个IB端口(双轨)
- 每台TOR交换机:48端口(双轨,24对服务器端口+24对上行端口)
- 每个TOR服务:48/2 = 24端口给服务器(每台服务器用1对)→ 一台TOR对16台GPU服务器(题目要求)
- GPU服务器800台 / 16台/TOR = 50台TOR交换机
-
Phase 1预留Phase 3措施: (1) 地板下预留液冷主管道通道(DN100管位,供/回各1根,带盲盖快接支管) (2) 机柜冷通道加宽至1.8m(标准1.4m,液冷服务需要更大操作空间) (3) 每组16台机柜旁预留CDU安装位(600mm×1000mm,防水液盘+地漏+三相电源接口)
-
PDU插座监控点数:
- 每柜:2台PDU × 12插座 = 24个监控点/柜
- 400柜(Phase 1):400 × 24 = 9,600个监控点
- 全B2楼1520柜(设计全覆盖):1520 × 24 = 36,480个监控点
本章总结
| 知识点 | 核心数字 | 设计意义 |
|---|---|---|
| GPU vs CPU功耗密度差 | 约7倍(40 vs 6 kW/柜) | 液冷必要性的根源 |
| DGX H100功耗/重量 | 10.2 kW / 118 kg | 单台最重服务器,需专项承重 |
| 冷板液冷冷媒温度 | 25°C进水 | 允许极高COP冷水机组 |
| InfiniBand带宽 | 200 Gbps(HDR) | 肥树拓扑全带宽无阻塞 |
| B2楼BMC管理点 | 1520台服务器,1520个BMC | Redfish统一管理基础 |
| AI训练故障容忍 | 零容忍(任一节点故障=全停) | 倒逼N+1以上冗余 |
| Phase 1预留措施 | 管道/空间/接口 | 决定未来改造成本 |
| 全园区年耗电 | 4.60亿度(PUE1.20) | 年电费约3.2亿元(0.7元/度) |
模块5完结 — 从功能分区到承重核算,从PUE测算到智算中心特殊规划,王鸿才已经具备了"解释为什么这样设计"的能力,不只是"知道做了什么"。
模块5 关键知识整合思维导图
模块5:机房规划与空间设计
├── Day 20:功能分区与空间布局
│ ├── 三大域(主机房/支持区/行政区)
│ ├── "四流"规划(人/物/气/电)
│ ├── 通道尺寸(冷1.2m/热1.0m/消防1.5m)
│ ├── 进线间(双路/光铜分离)
│ └── 平谷6栋功能分配(B1核心网/B2 GPU/B3存储...)
│
├── Day 21:承重核算与架空地板
│ ├── A级承重 ≥ 8.0 kN/m²
│ ├── 6kW机柜 ≈ 850 kg
│ ├── 集中荷载→均布等效换算
│ ├── 承重不足:加固or分散布置
│ ├── 架空地板高度 450/600mm
│ └── 开孔率 ≥ 25%,热通道下盲板
│
├── Day 22:PUE测算与能效设计
│ ├── IT功耗 = 9120×6×80% = 43.8 MW
│ ├── 基础PUE = 1.365(制冷占非IT73%)
│ ├── 优化策略4条(冷冻水/封闭/变频/ECO)
│ ├── 北京自然冷却 3500-4000h/年
│ └── 优化目标 PUE ≤ 1.20
│
└── Day 23:智算中心特殊规划
├── GPU vs CPU:7倍功耗密度差
├── 液冷路径:Phase 1预留→Phase 3改造
├── 四张网络(计算/存储/管理/业务)
├── InfiniBand肥树拓扑
├── 三相高密PDU + 逐插座计量
└── AI Ops + BMC带外管理
文件版本:v1.0 | 生成日期:2026-02-19 | 适用场景:AI训练数据中心规划设计 参考标准:NVIDIA DGX基础设施指南 / OpenCompute OCP标准 / DMTF Redfish规范 / GB50174-2017