智算弱电学习系统
课程概览机房规划M5-04 智算中心特殊规划要点

M5-04 智算中心特殊规划要点

模块5 · Day 23 | 机房规划与空间设计

学习者:王鸿才 | 目标岗位:弱电智能化解决方案架构师(智算中心) 项目锚点:北京平谷智算数据中心(9120个6kW机柜,6栋建筑,其中B2楼为AI训练高密区) 核心命题:传统IDC经验 ≠ 智算中心能力,从6kW/柜到60kW+/柜,每一步都是全新挑战


导言:智算中心颠覆了传统数据中心的哪些假设?

如果你在传统IDC工作了5年,掌握了机柜布局、综合布线、精密空调这些技能,来到智算中心的第一感受可能是:很多东西不管用了

传统IDC(CPU服务器为主)   智算中心(GPU服务器为主)
─────────────────────────────────────────────────────
功耗密度:4-6 kW/柜          功耗密度:30-100 kW/柜(最高10倍差异)
主要热量:空气冷却即可        主要热量:需要液冷介质直接带走
网络带宽:10G-100G/服务器     网络带宽:200G-800G/服务器(InfiniBand)
网络延迟:微秒级容忍          网络延迟:纳秒级要求(all-reduce通信)
存储需求:通用存储            存储需求:超高带宽(NVMe/全闪),千亿参数模型
运维特点:定期维护            运维特点:AI作业不中断,故障秒级影响
供电方式:单相/三相均可        供电方式:高密三相,定制PDU必需
扩容模式:机柜级扩容          扩容模式:GPU POD级扩容(最小单元512-4096 GPU)

本章的学习目标

  1. 理解AI训练作业的独特特点及其对基础设施的特殊要求
  2. 掌握高密度区域(GPU区)的规划方法论
  3. 了解智算中心网络规划的特殊性(InfiniBand / RoCE)
  4. 掌握液冷技术选型和CDU布置原则
  5. 能够编写平谷项目B2楼的完整规划方案

1. 智算中心 vs 传统IDC:核心差异深度解析

1.1 GPU服务器的物理特性

典型GPU服务器规格对比

CPU服务器(通用计算)         GPU服务器(AI训练)
─────────────────────────────────────────────────────────
DELL R750(典型2U服务器)     NVIDIA DGX H100(典型8-GPU机器)
  CPU:2×Intel Xeon 32核       GPU:8×NVIDIA H100 SXM5 80GB
  内存:384 GB DDR5             CPU:2×Intel Xeon Scalable
  存储:8×SSD NVMe              内存:2 TB DDR5
  功耗:350-600W(可变)         存储:8×NVMe SSD(30 TB)
  重量:22 kg(满配)            功耗:10,200W(最大!)
  尺寸:2U(86.8mm高)           重量:**118 kg**(仅机器本身)
  制冷:标准空气冷却             尺寸:10U(至少444mm)
                                制冷:需要液冷辅助(GPU TDP 700W/颗)

单机柜功耗对比

传统2U CPU服务器机柜(42U):
  装机率:20台(6kW满配,300W/台)
  机柜功耗:20 × 300W = 6,000W = **6 kW/柜**

GPU服务器机柜(42U,10U/台):
  理论装机率:4台(42U / 10U = 4.2 → 取4台)
  机柜功耗:4 × 10,200W = 40,800W = **40.8 kW/柜**(~7倍差异!)

超高密度GPU机柜(定制OCP Open19机型,2U-4U):
  某些NVIDIA GH200超级芯片配置:
  机柜功耗可达 **100 kW+/柜**(配合液冷)

核心数字:GPU服务器与CPU服务器功耗密度差异达 7-17倍,这是智算中心规划的根本挑战。

1.2 AI训练作业的特点

AI训练作业与传统云计算负载有根本不同:

传统云计算负载特点:
  负荷波动:大(白天高,夜间低;峰谷比可达5:1)
  作业时长:短(HTTP请求毫秒级,VM实例按需开关)
  通信模式:南北向(客户端-服务器)为主
  故障容忍:单节点故障影响少数用户
  功耗曲线:锯齿状,有明显峰谷

AI训练作业特点:
  负荷波动:极小!(训练作业连续满负荷运行,24/7)
  作业时长:极长(GPT-3训练:34天;GPT-4:数月)
  通信模式:东西向(GPU间all-reduce通信)占绝对主导
  故障容忍:任一GPU故障 → 整个训练作业暂停/重启(严重影响!)
  功耗曲线:接近矩形波(持续在最大功耗的90-95%运行)

AI训练作业对基础设施的影响

特点对供电的影响对制冷的影响对网络的影响
持续高负荷UPS/PDU不能按平均值选型,必须按峰值冷却系统需持续满负荷运行,不能降频网络必须7×24持续提供满带宽
作业时间长年用电量接近理论最大值制冷系统磨损大,需更高维护标准长达数月的连续数据传输
东西向通信与传统南北向流量模型完全相反,需用InfiniBand或RoCE
故障零容忍需N+1甚至2N冗余制冷故障必须秒级响应网络收敛时间必须极短

1.3 规划挑战总结

智算中心规划面临的7大挑战:

挑战1:热密度管理(功耗密度10倍于传统)
  → 空气冷却不够用,必须引入液冷

挑战2:供电密度升级(单柜63A三相,普通5A插座不够用)
  → 重新设计PDU和配电系统

挑战3:网络带宽激增(单服务器800Gbps vs 传统10Gbps)
  → 全新布线标准(InfiniBand DAC/AOC/光纤)

挑战4:结构承重(GPU服务器+液冷设备比CPU服务器重3-5倍)
  → 楼板专项加固

挑战5:液冷管道(冷板液冷需要二次冷媒回路)
  → CDU布置,管道走线,防泄漏设计

挑战6:故障快速响应(训练作业无法容忍中断)
  → 智能运维,预测性维护,毫秒级切换

挑战7:模块化扩容(GPU集群以POD为单位部署)
  → 规划时预留POD边界,供电/制冷/网络可按POD扩容

2. 高密度区域(GPU区)规划

2.1 机柜功率密度升级路径

平谷项目B2楼作为AI训练区,需要规划功率密度的升级路径:

功率密度演进路线图(B2楼规划):

阶段        时间节点    功率密度    冷却方式      架构重点
─────────────────────────────────────────────────────────────
Phase 1    2024-2025   6 kW/柜    精密空调      初始部署,使用标准空冷GPU服务器
Phase 2    2025-2026   30 kW/柜   空冷+列间空调 高密度空气冷却(需热通道封闭)
Phase 3    2026-2027   60 kW/柜   冷板液冷      冷板液冷改造,CDU部署
Phase 4    2027+       100kW+/柜  浸没液冷      下一代Blackwell/后续架构
─────────────────────────────────────────────────────────────

设计原则:Phase 1建设时,必须为Phase 3/4预留!
  □ 地板下液冷管道预留通道(φ100mm管道槽位)
  □ 机柜间距加大(从1.4m扩到1.8m冷通道),为CDU预留空间
  □ 楼板加固至 ≥12 kN/m²(Phase 3液冷设备更重)
  □ CDU用水接口预留(每组16-32台GPU服务器配1台CDU)

2.2 不同功率密度的冷却方式选型

功率密度 vs 冷却方式选择矩阵:

  功率密度      推荐冷却方式        PUE预期    备注
  ─────────────────────────────────────────────────
  ≤6 kW/柜     精密空调(CRAC/CRAH)  1.2-1.4   标准数据中心方案
  6-15 kW/柜   CRAH+冷通道封闭        1.15-1.3  配合高温冷冻水
  15-30 kW/柜  列间空调(In-Row)     1.15-1.25 列间直接吸热风
  30-60 kW/柜  冷板液冷(Direct Liquid Cooling)1.1-1.2 高效导热
  60-100kW/柜  冷板液冷+辅助空冷      1.05-1.15 组合方案
  >100kW/柜    浸没液冷(Immersion)  1.03-1.1  极致能效
  ─────────────────────────────────────────────────

平谷B2楼Phase 3规划(60kW/柜)选择:冷板液冷
理由:
  1. 冷板液冷改造成本低(相比浸没液冷)
  2. 现有GPU服务器(如NVIDIA HGX H100)支持冷板液冷选件
  3. CDU(冷量分配单元)可靠性高,成熟产品
  4. PUE可达1.1-1.15(超过空冷方案的1.25-1.3)

2.3 冷板液冷(Direct Liquid Cooling)技术详解

系统架构

冷板液冷系统架构(平谷B2楼):

外部冷却水(来自制冷机房)
        ↓
┌───────────────────┐
│   CDU               │  冷量分配单元(Coolant Distribution Unit)
│   (Coolant Distri-  │  ├── 泵组(主+备)
│    bution Unit)     │  ├── 换热器(冷冻水→冷媒水转换)
│                     │  ├── 定压/补水装置
│                     │  └── 监控传感器(温度/压力/流量)
└─────────┬───────────┘
          │ 冷媒水(25°C供水,35°C回水)
          │ 工质:去离子水(DI Water)或乙二醇水溶液
          ↓
┌─────────────────────────────────────────────────┐
│  GPU服务器机架(16台GPU服务器/组)                 │
│  每台服务器内部:                                  │
│    CPU冷板 ─── 串联冷板回路 ─── GPU冷板×8        │
│    内存冷板(可选)                                │
│    PCIe冷板(可选)                               │
│    剩余散热:风扇(HEX,Heat Exchanger)排走       │
└─────────────────────────────────────────────────┘

冷板液冷关键参数(平谷B2楼设计值):

参数数值说明
冷媒进水温度25°C高温进水(提高CDU效率)
冷媒回水温度35°C10°C温差,流量经济
CDU制冷量100 kW/台覆盖16台GPU服务器(每台6kW)
CDU效率≥98%热交换效率(制冷量/送水热量)
液冷覆盖比例60-70%液冷带走60-70%热量,风扇带走30-40%
防泄漏等级IP68液冷管接头,防止冷媒泄漏

为什么冷媒进水可以是25°C(这么高)?

传统空调冷冻水:7°C(目标将房间降到20°C,需要相当大的温差)

冷板液冷冷媒:25°C
  → 冷媒直接接触GPU芯片(通过铜/铝冷板导热)
  → 芯片温度通常在60-85°C(结温),与25°C冷媒有35-60°C温差
  → 温差足够,不需要更低温度的冷媒
  → 冷冻水供水温度 25°C(CDU换热器内5°C端差)→ 30°C供水即可
  → 对应冷水机组COP极高(接近10.0)
  → 冬天甚至可以完全不开冷水机组(北京室外温度 < 25°C 长达8个月!)

2.4 CDU(冷量分配单元)选址与容量规划

CDU布置原则

原则1:就近原则
  CDU紧靠服务的GPU机架(最大距离:5-8m,超过此距离管道压降和热损失增大)

原则2:N+1冗余
  每个CDU组配备N+1泵组(主泵故障时备泵自动接管)

原则3:独立区域
  CDU落脚处需独立防水区域(液盘+地漏),防止泄漏扩散

原则4:维修通道
  CDU正面/侧面预留600mm维修空间
  CDU背面(冷却水接口)预留800mm操作空间

平谷B2楼CDU数量估算(Phase 3,60kW/柜):
  B2楼机柜总数:1520柜(60kW/柜)
  每台CDU能力:100 kW
  需要CDU数量:1520×60 kW / 100 kW = 912台(!太多)

  实际上:并非所有机柜同时100%利用,且60kW是峰值
  按70%负载率:1520×60×70% / 100 = 638台
  加N+1冗余:638 × (n+1)/n(每4台为一组,1备)= 638 × 1.25 = **798台CDU**

  注:这是Phase 3的规模,Phase 1(6kW/柜)时不需要CDU,Phase 2(30kW)时约400台

2.5 液冷预留管路设计(Phase 1就要做好)

这是最容易被忽视的规划要点:Phase 1建设时必须为液冷预留管路

液冷预留管路清单(B2楼建设期预留):

1. 地板下液冷主管道(DN100,不锈钢/PPR)
   路径:从制冷机房(冷源)→ 地板下管廊 → B2楼各排机柜
   预留:供水管+回水管,各1根,带保温
   连接方式:预留带盲盖的快接支管,间距1.5m(对应每组机架位置)

2. 机柜行内液冷分支管路
   路径:主管道 → 每组16台GPU服务器
   管径:DN25(每组,供水+回水)
   预留:机柜顶部或底部留有管道入口(Phase 1用盲盖封堵)

3. CDU安装空间预留
   每排机柜一端或中部预留 600mm × 1000mm × 2000mm空间
   地板上做防水处理(液盘,高度50mm)
   预留电源接口(CDU用电:约 3-5 kW/台,三相供电)

4. 冷却水主管道(从制冷机房)
   一期:以冷冻水为主(供空调用)
   预留:液冷专用管道支管,与空调管道并行
   关键:液冷用水比空调冷冻水要求更高(含矿量、PH值、腐蚀性控制)

3. 网络规划:智算中心的"血管"

3.1 网络类型与带宽需求

智算中心有四张独立的网络:

智算中心四网架构:

网络1:计算网络(Compute Network)
  用途:GPU间通信(梯度同步、参数交换)
  技术:InfiniBand HDR(200Gbps)或 HDR100(100Gbps)
        RoCE v2(以太网之上的RDMA)
  特殊要求:纳秒级延迟,零丢包(RoCE需要无损以太网)
  平谷B2楼:InfiniBand HDR(200Gbps),双轨(主+备)

网络2:存储网络(Storage Network)
  用途:访问训练数据集、模型检查点(Checkpoint)
  技术:100GbE(或400GbE)+ NVMe-oF 或 S3 API
  特殊要求:高带宽(TB级模型读取需要数百Gbps持续带宽)
  平谷B2楼:100GbE双链路

网络3:管理网络(Management Network)
  用途:IPMI/BMC带外管理,系统安装,健康监控
  技术:1GbE(带外)
  特殊要求:物理隔离(独立交换机,不与业务网络混用)
  平谷B2楼:1GbE独立管理网

网络4:业务网络(Service Network / Out-of-Band Business)
  用途:用户任务提交、结果下载
  技术:10/25GbE(用户接入层)
  特殊要求:与计算网络隔离(不同物理交换机)
  平谷全园区:25GbE接入,100GbE汇聚

3.2 InfiniBand 布线特殊要求

InfiniBand是智算中心的核心区别于传统IDC的网络技术,布线有特殊要求:

InfiniBand HDR(200Gbps)布线规格:

线缆类型              最大传输距离   成本      典型应用
─────────────────────────────────────────────────────────
被动铜缆(Passive DAC)1m           最低     同机架内连接
主动铜缆(Active DAC)  3m           低       相邻机架
主动光缆(AOC)         100m         中       机柜行内
多模光纤(OM4)         100m(可接头)中高     机柜行间
单模光纤(OS2)         2km+         高       跨机房/跨建筑
─────────────────────────────────────────────────────────

平谷B2楼布线选型原则:
  同机柜内(GPU服务器到IB交换机):被动铜缆(1m DAC)
  同排机柜到TOR交换机:主动铜缆(3m DAC)
  TOR到叶子交换机(1m-15m):AOC或OM4多模光纤
  叶子到主干交换机(15m-50m):OM4多模光纤
  主干到核心(50m+):单模光纤

InfiniBand 拓扑:肥树(Fat-Tree)

平谷B2楼InfiniBand肥树拓扑(简化示意):

Level 3(核心层):   [IB Core 1] [IB Core 2] ... 高端48端口IB交换机
                       /  |  \      /  |  \
Level 2(叶子层):  [Leaf1][Leaf2][Leaf3][Leaf4]... 48端口IB交换机
                       |      |      |      |
Level 1(服务器):  [GPU 服务器] [GPU 服务器] ...
                    每台服务器双卡200Gbps(上行+备用)

特点:
  任意两台GPU服务器之间带宽 = 200Gbps
  全双工,无拥塞(非阻塞交换)
  all-reduce通信中,带宽利用率接近 理论最大值

肥树网络规模(平谷B2楼,1520台GPU服务器×2端口/台):
  需要TOR交换机(48端口):(1520×2) / 48 = 63台(向上行×2)
  需要Leaf交换机:63台 × 2 / 48 = 约3台(多级)
  具体配置需要专业IB架构设计

3.3 RoCE(RDMA over Converged Ethernet)方案

如果预算有限或标准化要求,可使用RoCE代替InfiniBand:

RoCE vs InfiniBand 对比:

              InfiniBand HDR      RoCE v2(100GbE)
延迟:         约 600ns            约 2-5μs(更高)
带宽:         200Gbps/端口        100Gbps/端口
生态:         NVIDIA NVLink优先   通用以太网生态
无损网络:     原生支持            需要PFC+ECN配置(复杂)
成本:         高(专用IB硬件)    低(普通交换机)
维护难度:     高                  中
平谷B2选择:   **首选InfiniBand**  备选(Phase 1过渡用)

RoCE无损以太网(Lossless Ethernet)要求

如果使用RoCE,交换机必须配置:

  • PFC(Priority Flow Control):基于优先级的流控,防止关键流量被丢弃
  • ECN(Explicit Congestion Notification):显式拥塞通知,提前减速防止丢包
  • DCQCN(DC Quantized Congestion Notification):拥塞控制算法(微软/NVIDIA研发)

3.4 存储网络规划

AI训练存储需求估算(平谷B2楼)

训练数据访问带宽需求:
  GPU服务器数量:1520台(按Phase 3,每台10kW)
  每台GPU服务器计算速度:H100 = 3.35 PFLOPS(BF16)
  每秒需要读取训练数据:约 1-10 GB/s/服务器(取决于模型大小)

  极端情况(LLM预训练,数据密集):
  全B2楼存储带宽需求:1520台 × 5 GB/s = **7.6 TB/s**!

  → 普通NAS根本支撑不了,需要分布式并行文件系统
  → 推荐:GPFS/IBM Spectrum Scale(≥1TB/s聚合带宽)
         Lustre(开源,超算常用)
         DAOS(英特尔,高性能NVMe支持)

网络带宽配置:
  存储服务器:每台 4×100GbE(400Gbps),约60-100台存储服务器
  存储交换机:100GbE / 400GbE spine-leaf
  计算服务器到存储交换机:每台 2×100GbE

平谷B2楼存储网络配置:
  计算节点:2×100GbE(存储专用)
  存储节点:4×100GbE(RAID/RDMA)
  存储总线交换机:400GbE(汇聚层)

3.5 网络带宽总估算(全园区)

平谷全园区9120机柜主干带宽估算:

南北向(外部访问):
  互联网接入:9120机柜 × 平均 1Gbps/机柜 = 9.12 Tbps
  实际对外出口:考虑5:1收敛,需要约 **2 Tbps** 出口带宽

东西向(园区内部):
  机柜间通信(B2楼AI训练内部):接近无阻塞(IB满带宽)
  跨楼通信(B2到B3存储):100GbE × 1520服务器 × 2 ≈ 304 Tbps(B2楼内部East-West)
  楼间互联主干:至少 **100Gbps × 多条**(通过园区核心交换机)

园区核心交换机要求:
  400GbE核心交换机,48端口400GbE = 19.2 Tbps交换容量
  需要多台400GbE核心交换机组成MLAG集群

对外出口:
  运营商BGP多路出口
  总带宽:**≥ 2 Tbps**(考虑5:1收敛比)
  物理接口:10×200Gbps 或 20×100Gbps

4. 供电规划升级

4.1 高密度柜供电:三相 vs 单相

为什么GPU机柜必须用三相供电?

单相供电(普通家用/小功率服务器):
  单相供电最大功率(230V,32A):230 × 32 = 7,360W ≈ 7.4 kW
  → 勉强能用于6kW/柜(单台PDU)
  → 但PDU温度高,可靠性差,需要双PDU则需16A/相

三相供电(工业/高密度):
  三相供电功率(230V × √3 = 400V线电压,63A):400 × 63 × √3 = 43,600W ≈ 43.6 kW
  → 轻松覆盖30-40kW/柜
  → 三相平衡,每相负载约14.5 kW,线电流63A

平谷B2楼(30kW/柜)供电方案:
  每柜配置:2×三相PDU(A路+B路,分别来自不同UPS输出)
  每个PDU规格:三相,63A主路,下端 12× 32A C19插座
  单柜最大功率:63A × 400V = 25.2 kW(单路)→ 双路 50.4 kW ≥ 30kW ✓
  安全系数:30kW / 50.4kW = 59.5%(满足≤80%负载率要求)

4.2 定制化PDU选型

PDU(Power Distribution Unit)类型对比:

类型        功能             适用场景          价格
─────────────────────────────────────────────────────
基本型PDU   仅分配电源       普通机柜,低成本   低
计量型PDU   整机柜用电计量   一般监控           中
智能PDU     逐插座计量+远程控制  高密度智算中心  高
定制高密PDU 三相+高安培+特殊插座  GPU高密区      极高
─────────────────────────────────────────────────────

平谷B2楼GPU高密区PDU选型:
  品牌:Vertiv / APC / Raritan / Raritan Dominion
  规格:0U(挂墙式)或1U
  输入:三相,380/400V,63A(IEC 60309红色)
  输出:12× C19(32A,用于GPU服务器的C20插头)
        或 6× NEMA L6-30R(北美标准,某些GPU服务器)
  计量:逐插座独立计量(1W精度)
  监控:SNMP/Modbus TCP接口,接入DCIM
  报警:过流报警(>95%额定电流),温度报警
  价格:约 3-5万元/台(高密智能PDU)

每柜配置:2台(A路+B路),合计 6-10万元/柜(PDU成本)
B2楼全部PDU成本:1520柜 × 8万 = **1.22亿元**(PDU单项!)

4.3 智能PDU(Smart PDU):逐插座计量监控

智能PDU的核心价值

场景:一个GPU服务器突然过热,需要排查原因

传统PDU:
  只知道机柜总用电量(例如:28kW),无法定位到哪台服务器异常
  需要工程师进入机房逐台检查,费时费力

智能PDU(逐插座计量):
  实时显示每个插座的电压/电流/功率/功率因数
  发现:第7号插座(第3台GPU服务器A电源)用电从 4.8kW 突降到 2.1kW
  → 立即判断:该服务器A路电源故障,B路在独立承担(负载偏高)
  → 提前预警,避免B路也过载导致服务器完全断电

在智算中心:
  1台GPU服务器出问题 = 整个训练作业中断 = 可能损失数小时的计算结果(检查点前的全部工作丢失)
  逐插座监控的ROI(投资回报):极高

逐插座计量的数据量

平谷B2楼智能PDU数据量:
  每柜:2台PDU × 12插座/台 = 24个监控点
  全B2楼:1520柜 × 24 = **36,480个插座监控点**
  采集频率:每30秒采集一次(实时性需求)
  每天数据量:36,480点 × 2880次/天 × 10字节/次 = **1.05 GB/天**

  → 需要DCIM系统支持高并发数据采集
  → 数据库选型:时序数据库(InfluxDB / Prometheus)效率最高

5. 运维规划

5.1 智算中心自动化运维(AI Ops)

传统数据中心的"人工巡检+人工处理"模式在智算中心已经不可持续:

为什么传统运维模式失效?

问题1:规模问题
  9120台机柜 × 每柜约20台服务器 = 183,000台服务器
  人工巡检:每台检查5分钟 = 15,250人时/次 → 一个月才能巡完一遍
  → 故障发现时间:平均15天(已经不可接受)

问题2:速度问题
  GPU训练作业不容忍慢速响应
  服务器过热:如果30分钟内没有处理 → GPU永久损坏(结温超过95°C)
  网络抖动:如果5分钟没有处理 → 训练作业MPI集合通信超时,作业崩溃

问题3:复杂度问题
  GPU服务器故障模式复杂:GPU显存错误、PCIe降速、NVLink断链...
  传统运维人员没有这些经验

→ 必须引入 AI Ops(人工智能运维)

AI Ops 核心功能模块

智算中心 AI Ops 平台架构:

┌──────────────────────────────────────────────────────┐
│                 AI Ops 平台(统一运维平台)              │
├──────────────┬──────────────┬──────────────────────── │
│  数据采集层   │  分析决策层   │  执行处置层              │
│              │              │                          │
│  DCIM传感器  │  故障预测     │  自动工单                │
│  服务器BMC   │  根因分析     │  自动重启/迁移            │
│  网络监控    │  容量规划     │  通知运维人员             │
│  视频监控    │  能耗优化     │  备件申请                 │
└──────────────┴──────────────┴──────────────────────── │
         ↑ 采集             ↓ 执行
    所有基础设施传感器    所有自动化执行接口
    (温度/电流/流量/     (BMC/IPMI/SNMP/
     视频/门禁/...)       Redfish API/...)

5.2 故障预测与预防性维护

GPU服务器常见故障预测模型

典型预测性维护场景(平谷B2楼):

场景1:GPU显存温度预警
  监控指标:GPU显存温度(每5秒采集)
  正常范围:≤85°C
  预警规则:连续10分钟 > 80°C → 发出预警
  预测逻辑:温度上升斜率 > 2°C/min → 预计30分钟内达到告警值
  处置:自动降低GPU时钟频率(限速),通知运维降低房间温度

场景2:冷板液冷流量异常
  监控指标:CDU出口流量(L/min)
  正常范围:单台GPU服务器:2-3 L/min
  预警规则:流量下降 > 20% 持续5分钟
  预测逻辑:流量缓慢下降趋势(可能是管道堵塞)
  处置:隔离该服务器的液冷回路,切换备用路径,派遣维修

场景3:UPS电池容量衰退
  监控指标:电池充电/放电曲线(每次测试后记录)
  正常范围:电池容量 ≥ 80% 额定容量
  预测逻辑:基于历史数据拟合电池老化曲线,预测剩余使用寿命
  处置:提前6个月申请备件,安排计划性更换(不影响在线业务)

5.3 带外管理网络(BMC/IPMI)

带外管理(Out-of-Band Management) 是智算中心运维的基础设施:

带外管理原理:
  在服务器主机操作系统之外,通过独立的管理控制器(BMC/iDRAC/iLO)
  远程访问服务器,即使操作系统挂死也能管理

BMC(Baseboard Management Controller):
  独立的嵌入式芯片(ARM架构),独立供电(待机电源)
  提供:
  ├── 远程控制台(视频输出,键盘/鼠标模拟)
  ├── 电源控制(远程开机/关机/重启)
  ├── 传感器数据(温度/电流/风扇转速/CPU使用率)
  ├── 事件日志(硬件故障历史)
  └── 固件刷新(远程更新BIOS/固件)

IPMI(Intelligent Platform Management Interface):标准协议
Redfish:新一代RESTful API(DMTF标准,越来越多厂商支持)

平谷B2楼BMC网络规划:
  每台GPU服务器:1×1GbE BMC接口(独立)
  1520台服务器:1520个BMC接口
  汇聚到独立的1GbE管理交换机(与业务网络物理隔离)
  BMC网段:192.168.100.0/16(独立地址空间)
  DCIM平台通过Redfish API批量管理所有BMC

6. 平谷项目综合规划方案完整版(一页纸总结)

╔══════════════════════════════════════════════════════════════════════╗
║                 北京平谷智算数据中心 综合规划方案摘要                  ║
╠══════════════════════════════════════════════════════════════════════╣
║  基本参数                                                             ║
║  ─────────────────────────────────────────────────────────────────   ║
║  总机柜:9120个(6栋×1520柜)  额定功率:6kW/柜(Phase 1)           ║
║  总IT功耗:43.8 MW(80%利用率)  目标PUE:≤1.20(优化后)             ║
╠══════════════════════════════════════════════════════════════════════╣
║  建筑功能分配                                                          ║
║  B1:核心网络+通用计算,B2:AI训练(GPU高密,30kW→100kW升级路径)      ║
║  B3:AI推理+全闪存储,B4:通用计算(弹性),B5:容灾,B6:运维+测试   ║
╠══════════════════════════════════════════════════════════════════════╣
║  空间布局                                                              ║
║  冷通道:1.4m(B2:1.8m),热通道:1.2m,主消防:2.0m                ║
║  架空地板:450mm(标准)/ 600mm(B2高密),开孔率25-40%               ║
║  净高:≥3.0m(地板面到天花板)                                         ║
╠══════════════════════════════════════════════════════════════════════╣
║  承重                                                                  ║
║  标准机房:≥8.0 kN/m²(GB50174 A级)                                  ║
║  B2高密区:≥12 kN/m²(专项加固)                                      ║
║  UPS/电池室:≥10-16 kN/m²                                             ║
╠══════════════════════════════════════════════════════════════════════╣
║  制冷方案                                                              ║
║  标准区(B1/B3-B6):冷水机组+CRAH+冷热通道封闭                        ║
║    冷冻水:12°C供/18°C回,COP≥5.0,自然冷却3600h/年                   ║
║  B2高密区(Phase 3):冷板液冷,25°C冷媒,CDU(100kW/台),            ║
║    液冷覆盖65%,辅助空冷35%                                            ║
╠══════════════════════════════════════════════════════════════════════╣
║  网络                                                                  ║
║  B2计算网络:InfiniBand HDR 200Gbps,肥树拓扑,全双工无阻塞           ║
║  存储网络:100GbE,分布式文件系统(GPFS/Lustre),带宽7.6TB/s(B2)   ║
║  管理网络:1GbE独立带外网(BMC/IPMI/Redfish),192.168.x.x             ║
║  对外出口:≥2 Tbps BGP多路(电信+联通+移动)                          ║
╠══════════════════════════════════════════════════════════════════════╣
║  供电                                                                  ║
║  等级:GB50174 A级(2N冗余)                                           ║
║  市电:双路10kV(来自不同变电站,不同方向引入)                         ║
║  UPS:模块化在线双变换,部分柜ECO模式                                   ║
║  PDU(标准区):智能PDU,逐插座计量                                     ║
║  PDU(B2高密):三相63A定制PDU,双路(A+B),逐插座计量                ║
╠══════════════════════════════════════════════════════════════════════╣
║  PUE目标与优化策略                                                      ║
║  基础PUE(无优化):~1.365                                              ║
║  优化策略:①12°C高温冷冻水(-0.086) ②热通道封闭(-0.091)               ║
║           ③变频控制(-0.016) ④ECO模式(-0.024)                         ║
║  目标PUE:≤1.20  满足工信部要求(≤1.3),达到绿色数据中心四星           ║
╠══════════════════════════════════════════════════════════════════════╣
║  运维                                                                  ║
║  DCIM:全覆盖(100%),支持36,480+个逐插座监控点                        ║
║  AI Ops:故障预测、自动处置、容量规划                                   ║
║  带外管理:Redfish API统一管理所有BMC                                   ║
║  SLA:关键AI训练区 RTO < 5分钟,RPO = 0(实时检查点)                  ║
╠══════════════════════════════════════════════════════════════════════╣
║  年耗电与碳排                                                           ║
║  年总耗电:4.60亿度  年碳排:21.4万吨CO₂(含20%绿电后)                ║
║  节能对比(vs PUE=1.5):每年多节约 1.15亿度,节约电费 8050万元        ║
╚══════════════════════════════════════════════════════════════════════╝

7. 模块5综合速记总表

╔══════════════════════════════════════════════════════════════════╗
║              模块5 全部核心数字速记总表(Day 20-23)              ║
╠══════════════════════════════════════════════════════════════════╣
║                                                                  ║
║  【GB50174规范数字】                                              ║
║  A级承重 ≥ 8.0 kN/m² | 冷通道 ≥ 1.2m | 热通道 ≥ 1.0m          ║
║  消防通道 ≥ 1.5m | 净高 ≥ 3.0m | 温度 18-27°C                  ║
║  进线双路(2个方向)| 开孔率 ≥ 25%                               ║
║                                                                  ║
║  【机柜相关数字】                                                 ║
║  6kW机柜重量 ≈ 850 kg(含余量)                                  ║
║  机柜正下方等效均布:≈ 14 kN/m²(需结构验算,非规范对比值)        ║
║  42U标准柜:600W × 1000D × 2000H mm                             ║
║  柜脚:4个,100×100mm/脚                                          ║
║                                                                  ║
║  【架空地板】                                                     ║
║  高度:300/450/600mm → 标准选450,高密选600                       ║
║  承重:重型 ≥ 15 kN/m²,超重型 ≥ 20 kN/m²                       ║
║  热通道下方:盲板,不开孔                                          ║
║                                                                  ║
║  【PUE相关】                                                      ║
║  PUE = 总用电/IT用电 = 1 + 非IT/IT                               ║
║  平谷IT功耗:9120×6×80% = 43,776 kW = 43.8 MW                  ║
║  基础PUE:1.365 → 优化目标:≤1.20                                ║
║  制冷占非IT能耗:73%(最大单项,优化重点)                          ║
║  冷冻水7°C→12°C:冷机节能 30%                                   ║
║  自然冷却:北京 3500-4000h/年(约40%时间)                        ║
║  工信部要求:PUE ≤ 1.3 | 绿色四星:PUE ≤ 1.25                   ║
║                                                                  ║
║  【智算中心特殊参数】                                              ║
║  GPU服务器功耗:CPU 6kW/柜 vs GPU 40kW+/柜(约7倍差异)           ║
║  NVIDIA DGX H100重量:118 kg(3倍于CPU服务器)                   ║
║  液冷预留管路:Phase 1建设时必须预留                               ║
║  CDU冷媒进水温度:25°C(高温进水,COP极高)                        ║
║  InfiniBand HDR带宽:200Gbps(智算计算网络)                      ║
║  BMC管理:Redfish API,独立1GbE管理网                             ║
║                                                                  ║
║  【记忆口诀】                                                     ║
║  "四流":人要授权,物要路线,气要隔离,电要双路                    ║
║  荷载换算:重量(kg) ÷ 100 = 荷载(kN)                             ║
║  节能重点:制冷第一(73%),供电第二(27%)                         ║
║  智算三特殊:超高密、液冷、InfiniBand                              ║
╚══════════════════════════════════════════════════════════════════╝

8. Day 23 2σ 诊断问题

Q1(记忆层)

  1. GPU服务器(单台DGX H100)的功耗是 ______W,重量约 ______kg。
  2. 传统6kW机柜放CPU服务器约20台,若换成10kW/台的GPU服务器,同样机柜最多放 ______台。
  3. 智算中心四张网络的名称:
  4. InfiniBand HDR的单端口带宽为 ______Gbps。
  5. 冷板液冷冷媒进水温度设计为 ______°C。

答案

  1. 10,200W(约10kW),118 kg
  2. 6,000W / 10,000W/台 = 0.6,取0台(一台都放不满,因为1台就超过6kW额定)→ 实际应调整为30kW柜,放3台
  3. 计算网络(InfiniBand/RoCE)、存储网络、管理网络(带外BMC)、业务网络
  4. 200 Gbps
  5. 25°C

Q2(理解层)

  1. AI训练作业与传统云计算工作负载在"故障容忍度"上有什么根本差异?这对数据中心基础设施设计产生了什么影响? 参考答案:传统云计算:单节点故障影响范围有限(少数用户,其他节点继续服务);AI训练:整个分布式训练任务用到的所有GPU节点需要全部正常,任一节点故障导致整个作业暂停/重启,损失可能是数小时的计算结果。影响:数据中心各系统(供电/制冷/网络)的冗余等级需要更高,响应时间需要更短(秒级vs分钟级),需要更精细的预测性维护,服务器需要实时检查点机制。

  2. 为什么高密度GPU区域(60kW/柜)不能简单地"开更多空调"解决,而必须引入液冷? 参考答案:空气冷却的物理极限:空气比热容低(1 kJ/kg·°C,水的约1/4000),相同质量的空气能带走的热量远少于水。对于60kW的机柜,需要的冷风量会导致机柜内风速极高(>10 m/s),产生噪声且影响服务器可靠性;同时风阻增大需要更大风机功率。液冷直接接触热源,换热效率高10-100倍,是唯一经济可行的方案。

  3. InfiniBand "肥树拓扑"为什么比传统树形拓扑更适合AI训练? 参考答案:传统树形拓扑(SPINE-LEAF):越往上层,带宽越窄(收敛),边缘节点带宽远大于核心节点。AI训练的all-reduce通信:每个GPU都需要与其他所有GPU通信(梯度同步),需要任意两节点之间都有满带宽。肥树拓扑:上层交换机端口数=下层汇聚端口数×2(一半上行,一半下行),保证非阻塞,任意节点对之间带宽=单链路带宽,无收敛。

Q3(应用层):综合设计题

题目:你是平谷项目B2楼的弱电设计负责人,业主提出以下要求:

  • Phase 1:部署800台GPU服务器(8×A100,功耗6.4kW/台)
  • 每组16台GPU服务器共享一台InfiniBand TOR交换机(48端口,每台服务器2端口)
  • 未来Phase 3要升级为冷板液冷(当前Phase 1只用空冷)
  • 要求采用DCIM系统实时监控每台服务器的用电情况

请回答以下子问题:

  1. Phase 1机柜数量(每柜2台GPU服务器,双路6.4kW PDU);
  2. 计算TOR交换机数量;
  3. 列出Phase 1建设时必须为Phase 3预留的3项措施;
  4. 计算每栋楼需要多少个PDU插座监控点(每柜2个PDU,每个PDU有12个插座)。

参考答案

  1. 每柜放2台GPU服务器(6.4kW×2=12.8kW/柜,超过6kW标准) → 实际应用:若设计为12.8kW/柜,需要特殊柜供电(三相PDU) → 机柜数 = 800 / 2 = 400柜 → 每柜功率:12.8 kW(双路三相PDU,每路6.4kW)

  2. TOR交换机数量:

    • 每台GPU服务器:2个IB端口(双轨)
    • 每台TOR交换机:48端口(双轨,24对服务器端口+24对上行端口)
    • 每个TOR服务:48/2 = 24端口给服务器(每台服务器用1对)→ 一台TOR对16台GPU服务器(题目要求)
    • GPU服务器800台 / 16台/TOR = 50台TOR交换机
  3. Phase 1预留Phase 3措施: (1) 地板下预留液冷主管道通道(DN100管位,供/回各1根,带盲盖快接支管) (2) 机柜冷通道加宽至1.8m(标准1.4m,液冷服务需要更大操作空间) (3) 每组16台机柜旁预留CDU安装位(600mm×1000mm,防水液盘+地漏+三相电源接口)

  4. PDU插座监控点数:

    • 每柜:2台PDU × 12插座 = 24个监控点/柜
    • 400柜(Phase 1):400 × 24 = 9,600个监控点
    • 全B2楼1520柜(设计全覆盖):1520 × 24 = 36,480个监控点

本章总结

知识点核心数字设计意义
GPU vs CPU功耗密度差约7倍(40 vs 6 kW/柜)液冷必要性的根源
DGX H100功耗/重量10.2 kW / 118 kg单台最重服务器,需专项承重
冷板液冷冷媒温度25°C进水允许极高COP冷水机组
InfiniBand带宽200 Gbps(HDR)肥树拓扑全带宽无阻塞
B2楼BMC管理点1520台服务器,1520个BMCRedfish统一管理基础
AI训练故障容忍零容忍(任一节点故障=全停)倒逼N+1以上冗余
Phase 1预留措施管道/空间/接口决定未来改造成本
全园区年耗电4.60亿度(PUE1.20)年电费约3.2亿元(0.7元/度)

模块5完结 — 从功能分区到承重核算,从PUE测算到智算中心特殊规划,王鸿才已经具备了"解释为什么这样设计"的能力,不只是"知道做了什么"。


模块5 关键知识整合思维导图

模块5:机房规划与空间设计
├── Day 20:功能分区与空间布局
│   ├── 三大域(主机房/支持区/行政区)
│   ├── "四流"规划(人/物/气/电)
│   ├── 通道尺寸(冷1.2m/热1.0m/消防1.5m)
│   ├── 进线间(双路/光铜分离)
│   └── 平谷6栋功能分配(B1核心网/B2 GPU/B3存储...)
│
├── Day 21:承重核算与架空地板
│   ├── A级承重 ≥ 8.0 kN/m²
│   ├── 6kW机柜 ≈ 850 kg
│   ├── 集中荷载→均布等效换算
│   ├── 承重不足:加固or分散布置
│   ├── 架空地板高度 450/600mm
│   └── 开孔率 ≥ 25%,热通道下盲板
│
├── Day 22:PUE测算与能效设计
│   ├── IT功耗 = 9120×6×80% = 43.8 MW
│   ├── 基础PUE = 1.365(制冷占非IT73%)
│   ├── 优化策略4条(冷冻水/封闭/变频/ECO)
│   ├── 北京自然冷却 3500-4000h/年
│   └── 优化目标 PUE ≤ 1.20
│
└── Day 23:智算中心特殊规划
    ├── GPU vs CPU:7倍功耗密度差
    ├── 液冷路径:Phase 1预留→Phase 3改造
    ├── 四张网络(计算/存储/管理/业务)
    ├── InfiniBand肥树拓扑
    ├── 三相高密PDU + 逐插座计量
    └── AI Ops + BMC带外管理

文件版本:v1.0 | 生成日期:2026-02-19 | 适用场景:AI训练数据中心规划设计 参考标准:NVIDIA DGX基础设施指南 / OpenCompute OCP标准 / DMTF Redfish规范 / GB50174-2017