M5-04 智算中心特殊规划要点

模块5 · Day 23 | 机房规划与空间设计

学习者：王鸿才 | 目标岗位：弱电智能化解决方案架构师（智算中心） 项目锚点：北京平谷智算数据中心（9120个6kW机柜，6栋建筑，其中B2楼为AI训练高密区） 核心命题：传统IDC经验 ≠ 智算中心能力，从6kW/柜到60kW+/柜，每一步都是全新挑战

导言：智算中心颠覆了传统数据中心的哪些假设？

如果你在传统IDC工作了5年，掌握了机柜布局、综合布线、精密空调这些技能，来到智算中心的第一感受可能是：很多东西不管用了。

传统IDC（CPU服务器为主）   智算中心（GPU服务器为主）
─────────────────────────────────────────────────────
功耗密度：4-6 kW/柜          功耗密度：30-100 kW/柜（最高10倍差异）
主要热量：空气冷却即可        主要热量：需要液冷介质直接带走
网络带宽：10G-100G/服务器     网络带宽：200G-800G/服务器（InfiniBand）
网络延迟：微秒级容忍          网络延迟：纳秒级要求（all-reduce通信）
存储需求：通用存储            存储需求：超高带宽（NVMe/全闪），千亿参数模型
运维特点：定期维护            运维特点：AI作业不中断，故障秒级影响
供电方式：单相/三相均可        供电方式：高密三相，定制PDU必需
扩容模式：机柜级扩容          扩容模式：GPU POD级扩容（最小单元512-4096 GPU）

本章的学习目标：

理解AI训练作业的独特特点及其对基础设施的特殊要求
掌握高密度区域（GPU区）的规划方法论
了解智算中心网络规划的特殊性（InfiniBand / RoCE）
掌握液冷技术选型和CDU布置原则
能够编写平谷项目B2楼的完整规划方案

1. 智算中心 vs 传统IDC：核心差异深度解析

1.1 GPU服务器的物理特性

典型GPU服务器规格对比：

CPU服务器（通用计算）         GPU服务器（AI训练）
─────────────────────────────────────────────────────────
DELL R750（典型2U服务器）     NVIDIA DGX H100（典型8-GPU机器）
  CPU：2×Intel Xeon 32核       GPU：8×NVIDIA H100 SXM5 80GB
  内存：384 GB DDR5             CPU：2×Intel Xeon Scalable
  存储：8×SSD NVMe              内存：2 TB DDR5
  功耗：350-600W（可变）         存储：8×NVMe SSD（30 TB）
  重量：22 kg（满配）            功耗：10,200W（最大！）
  尺寸：2U（86.8mm高）           重量：**118 kg**（仅机器本身）
  制冷：标准空气冷却             尺寸：10U（至少444mm）
                                制冷：需要液冷辅助（GPU TDP 700W/颗）

单机柜功耗对比：

传统2U CPU服务器机柜（42U）：
  装机率：20台（6kW满配，300W/台）
  机柜功耗：20 × 300W = 6,000W = **6 kW/柜**

GPU服务器机柜（42U，10U/台）：
  理论装机率：4台（42U / 10U = 4.2 → 取4台）
  机柜功耗：4 × 10,200W = 40,800W = **40.8 kW/柜**（~7倍差异！）

超高密度GPU机柜（定制OCP Open19机型，2U-4U）：
  某些NVIDIA GH200超级芯片配置：
  机柜功耗可达 **100 kW+/柜**（配合液冷）

核心数字：GPU服务器与CPU服务器功耗密度差异达 7-17倍，这是智算中心规划的根本挑战。

1.2 AI训练作业的特点

AI训练作业与传统云计算负载有根本不同：

传统云计算负载特点：
  负荷波动：大（白天高，夜间低；峰谷比可达5:1）
  作业时长：短（HTTP请求毫秒级，VM实例按需开关）
  通信模式：南北向（客户端-服务器）为主
  故障容忍：单节点故障影响少数用户
  功耗曲线：锯齿状，有明显峰谷

AI训练作业特点：
  负荷波动：极小！（训练作业连续满负荷运行，24/7）
  作业时长：极长（GPT-3训练：34天；GPT-4：数月）
  通信模式：东西向（GPU间all-reduce通信）占绝对主导
  故障容忍：任一GPU故障 → 整个训练作业暂停/重启（严重影响！）
  功耗曲线：接近矩形波（持续在最大功耗的90-95%运行）

AI训练作业对基础设施的影响：

特点	对供电的影响	对制冷的影响	对网络的影响
持续高负荷	UPS/PDU不能按平均值选型，必须按峰值	冷却系统需持续满负荷运行，不能降频	网络必须7×24持续提供满带宽
作业时间长	年用电量接近理论最大值	制冷系统磨损大，需更高维护标准	长达数月的连续数据传输
东西向通信	—	—	与传统南北向流量模型完全相反，需用InfiniBand或RoCE
故障零容忍	需N+1甚至2N冗余	制冷故障必须秒级响应	网络收敛时间必须极短

1.3 规划挑战总结

智算中心规划面临的7大挑战：

挑战1：热密度管理（功耗密度10倍于传统）
  → 空气冷却不够用，必须引入液冷

挑战2：供电密度升级（单柜63A三相，普通5A插座不够用）
  → 重新设计PDU和配电系统

挑战3：网络带宽激增（单服务器800Gbps vs 传统10Gbps）
  → 全新布线标准（InfiniBand DAC/AOC/光纤）

挑战4：结构承重（GPU服务器+液冷设备比CPU服务器重3-5倍）
  → 楼板专项加固

挑战5：液冷管道（冷板液冷需要二次冷媒回路）
  → CDU布置，管道走线，防泄漏设计

挑战6：故障快速响应（训练作业无法容忍中断）
  → 智能运维，预测性维护，毫秒级切换

挑战7：模块化扩容（GPU集群以POD为单位部署）
  → 规划时预留POD边界，供电/制冷/网络可按POD扩容

2. 高密度区域（GPU区）规划

2.1 机柜功率密度升级路径

平谷项目B2楼作为AI训练区，需要规划功率密度的升级路径：

功率密度演进路线图（B2楼规划）：

阶段        时间节点    功率密度    冷却方式      架构重点
─────────────────────────────────────────────────────────────
Phase 1    2024-2025   6 kW/柜    精密空调      初始部署，使用标准空冷GPU服务器
Phase 2    2025-2026   30 kW/柜   空冷+列间空调 高密度空气冷却（需热通道封闭）
Phase 3    2026-2027   60 kW/柜   冷板液冷      冷板液冷改造，CDU部署
Phase 4    2027+       100kW+/柜  浸没液冷      下一代Blackwell/后续架构
─────────────────────────────────────────────────────────────

设计原则：Phase 1建设时，必须为Phase 3/4预留！
  □ 地板下液冷管道预留通道（φ100mm管道槽位）
  □ 机柜间距加大（从1.4m扩到1.8m冷通道），为CDU预留空间
  □ 楼板加固至 ≥12 kN/m²（Phase 3液冷设备更重）
  □ CDU用水接口预留（每组16-32台GPU服务器配1台CDU）

2.2 不同功率密度的冷却方式选型

功率密度 vs 冷却方式选择矩阵：

  功率密度      推荐冷却方式        PUE预期    备注
  ─────────────────────────────────────────────────
  ≤6 kW/柜     精密空调（CRAC/CRAH）  1.2-1.4   标准数据中心方案
  6-15 kW/柜   CRAH+冷通道封闭        1.15-1.3  配合高温冷冻水
  15-30 kW/柜  列间空调（In-Row）     1.15-1.25 列间直接吸热风
  30-60 kW/柜  冷板液冷（Direct Liquid Cooling）1.1-1.2 高效导热
  60-100kW/柜  冷板液冷+辅助空冷      1.05-1.15 组合方案
  >100kW/柜    浸没液冷（Immersion）  1.03-1.1  极致能效
  ─────────────────────────────────────────────────

平谷B2楼Phase 3规划（60kW/柜）选择：冷板液冷
理由：
  1. 冷板液冷改造成本低（相比浸没液冷）
  2. 现有GPU服务器（如NVIDIA HGX H100）支持冷板液冷选件
  3. CDU（冷量分配单元）可靠性高，成熟产品
  4. PUE可达1.1-1.15（超过空冷方案的1.25-1.3）

2.3 冷板液冷（Direct Liquid Cooling）技术详解

系统架构：

冷板液冷系统架构（平谷B2楼）：

外部冷却水（来自制冷机房）
        ↓
┌───────────────────┐
│   CDU               │  冷量分配单元（Coolant Distribution Unit）
│   (Coolant Distri-  │  ├── 泵组（主+备）
│    bution Unit)     │  ├── 换热器（冷冻水→冷媒水转换）
│                     │  ├── 定压/补水装置
│                     │  └── 监控传感器（温度/压力/流量）
└─────────┬───────────┘
          │ 冷媒水（25°C供水，35°C回水）
          │ 工质：去离子水（DI Water）或乙二醇水溶液
          ↓
┌─────────────────────────────────────────────────┐
│  GPU服务器机架（16台GPU服务器/组）                 │
│  每台服务器内部：                                  │
│    CPU冷板 ─── 串联冷板回路 ─── GPU冷板×8        │
│    内存冷板（可选）                                │
│    PCIe冷板（可选）                               │
│    剩余散热：风扇（HEX，Heat Exchanger）排走       │
└─────────────────────────────────────────────────┘

冷板液冷关键参数（平谷B2楼设计值）：

参数	数值	说明
冷媒进水温度	25°C	高温进水（提高CDU效率）
冷媒回水温度	35°C	10°C温差，流量经济
CDU制冷量	100 kW/台	覆盖16台GPU服务器（每台6kW）
CDU效率	≥98%	热交换效率（制冷量/送水热量）
液冷覆盖比例	60-70%	液冷带走60-70%热量，风扇带走30-40%
防泄漏等级	IP68	液冷管接头，防止冷媒泄漏

为什么冷媒进水可以是25°C（这么高）？

传统空调冷冻水：7°C（目标将房间降到20°C，需要相当大的温差）

冷板液冷冷媒：25°C
  → 冷媒直接接触GPU芯片（通过铜/铝冷板导热）
  → 芯片温度通常在60-85°C（结温），与25°C冷媒有35-60°C温差
  → 温差足够，不需要更低温度的冷媒
  → 冷冻水供水温度 25°C（CDU换热器内5°C端差）→ 30°C供水即可
  → 对应冷水机组COP极高（接近10.0）
  → 冬天甚至可以完全不开冷水机组（北京室外温度 < 25°C 长达8个月！）

2.4 CDU（冷量分配单元）选址与容量规划

CDU布置原则：

原则1：就近原则
  CDU紧靠服务的GPU机架（最大距离：5-8m，超过此距离管道压降和热损失增大）

原则2：N+1冗余
  每个CDU组配备N+1泵组（主泵故障时备泵自动接管）

原则3：独立区域
  CDU落脚处需独立防水区域（液盘+地漏），防止泄漏扩散

原则4：维修通道
  CDU正面/侧面预留600mm维修空间
  CDU背面（冷却水接口）预留800mm操作空间

平谷B2楼CDU数量估算（Phase 3，60kW/柜）：
  B2楼机柜总数：1520柜（60kW/柜）
  每台CDU能力：100 kW
  需要CDU数量：1520×60 kW / 100 kW = 912台（!太多）

  实际上：并非所有机柜同时100%利用，且60kW是峰值
  按70%负载率：1520×60×70% / 100 = 638台
  加N+1冗余：638 × (n+1)/n（每4台为一组，1备）= 638 × 1.25 = **798台CDU**

  注：这是Phase 3的规模，Phase 1（6kW/柜）时不需要CDU，Phase 2（30kW）时约400台

2.5 液冷预留管路设计（Phase 1就要做好）

这是最容易被忽视的规划要点：Phase 1建设时必须为液冷预留管路。

液冷预留管路清单（B2楼建设期预留）：

1. 地板下液冷主管道（DN100，不锈钢/PPR）
   路径：从制冷机房（冷源）→ 地板下管廊 → B2楼各排机柜
   预留：供水管+回水管，各1根，带保温
   连接方式：预留带盲盖的快接支管，间距1.5m（对应每组机架位置）

2. 机柜行内液冷分支管路
   路径：主管道 → 每组16台GPU服务器
   管径：DN25（每组，供水+回水）
   预留：机柜顶部或底部留有管道入口（Phase 1用盲盖封堵）

3. CDU安装空间预留
   每排机柜一端或中部预留 600mm × 1000mm × 2000mm空间
   地板上做防水处理（液盘，高度50mm）
   预留电源接口（CDU用电：约 3-5 kW/台，三相供电）

4. 冷却水主管道（从制冷机房）
   一期：以冷冻水为主（供空调用）
   预留：液冷专用管道支管，与空调管道并行
   关键：液冷用水比空调冷冻水要求更高（含矿量、PH值、腐蚀性控制）

3. 网络规划：智算中心的"血管"

3.1 网络类型与带宽需求

智算中心有四张独立的网络：

智算中心四网架构：

网络1：计算网络（Compute Network）
  用途：GPU间通信（梯度同步、参数交换）
  技术：InfiniBand HDR（200Gbps）或 HDR100（100Gbps）
        RoCE v2（以太网之上的RDMA）
  特殊要求：纳秒级延迟，零丢包（RoCE需要无损以太网）
  平谷B2楼：InfiniBand HDR（200Gbps），双轨（主+备）

网络2：存储网络（Storage Network）
  用途：访问训练数据集、模型检查点（Checkpoint）
  技术：100GbE（或400GbE）+ NVMe-oF 或 S3 API
  特殊要求：高带宽（TB级模型读取需要数百Gbps持续带宽）
  平谷B2楼：100GbE双链路

网络3：管理网络（Management Network）
  用途：IPMI/BMC带外管理，系统安装，健康监控
  技术：1GbE（带外）
  特殊要求：物理隔离（独立交换机，不与业务网络混用）
  平谷B2楼：1GbE独立管理网

网络4：业务网络（Service Network / Out-of-Band Business）
  用途：用户任务提交、结果下载
  技术：10/25GbE（用户接入层）
  特殊要求：与计算网络隔离（不同物理交换机）
  平谷全园区：25GbE接入，100GbE汇聚

3.2 InfiniBand 布线特殊要求

InfiniBand是智算中心的核心区别于传统IDC的网络技术，布线有特殊要求：

InfiniBand HDR（200Gbps）布线规格：

线缆类型              最大传输距离   成本      典型应用
─────────────────────────────────────────────────────────
被动铜缆（Passive DAC）1m           最低     同机架内连接
主动铜缆（Active DAC）  3m           低       相邻机架
主动光缆（AOC）         100m         中       机柜行内
多模光纤（OM4）         100m（可接头）中高     机柜行间
单模光纤（OS2）         2km+         高       跨机房/跨建筑
─────────────────────────────────────────────────────────

平谷B2楼布线选型原则：
  同机柜内（GPU服务器到IB交换机）：被动铜缆（1m DAC）
  同排机柜到TOR交换机：主动铜缆（3m DAC）
  TOR到叶子交换机（1m-15m）：AOC或OM4多模光纤
  叶子到主干交换机（15m-50m）：OM4多模光纤
  主干到核心（50m+）：单模光纤

InfiniBand 拓扑：肥树（Fat-Tree）

平谷B2楼InfiniBand肥树拓扑（简化示意）：

Level 3（核心层）：   [IB Core 1] [IB Core 2] ... 高端48端口IB交换机
                       /  |  \      /  |  \
Level 2（叶子层）：  [Leaf1][Leaf2][Leaf3][Leaf4]... 48端口IB交换机
                       |      |      |      |
Level 1（服务器）：  [GPU 服务器] [GPU 服务器] ...
                    每台服务器双卡200Gbps（上行+备用）

特点：
  任意两台GPU服务器之间带宽 = 200Gbps
  全双工，无拥塞（非阻塞交换）
  all-reduce通信中，带宽利用率接近 理论最大值

肥树网络规模（平谷B2楼，1520台GPU服务器×2端口/台）：
  需要TOR交换机（48端口）：(1520×2) / 48 = 63台（向上行×2）
  需要Leaf交换机：63台 × 2 / 48 = 约3台（多级）
  具体配置需要专业IB架构设计

3.3 RoCE（RDMA over Converged Ethernet）方案

如果预算有限或标准化要求，可使用RoCE代替InfiniBand：

RoCE vs InfiniBand 对比：

              InfiniBand HDR      RoCE v2（100GbE）
延迟：         约 600ns            约 2-5μs（更高）
带宽：         200Gbps/端口        100Gbps/端口
生态：         NVIDIA NVLink优先   通用以太网生态
无损网络：     原生支持            需要PFC+ECN配置（复杂）
成本：         高（专用IB硬件）    低（普通交换机）
维护难度：     高                  中
平谷B2选择：   **首选InfiniBand**  备选（Phase 1过渡用）

RoCE无损以太网（Lossless Ethernet）要求：

如果使用RoCE，交换机必须配置：

PFC（Priority Flow Control）：基于优先级的流控，防止关键流量被丢弃
ECN（Explicit Congestion Notification）：显式拥塞通知，提前减速防止丢包
DCQCN（DC Quantized Congestion Notification）：拥塞控制算法（微软/NVIDIA研发）

3.4 存储网络规划

AI训练存储需求估算（平谷B2楼）：

训练数据访问带宽需求：
  GPU服务器数量：1520台（按Phase 3，每台10kW）
  每台GPU服务器计算速度：H100 = 3.35 PFLOPS（BF16）
  每秒需要读取训练数据：约 1-10 GB/s/服务器（取决于模型大小）

  极端情况（LLM预训练，数据密集）：
  全B2楼存储带宽需求：1520台 × 5 GB/s = **7.6 TB/s**！

  → 普通NAS根本支撑不了，需要分布式并行文件系统
  → 推荐：GPFS/IBM Spectrum Scale（≥1TB/s聚合带宽）
         Lustre（开源，超算常用）
         DAOS（英特尔，高性能NVMe支持）

网络带宽配置：
  存储服务器：每台 4×100GbE（400Gbps），约60-100台存储服务器
  存储交换机：100GbE / 400GbE spine-leaf
  计算服务器到存储交换机：每台 2×100GbE

平谷B2楼存储网络配置：
  计算节点：2×100GbE（存储专用）
  存储节点：4×100GbE（RAID/RDMA）
  存储总线交换机：400GbE（汇聚层）

3.5 网络带宽总估算（全园区）

平谷全园区9120机柜主干带宽估算：

南北向（外部访问）：
  互联网接入：9120机柜 × 平均 1Gbps/机柜 = 9.12 Tbps
  实际对外出口：考虑5:1收敛，需要约 **2 Tbps** 出口带宽

东西向（园区内部）：
  机柜间通信（B2楼AI训练内部）：接近无阻塞（IB满带宽）
  跨楼通信（B2到B3存储）：100GbE × 1520服务器 × 2 ≈ 304 Tbps（B2楼内部East-West）
  楼间互联主干：至少 **100Gbps × 多条**（通过园区核心交换机）

园区核心交换机要求：
  400GbE核心交换机，48端口400GbE = 19.2 Tbps交换容量
  需要多台400GbE核心交换机组成MLAG集群

对外出口：
  运营商BGP多路出口
  总带宽：**≥ 2 Tbps**（考虑5:1收敛比）
  物理接口：10×200Gbps 或 20×100Gbps

4. 供电规划升级

4.1 高密度柜供电：三相 vs 单相

为什么GPU机柜必须用三相供电？

单相供电（普通家用/小功率服务器）：
  单相供电最大功率（230V，32A）：230 × 32 = 7,360W ≈ 7.4 kW
  → 勉强能用于6kW/柜（单台PDU）
  → 但PDU温度高，可靠性差，需要双PDU则需16A/相

三相供电（工业/高密度）：
  三相供电功率（230V × √3 = 400V线电压，63A）：400 × 63 × √3 = 43,600W ≈ 43.6 kW
  → 轻松覆盖30-40kW/柜
  → 三相平衡，每相负载约14.5 kW，线电流63A

平谷B2楼（30kW/柜）供电方案：
  每柜配置：2×三相PDU（A路+B路，分别来自不同UPS输出）
  每个PDU规格：三相，63A主路，下端 12× 32A C19插座
  单柜最大功率：63A × 400V = 25.2 kW（单路）→ 双路 50.4 kW ≥ 30kW ✓
  安全系数：30kW / 50.4kW = 59.5%（满足≤80%负载率要求）

4.2 定制化PDU选型

PDU（Power Distribution Unit）类型对比：

类型        功能             适用场景          价格
─────────────────────────────────────────────────────
基本型PDU   仅分配电源       普通机柜，低成本   低
计量型PDU   整机柜用电计量   一般监控           中
智能PDU     逐插座计量+远程控制  高密度智算中心  高
定制高密PDU 三相+高安培+特殊插座  GPU高密区      极高
─────────────────────────────────────────────────────

平谷B2楼GPU高密区PDU选型：
  品牌：Vertiv / APC / Raritan / Raritan Dominion
  规格：0U（挂墙式）或1U
  输入：三相，380/400V，63A（IEC 60309红色）
  输出：12× C19（32A，用于GPU服务器的C20插头）
        或 6× NEMA L6-30R（北美标准，某些GPU服务器）
  计量：逐插座独立计量（1W精度）
  监控：SNMP/Modbus TCP接口，接入DCIM
  报警：过流报警（>95%额定电流），温度报警
  价格：约 3-5万元/台（高密智能PDU）

每柜配置：2台（A路+B路），合计 6-10万元/柜（PDU成本）
B2楼全部PDU成本：1520柜 × 8万 = **1.22亿元**（PDU单项！）

4.3 智能PDU（Smart PDU）：逐插座计量监控

智能PDU的核心价值：

场景：一个GPU服务器突然过热，需要排查原因

传统PDU：
  只知道机柜总用电量（例如：28kW），无法定位到哪台服务器异常
  需要工程师进入机房逐台检查，费时费力

智能PDU（逐插座计量）：
  实时显示每个插座的电压/电流/功率/功率因数
  发现：第7号插座（第3台GPU服务器A电源）用电从 4.8kW 突降到 2.1kW
  → 立即判断：该服务器A路电源故障，B路在独立承担（负载偏高）
  → 提前预警，避免B路也过载导致服务器完全断电

在智算中心：
  1台GPU服务器出问题 = 整个训练作业中断 = 可能损失数小时的计算结果（检查点前的全部工作丢失）
  逐插座监控的ROI（投资回报）：极高

逐插座计量的数据量：

平谷B2楼智能PDU数据量：
  每柜：2台PDU × 12插座/台 = 24个监控点
  全B2楼：1520柜 × 24 = **36,480个插座监控点**
  采集频率：每30秒采集一次（实时性需求）
  每天数据量：36,480点 × 2880次/天 × 10字节/次 = **1.05 GB/天**

  → 需要DCIM系统支持高并发数据采集
  → 数据库选型：时序数据库（InfluxDB / Prometheus）效率最高

5. 运维规划

5.1 智算中心自动化运维（AI Ops）

传统数据中心的"人工巡检+人工处理"模式在智算中心已经不可持续：

为什么传统运维模式失效？

问题1：规模问题
  9120台机柜 × 每柜约20台服务器 = 183,000台服务器
  人工巡检：每台检查5分钟 = 15,250人时/次 → 一个月才能巡完一遍
  → 故障发现时间：平均15天（已经不可接受）

问题2：速度问题
  GPU训练作业不容忍慢速响应
  服务器过热：如果30分钟内没有处理 → GPU永久损坏（结温超过95°C）
  网络抖动：如果5分钟没有处理 → 训练作业MPI集合通信超时，作业崩溃

问题3：复杂度问题
  GPU服务器故障模式复杂：GPU显存错误、PCIe降速、NVLink断链...
  传统运维人员没有这些经验

→ 必须引入 AI Ops（人工智能运维）

AI Ops 核心功能模块：

智算中心 AI Ops 平台架构：

┌──────────────────────────────────────────────────────┐
│                 AI Ops 平台（统一运维平台）              │
├──────────────┬──────────────┬──────────────────────── │
│  数据采集层   │  分析决策层   │  执行处置层              │
│              │              │                          │
│  DCIM传感器  │  故障预测     │  自动工单                │
│  服务器BMC   │  根因分析     │  自动重启/迁移            │
│  网络监控    │  容量规划     │  通知运维人员             │
│  视频监控    │  能耗优化     │  备件申请                 │
└──────────────┴──────────────┴──────────────────────── │
         ↑ 采集             ↓ 执行
    所有基础设施传感器    所有自动化执行接口
    （温度/电流/流量/     （BMC/IPMI/SNMP/
     视频/门禁/...）       Redfish API/...）

5.2 故障预测与预防性维护

GPU服务器常见故障预测模型：

典型预测性维护场景（平谷B2楼）：

场景1：GPU显存温度预警
  监控指标：GPU显存温度（每5秒采集）
  正常范围：≤85°C
  预警规则：连续10分钟 > 80°C → 发出预警
  预测逻辑：温度上升斜率 > 2°C/min → 预计30分钟内达到告警值
  处置：自动降低GPU时钟频率（限速），通知运维降低房间温度

场景2：冷板液冷流量异常
  监控指标：CDU出口流量（L/min）
  正常范围：单台GPU服务器：2-3 L/min
  预警规则：流量下降 > 20% 持续5分钟
  预测逻辑：流量缓慢下降趋势（可能是管道堵塞）
  处置：隔离该服务器的液冷回路，切换备用路径，派遣维修

场景3：UPS电池容量衰退
  监控指标：电池充电/放电曲线（每次测试后记录）
  正常范围：电池容量 ≥ 80% 额定容量
  预测逻辑：基于历史数据拟合电池老化曲线，预测剩余使用寿命
  处置：提前6个月申请备件，安排计划性更换（不影响在线业务）

5.3 带外管理网络（BMC/IPMI）

带外管理（Out-of-Band Management） 是智算中心运维的基础设施：

带外管理原理：
  在服务器主机操作系统之外，通过独立的管理控制器（BMC/iDRAC/iLO）
  远程访问服务器，即使操作系统挂死也能管理

BMC（Baseboard Management Controller）：
  独立的嵌入式芯片（ARM架构），独立供电（待机电源）
  提供：
  ├── 远程控制台（视频输出，键盘/鼠标模拟）
  ├── 电源控制（远程开机/关机/重启）
  ├── 传感器数据（温度/电流/风扇转速/CPU使用率）
  ├── 事件日志（硬件故障历史）
  └── 固件刷新（远程更新BIOS/固件）

IPMI（Intelligent Platform Management Interface）：标准协议
Redfish：新一代RESTful API（DMTF标准，越来越多厂商支持）

平谷B2楼BMC网络规划：
  每台GPU服务器：1×1GbE BMC接口（独立）
  1520台服务器：1520个BMC接口
  汇聚到独立的1GbE管理交换机（与业务网络物理隔离）
  BMC网段：192.168.100.0/16（独立地址空间）
  DCIM平台通过Redfish API批量管理所有BMC

6. 平谷项目综合规划方案完整版（一页纸总结）

╔══════════════════════════════════════════════════════════════════════╗
║                 北京平谷智算数据中心 综合规划方案摘要                  ║
╠══════════════════════════════════════════════════════════════════════╣
║  基本参数                                                             ║
║  ─────────────────────────────────────────────────────────────────   ║
║  总机柜：9120个（6栋×1520柜）  额定功率：6kW/柜（Phase 1）           ║
║  总IT功耗：43.8 MW（80%利用率）  目标PUE：≤1.20（优化后）             ║
╠══════════════════════════════════════════════════════════════════════╣
║  建筑功能分配                                                          ║
║  B1：核心网络+通用计算，B2：AI训练（GPU高密，30kW→100kW升级路径）      ║
║  B3：AI推理+全闪存储，B4：通用计算（弹性），B5：容灾，B6：运维+测试   ║
╠══════════════════════════════════════════════════════════════════════╣
║  空间布局                                                              ║
║  冷通道：1.4m（B2：1.8m），热通道：1.2m，主消防：2.0m                ║
║  架空地板：450mm（标准）/ 600mm（B2高密），开孔率25-40%               ║
║  净高：≥3.0m（地板面到天花板）                                         ║
╠══════════════════════════════════════════════════════════════════════╣
║  承重                                                                  ║
║  标准机房：≥8.0 kN/m²（GB50174 A级）                                  ║
║  B2高密区：≥12 kN/m²（专项加固）                                      ║
║  UPS/电池室：≥10-16 kN/m²                                             ║
╠══════════════════════════════════════════════════════════════════════╣
║  制冷方案                                                              ║
║  标准区（B1/B3-B6）：冷水机组+CRAH+冷热通道封闭                        ║
║    冷冻水：12°C供/18°C回，COP≥5.0，自然冷却3600h/年                   ║
║  B2高密区（Phase 3）：冷板液冷，25°C冷媒，CDU（100kW/台），            ║
║    液冷覆盖65%，辅助空冷35%                                            ║
╠══════════════════════════════════════════════════════════════════════╣
║  网络                                                                  ║
║  B2计算网络：InfiniBand HDR 200Gbps，肥树拓扑，全双工无阻塞           ║
║  存储网络：100GbE，分布式文件系统（GPFS/Lustre），带宽7.6TB/s（B2）   ║
║  管理网络：1GbE独立带外网（BMC/IPMI/Redfish），192.168.x.x             ║
║  对外出口：≥2 Tbps BGP多路（电信+联通+移动）                          ║
╠══════════════════════════════════════════════════════════════════════╣
║  供电                                                                  ║
║  等级：GB50174 A级（2N冗余）                                           ║
║  市电：双路10kV（来自不同变电站，不同方向引入）                         ║
║  UPS：模块化在线双变换，部分柜ECO模式                                   ║
║  PDU（标准区）：智能PDU，逐插座计量                                     ║
║  PDU（B2高密）：三相63A定制PDU，双路（A+B），逐插座计量                ║
╠══════════════════════════════════════════════════════════════════════╣
║  PUE目标与优化策略                                                      ║
║  基础PUE（无优化）：~1.365                                              ║
║  优化策略：①12°C高温冷冻水(-0.086) ②热通道封闭(-0.091)               ║
║           ③变频控制(-0.016) ④ECO模式(-0.024)                         ║
║  目标PUE：≤1.20  满足工信部要求（≤1.3），达到绿色数据中心四星           ║
╠══════════════════════════════════════════════════════════════════════╣
║  运维                                                                  ║
║  DCIM：全覆盖（100%），支持36,480+个逐插座监控点                        ║
║  AI Ops：故障预测、自动处置、容量规划                                   ║
║  带外管理：Redfish API统一管理所有BMC                                   ║
║  SLA：关键AI训练区 RTO < 5分钟，RPO = 0（实时检查点）                  ║
╠══════════════════════════════════════════════════════════════════════╣
║  年耗电与碳排                                                           ║
║  年总耗电：4.60亿度  年碳排：21.4万吨CO₂（含20%绿电后）                ║
║  节能对比（vs PUE=1.5）：每年多节约 1.15亿度，节约电费 8050万元        ║
╚══════════════════════════════════════════════════════════════════════╝

7. 模块5综合速记总表

╔══════════════════════════════════════════════════════════════════╗
║              模块5 全部核心数字速记总表（Day 20-23）              ║
╠══════════════════════════════════════════════════════════════════╣
║                                                                  ║
║  【GB50174规范数字】                                              ║
║  A级承重 ≥ 8.0 kN/m² | 冷通道 ≥ 1.2m | 热通道 ≥ 1.0m          ║
║  消防通道 ≥ 1.5m | 净高 ≥ 3.0m | 温度 18-27°C                  ║
║  进线双路（2个方向）| 开孔率 ≥ 25%                               ║
║                                                                  ║
║  【机柜相关数字】                                                 ║
║  6kW机柜重量 ≈ 850 kg（含余量）                                  ║
║  机柜正下方等效均布：≈ 14 kN/m²（需结构验算，非规范对比值）        ║
║  42U标准柜：600W × 1000D × 2000H mm                             ║
║  柜脚：4个，100×100mm/脚                                          ║
║                                                                  ║
║  【架空地板】                                                     ║
║  高度：300/450/600mm → 标准选450，高密选600                       ║
║  承重：重型 ≥ 15 kN/m²，超重型 ≥ 20 kN/m²                       ║
║  热通道下方：盲板，不开孔                                          ║
║                                                                  ║
║  【PUE相关】                                                      ║
║  PUE = 总用电/IT用电 = 1 + 非IT/IT                               ║
║  平谷IT功耗：9120×6×80% = 43,776 kW = 43.8 MW                  ║
║  基础PUE：1.365 → 优化目标：≤1.20                                ║
║  制冷占非IT能耗：73%（最大单项，优化重点）                          ║
║  冷冻水7°C→12°C：冷机节能 30%                                   ║
║  自然冷却：北京 3500-4000h/年（约40%时间）                        ║
║  工信部要求：PUE ≤ 1.3 | 绿色四星：PUE ≤ 1.25                   ║
║                                                                  ║
║  【智算中心特殊参数】                                              ║
║  GPU服务器功耗：CPU 6kW/柜 vs GPU 40kW+/柜（约7倍差异）           ║
║  NVIDIA DGX H100重量：118 kg（3倍于CPU服务器）                   ║
║  液冷预留管路：Phase 1建设时必须预留                               ║
║  CDU冷媒进水温度：25°C（高温进水，COP极高）                        ║
║  InfiniBand HDR带宽：200Gbps（智算计算网络）                      ║
║  BMC管理：Redfish API，独立1GbE管理网                             ║
║                                                                  ║
║  【记忆口诀】                                                     ║
║  "四流"：人要授权，物要路线，气要隔离，电要双路                    ║
║  荷载换算：重量(kg) ÷ 100 = 荷载(kN)                             ║
║  节能重点：制冷第一（73%），供电第二（27%）                         ║
║  智算三特殊：超高密、液冷、InfiniBand                              ║
╚══════════════════════════════════════════════════════════════════╝

8. Day 23 2σ 诊断问题

Q1（记忆层）

GPU服务器（单台DGX H100）的功耗是 ______W，重量约 ______kg。
传统6kW机柜放CPU服务器约20台，若换成10kW/台的GPU服务器，同样机柜最多放 ______台。
智算中心四张网络的名称：、、、。
InfiniBand HDR的单端口带宽为 ______Gbps。
冷板液冷冷媒进水温度设计为 ______°C。

答案：

10,200W（约10kW），118 kg
6,000W / 10,000W/台 = 0.6，取0台（一台都放不满，因为1台就超过6kW额定）→ 实际应调整为30kW柜，放3台
计算网络（InfiniBand/RoCE）、存储网络、管理网络（带外BMC）、业务网络
200 Gbps
25°C

Q2（理解层）

AI训练作业与传统云计算工作负载在"故障容忍度"上有什么根本差异？这对数据中心基础设施设计产生了什么影响？参考答案：传统云计算：单节点故障影响范围有限（少数用户，其他节点继续服务）；AI训练：整个分布式训练任务用到的所有GPU节点需要全部正常，任一节点故障导致整个作业暂停/重启，损失可能是数小时的计算结果。影响：数据中心各系统（供电/制冷/网络）的冗余等级需要更高，响应时间需要更短（秒级vs分钟级），需要更精细的预测性维护，服务器需要实时检查点机制。
为什么高密度GPU区域（60kW/柜）不能简单地"开更多空调"解决，而必须引入液冷？参考答案：空气冷却的物理极限：空气比热容低（1 kJ/kg·°C，水的约1/4000），相同质量的空气能带走的热量远少于水。对于60kW的机柜，需要的冷风量会导致机柜内风速极高（>10 m/s），产生噪声且影响服务器可靠性；同时风阻增大需要更大风机功率。液冷直接接触热源，换热效率高10-100倍，是唯一经济可行的方案。
InfiniBand "肥树拓扑"为什么比传统树形拓扑更适合AI训练？参考答案：传统树形拓扑（SPINE-LEAF）：越往上层，带宽越窄（收敛），边缘节点带宽远大于核心节点。AI训练的all-reduce通信：每个GPU都需要与其他所有GPU通信（梯度同步），需要任意两节点之间都有满带宽。肥树拓扑：上层交换机端口数=下层汇聚端口数×2（一半上行，一半下行），保证非阻塞，任意节点对之间带宽=单链路带宽，无收敛。

Q3（应用层）：综合设计题

题目：你是平谷项目B2楼的弱电设计负责人，业主提出以下要求：

Phase 1：部署800台GPU服务器（8×A100，功耗6.4kW/台）
每组16台GPU服务器共享一台InfiniBand TOR交换机（48端口，每台服务器2端口）
未来Phase 3要升级为冷板液冷（当前Phase 1只用空冷）
要求采用DCIM系统实时监控每台服务器的用电情况

请回答以下子问题：

Phase 1机柜数量（每柜2台GPU服务器，双路6.4kW PDU）；
计算TOR交换机数量；
列出Phase 1建设时必须为Phase 3预留的3项措施；
计算每栋楼需要多少个PDU插座监控点（每柜2个PDU，每个PDU有12个插座）。

参考答案：

每柜放2台GPU服务器（6.4kW×2=12.8kW/柜，超过6kW标准） → 实际应用：若设计为12.8kW/柜，需要特殊柜供电（三相PDU） → 机柜数 = 800 / 2 = 400柜 → 每柜功率：12.8 kW（双路三相PDU，每路6.4kW）
TOR交换机数量：
- 每台GPU服务器：2个IB端口（双轨）
- 每台TOR交换机：48端口（双轨，24对服务器端口+24对上行端口）
- 每个TOR服务：48/2 = 24端口给服务器（每台服务器用1对）→ 一台TOR对16台GPU服务器（题目要求）
- GPU服务器800台 / 16台/TOR = 50台TOR交换机
Phase 1预留Phase 3措施： (1) 地板下预留液冷主管道通道（DN100管位，供/回各1根，带盲盖快接支管） (2) 机柜冷通道加宽至1.8m（标准1.4m，液冷服务需要更大操作空间） (3) 每组16台机柜旁预留CDU安装位（600mm×1000mm，防水液盘+地漏+三相电源接口）
PDU插座监控点数：
- 每柜：2台PDU × 12插座 = 24个监控点/柜
- 400柜（Phase 1）：400 × 24 = 9,600个监控点
- 全B2楼1520柜（设计全覆盖）：1520 × 24 = 36,480个监控点

本章总结

知识点	核心数字	设计意义
GPU vs CPU功耗密度差	约7倍（40 vs 6 kW/柜）	液冷必要性的根源
DGX H100功耗/重量	10.2 kW / 118 kg	单台最重服务器，需专项承重
冷板液冷冷媒温度	25°C进水	允许极高COP冷水机组
InfiniBand带宽	200 Gbps（HDR）	肥树拓扑全带宽无阻塞
B2楼BMC管理点	1520台服务器，1520个BMC	Redfish统一管理基础
AI训练故障容忍	零容忍（任一节点故障=全停）	倒逼N+1以上冗余
Phase 1预留措施	管道/空间/接口	决定未来改造成本
全园区年耗电	4.60亿度（PUE1.20）	年电费约3.2亿元（0.7元/度）

模块5完结 — 从功能分区到承重核算，从PUE测算到智算中心特殊规划，王鸿才已经具备了"解释为什么这样设计"的能力，不只是"知道做了什么"。

模块5 关键知识整合思维导图

模块5：机房规划与空间设计
├── Day 20：功能分区与空间布局
│   ├── 三大域（主机房/支持区/行政区）
│   ├── "四流"规划（人/物/气/电）
│   ├── 通道尺寸（冷1.2m/热1.0m/消防1.5m）
│   ├── 进线间（双路/光铜分离）
│   └── 平谷6栋功能分配（B1核心网/B2 GPU/B3存储...）
│
├── Day 21：承重核算与架空地板
│   ├── A级承重 ≥ 8.0 kN/m²
│   ├── 6kW机柜 ≈ 850 kg
│   ├── 集中荷载→均布等效换算
│   ├── 承重不足：加固or分散布置
│   ├── 架空地板高度 450/600mm
│   └── 开孔率 ≥ 25%，热通道下盲板
│
├── Day 22：PUE测算与能效设计
│   ├── IT功耗 = 9120×6×80% = 43.8 MW
│   ├── 基础PUE = 1.365（制冷占非IT73%）
│   ├── 优化策略4条（冷冻水/封闭/变频/ECO）
│   ├── 北京自然冷却 3500-4000h/年
│   └── 优化目标 PUE ≤ 1.20
│
└── Day 23：智算中心特殊规划
    ├── GPU vs CPU：7倍功耗密度差
    ├── 液冷路径：Phase 1预留→Phase 3改造
    ├── 四张网络（计算/存储/管理/业务）
    ├── InfiniBand肥树拓扑
    ├── 三相高密PDU + 逐插座计量
    └── AI Ops + BMC带外管理

文件版本：v1.0 | 生成日期：2026-02-19 | 适用场景：AI训练数据中心规划设计 参考标准：NVIDIA DGX基础设施指南 / OpenCompute OCP标准 / DMTF Redfish规范 / GB50174-2017