M4-02 动环监控系统架构设计
Day 16 — 从感知采集到平台架构的系统化思维
学习定位:你在工程现场接过温湿度传感器、看过动环主机的告警界面,但从没有系统设计过一套支撑9000+机柜规模的动环监控架构。这节课的核心跨越:从"安装一个传感器"到"设计一套有弹性的分布式监控体系"。
平谷项目锚点:9120个机柜,6栋建筑,A级机房,GB50174要求必须全面监测。动环系统是DCIM的数据基础,设计不好,后续一切都是空谈。
目录
- 动环监控系统定义与三层架构
- GB50174 A级机房必须监测的8大类参数
- 通信协议详解:Modbus / SNMP / BACnet
- 温湿度传感器选型与安装布点
- 漏水检测系统设计
- UPS/PDU监控接入方案
- 告警分级设计与联动策略
- 9120机柜规模的动环系统设计要点
- 与消防/门禁/视频的联动接口
- 本节诊断问题
- 速记卡
1. 动环监控系统定义与三层架构
1.1 动环监控的本质
动环(动力与环境)监控系统是数据中心的"神经系统",负责实时采集、传输、展示和告警所有影响IT设备正常运行的物理环境参数。
"动力"= 供配电设备(UPS、配电柜、PDU、柴油发电机) "环境"= 物理环境(温湿度、漏水、新风、气体浓度)
动环系统不做决策,只做感知和报告。决策和优化是DCIM的职责(M4-04会详细讲)。
1.2 三层架构全景图
┌──────────────────────────────────────────────────────────────┐
│ 平台层(Platform Layer) │
│ ┌────────────────────────────────────────────────────────┐ │
│ │ 动环监控管理平台(Web B/S架构) │ │
│ │ ├── 实时监控大屏(GIS/3D可视化) │ │
│ │ ├── 历史数据查询(时序数据库) │ │
│ │ ├── 告警管理(分级/推送/工单) │ │
│ │ ├── 报表统计(日/周/月能耗报告) │ │
│ │ └── 北向接口(对接DCIM/BMS/OSS) │ │
│ └────────────────────────────────────────────────────────┘ │
│ ↑ │
│ 平台层网络(管理VLAN) │
└──────────────────────────────────────────────────────────────┘
┌──────────────────────────────────────────────────────────────┐
│ 传输层(Transport Layer) │
│ ┌─────────┐ ┌─────────┐ ┌─────────┐ ┌─────────┐ │
│ │数据采集 │ │数据采集 │ │数据采集 │ │数据采集 │ │
│ │控制器 │ │控制器 │ │控制器 │ │控制器 │ │
│ │(DAU/RTU)│ │(DAU/RTU)│ │(DAU/RTU)│ │(DAU/RTU)│ │
│ └────┬────┘ └────┬────┘ └────┬────┘ └────┬────┘ │
│ │ │ │ │ │
│ RS-485总线/以太网 RS-485/TCP RS-485/TCP TCP │
└──────────────────────────────────────────────────────────────┘
┌──────────────────────────────────────────────────────────────┐
│ 感知层(Perception Layer) │
│ 温湿度传感器 漏水感应绳 烟感探头 UPS通信口 PDU智能插座 │
│ 精密空调通信 配电柜仪表 视频摄像机 门禁控制器 柴发控制器 │
└──────────────────────────────────────────────────────────────┘
1.3 三层架构各层职责对比
| 层次 | 核心职责 | 关键技术 | 典型设备 |
|---|---|---|---|
| 感知层 | 数据采集 | 传感器、通信接口 | 传感器、仪表、设备通信模块 |
| 传输层 | 数据汇聚+协议转换 | RS-485, TCP/IP, SNMP | DAU、RTU、协议转换器 |
| 平台层 | 存储+展示+告警+联动 | B/S架构、时序DB | 服务器集群、数据库、Web应用 |
DAU(Data Acquisition Unit):数据采集单元,是传输层的核心设备,负责从RS-485总线轮询多个传感器,汇聚后通过TCP/IP上报平台层。
2. GB50174 A级机房必须监测的8大类参数
2.1 规范依据
**GB 50174-2017《数据中心设计规范》**第9章"安全技术"规定,A级数据中心必须对以下8大类参数实施监测,且监测数据必须实时存储,保存时间不少于 3个月(建议1年)。
2.2 八大类参数详解
第1类:温湿度监测
| 监测点位 | 监测参数 | 报警阈值(典型) | 传感器精度要求 |
|---|---|---|---|
| 机柜进风口(冷通道) | 温度、相对湿度 | 温度>27°C,湿度>60%或<40% | ±0.5°C,±3%RH |
| 机柜出风口(热通道) | 温度 | >45°C预警,>55°C告警 | ±1°C |
| 精密空调送回风 | 温度 | 偏差>3°C触发告警 | ±0.5°C |
| 机房环境(顶部) | 温度、湿度 | 参考ASHRAE A1类 | ±1°C,±5%RH |
ASHRAE A1类(智算中心适用):
- 运行温度:15-32°C(进风口)
- 相对湿度:20%-80%(非结露)
- 露点温度:-12°C ~ +17°C
第2类:漏水监测
监测区域:精密空调下方、架空地板下、水冷管道路由区域、雨水可能渗入区域。
第3类:配电监测
| 监测参数 | 说明 | 采集周期 |
|---|---|---|
| 三相电压(V) | A/B/C相线电压和相电压 | 1秒 |
| 三相电流(A) | A/B/C相电流 | 1秒 |
| 功率因数(PF) | 各路功率因数 | 5秒 |
| 有功功率(kW) | 实时功率消耗 | 1秒 |
| 无功功率(kVar) | 无功补偿需求参考 | 5秒 |
| 频率(Hz) | 市电频率偏差 | 1秒 |
| 谐波(THD) | 总谐波畸变率 | 1分钟 |
第4类:UPS监测
UPS监控信息树:
UPS
├── 输入:三相电压/电流/频率,旁路状态
├── 输出:三相电压/电流/频率/负载率
├── 电池:
│ ├── 电池组电压(V)
│ ├── 电池温度(°C)
│ ├── 剩余容量(%)
│ └── 预计放电时间(分钟)
├── 旁路:旁路供电状态
├── 告警:
│ ├── 市电异常
│ ├── 电池低容量(<20%)
│ ├── 电池高温
│ ├── 过载(>100%)
│ └── 故障代码
└── 效率:实时变换效率(%)
第5类:柴油发电机(柴发)监测
| 监测参数 | 触发告警条件 |
|---|---|
| 运行状态(停/运行) | 市电中断后60s未启动 |
| 燃油液位(%) | <30%预警,<15%告警 |
| 冷却水温度(°C) | >90°C告警 |
| 机油压力(kPa) | <200kPa告警 |
| 转速(rpm) | <1450或>1550告警 |
| 输出电压/电流/频率 | 偏差>5%告警 |
| 蓄电池电压(V) | <21V告警(24V系统) |
第6类:精密空调监测
精密空调(CRAC/CRAH)监控点:
├── 运行状态(开/关/故障)
├── 送风温度(°C)
├── 回风温度(°C)
├── 送风湿度(%RH)
├── 压缩机状态(开/关/故障)
├── 风机转速(%)
├── 电加热状态(开/关)
├── 加湿器状态(开/关)
├── 过滤网状态(正常/需更换)
├── 告警:高温/低温/高湿/低湿/压缩机故障/风机故障
└── 能耗:实时功率(kW)
第7类:门禁监测
- 各区域门状态(开/关/异常)
- 进出记录(刷卡记录、时间戳)
- 门开超时告警
- 非授权进入告警
第8类:视频监控
- 摄像机在线状态
- 视频丢失告警
- 存储空间剩余量告警
2.3 监测参数重要性分级
优先级P1(停机级告警,立即响应):
- 配电柜断路器跳闸
- UPS切换到电池供电
- 机柜进风温度>35°C
- 漏水检测触发
- 消防系统动作
优先级P2(预警级,30分钟内响应):
- 机柜进风温度>28°C
- UPS电池容量<30%
- 精密空调故障
- 柴发燃油<30%
优先级P3(提示级,8小时内响应):
- 精密空调过滤网需更换
- UPS效率下降
- 温湿度偏离目标值但未超阈值
3. 通信协议详解:Modbus / SNMP / BACnet
3.1 四大协议对比总览
| 协议 | 全称 | 传输层 | 典型应用设备 | 数据模型 |
|---|---|---|---|---|
| Modbus RTU | — | RS-485串行 | 传感器、仪表、配电柜 | 寄存器 |
| Modbus TCP | — | 以太网TCP/IP | 支持网口的仪表设备 | 寄存器(同RTU) |
| SNMP v2c/v3 | Simple Network Mgmt Protocol | UDP/IP | 网络设备、UPS、PDU | MIB对象树 |
| BACnet | Building Automation & Control Networks | IP/MSTP | 楼控设备、精密空调、冷机 | 对象属性 |
3.2 Modbus RTU 深度解析
Modbus RTU 是动环系统中最常见的底层协议,绝大多数传感器、电表、配电柜仪表都支持。
RS-485物理层特性:
拓扑:总线型(菊花链)
最大节点数:32个(标准)/ 256个(增强型收发器)
最大距离:1200m(波特率9600bps时)
通信方式:半双工(发送/接收不能同时)
线缆:屏蔽双绞线,推荐RVSP 2×0.5mm²
Modbus RTU 帧格式:
[从站地址1B][功能码1B][数据区NB][CRC校验2B]
常用功能码:
03 - 读保持寄存器(最常用,读设备数据)
04 - 读输入寄存器(只读传感器数据)
06 - 写单个寄存器(控制命令)
16 - 写多个寄存器(批量配置)
一条RS-485总线的容量限制:
轮询周期 = Σ(每个设备的轮询时间)
单设备读1个寄存器耗时 ≈ 20ms(9600bps)
单条总线32个设备 = 32 × 20ms = 640ms/轮询周期
这意味着每640ms才能刷新一次所有数据
要实现1秒刷新频率,每条总线设备数 ≤ 50个(波特率19200bps)
平谷项目RS-485总线规划原则:
- 每条总线不超过 32个节点,不超过 200m(机房内短距离)
- 同一类传感器组一条总线(温湿度单独一路,电表单独一路)
- 终端电阻:总线两端各接 120Ω 匹配电阻,防止信号反射
3.3 Modbus TCP vs RTU
Modbus TCP = Modbus RTU 数据 + TCP/IP 封装
Modbus TCP 帧格式:
[MBAP头7B][PDU(功能码+数据)]
MBAP = Modbus Application Protocol Header
包含:事务ID(2B) + 协议ID(2B) + 长度(2B) + 单元ID(1B)
优势:
- 利用现有以太网基础设施
- 不受RS-485距离和节点数限制
- 支持多主站并发访问
劣势:
- 老旧仪表不支持(需要RTU→TCP协议转换器)
- 轮询延迟稍高于RTU(TCP握手开销)
3.4 SNMP 协议详解(UPS/PDU/网络设备)
SNMP(简单网络管理协议)是监控网络设备和IT基础设施的标准协议。
SNMP版本对比:
| 版本 | 安全性 | 认证方式 | 数据中心推荐 |
|---|---|---|---|
| v1 | 无 | 明文community string | 不推荐 |
| v2c | 低 | 明文community string | 过渡使用 |
| v3 | 高 | 用户名+认证密码+加密 | 新建项目必选 |
SNMP工作机制:
主动查询(Polling)模式:
NMS(网络管理系统)
→ GET 请求 → 被管设备
← GET 响应 ← 被管设备(包含MIB对象值)
被动告警(Trap)模式:
被管设备(UPS断电事件)
→ TRAP 主动发送 → NMS
NMS收到告警,触发告警流程
Inform(v2c/v3):带确认的Trap,比Trap可靠
MIB(Management Information Base):每种设备都有自己的MIB文件,定义了可以查询的参数树。
标准MIB-2(通用):
.1.3.6.1.2.1.1 = 系统信息(系统名、位置、联系人)
UPS专用MIB(RFC 1628):
.1.3.6.1.2.1.33 = UPS MIB
.1.3.6.1.2.1.33.1.2 = 电池信息
.1.3.6.1.2.1.33.1.2.2 = 电池状态
.1.3.6.1.2.1.33.1.2.4 = 剩余容量(%)
.1.3.6.1.2.1.33.1.2.3 = 剩余分钟数
Schneider APC UPS私有MIB:
.1.3.6.1.4.1.318 = PowerNet MIB
3.5 BACnet 协议(楼控设备首选)
BACnet(ANSI/ASHRAE 135)是楼宇自控领域的标准协议,精密空调、冷水机组、冷却塔控制器通常使用BACnet。
BACnet对象模型:
每个设备由多个"对象"组成,每个对象有多个"属性"
例:精密空调BACnet对象
设备对象(Device Object)
├── 送风温度传感器对象(Analog Input #1)
│ └── Present_Value = 18.5°C
├── 回风温度传感器对象(Analog Input #2)
│ └── Present_Value = 28.3°C
├── 压缩机状态对象(Binary Input #1)
│ └── Present_Value = ACTIVE(运行中)
└── 风机调速对象(Analog Output #1)
└── Present_Value = 75.0(75%转速)
BACnet/IP vs BACnet MS/TP:
| 类型 | 传输介质 | 适用场景 |
|---|---|---|
| BACnet/IP | 以太网 | 楼层间设备、有网口的设备 |
| BACnet MS/TP | RS-485 | 末端传感器、小型控制器 |
3.6 各设备协议选用指南
设备类型 → 推荐协议
温湿度传感器(普通型) → Modbus RTU(RS-485)
温湿度传感器(带网口) → Modbus TCP / SNMP
电能仪表/电表 → Modbus RTU 或 Modbus TCP
配电柜综合保护装置 → Modbus RTU
UPS(施耐德/维谛/华为) → SNMP v3(首选)/ Modbus TCP(备选)
智能PDU(APC/Raritan) → SNMP v3
精密空调(艾默生/依米康) → BACnet/IP 或 Modbus TCP
冷水机组/冷却塔 → BACnet/IP(楼控集成)
柴油发电机控制器 → Modbus RTU
门禁控制器 → TCP/IP(私有协议为主)
视频摄像机 → ONVIF(标准)/ RTSP(流媒体)
4. 温湿度传感器选型与安装布点
4.1 传感器选型参数
| 参数 | 普通级 | 精密级(推荐A级机房) |
|---|---|---|
| 温度精度 | ±1°C | ±0.3°C |
| 湿度精度 | ±5%RH | ±2%RH |
| 温度量程 | -20~80°C | 0~60°C(机房环境足够) |
| 湿度量程 | 0-100%RH | 10-90%RH |
| 响应时间 | 30s | 10s |
| 通信接口 | RS-485 Modbus | RS-485 + 可选网口 |
| 防护等级 | IP20 | IP54(地板下需防尘) |
品牌参考:维萨拉(Vaisala)精度最高但贵;奥松(AOSONG)/昌辉/汉威性价比高,满足A级机房需求。
4.2 热通道封闭机房的测点布置
平谷项目采用热通道封闭,冷热通道物理分离,传感器布点策略如下:
机柜列(热通道封闭机房)截面示意:
冷通道(开放) 封闭热通道 冷通道(开放)
─────────────── ┌────────────┐ ───────────────
│ │
[机柜前面] │ 热通道 │ [机柜前面]
↑传感器A │ 高温区域 │ ↑传感器C
机柜进风口测温 │ │ 机柜进风口测温
│ ↑传感器B │
│ 机柜出风口 │
└────────────┘
传感器布点密度要求:
| 位置 | 布点原则 | 平谷项目数量估算 |
|---|---|---|
| 冷通道(机柜进风口) | 每列首尾各1个 + 中间每5列1个 | 9120机柜÷20柜/列×2 = ~912个 |
| 热通道内(封闭区) | 每排1-2个,顶部和中部 | ~456个 |
| 机房总体环境 | 每100m²面积1个(顶部) | 按机房面积估算 |
| 精密空调送回风 | 每台空调各1个 | 空调数量×2 |
安装高度规范:
- 机柜进风口测温:安装在机柜U1-U3位置(距地面约1.5m),不要放在地板平面(受地板送风影响)
- 冷通道环境温度:安装在距地面 1.5m 和 2.0m 两个高度
- 热通道温度:安装在封闭热通道顶部20cm以内(热空气上升,顶部最高温)
4.3 传感器接线规范
典型RS-485接线(以4线制为例):
传感器1 → A+(红) B-(黑) GND VCC
传感器2 → A+(红) B-(黑) GND VCC
传感器N → A+(红) B-(黑) GND VCC
| |
总线A+ 总线B-
| |
DAU RS-485端口
注意:
1. 菊花链连接,不能星形分叉
2. 每段总线终端接120Ω终端电阻
3. 线缆屏蔽层单端接地(DAU端)
4. 传感器地址0x01~0xFE不重复(出厂默认多为0x01,需提前配置)
5. 漏水检测系统设计
5.1 数据中心漏水风险来源
漏水风险源分析(平谷项目):
┌─────────────────────────────────────────────────────┐
│ 高风险区域 │
│ ├── 精密空调(含冷凝水盘,蒸发器结露) │
│ ├── 水冷精密空调供回水管路(连接处) │
│ ├── 冷冻水管道穿越机房区域 │
│ └── 建筑屋顶/外墙渗水(架空地板下积水) │
│ │
│ 中风险区域 │
│ ├── 空调冷凝水排水管道 │
│ └── 新风系统表冷器区域 │
└─────────────────────────────────────────────────────┘
5.2 漏水检测系统类型
| 类型 | 工作原理 | 优点 | 缺点 | 适用场景 |
|---|---|---|---|---|
| 缆式感应绳 | 双导体接触水后短路触发 | 连续覆盖,能定位漏点 | 需围绕设备铺设 | 精密空调下方,地板下 |
| 点式传感器 | 电极浸水导通告警 | 安装简单,成本低 | 只能点检测,不能定位 | 单个设备下方 |
| 光纤感水缆 | 光信号在水中衰减 | 精确定位,高可靠 | 价格高 | 重要机房,水冷管路 |
缆式感应绳工作原理:
感应绳(2芯导线绞合)
正常状态:2芯绝缘,电阻无穷大
漏水状态:水作为导体,2芯短路,控制器检测到电阻骤降→告警
定位原理(感应绳系统):
控制器向感应绳注入测量电流
漏点到控制器的距离 = 测量电阻 × 线缆电阻率系数
精度:±1m(高精度系统)
5.3 缆式感应绳布置方案
精密空调区域铺设(平面图):
精密空调(俯视):
┌─────────────────────────────┐
│ │
│ ←─────感应绳围绕铺设──────→ │
│ │
│ [精密空调底部区域] │
│ │
└─────────────────────────────┘
↑
感应绳从空调底部四周围一圈
端头连接到控制器
重要:感应绳必须紧贴地面(或架空地板下地面),不能悬空
架空地板下铺设方案:
地板下分区铺设(建议方案):
┌─────────────────────────────────────┐
│ 机房地板下(每100m²一个区域) │
│ │
│ 精密空调A ← 感应绳A(一圈) │
│ │
│ 精密空调B ← 感应绳B(一圈) │
│ │
│ 地板下通路 ← 感应绳C(沿管道路由) │
└─────────────────────────────────────┘
每根感应绳独立接入控制器一个通道
控制器通过Modbus RTU上报DAU,再到平台
5.4 漏水检测系统设计规范
安装要求:
- 感应绳铺设后不得打结、不得存在积水坑
- 感应绳与设备底部间隙 ≤ 5mm(贴近地面)
- 每根感应绳长度 ≤ 100m(超过需分段,维持测量精度)
- 控制器安装在地板上方,配线架处(不能安装在地板下)
- 感应绳穿越开孔处需加保护套管
6. UPS/PDU监控接入方案
6.1 UPS监控接入路径
UPS监控数据流:
[UPS设备]
│
├─→ SNMP接口(RJ45网口)
│ │
│ 以太网→管理网络→DAU→动环平台
│
└─→ RS-232/RS-485接口(Modbus RTU)
│
串口线→协议转换器→以太网→DAU→动环平台
建议优先使用SNMP接口(直接IP接入,免协议转换)
主流UPS厂商通信接口:
| 厂商 | 通信卡 | 协议 | MIB文件 |
|---|---|---|---|
| 施耐德APC | AP9630/AP9631 | SNMP v1/v2c/v3 | PowerNet.MIB |
| 维谛Vertiv(艾默生) | Web/SNMP Card | SNMP v3 | Liebert.MIB |
| 华为 | UPS5000-A网管卡 | SNMP v3 | Huawei-UPS.MIB |
| 科华 | 网络管理模块 | SNMP v2c/v3 | Kehua.MIB |
| 伊顿 | Network-M2 | SNMP v3 | Eaton.MIB |
6.2 智能PDU监控接入
**智能PDU(Intelligent PDU)**是数据中心机柜级电源管理的核心,与普通配电板的区别:
普通PDU:
插座 + 断路器(无监控功能)
智能PDU(Metered PDU):
├── 总路电流/电压/功率监测
├── 每插座开关控制(Switched PDU)
├── 环境传感器接口(温湿度探头接入)
├── SNMP网管接口
└── 每机柜用电精确统计
超级智能PDU(Switched + Metered):
以上所有功能 + 单插座级别监控和控制
平谷项目PDU部署方案:
每机柜:2台智能PDU(A路/B路电源冗余)
9120机柜 × 2 = 18,240台智能PDU
PDU通信接入:
每台PDU → 独立IP地址 → 管理网络VLAN
SNMP Trap实时告警 → 动环平台
SNMP Get轮询 → 每分钟读取电流/电压数据
注意:18240台PDU全部接入,平台SNMP轮询压力很大!
需要分区域部署DAU做汇聚,不能全部直连平台服务器
6.3 配电柜(低压配电屏)监控接入
接入方式:在配电柜内安装多功能电力仪表(如ACREL ACR220EL),通过Modbus RTU接入DAU。
关键监测点:
低压配电屏监测:
├── 进线回路(市电/柴发切换状态)
├── 每条出线回路(电流、是否跳闸)
├── 母联断路器状态
├── 三相不平衡度(应<15%)
└── 谐波含量(THD)
ATS(自动转换开关)监测:
├── 当前供电源(市电/柴发)
├── 切换状态
├── 切换次数
└── 异常告警
7. 告警分级设计与联动策略
7.1 三级告警定义
GB50174 A级机房和主流行业规范建议采用三级告警体系:
┌─────────────────────────────────────────────────────────┐
│ 第三级:严重(Critical)/ 红色告警 │
│ 定义:可能在短时间内导致设备宕机或数据丢失的紧急状态 │
│ 响应时间:立即响应(7×24小时值班,<15分钟到场) │
│ 通知方式:电话+短信+邮件+现场警报铃声(可选) │
│ 典型示例: │
│ - UPS切换到电池运行 │
│ - 机柜进风温度>35°C │
│ - 漏水检测触发 │
│ - 配电断路器跳闸 │
│ - 消防烟感报警 │
├─────────────────────────────────────────────────────────┤
│ 第二级:警告(Warning)/ 橙色告警 │
│ 定义:偏离正常运行状态,需关注但不立即危及运行 │
│ 响应时间:30分钟内响应 │
│ 通知方式:短信+邮件 │
│ 典型示例: │
│ - 机柜进风温度>28°C(超ASHRAE推荐上限) │
│ - UPS电池容量<30% │
│ - 精密空调故障(另一台空调接管) │
│ - 柴发燃油<30% │
│ - 湿度>65%或<35% │
├─────────────────────────────────────────────────────────┤
│ 第一级:提示(Notice)/ 黄色告警 │
│ 定义:需要关注的状态变化,但当前运行正常 │
│ 响应时间:8小时工作时间内处理 │
│ 通知方式:邮件 │
│ 典型示例: │
│ - 精密空调过滤网需要更换 │
│ - UPS效率低于95% │
│ - 温湿度略超目标值但未达警告阈值 │
│ - 某传感器通信中断(需检查) │
└─────────────────────────────────────────────────────────┘
7.2 告警联动策略设计
**联动(Linkage)**是动环系统的高级功能,当某一告警触发时,自动触发其他系统动作。
核心联动场景:
| 触发事件 | 联动动作 | 联动目标系统 |
|---|---|---|
| 机房温度>35°C | 1.启动备用精密空调 2.降低制冷水温设定 | 精密空调,冷水机组 |
| 消防烟感报警 | 1.关闭新风阀 2.开启应急照明 3.解锁疏散门 | 新风系统,照明,门禁 |
| 消防气体喷放 | 1.紧急停电(精密空调、非关键负载) 2.关闭所有防火阀 | 配电,新风 |
| UPS切换电池 | 1.发送紧急告警 2.通知值班 3.启动柴发倒计时 | 通知系统,柴发 |
| 漏水检测触发 | 1.精密空调停机(就近) 2.发送告警 | 精密空调 |
| 非授权门禁 | 1.摄像机录制 2.发送告警 | 视频,通知系统 |
7.3 告警风暴抑制
在大规模数据中心,一个根因事件可能触发成百上千条告警("告警风暴"),造成运维人员判断困难。
抑制策略:
- 告警关联:UPS断电时,屏蔽所有因断电导致的子告警(如PDU电压告警、设备离线告警)
- 告警收敛:同一类型告警在2分钟内合并为一条,附注触发数量
- 告警抑制时间:设备重启期间(3分钟内)屏蔽通信中断告警
- 维护模式:设置维护窗口,期间相关设备告警不发出通知(只记录)
8. 9120机柜规模的动环系统设计要点
8.1 系统规模估算
监控点位估算(平谷项目):
温湿度传感器:
机柜进风口:9120个(每柜1个)
机柜出风口(热通道):~4560个(每2柜1个)
机房环境:按面积约500个
空调送回风:空调数量×2,假设600台空调=1200个
小计:~15,380个温湿度监测点
漏水检测:
精密空调下方:600条感应绳
架空地板下:按机房分区,约200条
小计:~800个漏水检测通道
PDU监控:
智能PDU:18,240台(9120机柜×2)
每台PDU SNMP接入:18,240个IP设备
UPS/配电:
UPS:假设200台大型UPS
配电柜:假设500面配电屏/仪表
柴发:假设30台柴发
视频:按机房面积约2000个摄像机
门禁:按出入口约500个门
总计监控点:约40,000个
8.2 系统架构规划(分层分区)
大规模动环系统必须分层设计,不能用单台服务器承载所有数据:
平谷动环监控架构(分层):
第一层:前端采集
每栋楼部署若干台DAU(数据采集控制器)
├── B01楼:8台DAU(每台管理约60条RS-485线路/2000个IP设备)
├── B02~B06:各8台DAU
└── 共计:48台DAU(6×8)
第二层:区域汇聚
每栋楼部署1台区域服务器(子中心)
├── 负责本楼所有DAU数据汇聚
├── 本地存储历史数据(短期,7天)
├── 本地告警处理
└── 通过标准接口上报中央平台
第三层:中央平台
部署在园区数据中心管理区
├── 主服务器:接收6栋楼区域服务器数据
├── 数据库服务器:时序数据库(InfluxDB/TimescaleDB)
├── Web应用服务器:B/S展示界面
└── 告警服务器:统一告警处理和推送
8.3 服务器配置建议
| 服务器角色 | CPU | 内存 | 存储 | 数量 |
|---|---|---|---|---|
| DAU(硬件) | 工业级ARMv8 | 2GB | 32GB eMMC | 48台 |
| 区域子中心服务器 | 8核×2 | 64GB | 4TB SSD RAID | 6台 |
| 中央平台应用服务器 | 16核×2 | 128GB | 2TB SSD | 2台(主备) |
| 时序数据库服务器 | 16核×2 | 256GB | 40TB HDD+SSD混合 | 3台(集群) |
| Web展示服务器 | 8核×2 | 32GB | 500GB SSD | 2台(负载均衡) |
8.4 存储容量计算
时序数据库存储计算:
监控点数量:40,000个
采集频率:温湿度1次/分钟,电气量1次/秒,状态量变化触发
平均采集频率(等效):1次/10秒 = 6次/分钟
每个数据点存储大小(压缩后):约16字节
每分钟数据量:40,000点 × 6次 × 16字节 = 3.84MB/分钟
每天数据量:3.84MB × 60 × 24 = 5.53GB/天
每年数据量:5.53GB × 365 = 2TB/年
建议配置:
- 时序数据库原始数据保存1年:2TB
- 按分钟汇总数据保存3年:0.1TB
- 按小时汇总数据保存10年:0.01TB
- 总计:约2.5TB/年,RAID 10后×2 = 5TB
建议配置40TB存储阵列,满足10年+数据保存需求
9. 与消防/门禁/视频的联动接口
9.1 与消防系统的接口
接口方式:硬接线(干触点) + 网络接口(可选)
消防→动环的信号:
消防控制主机
├── 火警信号(干触点输出)→ 动环DAU DI(数字输入)
├── 联动信号(干触点)→ 动环DAU DI
└── RS-485/TCP(部分高级系统)→ 动环平台
动环系统接收消防信号后的处理:
1. 记录事件(时间戳+位置)
2. 发送告警通知
3. 触发联动(关闭精密空调新风、UPS切换等)
4. 推送至视频系统:将消防点位最近摄像机弹出显示
注意:消防系统的控制权不属于动环,动环只做信号接收和数据记录。消防系统有独立的联动控制权。
9.2 与门禁系统的接口
门禁→动环接口:
门禁控制主机(TCP/IP)→ 动环平台(Socket/REST API)
数据内容:
├── 实时刷卡记录(人员ID + 时间 + 门点 + 进/出)
├── 门状态变化(开/关/异常)
└── 告警事件(强制开门/门开超时/非授权)
动环→门禁接口(控制信号):
消防报警 → 动环平台 → 发送开门命令 → 门禁控制器 → 疏散门解锁
9.3 与视频系统的接口
视频→动环接口:
NVR/VMS(视频管理系统)→ 动环平台(SDK/API集成)
动环使用视频数据:
├── 告警联动:动环告警触发时,自动调出该区域视频
└── AI分析结果接入:人员徘徊/入侵检测结果作为告警
动环→视频的联动:
UPS故障告警 → 动环 → 视频系统 → 将UPS机房摄像机画面推送大屏
9.4 系统接口总结(API规范)
动环平台北向接口(向上层系统提供数据):
├── REST API(JSON):实时数据查询
├── MQTT:轻量级消息推送(IoT场景)
├── WebSocket:大屏实时推送
└── 数据库订阅(SQL View):DCIM集成
动环平台南向接口(向下层设备采集数据):
├── Modbus RTU(串口)
├── Modbus TCP(以太网)
├── SNMP v2c/v3(以太网)
├── BACnet/IP(以太网)
└── 私有协议(通过SDK适配)
10. 本节诊断问题
Q1 — 记忆层
Q1.1:动环监控三层架构中,"传输层"的核心设备是什么?它的主要功能是什么?
参考答案:传输层的核心设备是DAU(数据采集单元),也称RTU(远端终端单元)。主要功能:(1)通过RS-485总线轮询感知层的传感器和仪表,收集原始数据;(2)协议转换:将Modbus RTU转换为TCP/IP协议上报平台层;(3)本地存储:短暂缓存数据,防止网络中断时丢失;(4)边缘计算:简单的阈值判断和本地告警。
Q1.2:Modbus RTU协议中,功能码03和04的区别是什么?
参考答案:功能码03用于读"保持寄存器"(Holding Register),这类寄存器的值由设备内部程序维护,可读可写,通常存放配置参数和计算后的结果(如电能仪表的当前功率)。功能码04用于读"输入寄存器"(Input Register),这类寄存器是只读的,通常直接映射到传感器的硬件信号(如温度传感器的ADC采样值)。在实际应用中,很多设备会混用,以具体设备手册的寄存器表为准。
Q1.3:缆式感应绳单端最大铺设长度不超过多少?为什么?
参考答案:不超过 100m。原因是漏水定位的原理是根据感应绳的电阻变化来计算漏点距离,感应绳自身的线缆电阻会随长度增加,导致末端小量水渍引起的电阻变化被"淹没"在背景电阻中,检测灵敏度下降,且定位精度变差。超过100m时应分段接入控制器,保证每段独立、可精确定位。
Q2 — 理解层
Q2.1:在平谷项目中,18,240台智能PDU全部通过SNMP直连动环平台服务器,请分析这个方案的问题并提出改进方案。
参考答案:问题:SNMP轮询是单线程顺序查询,动环平台每轮询一台PDU约需50-100ms,18,240台全部串行查询需要 18,240×100ms = 1,824秒(超过30分钟),远超1分钟的数据刷新要求。同时,18,240个并发SNMP连接会压垮服务器的网络栈和CPU。
改进方案:分层汇聚架构:每48台PDU(机柜列)配一台列头汇聚交换机,DAU通过SNMP并发查询本区域的PDU(48台,耗时<5秒),DAU将汇聚后的数据打包通过REST API上报区域服务器,区域服务器再上报中央平台。整体查询延迟从30分钟降低到<1分钟。
Q3 — 应用层
Q3.1(系统设计题):请为平谷B01楼(1520机柜)设计温湿度监控方案,包括:传感器数量、RS-485总线划分、DAU数量计算,以及告警阈值设置。
参考答案:
【传感器数量】
机柜进风口(冷通道):1520个传感器(每柜1个)
热通道封闭区出风口:760个传感器(每2柜共用1个)
机房环境(顶部):按机房面积,假设4个大机房各100m²,共16个
精密空调送风:假设120台空调,送回风各一个=240个
合计:约2,536个温湿度传感器
【RS-485总线划分】
每条总线最多30个传感器(确保轮询速度<1秒)
2,536÷30 = 85条RS-485总线
【DAU数量计算】
每台DAU支持16条RS-485串口(工业级DAU标准配置)
85条总线÷16端口/台 = 需要6台DAU(实际配8台,留余量)
【告警阈值设置】
冷通道进风温度:
提示:>25°C或<17°C
警告:>28°C或<15°C
严重:>32°C或<10°C
热通道出风温度:
提示:>42°C
警告:>48°C
严重:>55°C
湿度(冷通道):
提示:>60%或<40%
警告:>65%或<35%
严重:>70%(结露风险)或<20%(静电风险)
11. 速记卡
╔══════════════════════════════════════════════════════════╗
║ M4-02 动环监控系统速记卡 ║
╠══════════════════════════════════════════════════════════╣
║ 【三层架构】感知层(采集)→传输层(DAU汇聚)→平台层(展示) ║
║ 【8大类】温湿/漏水/配电/UPS/柴发/精密空调/门禁/视频 ║
║ 【协议选型】传感器=Modbus RTU,UPS/PDU=SNMP v3,空调=BACnet ║
║ 【RS-485限制】≤32节点/总线,≤1200m,终端120Ω匹配电阻 ║
║ 【漏水感应绳】≤100m/段,贴地面,单端接控制器 ║
║ 【三级告警】严重=立即/<15min,警告=30min,提示=8h ║
║ 【数据保存】GB50174要求原始数据≥3个月(建议1年) ║
║ 【STP单端接地】屏蔽线DAU端接地,传感器端浮空 ║
║ 【SNMP v3】新建项目必选v3(加密认证),禁用v1 ║
║ 【存储估算】40,000点×1次/10秒≈5.5GB/天≈2TB/年 ║
╠══════════════════════════════════════════════════════════╣
║ 【口诀】动环三层:感知传平台,协议用对号入座,告警分三色 ║
╚══════════════════════════════════════════════════════════╝
M4-02 完 | 下一节:M4-03 安防与消防系统设计