智算弱电学习系统
课程概览弱电深化M4-02 动环监控系统架构设计

M4-02 动环监控系统架构设计

Day 16 — 从感知采集到平台架构的系统化思维

学习定位:你在工程现场接过温湿度传感器、看过动环主机的告警界面,但从没有系统设计过一套支撑9000+机柜规模的动环监控架构。这节课的核心跨越:从"安装一个传感器"到"设计一套有弹性的分布式监控体系"。

平谷项目锚点:9120个机柜,6栋建筑,A级机房,GB50174要求必须全面监测。动环系统是DCIM的数据基础,设计不好,后续一切都是空谈。


目录

  1. 动环监控系统定义与三层架构
  2. GB50174 A级机房必须监测的8大类参数
  3. 通信协议详解:Modbus / SNMP / BACnet
  4. 温湿度传感器选型与安装布点
  5. 漏水检测系统设计
  6. UPS/PDU监控接入方案
  7. 告警分级设计与联动策略
  8. 9120机柜规模的动环系统设计要点
  9. 与消防/门禁/视频的联动接口
  10. 本节诊断问题
  11. 速记卡

1. 动环监控系统定义与三层架构

1.1 动环监控的本质

动环(动力与环境)监控系统是数据中心的"神经系统",负责实时采集、传输、展示和告警所有影响IT设备正常运行的物理环境参数。

"动力"= 供配电设备(UPS、配电柜、PDU、柴油发电机) "环境"= 物理环境(温湿度、漏水、新风、气体浓度)

动环系统不做决策,只做感知和报告。决策和优化是DCIM的职责(M4-04会详细讲)。

1.2 三层架构全景图

┌──────────────────────────────────────────────────────────────┐
│                        平台层(Platform Layer)                │
│  ┌────────────────────────────────────────────────────────┐  │
│  │  动环监控管理平台(Web B/S架构)                          │  │
│  │  ├── 实时监控大屏(GIS/3D可视化)                        │  │
│  │  ├── 历史数据查询(时序数据库)                           │  │
│  │  ├── 告警管理(分级/推送/工单)                          │  │
│  │  ├── 报表统计(日/周/月能耗报告)                        │  │
│  │  └── 北向接口(对接DCIM/BMS/OSS)                        │  │
│  └────────────────────────────────────────────────────────┘  │
│                           ↑                                    │
│                    平台层网络(管理VLAN)                        │
└──────────────────────────────────────────────────────────────┘

┌──────────────────────────────────────────────────────────────┐
│                        传输层(Transport Layer)               │
│  ┌─────────┐    ┌─────────┐    ┌─────────┐    ┌─────────┐  │
│  │数据采集  │    │数据采集  │    │数据采集  │    │数据采集  │  │
│  │控制器   │    │控制器   │    │控制器   │    │控制器   │  │
│  │(DAU/RTU)│    │(DAU/RTU)│    │(DAU/RTU)│    │(DAU/RTU)│  │
│  └────┬────┘    └────┬────┘    └────┬────┘    └────┬────┘  │
│       │              │              │              │          │
│   RS-485总线/以太网   RS-485/TCP    RS-485/TCP    TCP         │
└──────────────────────────────────────────────────────────────┘

┌──────────────────────────────────────────────────────────────┐
│                        感知层(Perception Layer)              │
│  温湿度传感器  漏水感应绳  烟感探头  UPS通信口  PDU智能插座  │
│  精密空调通信  配电柜仪表  视频摄像机  门禁控制器  柴发控制器  │
└──────────────────────────────────────────────────────────────┘

1.3 三层架构各层职责对比

层次核心职责关键技术典型设备
感知层数据采集传感器、通信接口传感器、仪表、设备通信模块
传输层数据汇聚+协议转换RS-485, TCP/IP, SNMPDAU、RTU、协议转换器
平台层存储+展示+告警+联动B/S架构、时序DB服务器集群、数据库、Web应用

DAU(Data Acquisition Unit):数据采集单元,是传输层的核心设备,负责从RS-485总线轮询多个传感器,汇聚后通过TCP/IP上报平台层。


2. GB50174 A级机房必须监测的8大类参数

2.1 规范依据

**GB 50174-2017《数据中心设计规范》**第9章"安全技术"规定,A级数据中心必须对以下8大类参数实施监测,且监测数据必须实时存储,保存时间不少于 3个月(建议1年)。

2.2 八大类参数详解

第1类:温湿度监测

监测点位监测参数报警阈值(典型)传感器精度要求
机柜进风口(冷通道)温度、相对湿度温度>27°C,湿度>60%或<40%±0.5°C,±3%RH
机柜出风口(热通道)温度>45°C预警,>55°C告警±1°C
精密空调送回风温度偏差>3°C触发告警±0.5°C
机房环境(顶部)温度、湿度参考ASHRAE A1类±1°C,±5%RH

ASHRAE A1类(智算中心适用)

  • 运行温度:15-32°C(进风口)
  • 相对湿度:20%-80%(非结露)
  • 露点温度:-12°C ~ +17°C

第2类:漏水监测

监测区域:精密空调下方、架空地板下、水冷管道路由区域、雨水可能渗入区域。

第3类:配电监测

监测参数说明采集周期
三相电压(V)A/B/C相线电压和相电压1秒
三相电流(A)A/B/C相电流1秒
功率因数(PF)各路功率因数5秒
有功功率(kW)实时功率消耗1秒
无功功率(kVar)无功补偿需求参考5秒
频率(Hz)市电频率偏差1秒
谐波(THD)总谐波畸变率1分钟

第4类:UPS监测

UPS监控信息树:
UPS
├── 输入:三相电压/电流/频率,旁路状态
├── 输出:三相电压/电流/频率/负载率
├── 电池:
│   ├── 电池组电压(V)
│   ├── 电池温度(°C)
│   ├── 剩余容量(%)
│   └── 预计放电时间(分钟)
├── 旁路:旁路供电状态
├── 告警:
│   ├── 市电异常
│   ├── 电池低容量(<20%)
│   ├── 电池高温
│   ├── 过载(>100%)
│   └── 故障代码
└── 效率:实时变换效率(%)

第5类:柴油发电机(柴发)监测

监测参数触发告警条件
运行状态(停/运行)市电中断后60s未启动
燃油液位(%)<30%预警,<15%告警
冷却水温度(°C)>90°C告警
机油压力(kPa)<200kPa告警
转速(rpm)<1450或>1550告警
输出电压/电流/频率偏差>5%告警
蓄电池电压(V)<21V告警(24V系统)

第6类:精密空调监测

精密空调(CRAC/CRAH)监控点:
├── 运行状态(开/关/故障)
├── 送风温度(°C)
├── 回风温度(°C)
├── 送风湿度(%RH)
├── 压缩机状态(开/关/故障)
├── 风机转速(%)
├── 电加热状态(开/关)
├── 加湿器状态(开/关)
├── 过滤网状态(正常/需更换)
├── 告警:高温/低温/高湿/低湿/压缩机故障/风机故障
└── 能耗:实时功率(kW)

第7类:门禁监测

  • 各区域门状态(开/关/异常)
  • 进出记录(刷卡记录、时间戳)
  • 门开超时告警
  • 非授权进入告警

第8类:视频监控

  • 摄像机在线状态
  • 视频丢失告警
  • 存储空间剩余量告警

2.3 监测参数重要性分级

优先级P1(停机级告警,立即响应):
- 配电柜断路器跳闸
- UPS切换到电池供电
- 机柜进风温度>35°C
- 漏水检测触发
- 消防系统动作

优先级P2(预警级,30分钟内响应):
- 机柜进风温度>28°C
- UPS电池容量<30%
- 精密空调故障
- 柴发燃油<30%

优先级P3(提示级,8小时内响应):
- 精密空调过滤网需更换
- UPS效率下降
- 温湿度偏离目标值但未超阈值

3. 通信协议详解:Modbus / SNMP / BACnet

3.1 四大协议对比总览

协议全称传输层典型应用设备数据模型
Modbus RTURS-485串行传感器、仪表、配电柜寄存器
Modbus TCP以太网TCP/IP支持网口的仪表设备寄存器(同RTU)
SNMP v2c/v3Simple Network Mgmt ProtocolUDP/IP网络设备、UPS、PDUMIB对象树
BACnetBuilding Automation & Control NetworksIP/MSTP楼控设备、精密空调、冷机对象属性

3.2 Modbus RTU 深度解析

Modbus RTU 是动环系统中最常见的底层协议,绝大多数传感器、电表、配电柜仪表都支持。

RS-485物理层特性

拓扑:总线型(菊花链)
最大节点数:32个(标准)/ 256个(增强型收发器)
最大距离:1200m(波特率9600bps时)
通信方式:半双工(发送/接收不能同时)
线缆:屏蔽双绞线,推荐RVSP 2×0.5mm²

Modbus RTU 帧格式

[从站地址1B][功能码1B][数据区NB][CRC校验2B]

常用功能码:
03 - 读保持寄存器(最常用,读设备数据)
04 - 读输入寄存器(只读传感器数据)
06 - 写单个寄存器(控制命令)
16 - 写多个寄存器(批量配置)

一条RS-485总线的容量限制

轮询周期 = Σ(每个设备的轮询时间)
单设备读1个寄存器耗时 ≈ 20ms(9600bps)
单条总线32个设备 = 32 × 20ms = 640ms/轮询周期
这意味着每640ms才能刷新一次所有数据

要实现1秒刷新频率,每条总线设备数 ≤ 50个(波特率19200bps)

平谷项目RS-485总线规划原则

  • 每条总线不超过 32个节点,不超过 200m(机房内短距离)
  • 同一类传感器组一条总线(温湿度单独一路,电表单独一路)
  • 终端电阻:总线两端各接 120Ω 匹配电阻,防止信号反射

3.3 Modbus TCP vs RTU

Modbus TCP = Modbus RTU 数据 + TCP/IP 封装

Modbus TCP 帧格式:
[MBAP头7B][PDU(功能码+数据)]
MBAP = Modbus Application Protocol Header
包含:事务ID(2B) + 协议ID(2B) + 长度(2B) + 单元ID(1B)

优势:
- 利用现有以太网基础设施
- 不受RS-485距离和节点数限制
- 支持多主站并发访问

劣势:
- 老旧仪表不支持(需要RTU→TCP协议转换器)
- 轮询延迟稍高于RTU(TCP握手开销)

3.4 SNMP 协议详解(UPS/PDU/网络设备)

SNMP(简单网络管理协议)是监控网络设备和IT基础设施的标准协议。

SNMP版本对比

版本安全性认证方式数据中心推荐
v1明文community string不推荐
v2c明文community string过渡使用
v3用户名+认证密码+加密新建项目必选

SNMP工作机制

主动查询(Polling)模式:
NMS(网络管理系统)
    → GET 请求 → 被管设备
    ← GET 响应 ← 被管设备(包含MIB对象值)

被动告警(Trap)模式:
被管设备(UPS断电事件)
    → TRAP 主动发送 → NMS
    NMS收到告警,触发告警流程

Inform(v2c/v3):带确认的Trap,比Trap可靠

MIB(Management Information Base):每种设备都有自己的MIB文件,定义了可以查询的参数树。

标准MIB-2(通用):
.1.3.6.1.2.1.1 = 系统信息(系统名、位置、联系人)

UPS专用MIB(RFC 1628):
.1.3.6.1.2.1.33 = UPS MIB
    .1.3.6.1.2.1.33.1.2 = 电池信息
        .1.3.6.1.2.1.33.1.2.2 = 电池状态
        .1.3.6.1.2.1.33.1.2.4 = 剩余容量(%)
        .1.3.6.1.2.1.33.1.2.3 = 剩余分钟数

Schneider APC UPS私有MIB:
.1.3.6.1.4.1.318 = PowerNet MIB

3.5 BACnet 协议(楼控设备首选)

BACnet(ANSI/ASHRAE 135)是楼宇自控领域的标准协议,精密空调、冷水机组、冷却塔控制器通常使用BACnet。

BACnet对象模型:
每个设备由多个"对象"组成,每个对象有多个"属性"

例:精密空调BACnet对象
设备对象(Device Object)
├── 送风温度传感器对象(Analog Input #1)
│   └── Present_Value = 18.5°C
├── 回风温度传感器对象(Analog Input #2)
│   └── Present_Value = 28.3°C
├── 压缩机状态对象(Binary Input #1)
│   └── Present_Value = ACTIVE(运行中)
└── 风机调速对象(Analog Output #1)
    └── Present_Value = 75.0(75%转速)

BACnet/IP vs BACnet MS/TP

类型传输介质适用场景
BACnet/IP以太网楼层间设备、有网口的设备
BACnet MS/TPRS-485末端传感器、小型控制器

3.6 各设备协议选用指南

设备类型 → 推荐协议

温湿度传感器(普通型)     → Modbus RTU(RS-485)
温湿度传感器(带网口)     → Modbus TCP / SNMP
电能仪表/电表              → Modbus RTU 或 Modbus TCP
配电柜综合保护装置         → Modbus RTU
UPS(施耐德/维谛/华为)    → SNMP v3(首选)/ Modbus TCP(备选)
智能PDU(APC/Raritan)     → SNMP v3
精密空调(艾默生/依米康)  → BACnet/IP 或 Modbus TCP
冷水机组/冷却塔            → BACnet/IP(楼控集成)
柴油发电机控制器           → Modbus RTU
门禁控制器                 → TCP/IP(私有协议为主)
视频摄像机                 → ONVIF(标准)/ RTSP(流媒体)

4. 温湿度传感器选型与安装布点

4.1 传感器选型参数

参数普通级精密级(推荐A级机房)
温度精度±1°C±0.3°C
湿度精度±5%RH±2%RH
温度量程-20~80°C0~60°C(机房环境足够)
湿度量程0-100%RH10-90%RH
响应时间30s10s
通信接口RS-485 ModbusRS-485 + 可选网口
防护等级IP20IP54(地板下需防尘)

品牌参考:维萨拉(Vaisala)精度最高但贵;奥松(AOSONG)/昌辉/汉威性价比高,满足A级机房需求。

4.2 热通道封闭机房的测点布置

平谷项目采用热通道封闭,冷热通道物理分离,传感器布点策略如下:

机柜列(热通道封闭机房)截面示意:

  冷通道(开放)      封闭热通道       冷通道(开放)
  ───────────────  ┌────────────┐  ───────────────
                   │            │
  [机柜前面]        │  热通道    │   [机柜前面]
  ↑传感器A          │  高温区域  │   ↑传感器C
  机柜进风口测温     │            │   机柜进风口测温
                   │  ↑传感器B  │
                   │  机柜出风口 │
                   └────────────┘

传感器布点密度要求

位置布点原则平谷项目数量估算
冷通道(机柜进风口)每列首尾各1个 + 中间每5列1个9120机柜÷20柜/列×2 = ~912个
热通道内(封闭区)每排1-2个,顶部和中部~456个
机房总体环境每100m²面积1个(顶部)按机房面积估算
精密空调送回风每台空调各1个空调数量×2

安装高度规范

  • 机柜进风口测温:安装在机柜U1-U3位置(距地面约1.5m),不要放在地板平面(受地板送风影响)
  • 冷通道环境温度:安装在距地面 1.5m2.0m 两个高度
  • 热通道温度:安装在封闭热通道顶部20cm以内(热空气上升,顶部最高温)

4.3 传感器接线规范

典型RS-485接线(以4线制为例):

传感器1  →  A+(红) B-(黑) GND VCC
传感器2  →  A+(红) B-(黑) GND VCC
传感器N  →  A+(红) B-(黑) GND VCC
              |        |
          总线A+     总线B-
              |        |
          DAU RS-485端口

注意:
1. 菊花链连接,不能星形分叉
2. 每段总线终端接120Ω终端电阻
3. 线缆屏蔽层单端接地(DAU端)
4. 传感器地址0x01~0xFE不重复(出厂默认多为0x01,需提前配置)

5. 漏水检测系统设计

5.1 数据中心漏水风险来源

漏水风险源分析(平谷项目):
┌─────────────────────────────────────────────────────┐
│ 高风险区域                                            │
│  ├── 精密空调(含冷凝水盘,蒸发器结露)               │
│  ├── 水冷精密空调供回水管路(连接处)                  │
│  ├── 冷冻水管道穿越机房区域                           │
│  └── 建筑屋顶/外墙渗水(架空地板下积水)              │
│                                                      │
│ 中风险区域                                            │
│  ├── 空调冷凝水排水管道                               │
│  └── 新风系统表冷器区域                               │
└─────────────────────────────────────────────────────┘

5.2 漏水检测系统类型

类型工作原理优点缺点适用场景
缆式感应绳双导体接触水后短路触发连续覆盖,能定位漏点需围绕设备铺设精密空调下方,地板下
点式传感器电极浸水导通告警安装简单,成本低只能点检测,不能定位单个设备下方
光纤感水缆光信号在水中衰减精确定位,高可靠价格高重要机房,水冷管路

缆式感应绳工作原理

感应绳(2芯导线绞合)
正常状态:2芯绝缘,电阻无穷大
漏水状态:水作为导体,2芯短路,控制器检测到电阻骤降→告警

定位原理(感应绳系统):
控制器向感应绳注入测量电流
漏点到控制器的距离 = 测量电阻 × 线缆电阻率系数
精度:±1m(高精度系统)

5.3 缆式感应绳布置方案

精密空调区域铺设(平面图)

精密空调(俯视):
┌─────────────────────────────┐
│                             │
│  ←─────感应绳围绕铺设──────→ │
│                             │
│   [精密空调底部区域]          │
│                             │
└─────────────────────────────┘
        ↑
   感应绳从空调底部四周围一圈
   端头连接到控制器

重要:感应绳必须紧贴地面(或架空地板下地面),不能悬空

架空地板下铺设方案

地板下分区铺设(建议方案):
┌─────────────────────────────────────┐
│ 机房地板下(每100m²一个区域)          │
│                                      │
│  精密空调A  ← 感应绳A(一圈)          │
│                                      │
│  精密空调B  ← 感应绳B(一圈)          │
│                                      │
│  地板下通路 ← 感应绳C(沿管道路由)    │
└─────────────────────────────────────┘

每根感应绳独立接入控制器一个通道
控制器通过Modbus RTU上报DAU,再到平台

5.4 漏水检测系统设计规范

安装要求

  1. 感应绳铺设后不得打结、不得存在积水坑
  2. 感应绳与设备底部间隙 ≤ 5mm(贴近地面)
  3. 每根感应绳长度 ≤ 100m(超过需分段,维持测量精度)
  4. 控制器安装在地板上方,配线架处(不能安装在地板下)
  5. 感应绳穿越开孔处需加保护套管

6. UPS/PDU监控接入方案

6.1 UPS监控接入路径

UPS监控数据流:

[UPS设备]
    │
    ├─→ SNMP接口(RJ45网口)
    │         │
    │    以太网→管理网络→DAU→动环平台
    │
    └─→ RS-232/RS-485接口(Modbus RTU)
              │
         串口线→协议转换器→以太网→DAU→动环平台

建议优先使用SNMP接口(直接IP接入,免协议转换)

主流UPS厂商通信接口

厂商通信卡协议MIB文件
施耐德APCAP9630/AP9631SNMP v1/v2c/v3PowerNet.MIB
维谛Vertiv(艾默生)Web/SNMP CardSNMP v3Liebert.MIB
华为UPS5000-A网管卡SNMP v3Huawei-UPS.MIB
科华网络管理模块SNMP v2c/v3Kehua.MIB
伊顿Network-M2SNMP v3Eaton.MIB

6.2 智能PDU监控接入

**智能PDU(Intelligent PDU)**是数据中心机柜级电源管理的核心,与普通配电板的区别:

普通PDU:
插座 + 断路器(无监控功能)

智能PDU(Metered PDU):
├── 总路电流/电压/功率监测
├── 每插座开关控制(Switched PDU)
├── 环境传感器接口(温湿度探头接入)
├── SNMP网管接口
└── 每机柜用电精确统计

超级智能PDU(Switched + Metered):
以上所有功能 + 单插座级别监控和控制

平谷项目PDU部署方案

每机柜:2台智能PDU(A路/B路电源冗余)
9120机柜 × 2 = 18,240台智能PDU

PDU通信接入:
每台PDU → 独立IP地址 → 管理网络VLAN
SNMP Trap实时告警 → 动环平台
SNMP Get轮询 → 每分钟读取电流/电压数据

注意:18240台PDU全部接入,平台SNMP轮询压力很大!
需要分区域部署DAU做汇聚,不能全部直连平台服务器

6.3 配电柜(低压配电屏)监控接入

接入方式:在配电柜内安装多功能电力仪表(如ACREL ACR220EL),通过Modbus RTU接入DAU。

关键监测点

低压配电屏监测:
├── 进线回路(市电/柴发切换状态)
├── 每条出线回路(电流、是否跳闸)
├── 母联断路器状态
├── 三相不平衡度(应<15%)
└── 谐波含量(THD)

ATS(自动转换开关)监测:
├── 当前供电源(市电/柴发)
├── 切换状态
├── 切换次数
└── 异常告警

7. 告警分级设计与联动策略

7.1 三级告警定义

GB50174 A级机房和主流行业规范建议采用三级告警体系:

┌─────────────────────────────────────────────────────────┐
│ 第三级:严重(Critical)/ 红色告警                         │
│  定义:可能在短时间内导致设备宕机或数据丢失的紧急状态       │
│  响应时间:立即响应(7×24小时值班,<15分钟到场)           │
│  通知方式:电话+短信+邮件+现场警报铃声(可选)             │
│  典型示例:                                               │
│   - UPS切换到电池运行                                     │
│   - 机柜进风温度>35°C                                     │
│   - 漏水检测触发                                         │
│   - 配电断路器跳闸                                       │
│   - 消防烟感报警                                         │
├─────────────────────────────────────────────────────────┤
│ 第二级:警告(Warning)/ 橙色告警                          │
│  定义:偏离正常运行状态,需关注但不立即危及运行             │
│  响应时间:30分钟内响应                                    │
│  通知方式:短信+邮件                                      │
│  典型示例:                                               │
│   - 机柜进风温度>28°C(超ASHRAE推荐上限)                  │
│   - UPS电池容量<30%                                       │
│   - 精密空调故障(另一台空调接管)                         │
│   - 柴发燃油<30%                                         │
│   - 湿度>65%或<35%                                       │
├─────────────────────────────────────────────────────────┤
│ 第一级:提示(Notice)/ 黄色告警                           │
│  定义:需要关注的状态变化,但当前运行正常                   │
│  响应时间:8小时工作时间内处理                             │
│  通知方式:邮件                                           │
│  典型示例:                                               │
│   - 精密空调过滤网需要更换                                │
│   - UPS效率低于95%                                       │
│   - 温湿度略超目标值但未达警告阈值                         │
│   - 某传感器通信中断(需检查)                             │
└─────────────────────────────────────────────────────────┘

7.2 告警联动策略设计

**联动(Linkage)**是动环系统的高级功能,当某一告警触发时,自动触发其他系统动作。

核心联动场景

触发事件联动动作联动目标系统
机房温度>35°C1.启动备用精密空调 2.降低制冷水温设定精密空调,冷水机组
消防烟感报警1.关闭新风阀 2.开启应急照明 3.解锁疏散门新风系统,照明,门禁
消防气体喷放1.紧急停电(精密空调、非关键负载) 2.关闭所有防火阀配电,新风
UPS切换电池1.发送紧急告警 2.通知值班 3.启动柴发倒计时通知系统,柴发
漏水检测触发1.精密空调停机(就近) 2.发送告警精密空调
非授权门禁1.摄像机录制 2.发送告警视频,通知系统

7.3 告警风暴抑制

在大规模数据中心,一个根因事件可能触发成百上千条告警("告警风暴"),造成运维人员判断困难。

抑制策略

  1. 告警关联:UPS断电时,屏蔽所有因断电导致的子告警(如PDU电压告警、设备离线告警)
  2. 告警收敛:同一类型告警在2分钟内合并为一条,附注触发数量
  3. 告警抑制时间:设备重启期间(3分钟内)屏蔽通信中断告警
  4. 维护模式:设置维护窗口,期间相关设备告警不发出通知(只记录)

8. 9120机柜规模的动环系统设计要点

8.1 系统规模估算

监控点位估算(平谷项目):

温湿度传感器:
  机柜进风口:9120个(每柜1个)
  机柜出风口(热通道):~4560个(每2柜1个)
  机房环境:按面积约500个
  空调送回风:空调数量×2,假设600台空调=1200个
  小计:~15,380个温湿度监测点

漏水检测:
  精密空调下方:600条感应绳
  架空地板下:按机房分区,约200条
  小计:~800个漏水检测通道

PDU监控:
  智能PDU:18,240台(9120机柜×2)
  每台PDU SNMP接入:18,240个IP设备

UPS/配电:
  UPS:假设200台大型UPS
  配电柜:假设500面配电屏/仪表
  柴发:假设30台柴发

视频:按机房面积约2000个摄像机
门禁:按出入口约500个门

总计监控点:约40,000个

8.2 系统架构规划(分层分区)

大规模动环系统必须分层设计,不能用单台服务器承载所有数据:

平谷动环监控架构(分层):

第一层:前端采集
每栋楼部署若干台DAU(数据采集控制器)
├── B01楼:8台DAU(每台管理约60条RS-485线路/2000个IP设备)
├── B02~B06:各8台DAU
└── 共计:48台DAU(6×8)

第二层:区域汇聚
每栋楼部署1台区域服务器(子中心)
├── 负责本楼所有DAU数据汇聚
├── 本地存储历史数据(短期,7天)
├── 本地告警处理
└── 通过标准接口上报中央平台

第三层:中央平台
部署在园区数据中心管理区
├── 主服务器:接收6栋楼区域服务器数据
├── 数据库服务器:时序数据库(InfluxDB/TimescaleDB)
├── Web应用服务器:B/S展示界面
└── 告警服务器:统一告警处理和推送

8.3 服务器配置建议

服务器角色CPU内存存储数量
DAU(硬件)工业级ARMv82GB32GB eMMC48台
区域子中心服务器8核×264GB4TB SSD RAID6台
中央平台应用服务器16核×2128GB2TB SSD2台(主备)
时序数据库服务器16核×2256GB40TB HDD+SSD混合3台(集群)
Web展示服务器8核×232GB500GB SSD2台(负载均衡)

8.4 存储容量计算

时序数据库存储计算

监控点数量:40,000个
采集频率:温湿度1次/分钟,电气量1次/秒,状态量变化触发
平均采集频率(等效):1次/10秒 = 6次/分钟

每个数据点存储大小(压缩后):约16字节
每分钟数据量:40,000点 × 6次 × 16字节 = 3.84MB/分钟
每天数据量:3.84MB × 60 × 24 = 5.53GB/天
每年数据量:5.53GB × 365 = 2TB/年

建议配置:
- 时序数据库原始数据保存1年:2TB
- 按分钟汇总数据保存3年:0.1TB
- 按小时汇总数据保存10年:0.01TB
- 总计:约2.5TB/年,RAID 10后×2 = 5TB

建议配置40TB存储阵列,满足10年+数据保存需求

9. 与消防/门禁/视频的联动接口

9.1 与消防系统的接口

接口方式:硬接线(干触点) + 网络接口(可选)

消防→动环的信号:
消防控制主机
    ├── 火警信号(干触点输出)→ 动环DAU DI(数字输入)
    ├── 联动信号(干触点)→ 动环DAU DI
    └── RS-485/TCP(部分高级系统)→ 动环平台

动环系统接收消防信号后的处理:
1. 记录事件(时间戳+位置)
2. 发送告警通知
3. 触发联动(关闭精密空调新风、UPS切换等)
4. 推送至视频系统:将消防点位最近摄像机弹出显示

注意:消防系统的控制权不属于动环,动环只做信号接收和数据记录。消防系统有独立的联动控制权。

9.2 与门禁系统的接口

门禁→动环接口:
门禁控制主机(TCP/IP)→ 动环平台(Socket/REST API)

数据内容:
├── 实时刷卡记录(人员ID + 时间 + 门点 + 进/出)
├── 门状态变化(开/关/异常)
└── 告警事件(强制开门/门开超时/非授权)

动环→门禁接口(控制信号):
消防报警 → 动环平台 → 发送开门命令 → 门禁控制器 → 疏散门解锁

9.3 与视频系统的接口

视频→动环接口:
NVR/VMS(视频管理系统)→ 动环平台(SDK/API集成)

动环使用视频数据:
├── 告警联动:动环告警触发时,自动调出该区域视频
└── AI分析结果接入:人员徘徊/入侵检测结果作为告警

动环→视频的联动:
UPS故障告警 → 动环 → 视频系统 → 将UPS机房摄像机画面推送大屏

9.4 系统接口总结(API规范)

动环平台北向接口(向上层系统提供数据):
├── REST API(JSON):实时数据查询
├── MQTT:轻量级消息推送(IoT场景)
├── WebSocket:大屏实时推送
└── 数据库订阅(SQL View):DCIM集成

动环平台南向接口(向下层设备采集数据):
├── Modbus RTU(串口)
├── Modbus TCP(以太网)
├── SNMP v2c/v3(以太网)
├── BACnet/IP(以太网)
└── 私有协议(通过SDK适配)

10. 本节诊断问题

Q1 — 记忆层

Q1.1:动环监控三层架构中,"传输层"的核心设备是什么?它的主要功能是什么?

参考答案:传输层的核心设备是DAU(数据采集单元),也称RTU(远端终端单元)。主要功能:(1)通过RS-485总线轮询感知层的传感器和仪表,收集原始数据;(2)协议转换:将Modbus RTU转换为TCP/IP协议上报平台层;(3)本地存储:短暂缓存数据,防止网络中断时丢失;(4)边缘计算:简单的阈值判断和本地告警。


Q1.2:Modbus RTU协议中,功能码03和04的区别是什么?

参考答案功能码03用于读"保持寄存器"(Holding Register),这类寄存器的值由设备内部程序维护,可读可写,通常存放配置参数和计算后的结果(如电能仪表的当前功率)。功能码04用于读"输入寄存器"(Input Register),这类寄存器是只读的,通常直接映射到传感器的硬件信号(如温度传感器的ADC采样值)。在实际应用中,很多设备会混用,以具体设备手册的寄存器表为准。


Q1.3:缆式感应绳单端最大铺设长度不超过多少?为什么?

参考答案:不超过 100m。原因是漏水定位的原理是根据感应绳的电阻变化来计算漏点距离,感应绳自身的线缆电阻会随长度增加,导致末端小量水渍引起的电阻变化被"淹没"在背景电阻中,检测灵敏度下降,且定位精度变差。超过100m时应分段接入控制器,保证每段独立、可精确定位。


Q2 — 理解层

Q2.1:在平谷项目中,18,240台智能PDU全部通过SNMP直连动环平台服务器,请分析这个方案的问题并提出改进方案。

参考答案问题:SNMP轮询是单线程顺序查询,动环平台每轮询一台PDU约需50-100ms,18,240台全部串行查询需要 18,240×100ms = 1,824秒(超过30分钟),远超1分钟的数据刷新要求。同时,18,240个并发SNMP连接会压垮服务器的网络栈和CPU。

改进方案:分层汇聚架构:每48台PDU(机柜列)配一台列头汇聚交换机,DAU通过SNMP并发查询本区域的PDU(48台,耗时<5秒),DAU将汇聚后的数据打包通过REST API上报区域服务器,区域服务器再上报中央平台。整体查询延迟从30分钟降低到<1分钟。


Q3 — 应用层

Q3.1(系统设计题):请为平谷B01楼(1520机柜)设计温湿度监控方案,包括:传感器数量、RS-485总线划分、DAU数量计算,以及告警阈值设置。

参考答案

【传感器数量】
机柜进风口(冷通道):1520个传感器(每柜1个)
热通道封闭区出风口:760个传感器(每2柜共用1个)
机房环境(顶部):按机房面积,假设4个大机房各100m²,共16个
精密空调送风:假设120台空调,送回风各一个=240个
合计:约2,536个温湿度传感器

【RS-485总线划分】
每条总线最多30个传感器(确保轮询速度<1秒)
2,536÷30 = 85条RS-485总线

【DAU数量计算】
每台DAU支持16条RS-485串口(工业级DAU标准配置)
85条总线÷16端口/台 = 需要6台DAU(实际配8台,留余量)

【告警阈值设置】
冷通道进风温度:
  提示:>25°C或<17°C
  警告:>28°C或<15°C
  严重:>32°C或<10°C
热通道出风温度:
  提示:>42°C
  警告:>48°C
  严重:>55°C
湿度(冷通道):
  提示:>60%或<40%
  警告:>65%或<35%
  严重:>70%(结露风险)或<20%(静电风险)

11. 速记卡

╔══════════════════════════════════════════════════════════╗
║         M4-02 动环监控系统速记卡                           ║
╠══════════════════════════════════════════════════════════╣
║ 【三层架构】感知层(采集)→传输层(DAU汇聚)→平台层(展示) ║
║ 【8大类】温湿/漏水/配电/UPS/柴发/精密空调/门禁/视频         ║
║ 【协议选型】传感器=Modbus RTU,UPS/PDU=SNMP v3,空调=BACnet ║
║ 【RS-485限制】≤32节点/总线,≤1200m,终端120Ω匹配电阻       ║
║ 【漏水感应绳】≤100m/段,贴地面,单端接控制器                ║
║ 【三级告警】严重=立即/<15min,警告=30min,提示=8h           ║
║ 【数据保存】GB50174要求原始数据≥3个月(建议1年)             ║
║ 【STP单端接地】屏蔽线DAU端接地,传感器端浮空               ║
║ 【SNMP v3】新建项目必选v3(加密认证),禁用v1               ║
║ 【存储估算】40,000点×1次/10秒≈5.5GB/天≈2TB/年             ║
╠══════════════════════════════════════════════════════════╣
║ 【口诀】动环三层:感知传平台,协议用对号入座,告警分三色     ║
╚══════════════════════════════════════════════════════════╝

M4-02 完 | 下一节:M4-03 安防与消防系统设计