服务运营过程中常见的监控范围包括机房基础设施、硬件设备、基础软件、应用资源等方面,现把运行维护的对象和监控内容列示如下,供参考。
一、机房基础设施监控内容
机房基础设施监控内容运行维护对象监控内容空气调节系统(精密空调系统、新风系统)精密空调系统的环境温度、湿度、出风温度、回风温度、告警情况等新风系统启停情况,进出口温度电气系统(供配电系统、UPS系统、发电机系统、防雷接地系统)供配电系统的电流、电压、功率因数、有功功率、无功功率、谐波等发电机启停情况、电流、电压、负载率、控制系统供电情况等UPS的输入和输出电流电压、频率、负载率、温度和报警情况,电池的充电和放电电压等电源使用效率:通过监控软件监测或计算PUE值防雷接地系统的浪涌保护器、避雷器状态等机房监控与安全防范系统(环境和设备监控系统、视频监控系统和门禁系统)环境和设备监控系统告警情况、运行情况等视频监控系统的告警情况、监控录像等门禁系统的门禁状态、告警情况等消防系统消防系统的消防控制状态、气体灭火钢瓶压力、灭火器有效期检查等 二、硬件设备监控内容
硬件设备监控内容运行维护对象监控内容网络及网络设备网络设备的良好状况、整体运行状态、各项硬件资源开销状况链路良好状况:如端到端时延变化、链路端口工作稳定性、链路负载情况、部署路由策略下端到端选路变化、路由条目变化管理权限用户的行为审计设备软件配置变动审计设备日志审计安全事件审计服务器服务器整体运行情况服务器电源工作情况服务器CPU工作情况服务器内存工作情况服务器硬盘工作情况服务器网络端口工作情况存储设备存储设备控制器工作情况存储设备电源工作情况存储设备数据存储介质工作情况存储设备接口卡工作情况存储设备数据存储介质空间使用情况存储设备读写速率情况存储设备读写命中率情况 三、基础软件监控内容
基础软件监控内容运行维护对象监控内容操作系统CPU使用情况内存使用情况磁盘使用情况网络端口状态和流量光纤端口状态和流量重要文件系统空间使用情况操作系统日志情况数据库主要进程运行情况连接是否正常表空间使用情况日志是否异常日常备份是否正常中间件中间件运行状态主要进程运行状态应用服务运行状态中间件通信网络连接情况中间件日志是否有报错信息 四、应用资源监控内容
应用资源监控内容运行维护对象监控内容应用资源应用的请求和反馈响应时间资源消耗情况进程状态服务或端口响应情况传话内容情况日志和告警信息数据库连接情况存储连接情况作业执行情况