1、项目背景
1.1、现有监测系统介绍
目前公司系统运维部部署的监测系统,涵盖了如下方面的监测和告警。
实时监测和告警:
cpu利用率、内存使用率、硬盘空间和i/o情况、系统负载、应用进程数量、idc主机的网络使用情况、数据库进程/实例/监听是否正常;
历史纪录展示:
cpu利用率、内存使用率、硬盘空间和i/o情况、系统负载、应用进程数量、网络流量、服务器端口使用情况、数据库运行情况。
目前的监测系统针对的对象为系统、网络和应用程序,不包含对业务的分析和告警功能。
1.2、现有监测系统的局限性
(1)不能够集中处理信息和告警,部署较为复杂。
现有监测系统被部署在各个服务器上,即每台服务器本身就是一个告警机。告警机需要分析自身的数据,然后和短信网关联系,此外告警机还需要检测临近主机是否存活。告警机之间的关系是平行的,告警信息由每台告警机独立发出。
(2)监测和告警的实现手段不统一。