案例应用解决方案 >AIOps for IT - 鼎茂统一智能告警平台

      鼎茂统一智能告警平台解决方案,旨在帮助企业客户为运维工作提供易操作、快显效、智能化的告警管理提效工具

      该解决方案通过对全域告警事件的统一纳管、综合治理、排障分析与处置流转,一站式解决多源、异构、海量告警所带来的管理难、排查难、跟踪难等告警管理问题,实现运维效能的显著升级。

      目前,该解决方案已应用在金融、电信、政府医疗等行业的大、中型规模的客户与机构中,为企业持续提供重要的运维管理价值。

      本文的客户故事为该解决方案在某外资银行客户中的实践案例,适合同类规模和阶段机构团队借鉴。

 

      案例背景 >

      随着该行核心业务系统升级和各类业务的广泛开展,其业务系统数量规模已达到200多套,软硬件设备近万台,每天产生数万条告警数据。但该行目前针对业务系统的分散运维管理导致了监控数据和告警信息的碎片化;面向问题通知处置的独立运营,也使得问题识别和响应变得困难,同时也增加了故障处理的技术成本和时间成本。为了更好地维护系统的稳定性和可靠性,并切实有效地进行运维管理的降本增效,该行对多系统告警管理提出了更加明确的要求。

 

      01

      需求分析

      01.1 面临的问题

      该行目前面向各系统及核心业务的告警来自:各系统的自监控、拨测、Opmanager网络监控、科来监控、Zabbix、ControlM、依米康、斯特纽、ESB、Moia、分布式存储、日志平台、听云等各种类型的监控工具,数量80+;同时配合ITSM、CMDB、自动化平台等。

      ·告警量大、来源分散、数据不标准

      容易忽略重要告警

      现有的管理模式下,上述的方式每天大约产生的告警数量有几万条,且格式规范均不统一。

      运维人员需要登录到逐个系统进行查看,并凭借过往针对类似告警的处置经验进行选择性处理。这会导致隐藏在海量告警之中的重要告警被运维人员忽略,造成隐患。

      ·缺乏全局视图

      难以进行整体评估和判断

      各业务系统的告警信息和通知方式未打通,缺乏全局化统一的管理视图,难以针对故障进行整体性的评估判断和故障溯源。

      ·缺乏有效关联

      潜在问题难以及时发现

      当某业务系统出现异常时,应用管理员通常是在用户遇到故障并报告后才得知。经过排查,他们发现这一事件在应用早期阶段就有错误日志记录。然而,由于缺乏关联分析和有效的告警方式,导致应用管理员并未意识到这一问题的存在。

      ·通知不智能,管理不闭环

      难以提升管理效率

      在业务系统出现异常时,仅凭个人经验进行处置,并依赖人工创建工单,导致故障处理的用时过长,增加业务受影响的周期。

      多数监控工具缺乏告警恢复功能。新增告警难以确认是否已经恢复,导致反复处理或遗漏处理,增加重大事件的概率。

      01.2 项目建设目标

      鉴于以上的各种挑战,客户希望能够建设可覆盖全域告警管理的统一智能告警平台,并实现以下需求:

      ·数据集成/治理

      整合各业务的自监控,通过标准规范实现面向全域告警数据的规范治理以及统一管理。

      ·告警降噪

      利用机器学习和算法技术进行告警压缩、告警汇聚与智能分析,使系统管理员与维护人员的工作更聚焦于问题与故障的发现与溯源。

      ·统一可视化

      将所有核心业务的各项重要指标与告警,进行有系统、有逻辑的统一展现,实现管理的便利性和高效性。

      ·闭环管理

      增加告警恢复逻辑,形成完整的告警响应机制;并跟踪告警的处理过程,形成完整的告警管理闭环。

 

      02

      解决方案及思路

      02.1 建设思路

      该建设方案基于鼎茂统一智能告警解决方案,根据客户业务规模和监控对象的特点,进行功能优化和部署。以鼎茂科技自研的ARCANA(多模态数据智能分析与决策平台)作为统一数据底座,集成各业务系统监控工具产生的告警。该方案通过ARCANA的ARC-ADP(鼎茂低代码数据开发平台组件)进行数据规范处理后,推送给Di-Alert(鼎茂智能告警中心应用),并在ARC-IOC(鼎茂数智运营中心组件)中实现告警智能分析、处置流转和统一可视化管理等功能,形成统一的智能告警管理平台,并为客户提供统一的管理门户。

      ·全域告警整合和标准化

      建设统一的智能告警管理平台,整合各业务监控系统的告警数据,并针对告警数据进行清洗、去重、转换等统一预处理,实现告警规范的标准化,确保告警数据的准确性和完整性。

      ·数据统一治理

      通过匹配、转换、映射、提取等操作,提升告警信息的可读性和统一分层分级管理。并联动CMDB进行告警信息富化,动态匹配并增加关联业务信息。

      ·智能降噪和收敛

      引入智能算法实现告警数据的自动分析和处理。支持按照多字段组合+时间窗口的方式,将关联告警进行组合压缩;支持快速的、以架构分层形式对告警进行聚类。

      ·统一集中可视化

      建立统一监控大屏,通过ARC-IOC(鼎茂数智运营中心组件)中丰富的图表类型和低代码配置功能,实现自定义仪表盘及可视化能力,将所有核心业务的各项重要指标与告警建立管理逻辑并进行统一展示。

      ·告警管理闭环

      结合银行业务的告警恢复逻辑,建立告警全流程运营和跟踪机制,实现闭环性告警全生命周期管理。

 

      03

      项目成果

      03.1 40+监控工具告警整合/治理

      该项目完成了统一告警管理平台的建设,实现了40+(二期扩容中)监控工具的整合。并通过平台建立的告警标准规范,实现了包括核心系统在内的各类业务系统告警数据的统一规范治理。整体平台建设以智能化运营为目标,提供了在数据管理、分析决策和管理控制方面的综合能力,全面支撑该行数据中心的数字化建设与智能化升级。

      03.2 全流程数据规范治理与集中可视化

      该项目建立了告警数据接入、处理、存储与发送的数据处置规范,提升了告警数据的质量。同时,平台实现了告警与各类自动化平台的联动,可将告警自动推送到ITSM、钉钉和邮件等系统,实现告警与事件处置的流程闭环。

      同时,该项目通过数智运营中心的管理门户和可视化功能,结合ECC面向告警的运维管理逻辑,集中展示告警数据,通过实时监控大屏、报表分析等可视化手段,帮助ECC更直观地了解系统的状态和问题,实现告警的统一处理以及故障的快速排查。

      03.3 双效告警压缩率超过90%

      告警数据接入后即完成初步的告警去重和归类处理,并且在告警整合汇聚后,对已经归类的告警信息进行进一步的压缩处理,实现超过90%的告警压缩率,使管理员与维护人员的注意力更聚焦于提升事件处理效率。

      03.4 业务驱动的告警闭环管理逻辑

      针对金融行业的特点,以业务为驱动,贯穿告警的产生、通知、处理和恢复,建立完整的告警恢复和管理逻辑。确保统一智能告警平台能够真实反映业务系统的状态,为业务系统的正常运行提供及时、准确的监控和恢复手段。

 

      04

      客户收益

      鼎茂科技帮助该客户实现了显著的运维提效和成本节约:

      ·降低40+监控工具的管理难度和改造成本

      通过统一智能告警平台的建设和以及告警机制的完善,实现了40+监控工具告警数据的综合治理和关联分析,节省监控工具的改造费用超200万。

      ·全面提高告警数据质量和和准确性

      实现全域告警内容的规范化处理;联动CMDB精确匹配告警属性信息,整体提高告警数据的质量和准确性。

      ·实现超过90%的告警压缩

      统一去除无效告警并进行智能分析降噪,实现超过90%的告警压缩率。同时支持基于CMDB资产关联信息进行自动聚类,保证重要告警不遗漏。

      ·告警快速触达,提升预警和管理能力

      自动与通知工具(邮件、钉钉)和ITSM进行信息和工单联动,实现快速预警和告警事件的处置跟踪。

      ·全局化业务视角关联分析,提高故障处理效率

      实现基于业务视角的告警全局监视和拓扑分析,快速锁定故障业务,并支持故障协同处理,提高运维处理效率。

      ·获得可对外提供数据服务能力的数据资产库

      实现异构告警数据的统一接入、融合、字段解析。并可输出至指定数据库,形成统一、集中且可对外提供数据服务能力的数据资产库。