1. 找Saas首页
  2. Saas资讯
  3. Saas案例

【优锘科技】助力渤海银行IT智能监控运营化探索

近年来随着技术飞速发展,银行业从信息化到互联网化、数字化的过程中,对IT运维提出了越来越高的要求。数据中心也涌现了各种系统,比如虚拟化、容器化、持续集成等等,运维已经不再单纯只考虑IT可用性问题,而是需要从决策、管理和解决业务问题的角度为企业发展提供支持。渤海银行在数字化转型的同时,运维也在不断地数字化,使决策更加便捷,管理更加高效,解决问题更加精准。为了解决上述运维领域的问题,智能运维系统的相关建设在银行业运维中的呼声越来越高。优锘科技有幸在去年跟渤海银行达成相关合作并进行了相关的探索与实践。

· 从统一事件、统一性能、统一架构的角度对数据中心既有运维系统(综合监控系统、交易性能监控、ATM监控、机房综合监控、安全日志监控系统、批量作业运行监控、IT服务管理平台等)进行有效整合形成运维大数据仓库;

· 基于机器学习算法,自动从海量运维数据(包括事件本身以及运维人员的人工处理日志)中不断地学习,针对不同运维场景提炼出相应策略规则,便于更加及时高效准确的发现和感知到故障;

· 考虑到机器学习还在发展的初级阶段,在日常运维中并不会完全代替运维人员,而会在很长时间内成为运维人员的高效可靠助手,比如机器将逐渐替代人力完成基础性和重复性的基层运维工作,但是对于异常复杂的决策问题,机器只能给出一定的决策建议,并最终交由运维专家做出决策,而这就需要一个易于人们理解和辅助判断的可视化平台,帮助运维人员降低数据消费理解的门槛,缩短MTTR,提升业务连续性,从总体上提升了数据中心IT运维水平,渤海银行的智能可视化运维平台因此就应运而生。

图片1.png

目前优锘科技为渤海银行初步搭建了以运维大数据为基石的智能运维框架,并在运维数据可视化模型、事件智能分析及处置、系统画像、应用及交易监控等应用场景方面彰显成效。下面,我们先对这四个比较具备代表性的场景进行说明:

运维数据模型

随着业务的不断发展,运维环境将会变得日益复杂,想要把运维数据的价值发挥出来,就需要有一套灵活可配的运维数据模型来进行实时匹配相应的场景,优锘科技智能可视化运维平台Tarsier产品可通过图形拖拽的方式,在画布中创建分类及分类间的关系模型,同时可以基于画布上的分类和关系进行属性和CI的编辑,同时可以自动构建关系数据,按照业务逻辑关系最终可以实时生成一张全新的配置模型及模型间约束规则。

图片2.png

优锘科技Tarsier产品可依托于底层数据接口平台对各种运维数据进行数据抽取、数据关联、关系映射、智能处理和展示,形成了企业级的运维工作数据视图,规范数据标准,对运维数据进行统一管控。并与渤海银行顶层规划架构进行有效关联,盘活存量的架构信息资产,帮助IT团队建立其所管理的IT世界的数字地图,更加直观、全面、准确地认知复杂的IT环境,提升IT管理的认知效率。

图片3.png

目前可视化数据模型正在支撑数据汇聚整合、架构管理、全渠道监控、运维可视化等多个需求场景的数据分析工作。

事件智能分析及处置

事件管理流程作为商业银行数据中心安全稳定运行的必备能力,要求故障发生后在最短时间内恢复正常服务,将对业务运营的影响降至最低,保障银行业务的连续性和可用性。智能运维的理想状态就是把运维工作的三大部分:监控、管理和故障定位,优锘科技Tarsier产品为渤海银行缩短故障影响时长,从上报和处理两个环节分别拆分细化,删除冗余操作,固化必要步骤,结合渤海银行通过前期积累沉淀下来的运维大数据,对于简单故障,分别在三方面做了相关尝试:
1、基于告警规则聚合、基于时间与因果关系告警收敛,压缩可达100:1,提高了告警效率和准确性。

图片4.png

2、在收敛事件之后,可以基于配置关系、规则、基于因果关系、基于时间的关联影响分析对发生的事件进行有效分析和判断故障根源。

图片6.png

3、在事件处理环节根据系统的等保级别,按照人工介入的程度可划分为处置建议推送、半自动化处置、自动化处置三个类型。2018年渤海银行共进行自动化处置6000余次,包括收集、检查、处理三大类操作,从而节省大量人力成本。

图片9.png

事件处理完毕后,通过问题工单跟踪整改措施,通过应急预案更新工单完善应急处理手段;事件的定级应根据事件所造成的实际影响进行确定,从应用系统等级、交易量损失占比、事件持续时间、交易时段、客户投诉量、是否影响账务等维度进行综合考量,根据评分确定事件级别,不断优化现有监控系统。

图片10.png

系统场景画像

对于复杂故障,传统监控工具一般很难快速定位到故障根源,优锘科技Tarsier产品理念是通过梳理重点业务系统,分别涉及静态配置数据、动态运行状态、系统架构视图和自动化操作动作四个纬度,并结合日常运维场景,以性能数据、容量数据、状态数据、配置数据等为基础,构建两层画像:

1、拓扑架构形式的静态画像

图片11.png

2、基于运行状态的动态画像

图片12.png

系统画像在应急中可以直观反映问题在节点间传递路径,还可以反映关系链上发生的事件,将关联分析具象化,配合使用系统画像提供的差异分析与一键式健康检查功能可以起到故障快速定位的效果。通过对现有关键系统进行集中管理,形成应用全景墙,具体体现为:

· 应用告警信息查看

图片13.png

· 应用间的关联关系查看,可以实时清晰查看上下游应用间访问关系,便于查看故障范围

图片14.png

· 以三维⽴体方式呈现告警应用的交易路径图、系统部署架构图和网络拓扑图,以帮助用户快速全面了解此应用总体情况

图片15.png

优锘科技通过对渤海银行重点应用系统的全貌以及应用组件对业务的整体影响进行整体管理,便于运维人员在故障发生时及时掌握应用系统的全貌,以及应用组件对业务的整体影响,直接降低一线运维人员故障处理时间。

后续探索方向

虽然渤海银行目前在智能运维方面做了一定的探索,但是要想尽快在智能运维领域有所突破,优锘可以认为首先还是要主抓好监控系统和告警系统,并利用机器学习算法进行快速监控和排障。后续优锘科技将充分利用各类监控数据并应用合适的人工智能技术,就有机会能妥善解决渤海银行IT系统运转中的各类技术风险:

· “复现过去”, 包括准确地复现并诊断历史运维事件,从而对历史上发生过的风险进行系统性的修复和规避;

· “把握当前”,能够及时准确地检测、诊断当前正在发生的运维事件,并确定最适合的应对方案,即使发生了小概率但影响大的“黑天鹅事件”,智能运维系统也能较快的止损和修复;

· “预知未来”,根据历史信息,预测较大概率且影响大的“灰犀牛”风险发生的大致时间,从而提前干预并避免其真正发生。

通过以上建设方向和思路,优锘科技IT智能运维平台(Tarsier)让更多的数据让运维人员看的见,看的清楚。

本文来自牛透社,经授权后发布,本文观点不代表找Saas立场,转载请联系原作者。