1. 找Saas首页
  2. Saas资讯
  3. Saas案例

睿象云 与摩拜单车 携手打造智能告警最佳实践

摩拜客户案例.png

AIOps( Artificial Intelligence for IT Operations,以下简称 AIOps )如何落地一直是当下最热门的IT运维管理话题。

指标和告警管理是 AIOps 落地的两个切入点。

看智能出行领域独角兽摩拜单车如何运用智能告警平台( Cloud Alert,以下简称 CA )从万千告警中洞察更多运维难疑。

客户面临问题

摩拜单车,致力于让出行更便捷。自 2015 年 1 月成立以来,用户呈爆发性增长,对运维带来相当大的挑战!

挑战一:监控容易做,告警很难报

Zabbix 和 Prometheus 作为摩拜单车 IT 系统日常运维监控工具,每天至少产生1500条以上的告警。

怎样从成千上万条信息中发现有用的,过滤掉重复的、抖动性的信息,或者从中找出问题根源,从来都不是一件容易的事情。

所以业界流传着“监控容易做,告警很难报”的说法。

挑战二:告警时效性低,送达实际处理人平均需20分钟

在早期的开发运维模式下,摩拜单车告警由各业务线人员进行处理。

告警的处理方式是监控系统产生告警,邮件通知给运维人员,运维人员再手动给各业务线负责人打电话,说明详细情况后安排人员处理。

告警分发和处理人员超过40人,告警信息送达处理人员平均需要20分钟。

睿象解决方案

应对一:智能告警平台 CA 帮助摩拜单车建立起有效的统一告警管理平台

将多个监控系统的告警,汇聚到一个平台中统一进行管理。

同时使用 NLP(Natural Language Processing)、词向量、聚类、信息熵等人工智能算法和技术实现告警的降噪、聚类,将每日告警量减少到 60-100,让业务线更加聚焦于业务!

同时将故障恢复时间从过去的平均4小时缩短到1.5个小时。

应对二:智能告警平台 CA 采用了有序分派的解决方案

首先是统一分派和升级机制,运维人员可根据业务线不同,将告警直接分派给业务线人员,无需人工中转告警,并设置多级升级机制,防止告警长时间无人响应。

然后采用多方式通知,除了邮件和微信通知以外,还采用了短信通知和重要告警短信电话通知的方式,不遗漏任何一条告警信息。

保障告警可达率98%,将告警送达时间缩短到1-2分钟。

本文来自牛透社,经授权后发布,本文观点不代表找Saas立场,转载请联系原作者。