• 移动端
    访问手机端
    官微
    访问官微
    搜索
    取消
    温馨提示:
    敬爱的用户,您的浏览器版本过低,会导致页面浏览异常,建议您升级浏览器版本或更换其他浏览器打开。

    基于大数据的IT智能运维体系研究与实践

    来源:金融电子化 2019-06-17 01:08:44 大数据 智能运维 金融AI
         来源:金融电子化     2019-06-17 01:08:44

    核心提示海南银行基于国内监管要求、对标国际标准,建立了覆盖较为全面的IT运维管理制度体系,并利用银行自身的运维大数据,创新性地综合运用多种智能数据分析方法和技术。

    作者:海南银行 燕鹏飚 陈亚楠 符启杰 许小艳

    编者按

    海南银行在对当前国内银行业IT 智能运维体系建设现状调研后,结合本行实际,构建了自身基于大数据的IT 智能运维体系,本文对其实践过程进行了介绍。

    随着银行业信息化程度的不断深化,银行的业务品种和IT架构日趋复杂,客户对服务体验的要求越来越高,对突发事件的处置时间要求缩短到了分钟级。快速的故障定位能力、处置能力和根因分析能力已成为银行科技部门不可或缺的核心竞争力。在智能化运维探索中,国内中小银行普遍存在人才队伍薄弱、经验积淀不够、经费投入不足等现实问题。如何在有限资源的约束下,做好IT运维管理标准化、自动化和智能化落地,有效提高运维水平和效率,亟待研究解决。

    海南银行充分调研了当前国内银行业IT智能运维体系建设现状,学习并掌握了业界先进成熟的理论和方法,结合本行实际,将ISO 20000、ISO 27001等管理体系要求落地到IT系统,将流式计算、图数据库、机器学习、链路追踪、持续交付等多种新兴技术综合运用到商业银行智能运维管理中,构建了基于大数据的IT智能运维体系(见图1)。

    640.webp

    图1 海南银行 IT 运维服务管理体系

    落实监管要求、对标国际标准,构建安全运维制度体系

    制度是规范运维管理工作的准绳,也是流程建立的基础。为保障运行维护工作的质量和效率,海南银行紧扣国内监管要求、对标国际标准、参考行业实践,完成了IT运维管理制度体系建设,并于2018年底顺利通过ISO 20000和ISO 27001认证。

    一是以服务对象为视角,梳理服务目录,明确服务内容。梳理业务服务19项、技术服务25项,服务内容覆盖终端服务、业务应用服务、系统开发服务、测试服务、网络服务、备份服务、日志服务、安全服务等。

    二是以服务过程为抓手,通过建立配置管理、变更与发布管理、事件管理、问题管理等制度,明确运维服务控制与解决的工作流程。

    三是以服务质量为目标,通过容量管理、连续性与可用性管理、服务级别、信息安全管理等制度,明确运维服务交付管理要求,通过细化非功能标准,管控内外部交付质量。

    通过自顶向下、逐步推进的方式,海南银行构建了相对完善、覆盖全面、切实可行的运行维护管理制度体系。最终以先进、成熟的IT智能化运维平台为工具,固化配置管理、发布与部署、变更等标准化流程,积累和管理运维知识并开展主动与自动运维工作。

    基于运维大数据,运用新技术,构建IT智能运维平台

    1.动态自动更新的CMDB(配置管理数据库)是基石。海南银行智能化运维平台实现了CMDB中90%CI项的动态自动更新。在设计思路上,参考测试四象限模型方法,按照自顶向下的设计思路,从模型总体要求出发,自顶向下逐步细化,依次是CDM(概念数据模型)、LDM(逻辑数据模型)、PDM(物理数据模型),最后完成模型设计。

    具体实现中,基于NoSql和图数据库技术实现CMDB模型。MongoDB(基于分布式文件存储的数据库)存储数据模型,图数据库(OrientDB)存储各模型之间的关系及实际数据,可快速便捷地对各CI模型,以及各CI之间的关联关系进行维护。

    2.基于CMDB的快速故障定位。CI之间的关系是故障定位和影响分析的基础。基于CMDB规则推理技术,利用CMDB存储的CI关联关系,构建CI关系模型。CI本身或关联CI出现故障时,通过遍历CI树型结构,找出故障影响范围。同理,也可从受影响的交易或服务找到故障源头的CI项。

    3.告警的聚合分析。IT运维监控管理中,当底层基础设施出现异常时,相关联的主机、中间件、数据库、消息队列、缓存、应用程序、业务服务都会受到影响。监控探测发现异常问题时,将瞬间产生大量事件,且这些事件随着时间的推移不断发生,这种情况下会导致邮件、短信告警瞬间爆发。

    海南银行从以下几个方面进行探索,尝试解决上述问题:一是降噪。消除不重要的事件,识别重要关键信息,避免告警疲劳。二是聚类。将相关的事件分门别类聚合起来,抑制告警风暴。三是根因识别。在数千事件中识别出可能的问题根因。四是决策支持。推荐相似问题解决方案,实现知识复用。

    4.基于大数据机器学习的日志故障模式发现。在故障发生时,传统运维方式需要登录多台设备、排查大量日志,耗时费力。海南银行智能化运维平台采用多种技术将日志统一管理,并通过无监督机器学习算法,将大量日志转换为少量日志模式,故障日志定位由原来的小时级缩短为分钟级。平台部署了多个Elastic Search节点,收集了操作系统日志、网络设备日志、应用日志等各类日志,日志处理能力在1TB/日左右,日志检索时间在毫秒级。

    如图2所示,在故障定位时,首先将TB级数据通过时间、关键字进行过滤、筛选,根据日志条数采取全量或抽样进行K-Means聚类分析,最后通过系统分析展现故障模式。

    640.webp (1)

    图2 日志故障模式发现的工作流程

    5.基于流式数据的复杂事件处理(CEP)。CEP可以在流式数据中发现符合某种特征的模式,进而触发对应的后续动作,支持单条事件的简单无状态的模式匹配,也支持基于关联、聚合、时间窗口等跨事件的复杂有状态的模式匹配。直接作用于流式数据,无需查询底层数据库,不会对底层数据库产生压力。

    在IT运维管理中,CEP与流处理引擎的结合可以大幅提高告警的时效性和准确率。平台设置了关于网络安全、攻击事件归并、Web入侵分析、Linux主机安全的相关规则,通过对实时流入的日志进行安全事件的判断与分析,可实现异常事件的事中分析。通过EPL语言(类自然语言)定制规则,即可生成相关的事件预警。

    6.自动化作业及故障自愈。对于固化的告警规则,可设置故障自愈能力。当异常和故障产生时,可以依赖故障自愈能力进行自动处理。把运维人员从重复性、机械化的工作中解放出来,提升故障恢复速度,缩减故障时间。

    7.分布式链路追踪。平台参考了Google的Dapper论文,基于开源项目Zipkin研发了一套分布式追踪的解决方案。目标是通过追踪,及时发现生产环境故障,缩短故障排查时间。调用链追踪可以使用基于Open Tracing规范的Zipkin SDK集成来实现,提供Java、C#、Go、Python、JavaScript、Ruby、Scala、C、C++等十多种语言的SDK,集成SDK即可查看对应调用链追踪的数据,生成调用拓扑及瀑布流监控数据,展示接口之间的调用关系、调用耗时、调用异常等(如图3所示)。

    640.webp (2)

    图3 分布式追踪示例

    小结

    海南银行基于国内监管要求、对标国际标准,建立了覆盖较为全面的IT运维管理制度体系,并利用银行自身的运维大数据,创新性地综合运用多种智能数据分析方法和技术,积极探索如何以业务目标实现为核心,充分挖掘IT运维的服务潜力,从传统的基础运维逐步走向标准化、自动化、智能化运维,乃至走向数字化运营之路。此体系运行前后,运维工作效率提升50倍,初步估算每年可减少1600人月的工作量。

    责任编辑:韩希宇

    免责声明:

    中国电子银行网发布的专栏、投稿以及征文相关文章,其文字、图片、视频均来源于作者投稿或转载自相关作品方;如涉及未经许可使用作品的问题,请您优先联系我们(联系邮箱:cebnet@cfca.com.cn,电话:400-880-9888),我们会第一时间核实,谢谢配合。

    为你推荐

    收藏成功

    确定