• 移动端
    访问手机端
    官微
    访问官微

    搜索
    取消
    温馨提示:
    敬爱的用户,您的浏览器版本过低,会导致页面浏览异常,建议您升级浏览器版本或更换其他浏览器打开。

    金融科技时代,银行业的“智慧运维”怎么做?工行给出了答案!

    来源:银数观卡 2019-08-29 09:02:07 工行 金融科技 数字金融
         来源:银数观卡     2019-08-29 09:02:07

    核心提示AIOps即智能运维,基于已有的运维数据,通过机器学习等手段提升运维的自动化、智能化程度。为解决云平台运维中的“痛点”,工商银行全面布局AIOps智能运维建设,逐步打造“智慧运维”新生态。

    互联网金融时代,为了适应新业态所带来的业务量爆发性增长的冲击和挑战,各大型商业银行先后构建了云平台。但是,随着云平台的建设,对银行业生产运维提出了更高的要求,传统依赖人工的运维模式越来越无法满足当前需求,如何实现银行业生产运维的“华丽转身”成为了业界一个亟需解决的难题。

    近年来,人工智能技术的蓬勃发展与推广使用,为云平台运维指明了方向。AIOps即智能运维,基于已有的运维数据,通过机器学习等手段提升运维的自动化、智能化程度。为解决云平台运维中的“痛点”,工商银行全面布局AIOps智能运维建设,逐步打造“智慧运维”新生态。

    智能运维 云时代运维发展的必然趋势

    IT运维领域,随着系统规模的不断扩大,已先后经历了四个阶段,分别为人工阶段、工具化运维阶段、平台运维阶段和自动化运维阶段:

    在人工阶段,针对服务器少、业务需求简单的系统,仅需少数运维工程师手工即可完成运维;

    在工具化运维阶段,运维工程师逐步开发运维脚本以替代人工,效率得到提升;

    在平台化运维阶段,通过构建监控平台、报警平台、配置平台等,在一定程度上提高开发和测试效率,降低运维成本;

    在自动化运维阶段,实现各运维平台的联动,自动完成大部分复杂的运维操作,实现“一键式”运维。

    智能运维在自动化运维的基础上,增加了基于机器学习的大脑,根据大数据做出分析、决策,指挥自动化工具完成相关操作,从而达到运维系统的总体目标。

    在云计算时代,随着越来越多应用的云化部署以及用户对系统可靠性要求的持续提高,传统运维模式面临诸多严峻的挑战:

    随着设备的X86化和虚拟化,所需运维设备的数量大幅增加,但可靠性却较传统小型机有较为明显的下降;

    云平台承载了众多业务系统的运行,打破了传统架构下各应用间的壁垒,但随着服务化等框架的引入,应用间相互调用关系更趋复杂,故障所波及的影响面也急剧扩大;

    监控、日志等运维数据呈指数型增长,数以万计甚至千万计的运维指标远远超出了运维人员可以有效利用的范围,监控阈值不合理或者“报警风暴”甚至对故障的判断产生巨大干扰。

    传统依赖于运维人员经验和熟练程度的运维模式越来越不合时宜,智能运维成为了云时代下运维模式转型发展的必然。

    根据云计算开源产业联盟(OSCAR)提出的《企业级AIOps实施建议》,企业从质量保障、成本管理和效率提升三个方面进行智能运维场景的设计。

    • 在质量保障方面,引入人工智能技术保障系统稳定运行,可进一步细分为异常检测、故障诊断、故障自愈等场景;

    • 在成本管理方面,期望通过模型训练完成合理的资源配置,包含资源优化、容量规划、性能优化等场景;

    • 在效率提升方面,利用机器学习等手段完成云平台智能变更、智能问答和智能决策,降低对人工的依赖。

    在云平台落地实施智能运维时,需要运维工程师、开发工程师和AI工程师三方的通力合作:

    • 运维工程师针对云平台运维“痛点”,提出智能化需求,并负责对数据的标记、落地效果的反馈等工作;

    • 开发工程师完成具体功能点的开发,以降低用户使用门槛,提升用户使用效率,并将数据友好展现给用户;

    • AI工程师针对具体需求和运维数据分布特点,开发调优机器学习模型,保障成果落地。

    工商银行借力科技 打造“智慧运维”

    工商银行于1999年完成数据大集中,2008年开始部署服务器虚拟化,并在2014年紧随业务发展趋势全面启动云计算的研究落地。面对云平台运维日趋严峻的形势和挑战,工商银行借鉴行业先进经验,布局智能运维建设。期望利用人工智能的业界最新成果,为云平台稳定可靠地运行提供坚实屏障。

    日志监控数据归集 构建智能运维“基石”

    智能运维的分析决策完全依赖于日志、监控等基础运维数据,业界一直将数据和算法称为智能运维的两大“基石”。

    工商银行在云平台建设过程中,高度重视运维数据标准化采集、集中化存储、以及便利化查询分析的能力,先后完成企业级日志中心和企业级监控中心的建设:

    日志中心提供多元化、高性能的日志采集能力,将操作系统日志、应用日志、中间件日志、集群运行日志等纳入视野,实现全方位、统一、集中的日志管理,稳定支撑了近90个应用的云上日志归集,峰值可支撑10万以上TPS日志的写入;

    监控中心提供全面的监控指标采集能力,目前已支持数百种指标准实时推送,涵盖平台侧操作系统资源监控、中间件监控、标准应用指标监控、自定义应用指标监控等多个领域。

    同时,日志中心和监控中心提供了数据的便捷检索、分析服务,大部分查询实现“秒级”返回,极大便利了云上应用的问题分析和排查,其横向扩展的整体架构和承接数据量一直处于同业领先地位。

    建设云运维体系 提供智能运维前提

    智能运维的前提是运维自动化,工商银行于2017年下半年建立了面向大规模集群的云运维体系,提升云上应用自动化、精细化的运维水平,为智能运维的实施提供有力抓手。基于容器监控、日志采集等大数据,建立通用、可定制、可扩展的业务分析模型平台,实现云上运维可视化,并对接到手机办公系统“工银e办公”。

    工行云运维体系提供秒级指标计算及报警,实现云上应用的精细管理;建立分布式节点自动巡检机制,提供云上应用运行趋势分析、故障秒级预警及实时诊断;建立云上资源治理体系,提供资源使用和弹性伸缩;实现快速、自动化的云上运维能力,提升云上运维水平。在“双十一”电商抢购、“纪念币”预约等活动中,云运维为快捷支付、纪念币等关键应用提供了交易状态和资源状态的实时监控、故障的快速发现,实时、有力地保障了生产的稳定运行。

    打造企业级智能运维平台 逐步推进智能化

    工商银行于2018年下半年整合云平台开发工程师、运维工程师和AI算法工程师等多方资源,成立智能运维平台攻关项目组,扎实推进智能运维的落地实施。

    在整体框架设计方面,基于当前日志、监控数据归集体系的部署架构,分别从集中存储节点和数据缓冲节点完成离线训练、在线计算数据的引流,最大程度减小了对现有系统的侵入性。同时,在数据处理时,充分复用了现有流处理平台、人工智能平台和大数据存储平台的能力,实现了资源的最优化配置。

    在平台建设方面,工商银行智能化运维平台对标业界先进架构,覆盖了智能运维体系的全方位领域,为开发运维人员的日常接入和使用提供了便捷化渠道,处于同业领先地位。平台主要由门户、数据源、技术支撑和运维数据分析平台四部分组成:

    门户提供各类智能运维场景的配置和调优服务,并通过仪表盘、PC大屏等渠道完成可视化展现;

    数据源实现海量监控、个性化日志采集存储,通过缓冲层满足数据多渠道消费分析的需要;

    运维数据分析中心完成平台技术支撑服务的封装,为智能运维各类应用场景提供数据清洗、在线标注、模型训练和模型计算等全套服务;

    平台技术支撑层实现运维资源供应及大数据和机器学习的平台化能力,根据模型计算的需要提供匹配的流式计算能力,并持续丰富模型算法库。

    在应用场景设置方面,工商银行借鉴互联网公司先进技术经验,将场景划分为故障管理、成本管理、变更管理和服务咨询四个大类。根据自身云平台运维过程中的“痛点”,结合技术储备能力,将故障管理大类作为主要切入点:

    通过人工智能算法实现报警阈值自适应调整,完成重复报警指标的“过滤”,提高报警准确性,实现智能异常检测;

    结合日志输出模式进行特征匹配,锁定故障节点,辅助分析故障原因,完成智能故障诊断;

    根据监控指标变化趋势,智能预测潜在故障风险,提早采取应对措施;

    探索应急重启、容灾切换等故障修复手段的智能化判定与执行,实现部分场景的故障自愈。

    目前,工商银行已针对交易安全管控、智能故障定位两个场景完成落地实践的探索。“交易安全管控”针对云上交易统计数据进行建模,通过横向对比同时期服务调用情况,结合业务增长趋势的预测,过滤业务瞬时冲高等“毛刺”的干扰,智能揭示业务异常风险,有助于运维人员提早采取措施。

    截至目前,“交易安全管控”已成功规避多起潜在的业务风险,有效保障了在线交易的安全性。“智能故障定位”基于云上应用的交易日志,从宏观业务交易耗时、交易成功率和交易故障码等监控指标异常波动定位到具体的交易记录,进一步定位到单笔交易各步骤指标变化明细及业务请求全过程,实现了云平台复杂交易链路下的智能异常检测和辅助根因分析,有效提高了故障排查分析的效率。经过持续调优,现“智能故障定位”检测模型的准确率已超过90%,处于同业领先水平。

    未来展望

    在金融科技时代,面对业务数据量的爆发性增长、业务模式的频繁更新迭代、以及业务接入渠道持续拓展等方面带来的挑战,工商银行先后借助云计算和人工智能等新兴技术,实现IT整体架构的改造升级,为客户及交易规模的高速发展提供了坚实支撑。后续将进一步深化、推进智能运维建设,打造银行业智慧运维,向无人化运维的终极目标持续逼近,助力工商银行建设“智慧、开放、共享、高效、融合”的智慧银行信息系统。

    责任编辑:韩希宇

    免责声明:

    中国电子银行网发布的专栏、投稿以及征文相关文章,其文字、图片、视频均来源于作者投稿或转载自相关作品方;如涉及未经许可使用作品的问题,请您优先联系我们(联系邮箱:cebnet@cfca.com.cn,电话:400-880-9888),我们会第一时间核实,谢谢配合。

    为你推荐

    猜你喜欢

    收藏成功

    确定