在数字化转型浪潮中,系统稳定性是金融业务的“生命线”。中国工商银行软件开发中心(以下简称“工行软件开发中心”)聚焦“1分钟发现、5分钟定位、10分钟恢复”的智能运维目标,通过深度剖析典型生产故障案例,依托“云+分布式”技术底座,深度整合云端监控与分布式追踪技术,首次基于统一元数据实现分布式到基础设施的打通,创新性地提出并实现了一款满足高敏业务场景1-5-10故障处理时效性要求的一站式运维大屏——火警图,支持故障可视化、分析智能化、应急一键化。在此基础上,为进一步归拢各应用火警图,形成全行级的监控分析能力,融合资源、业务、技术等多维指标,工行软件开发中心打造了全域时空火警图,通过一张图实时展现全行关键业务的运行情况,满足业务、资源、关基等不同视角的监控需求,为工商银行的生产运行安全提供了坚实保障。
一、打通“云+分布式”监控体系,建设火警图
工行软件开发中心参考业界云原生可观测性的指标(Metrics)、日志(Logs)和链路(Traces)三大核心观测指标(Primary Signals),已建设故障诊断处理(云医)、日志中心和全息监控等运维平台,初步建成云上可观测体系,构建了覆盖预防性检测、实时观测与智能分析、自动化巡检与根因治理的运维保障机制,为应用安全稳定运行提供了有效支撑。其中,依托全息监控和应用画像可观测技术架构,已初步具备基于横向调用拓扑及交易指标的监控告警、分析定位、应急处置等功能,可覆盖应用大部分观测场景需求;基于云医平台建设了纵向资源穿透式监控体系,实现了多层次云平台资源监控与分析,引入知识图谱,提升了关联分析能力,并联动事件、快照、诊断与应急中心,实现了故障管理的全流程闭环。
图1 基础架构
然而随着行内对生产故障的应急响应能力要求的不断提高,为解决应用故障处理时效长、成本高等痛点,工行软件开发中心基于各技术平台现有监控运维体系,充分挖掘各平台监控优势,提出“火警图”的概念,旨在帮助应用提高故障处理时效性。
火警图围绕“可视化、智能化、一键化”的设计理念,提供业务指标、技术指标、部署拓扑、上下游依赖、中间件等多维度一站式监控,支持在线诊断和一键应急能力,有效提升应用故障定位和处置时效,全面保障生产业务平稳运行(如图1所示)。
(一)整合部署架构、系统资源、服务调用监控于一体,实现故障快速识别及可视化呈现
目前已有的监控产品往往需要多个监控页面甚至多个监控系统组合才能准确定位问题,存在处理时效性低、对运维人员要求高、使用门槛较高等不足。
为解决上述痛点,火警图打破现有监控系统设计思路局限性,充分利用现有各监控系统优势,从应用部署架构、资源监控再到节点运行监控,整合业务、服务、系统资源等各个维度的监控数据,重新布局设计,直观展现物理部署、资源运行、交易运行监控数据。
当系统监测到异常事件时,基于运行态的多维聚合计算实现容器可视化色彩动态渲染,辅助运维人员直观辨识故障影响边界并精准定位异常节点(如图2所示)。
图2 火警图拓扑
(二)强化故障诊断机制,充分发挥“云+分布式”监控优势,建成智能化分析能力
通过构建服务性能、容器状态、业务健康度三位一体的监控指标体系,创新提出服务与容器监控联动、云原生与分布式能力协同的整合式方案,打造智能化根因分析能力:引入故障诊断机制,通过一键触发预定义通用及业务场景化检查规则,提高定位准确度和时效性;基于动态获取应用服务器元数据,实现上下游网络连接探测,覆盖网络故障场景;通过服务注册信息和监控指标明细横向比对,构建节点级服务可用性监控,筛选出可疑容器节点,提高故障检出率(如图3所示)。
图3 诊断
(三)建成一站式应急维护能力,推动“隔离”“扩容”“切园区”新三板斧落地
火警图配套建设了“隔离”“扩容”“切园区”新三板斧应急能力。例如,单点故障采取隔离策略,交易量骤增导致性能容量告警采取扩容处置,园区级故障采取切园区处置,一键实现90%故障的快速处置。
二、借鉴“类地图”交互模式,建设全域时空火警图
作为火警图的突破性升级方案,全域时空火警图采用三维地理信息可视化技术,通过实时聚合技术、业务和基础设施指标,直观呈现附带分析结论的业务交易运行情况和基础设施健康状态,快速辨别故障类型是全局还是局部,故障原因是业务还是基础设施。通过“类地图”的交互模式,火警图支持从园区级业务概览逐层下钻至容器粒度,结合应用调用链实现跨层关联分析应急(如图4所示)。
图4 全域时空火警图
(一)探索“类地图”模式逐层穿透分析,全面提升用户使用体验
为进一步提升故障分析时效,全域时空火警图开创性地引入了基于“类地图”模式的穿透分析能力,构建了一套支持从业务场景全局到业务场景内部调用,再到应用部署拓扑逐层细化的全方位分析系统。这一创新模式充分利用流平台、图库等大数据和人工智能算法优势,以高速度和高精度对故障进行定位,并精确评估故障可能波及的范围。在交互上,全域时空火警图支持通过智慧屏触屏、电脑端鼠标进行放大/缩小操作。
(二)多图层不同维度观测,支持业务场景细化分析与黄金指标联动观测
为满足不同视角的监控需求,全域时空火警图支持“业务场景”、“资源域”、“单元化”、“关基”等图层,并针对每种类型的图层,提供监控明细查看功能。点击“地图”上的悬浮信息,火警图右侧会展示对应业务场景的细化异常分类及三大黄金指标(交易量、成功率、耗时)趋势信息,方便用户进行更深层次的分析(如图5所示)。
图5 多图层观测
(三)多维度诊断决策树,支持全局定位与应急决策
全域时空火警图支持以配置化的形式将问题分析经验转化为数字化的决策模型,通过告警触发自动诊断;默认支持园区级故障诊断树、单元异常诊断树、业务场景异常诊断树、资源异常诊断树,可快速辨别故障类型是全局还是局部,故障原因是业务异常还是基础设施异常,并动态输出诊断结论,为应急切换提供参考建议。
(四)低成本敏捷接入,动态配置快速上线
全域时空火警图支持应用低成本接入,应用侧只需依据“业务运维画像”协助提供需要关注的应用拓扑结构,平台侧根据应用梳理的业务场景,通过动态配置的方式将业务内容添加到全域时空火警图,无需发版即可上线。
三、建设成效与未来展望
截至2025年3月,工行软件开发中心已有50多个高敏应用的核心业务场景接入火警图,累计协助快捷支付、银证转账等应用发现生产问题20余次,帮助应用快速定位问题。
工行软件开发中心在数字化转型与系统稳定性建设中已迈出重要一步,通过构建火警图与全域时空火警图,实现了故障响应效率的跨越式提升和运维体系的智能化升级。未来,工商银行将继续以“科技驱动、价值创造”为核心理念,深化金融科技与运维能力的融合创新,在以下方向持续突破:
(一)深化智能运维生态,推动全栈式可观测能力升级
基于现有“云+分布式”监控技术底座,工行软件开发中心将进一步整合指标、日志、链路等全域数据,强化横向应用调用链追踪与纵向基础设施穿透式观测的联动能力,通过引入AI大模型与知识图谱技术,实现根因分析的精准预测,构建覆盖“事前预警—事中决策—事后复盘”的全生命周期智能运维体系。同时,全域时空火警图将逐步扩展“资源域”“单元化”等图层,打造多维度、立体化的监控网络,为业务连续性管理提供更强大的数据支撑。
(二)加速技术普惠,构建开放协同的运维生态
依托火警图的动态配置与低成本接入能力,工行软件开发中心将推动全行级应用的标准化、敏捷化监控覆盖,支持更多业务场景的快速上线与灵活适配,并通过开放平台能力与行业伙伴共建生态,推动“隔离—扩容—切园区”三板斧等应急模式向运维智能体的高阶形态演进,形成可复用的金融级故障处置解决方案,为同业输出技术经验与标准范式。
未来,工行软件开发中心将持续以科技创新引领金融业数字化转型,通过智能运维能力的迭代升级,打造“高可用、高敏捷、高智能”的金融基础设施新标杆,为金融行业的稳定性建设贡献“工行智慧”,助力实体经济高质量发展。
责任编辑:陈爱
免责声明:
中国电子银行网发布的专栏、投稿以及征文相关文章,其文字、图片、视频均来源于作者投稿或转载自相关作品方;如涉及未经许可使用作品的问题,请您优先联系我们(联系邮箱:cebnet@cfca.com.cn,电话:400-880-9888),我们会第一时间核实,谢谢配合。