中国建设银行北京数据中心
副主任 王立新
建设银行数据中心在“新一代”核心系统、“两地三中心”基础设施建设中,进行了一系列技术架构创新,提高了系统吞吐能力和资源供给效率,提升了系统可靠性,大大增强了数据中心风险防范水平。
以电子渠道为例,业务量从2012 年每月21 亿笔增加到2016年179 亿笔, 年均增长72%。2016 年“双十一”的核心业务系统交易峰值接近8000 笔/ 秒,较2015 年增长81%,所有系统均顺利应对业务高峰,充分验证了建行新一代系统架构的健壮性。
1、融合架构:主机平台+分布式开放平台
核心账务系统,部署在主机平台上
主机平台可用性高,运行稳定,适合作为银行核心系统运行平台,但也存在风险集中、处理能力瓶颈、敏捷性不够、价格昂贵等不足。
主机资源用于核心账务系统,利用开放平台处理查询业务或者普通维护性交易,采用削峰填谷的方法优化主机资源使用,确保账务交易的资源。
为了更好地利用主机资源,建设银行提出“主机+ 开放”的融合架构,确保“好钢用在刀刃上”。
查询系统,部署在分布式平台上
查询系统包括:个人客户综合积分、贷记卡管理、客户信息查询、对公/ 对私存款查询、客户渠道。
目前各类查询交易总计下移日均交易量1.4 亿笔,节省主机资源2.6 万MIPS,相当于8.22 亿元。
查询系统与账务系统分离,既分散了系统风险,又提高了并发处理能力。
最近三年在实际业务量年均增长32% 的情况下,主机MIPS资源零增长,取得了节省投资的良好效果。
在分布式开放平台上,X86服务器替代小型机
在开放平台的选择上,由于同等计算能力的X86服务器价格只有小型机的1/20,所以首先在新一代架构的应用(AP)层中大量采用X86服务器替代小型机,随着替代技术逐步成熟,继续提高在数据库(DB)层使用X86服务器的比例,进一步减少小型机的数量。
自新一代实施以来,应用层和数据库层部署的X86服务器替代小型机已累计节省12.2亿元。新一代实施前后,小型机占开放计算资源比例已从1/3逐步下降到1/12,计算资源的总体可靠性和可用性保持不降。
图1 基础设施云部署架构
2、私有云,能提供1000台以上的虚拟机
建设银行自2013 年起采用云计算技术来构建基础设施环境,将计算资源、存储资源、网络资源统一打包成共享资源池。
根据每种资源池的特点,采用不同的云部署单元(CDP)模型,构建了X86 虚拟化资源池、Power 虚拟化资源池、HP 资源池以及大数据资源池等。
以云部署单元为基本单位进行部署、更新和替换,统一了标准,提高了通用性,降低了成本。
目前已经在私有云环境中部署了1000台以上物理机,提供10000 台以上虚拟机,有力地支撑了“ 新一代”核心系统上线。
3、网络架构:一网双平面,可靠性达到99.999%
新一代核心网络平台采用“一网双平面”的网络架构,用多协议标签交换技术,采用层次化、模块化的网络结构,将网络局部可靠性逐步提高到99.999% 水平,支持无中断维护。
新一代局域网通过推广柜顶接入架构,以虚拟端口聚合技术为基础,采用插入式服务架构来提高网络综合服务能力,接入层交换机使用板卡延伸技术,大规模标准化网络交换机配置。
图2 新一代局域网柜顶接入架构
通过采用“双平面”冗余设计避免逻辑单点,采用分散部署模式来分散整体性风险,逐步采用自动化变更手段杜绝操作失误。
采用松耦合的理念,模块化、层次化,网络服务资源池化,将二三层网络与四七层网络服务解除耦合关系,减少管理复杂度,有利于横向扩展,大幅提高数据中心网络平台的可靠性、健壮性。
4、安全:“多层水闸式”防范体系
原安全架构的安全功能与应用系统集成实现,嵌入到应用系统中,与应用系统紧密耦合,导致安全策略与安全功能固化。
“新一代安全架构”的应用系统只集成通用、标准化的安全代理,所有安全功能通过安全代理为应用系统提供,后台的安全服务可以统一调度、灵活组合,安全服务的调整不会导致业务系统的改造。
5、标准池化存储结构
NAS、SAN 存储
SAN 存储从应用(AP)层、数据库(DB)层混合部署转变为全数据库层部署,大面积在应用层使用NAS 存储替代SAN 存储。
打造“存储标准化”
实行存储配置标准化、资源池化,屏蔽了不同产品带来的差异化,减少了维护成本,同时实现了存储资源快速、灵活的供给。
采用庞大的“边缘—核心—边缘”三层SAN 存储网络
实现了楼宇内任意地点的存储网络接入。
图3 新一代标准化资源池化存储架构
6、自主研发云管理平台
自主开发了全面自动化的云管理平台,先后实施了IT 基础设施的服务器安装、版本部署、服务启停、日常巡检、配置比对等一系列自动化工具,极大提升了数据中心运营管理的自动化水平,形成全生命周期的自动化管理模式,完美支持了应用项目以及相关IT 框架、平台、技术和安全组件的投产上线。
图4 云管理平台架构
创造了5 个工作日内交付上千台虚拟化服务器的行业纪录,在简化流程、提高效率的同时,有效控制了操作风险。
中国工商银行
中国工商银行数据中心(上海)
总经理 钱斌
从2014 年开始,工商银行就开始布局集中式和分布式架构体系,结合云计算、大数据等新技术手段,以架构优化为核心。
1、IT架构改变,来源于银行压力越来越大
一是,客户群体多样化增大
面对多样化、个性化、国际化的客户群体,银行信息系统需要支撑更加差异化、综合化的产品和服务,并满足国际化带来的监管要求。
二是,互联网类营销压力变大
客户服务不再依赖网点柜员,一些营销,特殊时点秒杀抢购等互联网营销带来的负载冲击,对银行信息系统架构提出了高并发、易扩展、抗冲击的高要求。
三是,网络安全压力变大
以APT 为代表的有针对性、持续性的网络攻击日益突出,银行信息系统需要实现从“被动防护”转向“主动防御”,提高对安全态势的感知能力,建设全方位的安全防护体系。
四是,出了故障,舆论压力变大
在依托移动互联网快速传播的“自媒体时代”,银行信息系统运行的任何故障都会被大众资讯无限放大,并直接影响银行服务的经营和品牌价值。
工商银行信息科技以建设云数据中心为目标,以“两地三中心”为核心,持续提升业务连续性运作管理水平。
2、“两地三中心”,让业务切换只需2分钟
工行于2014年初步建成了以上海外高桥园区和嘉定园区为同城双活中心、北京西三旗园区为异地灾备的“两地三中心”体系架构。
比如:
2016 年末,人民银行领导现场观摩了工商银行数据中心的同城切换运行。
工行核心系统在业务高峰期间,由上海外高桥园区成功切换至嘉定园区,运行1 个多小时后回切至外高桥园区,整个切换时间约2 分钟,符合预期。
接管运行期间全集团各项业务正常开展,交易响应及系统运行性能良好。
亮点
自主设计研发了“一键式”自动化切换系统,具备了同城中心之间快速切换和接管业务负载的能力。
研发设计了“异地多点接入”和“同城双活”相结合的开放平台应用系统双活方案,在保障业务一致性的情况下实现站点间的灵活切换。
正在研究,重要应用系统的“多站点多活模式”
3、“云架构”真正落地
基础设施,资源池云化
基础设施云已经在工行数据中心逐步推广,实现了大规模计算、存储和网络资源的池化管理和弹性供给。
容器技术,实际在用
开展了基于容器技术的应用云平台规划和建设工作,已经在互联网金融、第三方支付、纪念币预约等应用系统实施了云化和微服务化改造,基于分布式系统框架实现资源弹性供应,快速响应业务突发增长需求,有效应对了“双十一”、“纪念币发行”、“微信红包”等互联网业务冲击。
采用“云化管理”
利用流数据平台对各环节负载数据进行引流分析,实时掌握主机、网络、应用、数据库各环节的负载压力和性能指标,通过动态调节资源配置,全流程保障快捷支付业务的服务需求。
4、拥抱SDN、开源产品
在数据中心部署SDN网络
全面启动了工商银行新一代网络架构的规划和落地
引入开源产品
通过开源软负载产品低成本、可扩展的优势,解决目前负载均衡技术领域存在的性能瓶颈和难以快速扩展问题。
5、安全管控,依然是重中之重
安全重点关注点有:互联网入侵防护、网络安全隔离与访问控制、客户端安全管理、数据安全管理等中高风险领域。
措施:
优化安全架构
重点推动APT 攻击防护、云网络安全防护等方案落地,与现有外部攻击检测形成有效互动和互补。
加强数据分析和安全风险模型研究
通过研究科技与业务数据之间的关联关系,实施系统、网络、应用、业务等各环节日志分析挖掘,全面推动信息安全数据分析工作。
中国农业银行
中国农业银行数据中心
总经理 涂晓军
1、融合架构:主机+分布式开放平台
自农行全国数据大集中以来,核心业务处理和数据信息全面集中到主机上运行,开放平台主要承担交易前置处理、转发功能。通过主机的高可靠性及商品化程度,打造了一个高度集中的银行信息系统架构。
这种融合架构的优点:
这种架构性能可靠,开发人员无需过多关注底层技术实现方式,成熟稳定。但高度的业务及数据集中也使得风险高度集中,系统负载过大等问题导致业务连续运行的风险不断增加。
随着云计算与虚拟化技术发展、硬件制造能力提升,开放平台在处理能力横向扩展方面有了很大进步。
通过负载均衡机制,将业务分摊到多个节点处理,各节点松耦合,对底层产品的可靠性、可用性依赖降低。
这种架构成本更低,可用性、可扩展性更好,尤其是随着应用规模的扩大,边际成本将更低。
但这种架构的难点是做好各节点的协同工作,尤其是要处理好数据的一致性、完整性问题。必须根据业务特点,通过较复杂的应用设计,放弃实时一致性,保障最终一致性。
以稳定核心系统运维与减少IT 投入为出发点,农行利用云计算和分布式处理技术,构建开放型、高容量、易扩展、成本可控、安全稳定的“主机+ 开放”融合式架构,显著降低了主机依赖,有力保障全行金融业务连续稳定运行。
2、几大措施,确保架构转型的成功
农行从多方面推进技术架构转型。
1. 统一技术架构规范,推进运维技术标准化
根据技术适度收敛的总体原则,制定技术架构和软硬件平台使用标准,规范IT 基础架构建设。
将计算平台统一到X86 架构,基本实现小型机零增长;并构建Linux+ 集群数据库为主的联机业务计算环境、Linux-+MPP 架构为主的数据分析计算环境、构建集中存储与分布式存储相结合的存储模式。
目前,农行已将这些使用标准明确到企业标准中。通过系统架构标准化,进一步提升信息系统的可扩展性和可移植性,降低系统运维风险。
2. 构建主机开放融合架构,推进生产运行集约化
以BoEing 系统建设为契机,对核心业务系统和相关的120多个外围系统进行整体升级改造,构建了一个主机开放融合核心系统架构。
一是创新主机通讯接入模式。
将基于主机的三层架构简化为两层,在主机上直接采用TCP/IP 短连接接入方式,去除了主机接入中间层,形成扁平化架构。这种架构减少了出错环节,减轻了分行运维压力,构建了一个弹性好、可扩展性强的基础平台。
二是合理均衡系统应用负载。
在BoEing 系统的两层架构中,采用应用层负载均衡设备作为桥梁,隔离了数以万计的前台终端设备对后台的直接冲击,也可以动态调配交易负载,自动侦测和规避主机系统单个分区运行异常,从而显著提升系统整体可用性。
三是大力推广基础架构云平台。
针对开放平台系统多、运行环境复杂的特点,引入虚拟化、负载均衡、大数据等新技术,推广基础架构云平台,实现IT 资源和服务快速交付、动态调整、弹性伸缩,提高资源利用率。云平台自下而上分为基础设施层、资源池层、资源调度层和云管平台层。目前,农行生产环境和开发测试环境虚拟化率分别达70%、89%,云平台已成为农行基础架构领域不可或缺的首选工具和平台。
3. 加快自动化平台建设,推进运行管理智能化。
大力推进基础架构与应用的监、管、控自动化平台建设,实现基础设施的自动化构建、自动化监测、智能化控制和智能化管理。
4. 提高安全可控技术应用,有效保障网络和信息安全。
按照监管部门“安全可控”总体要求,采用各类措施保障业务连续性和可持续发展,规避厂商集中和供应链风险。
一是积极开展主机应用下移。
通过将主机中非核心产品服务剥离至开放平台,逐步降低核心业务对主机系统的依赖。主机系统中实时交易下移后,单交易对主机MIPS 消耗平均降低了74%。进一步将历史交易明细数据下移到Hadoop 集群,使历史数据交易的存储和查询完全脱离主机系统。这些措施显著降低了主机的运行负载和资源投入成本。
二是在应用交付、计算、存储领域,大力采用标准开放、安全可控的技术架构和产品,同等条件下优先采用国产产品。
大力推广分布式架构和多中心多活架构,从系统层面降低单个节点异常对全局业务连续性的影响。农行已完成银联前置、快捷支付、安全认证平台等重要开放平台系统多活架构改造。
三是构建纵深立体的外联出口深度防护架构。
在传统网络层安全防护基础上,通过应用层攻击检测与实时阻断、网络流量双向应用识别、应用文件还原深度检测等技术,实现应用层攻击防护。对钓鱼网站进行主动爬取、检测和查封,对信息系统自身漏洞缺陷进行主动检测评估和事前修复,防范于未然。
近三年,全行突发事件数量逐年下降,核心系统主要服务时段可用率保持在99.99% 以上,变更成功率保持在99% 以上,为业务服务连续性提供了坚实保障。
责任编辑:韩希宇
免责声明:
中国电子银行网发布的专栏、投稿以及征文相关文章,其文字、图片、视频均来源于作者投稿或转载自相关作品方;如涉及未经许可使用作品的问题,请您优先联系我们(联系邮箱:cebnet@cfca.com.cn,电话:400-880-9888),我们会第一时间核实,谢谢配合。