• 移动端
    访问手机端
    官微
    访问官微
    搜索
    取消
    温馨提示:
    敬爱的用户,您的浏览器版本过低,会导致页面浏览异常,建议您升级浏览器版本或更换其他浏览器打开。

    中诚信指数:综合研究计算平台

    来源:中国电子银行网 2022-04-22 11:56:34 中诚信指数 金融信创
         来源:中国电子银行网     2022-04-22 11:56:34

    核心提示平台以Kubenetes + Ceph为通用基础计算与存储框架,极大增强了数据层与计算层技术栈的兼容性,以统一的环境保障研究与生产交付无缝连接。

    网站文章置顶图750x300

    案例名称

    中诚信指数综合研究计算平台

    案例简介

    公司的业务开展依托于研究能力与数据能力的高效转化,因此公司基于业务特征,充分利用信息技术优势,以高效畅通的网络建设、数据库建设为基础,建立了以Kubernetes + Ceph为基础的计算集群与存储集群,做到了资源的云服务化。同时,在此基础之上,建立了与业务紧密连接的数据平台、综合研究计算平台,充分将研究员的金融头脑、丰富的内外部数据资源、计算资源进行融合,以向市场提供以高质量研究为基础的公开、透明、可投资的指数产品。

    系统适配及安全

    平台以Kubenetes + Ceph为通用基础计算与存储框架,极大增强了数据层与计算层技术栈的兼容性,以统一的环境保障研究与生产交付无缝连接。在此基础之上,构建了通用数据平台,保障各类数据源之间的在可控的前提下完成高效转换。同时,为不同组别的研究员与不能类型生产任务提供了在权限与资源控制下的本地化执行、集群单点执行(Kubernetes + Volcano)、批量编排任务执行(Jenkins on Kubernetes)等灵活多样的执行方式,保障研究与生产效率,同时保障数据与资源的安全可控。同时,各类数据、计算与服务资源均处于监控与报警系统的保护之下。

    191694

    图1平台基本架构

    整体平台架构如图1所示,可分为以下层次:数据存储、数据平台、计算框架、任务应用、权限管理及整体监控。

    在存储层,我们选用以Ceph为基础的存储方式。使用CephFS与Ceph对象存储的存储协议在实现存储资源可扩展的情况下,实现了研究员在本地及集群中数据访问的一致性和易用性,同时通过支持多源转换聚合的数据平台,提升了数据流转、访问与生产化的效率。

    支持多类多源转换与聚合数据平台如图2所示。数据平台支持的存储方式包括服务器磁盘、CephFS、Ceph对象存储、各类数据库等,支持的主要数据类型包括数据库文件类型、文本类型、Parquet文件类型。在这些存储方式与数据类型之间,数据平台可以高效地完成数据的转换和聚合。同时,数据平台可以支持以API的方式访问JSON或Parquet格式的数据。平台整体可配置、可监控,可快速调整。

    191696

    图2数据平台完成数据转换、聚合及对外数据服务

    在计算层,在自建Kubernetes集群基础之上,使用了Volcano作为单点提交工具、使用Jenkins作为任务编排工具。平台在大量采用业界先进的开源框架的同时根据内部需求进行了自研客户端开发以及案例与文档编写,极大方便了研究员上手使用以及各类研究任务向生产环境的迁移。计算层的提交与任务编排工具均具有成熟的控制与监控系统,保障资源灵活分配的同时集群与各类服务透明可控。

    191695

    图3研究员工作流

    如图3所示,Kubernetes集群的计算建立在以CephFS为基础的数据存储资源之上,相关的代码与环境的同步则通过代码仓库及镜像仓库来完成与Pod中对应环境的同步来完成。

    任务应用

    研究员可以自由选用在本地、在Volcano、在Jenkins中提交自己的数据任务,无论是数据ETL、机器学习算法,平台都可以方便地进行支持。基于小批量数据的研究策略测试,可以直接在本地环境中试试,大批量的测试可以使用Volcano在Kubernetes集群中执行,正式生产环节,则在Jenkins中使用Kubernetes资源按照生产任务编排要求完成。

    权限管理及整体监控

    权限管理采用了整体以LDAP为核心,在Kubernetes中以PSP为核心的权限管理系统,实现了整体权限的一致性与可控。监控使用Prometheus与Kubernetes自身的监控体系对集群状态与资源使用情况进行监控(如图4所示),对异常的状态连接了钉钉工作群报警。

    191698

    图4 Prometheus + Graphana集群监控示例

    集成创新效果

    中诚信指数综合研究计算平台的设计和打造是结合了研究人员工作方式与业务开展规律的需求来设计、计算与数据资源的组织形式,构建适应当前与未来发展趋势的技术架构:

    1. 研究工具:支持以基础编程语言为工具的研究人员技能体系

    金融科技领域的研究从业者具有基础的编程语言能力将成为普遍事实。为研究人员方便、高效地使用以Python为代表的编程语言实现研究逻辑,是平台必须承载的功能。同时,大部分研究任务是脚本化的代码执行,与经过标准化改造后的服务类应用有明显区别。

    2. 数据:配置化支持以类磁盘读写为基础的多数据源的访问与转换

    对于研究人员来说,使用类似磁盘的方式查看输入与输出数据,是最方便的策略开发方式。但由于策略研发中需要用到的丰富多样的原始数据大多以数据库形式存在,且开发后的策略上线通常以数据入库的方式宣告产出完成,因此平台需要提供各类数据格式、不同源数据之间相互批量的功能支持。

    3. 计算:权限可控,资源无限可扩展的计算框架

    在无限的计算资源下,原本1个小时才能结束的任务也许不到5分钟内就能跑完。而在有限计算资源下,为了保障同时开展的各项研究工作都能顺利进展,计算资源的权限管理、资源控制是平台得以发挥效能的必要条件。

    4. 生产环节对接:研究成果可快速上线对接

    平台要能够高效快速地实现对研究成果上线,尤其是数据产出的上线,就需要满足研究过程与生产过程基础环境高度一致,以及数据入库与转换的无缝对接,一个能够高效完成各类数据转换的数据中台,以及在研究环节及参与其中在此将发挥核心作用。同时,研究任务与生产环境均采用,保障了技术栈的一致性,提高了任务迁移的效率。

    5. 技术栈演进:顺应以云平台为基础的发展趋势。

    以云平台为基础的服务能力,是公司整体技术战略需要顺应的方向。我们在内部不断加强培养研究与技术人员云原生的技能与使用氛围,是公司高效完成内部研究成果迭代与沉淀,以及高效高质量对外部客户提供服务的核心与关键。

    6. 平台服务客户涵盖银行理财子公司、保险资管、信托、证券公司、基金公司等,承载金融业务规模达到105亿。

    项目牵头人

    郝金星 首席技术官

    项目团队成员

    郝金星、于海洋、姜龙、邵波、孙月欣、陈恺豪

    191697

    责任编辑:韩希宇

    免责声明:

    中国电子银行网发布的专栏、投稿以及征文相关文章,其文字、图片、视频均来源于作者投稿或转载自相关作品方;如涉及未经许可使用作品的问题,请您优先联系我们(联系邮箱:cebnet@cfca.com.cn,电话:400-880-9888),我们会第一时间核实,谢谢配合。

    收藏

    为你推荐

    收藏成功

    确定