欢迎访问信息侠官方网站!

行业新闻

解析CIFS|东亚银行(中国)金广仲:IT运行能力提升之路
2024-05-28
在座的各位嘉宾,各位同行:

大家好!我今天给大家带来的主题是“促进金融高质量发展,保障系统稳定运行—东亚银行运行能力提升之路”,结合东亚银行在运行提升能力方面具体的项目跟大家做一个分享。

我目前是东亚银行的副总,在金融科技领域将近有20年的从业经验,最开始是在中国银行,有幸参与了中国银行的蓝图核心替换项目,这个项目在2011年获得了金发奖的特等奖。在之后我又来到了蚂蚁旗下的国泰财险,牵头负责国泰所有网络系统的替换,当时叫凤凰涅盘项目,获得CEO大奖和卓越团队奖。之后我们还在国泰财险自研,应用领域设计的理念和阿里的技术自研一套互联网保险中台,当时承担了国内最大量的互联网保险的保单,我们当时承接的互联网保单量是我们排名第二的平安、国寿保单量之和还要多。2022年我开始负责东亚运行能力提升的项目,在2023年我们这个项目已经全面完成了,所以2024年借着这个场地,也向大家做一个汇报和交流。

01
整体进展

背景说明

这个项目大的背景首先是在金融业高质量发展的大背景下启动的,2019年习近平总书记提出了促进金融业高质量发展,在十九大报告、十四五规划等报告中提出了要识别和降低风险,促进金融业高质量发展的目标和要求,所以促进金融业高质量发展成为我们这个行业的主旋律。

近年来,监管对行业的要求也越来越趋严了,我引用了2023年KPMG的报告,2023年人民银行和国家金融管理总局向银行、保险、证券等金融机构共开出罚单2791张,处罚金394.10亿元,较2022年上涨约800%,涉及770家法人。在2023年我们已经完成了118项整改工作,取得了一定的成效。东亚在2021年以来从未发生一起报送监管的事件。在2022年,我们的信息科技监管评级得分为71分,评级为3A,较2021年提高了1.5分,2021年是3B,目前我们整个科技风险的评分是在外资行排名第一位。所以我们是从一个坑里面爬到外资行的第一位,我想说在一个大的背景下,东亚通过自身的努力做出一些改变,希望我们今天分享的案例能对在座的同行们有一些启发。

组织结构及动员

在2020年我们出现了很多的生产事件之后,2021年引入了IBM的咨询,进行为期四个月入场调研咨询,对10位领导进行访谈,对13套A类系统进行调研,涉及到13个之前发生过高中级别的事件,也对70多位技术骨干进行了访谈。

项目范围

为此在IBM调研帮助之下,以及我们内部人员的共同努力,制定了三年规划:第一年快速改进,第二年踏实基础,第三年持续完善。覆盖了三大领域九个方面,一共118项改进措施,涉及到系统建设、基础架构建设及运维建设。

我们项目也得到了管理层的大力支持,从香港母行拨备了巨大的金额支持项目的开展,整个资讯科技处调集了各个部门的一把手参与到项目中来,包括研发中心、数据中心、架构及数据平台部、质量管理等各个条线,也得到了科技风险管理,解决二道、三道大力的支持。我们也得到了采购管理方面的支持,同时这个项目也引起了香港金融管理局的关注,我们也会把项目执行情况和香港监管局进行汇报和同步。

整体进度

在2021年我们快速改进,完成了41项改进任务,其中有8项EOS的产品快速替换,16项制度规范类任务完善,搭建了自动化平台,对A、B+类系统搭建了系统应用监控,2021年我们做了最着急、最紧迫、最容易上手的制度、设备的替换。

2022年,整个项目全面铺开了,2022年克服了疫情的影响,整个项目开展,在此之后除了整体上有IBM的咨询,在具体每一个分项上也找了很多行业资深专业的机构进行调研。包括灾备策略咨询、网络架构咨询,找的是华讯,性能测试、安全运营、P处理优化分析、整体架构方面也专门找了专业的机构进行咨询和规划。2022年完成了8个工具的升级,很重要的一项是SO项目的招标和实施规划,SO项目是外包人员,补充了运维人员人力不足的情况,这也是后续五年达的人力项目。我们继续在制度流程、培训、灾备、EOS等方面进一步加强。

2023年12月,整个项目全面收官,完成了既定的目标。就是EOS的设备降低到了10%以内,A类以上系统灾备全面进行了自动化演练。之前我们有很多的系统只有13个A类系统,7个进行过实际的灾备演练,我们按照监管的要求,三年所有的系统都进行过自动化的演练。同时网络架构完成了重大的调整,生产区进行了建立,办公测试区进行了分离,同时搭建了全新的监控体系,也搭建了全新的运维体系部署,实现了三年来没有重大生产事件的目标。这是我们整体项目的回顾。

02
主要成果

下面结合具体某一个板块展开说一下,我们在具体的领域里开展的工作和内容。

支撑架构优化

首先架构领域,我们项目启动的相对比较晚,因为当时引入新的架构领导,架构领导来了之后,对架构开展现状深入的分析,覆盖了应用系统,机房、网络、存储、安全、数据库等多个维度提出19项改进意见。我们也进行了架构规划,当时也考虑了是否响应市场的热点,部署私有云,或者混合云。但综合评估下来,这方面的费用可能会比我们按照原有传统的机房运营还要大,同时带来的风险也很大。我们当时评估用云的方案是比较保守的,即使在很保守的情况下去估计的话,这个费用也和继续用传统的机房成本不相上下的,所以这个暂时没有考虑。第三方面我们架构的标准明确。

通过以上分析从三个方面进行改造,首先在应用系统改造方面,应用耦合进行了解耦,因为也通过梳理发现有一些系统里面存在着系统耦合的情况,例如OCR系统和对公系统进行了拆分,ATM系统和FRC系统拆分独立运营,单点进行了改造,针对生产系统没有按照架构要求来的,存在单点的情况全面进行梳理,作为整改的重点。第二是企业级架构的改造,这里面有两个重要的平台,企业服务总线和数据总线,企业服务总线实现了对服务进行静态管理,涵盖了服务的申请、注册、上线、推移全过程。监控平台在服务运行时进行了监控的能力,并且产生质量报告,就是我们的服务从他上线前到运行过程中都有全面的掌控。

数据总线方面,通过数据总线,集成上游各个元数据纳入数据管控,识别和管理系统间文件的接口交互,形成数据流量的地图,把整个数据的标准进行标准化。在底层方面我们也引入了分布式数据库TD-SQL和调动工具MOIA,降低使用的成本。

1、企业服务总线优化

企业服务总线方面,接入了72个系统,对1080个服务进行接入,同时对这些服务的注册、申请、上线、推移全过程进行监控,以往这些信息都分散的,可能也存在着服务、重复建设,有些失效的服务也没有做及时清理的情况,就不会再出现。服务在线监控,实现了对服务响应的水平、服务有效性。成功率低于99%的服务的数量清零,服务的质量得到了提升,响应时间大于3秒也降低,整体系统服务也得到了监控。

2、数据交换平台

数据交换平台,建立了数据交换平台的标准规范,统一管理和监控数据规范,在2022年4月份投产,11月份全行数据入湖,2023年7月份完成全行数据SFTP的迁移,解决上下数据一致的问题。我们也节约了系统对接的成本,提升了数据使用的效率,整体的性能也得到了提升,报送的质量也得到了提高。这是在企业及架构上做的两块重要内容,这块当时大家也是没有决心是做不了这样巨大的事情,所以这块也是得到了行领导、管理部门大力支持,所以下定决心做了这两套系统,并且以后的系统接入都要按照我们行里统一的企业级标准进行建设。

运行能力治理

第二大块是运行能力治理方面,主要是解决系统存在的非功能缺陷方面的问题,从制度上快速规范NFR的管理要求,确定SDLC,列入绩效考核的指标等等。大力开展压力测试、性能优化等等,解决很多系统上存在的不稳定性,支持的高并发等等的能力。我们也对P处理事件进行了解决,因为P处理事件在以往对事件进行分析的时候,有将近一半的问题都是P处理事件,我们进一步分析上面可能是数据质量的问题,也可能是不合理的作业问题,我们都逐一进行分析解决,成功把处理的问题降到了50%以下,P处理的时间大大压缩,保障了数据报送的时效性。

第三大块讲一下安全。安全也是这个项目中非常重要的一个板块,也是相对比较独立成体系的板块。我们在整个项目里面,包含了安全运营平台建设,对标香港母行,搭建了安全运营中心,聘请了安全咨询的机构,进行了7×24小时安全运营服务,他们持续对我们从网络安全、系统应用安全方面进行监控。同时完善了安全信息和事件管理平台,通过集中管理各个系统扫描发现的安全问题进行检测,安全事件,同时对潜在的安全威胁进行分析,这是我们搭建的统一安全运营平台。

研发全流程中我们注意安全问题的灌输,架构上建立安全模板,特别对于非标软件的安全、开源软件的引入做了规范,加了安全的审核的要求和测试。我们广泛开展安全扫描,利用工具,2023年开展了503次外部安全扫描,还开展了互联网边界渗透性测试,还搭建了数据防泄漏的系统,一方面解决邮件DLP、EOS的问题,也部署了终端及WEB端数据防泄漏的替换。我们也搭建了主机防入侵的系统,整个覆盖了从整体到局部,从研发过程到运行,全面的一套安全体系,在我们项目当中也得到了完善。

运维流程改进 问题管理强化

运维流程的改进和问题管理的强化,这块是我们非常重要,非常见功夫的过程。我们2021年开始没有发生过高等级的事件,每天早上开晨会,对之前系统运行发生的生产事件逐一进行分析,周四还会对遗留的问题进行跟进、解决、分析。所以每一天我们对每一个事件都会去很深刻的分析根本原因,并且举一反三,制定长效机制等等。把我们整个生产系统上可能存在的一点一点的缺陷、不足,进行弥补,所以这是我们以往相对比较缺失的一块,这块我们会有QA、研发、运维每天早上大家上班第一件事情就是开晨会,对线上的问题进行分析。大家通过这样的机制,以及前面硬件的功夫,这是一个软件的功夫。

我们进一步完善故障检查手册和应急手册,通过日常演练缩短应急处置的时间,执行变更的时候减少人为的失误,在用户上线变更之后立即进行全功能验证,将故障解决在萌芽阶段。

EOS产品更新

接下来是EOS的产品更新,东亚的系统在2020年之前不管是硬件设备、网络设备、系统维保都存在EOS的情况,所以造成很多的生产事件,所以这方面投入巨大的资金进行EOS的替换。包括系统、验签服务器、加密机、存储等等,也建立了长效机制,我们EOS率降低10%以下,原来最高有60%的设备超过EOS,到后面10%的目标。 

灾备体系完善

灾备体系也进行了完善,购入了灾备自动化平台,2021年进行了三个系统,2022年三个系统,2023年七个系统灾备自动化演练。也完善了应急预案和灾备策略、灾备管理规范,从整体上来说,灾备自动化工具的引入使我们切换到灾备时间缩短了75%,减少了60%的人员操作,这是我们在2023年之前,目前我们还在结合站点切换。我们银行也发生过站在机崩塌的情况,我们后续还会再研究站点机切换的方案。

网络架构优化

网络方面也做了巨大的改进,包括EOS的设备,也做了整合。核心系统有单独的生产区,其他的系统又在一个生产区,所以两个生产区之间的交互带来很大的不便,我们将所有的生产区进行了融合,同时将开发、测试生产区进行了分离,存储区和生产区也进行了分离。在分行网络进行了三方面的改造,以往的分行有三条专线并成两条,有的是办公,有的测试,有的是电话,我们并成两条路。同时网络设备因为历时时间比较长,涉及到多个品牌,所以我们为了统一品牌,便于维护,进行了统一的采购、替换,网关也进行了下移,降低了操作风险,以便于我们去布局、操作,响应局部的风险。也建立了完整全链路的网络监控,开展了7×24小时的监控,也重新采购了CA证书的部署,这是在网络方面做的工作。

运维工具提升

1、SO

运维工具提升方面,我们也引入了国内知名的一家大的外部服务公司进行人力支持的工作,在这个项目当中,我们采购了统一的监控工具,集成了所有的监控,进行统一的展示。监控全面覆盖,我们统一监控平台和告警平台进行自动关联,能够自动优化告警的信息,提升处置效率。平均节约了每一件事件减少了5分钟,ITSM、CMDB平台支持事件管理、问题管理、变更管理、知识管理等核心运维流程之间的有效管理联动。ITSM联动即时待办通知,信息触达审批时效提升70%。标准化和合规性上落地了88项常规运维操作规范纳入到知识库,新员工上岗培训速度提高了50%。基线检测报告功能启用,100%配置合规。自动化运维,实现了56个自动化运维场景技术验证,提高了运维效率。CMDB方面有字段录入比较痛苦、准确性不一致的困难,我们也采用了自动化采集的方式,核心字段82%通过自动化采集,全量字段28%自动采集。

2、监控体系

统一的监控体系覆盖基础层、平台层、应用层、用户体验层、业务流程,并且更新了统一的监控大屏。在此之外,我们也进一步丰富了监控的工具,包括网络监控中心的建设,开展7×24小时的值班,我们进行全链路抓包的分析,完善了15000的备份,没有监控管理的也进行了完善,也采用了退一的日志收集平台。

03
总结归纳

风险状态变化

总体上在2023年底我们回顾之前提到的6个高风险和53个中风险都得到了解决,并且跟进制定了长效的机制。回顾这三年的工作,可以总结持续,整个东亚的这套运维体系可以说聚焦于三个生产域进行了优化,完善了五重保障体系。

信息系统运行体系

三个生产域是系统层面,通过健壮性、压力测试、批处理、性能优化、应用解耦方面进行优化。架构治理对数据总线、服务总线、调度工具等等进行处理。基础建设在合理的网络分区、完整的灾备体系、热备部署、EOS设备替换。同时完善五重保障,在整个体系当中有三个新,一个是理念新,因为我们这个也是和IBM多家咨询公司,集合了行业先进、成熟的智慧结合的方案,各家的方案结合到这里,可以说理念是比较新的,技术新,在整个体系当中基本上把能更新换代的监控工具、运维工具、安全工具都进行了升级。设备新,EOS的设备从原来6、70%降低到10%,所以50%以上的设备都是新的,我们是三大生产域、五重保障,理念新、技术新、设备新的运维体系。

项目收益

带来的价值更全面,整个IT体系进行全面的优化,弥补了以往IT管理上的空白和盲点,很多监控、非功能性上的关注度等等,弥补了以往很多这方面的缺失。也新增了日志管理平台、备份监控平台、网络监控等等。同时也更敏锐,通过自动化的监控报警,能够及时发现,快速响应这些事情。推动ITSM、CMDB的联动,能够快速缩短事件响应的时间,批处理时长缩短50%,通过自动化运维,通过工具、系统的实施,提高敏锐性。我们的系统更健壮,包括灾备系统的完善、热备的部署、健壮性测试和压力测试、问题的优化,高并发和异常情况下的系统稳定性的支持更健壮、更安全,我们是一整套安全体系的建设,也更精进,包括数据库使用的成本降低30%以上。数据交换平台降低整体的对接成本,同时在这个项目当中,我们实现了不可见的状态进行数字化的展现,以往很多监控的数字、批处理的数字、交易量的数字等等,都是离散的,或者以往不关注的都能够通过数字化呈现出来,并且通过各个系统有效的串联起来,形成有效的信息。通过数据推动更高能更智能稳定的运行,知道实现了运行体系的数字化转型,这就是数字化转型的案例,这也是金融业高质量发展的案例。

我们通过这个项目,能够保障东亚系统对外服务的稳定性,提升服务的质量,提高问题发现处理的能力,所以这不仅是数字化转型,也是金融业高质量发展的案例。

以上是我今天主要想跟大家分享的东亚运行能力提升的项目,希望通过今天的分享,能够在金融业高质量发展,提高服务质量这样的大背景下,给各位同行一些启发。同时我们也一直心存敬畏的,因为做生产运维的,我们现在依然每周都会有二三十项的变更、发布一直在变化,我们如何保证这些变化的情况下生产依然稳定,所以我们一直保持着敬畏之心。我们也向同业学习,东亚虽然在国内的外资行里面看上去做的还可以,但对标行内先进的公司我们还有很长的路要走、很多的工作要做,所以我们一直保持学习的心态。

希望有机会跟大家进一步的沟通交流。这是我今天跟大家分享的内容,谢谢大家!


扫一扫微信二维码

随时了解信息侠微报资讯


扫一扫手机端二维码

随时了解信息侠微报资讯

Copyright @ 2018-2019 信息侠一站式数字化转型交流分享平台  版权所有 皖ICP备19006839号-1

上海申馥文化传媒有限公司

安徽申馥商务咨询有限公司

安徽申馥企业服务有限公司

地址:安徽合肥望江西路西湖国际广场D座2345室   网址:www.xinxixia.cn

电话:021-34121111     0551-64388008


友情链接: 安徽省经济和信息化厅 |  江苏省经济和信息化厅  |  浙江省经济和信息化厅  |  上海市经济和信息化委员会  |  四川省经济和信息化厅 |  中华人民共和国工业和信息化部 |  小牛网络 |