返回首页 > 您现在的位置: 重庆 > 机关事业 > 正文

重庆农商行:新一代智能运维系统

发布日期:2023/3/27 16:04:19 浏览:55

来源时间为:2023-03-24

近年来,随着业务线扩展以及物联网的发展,银行的服务规模和业务系统在不断扩大。与此同时,信息科技系统的应用架构也在快速演进,架构复杂性与日俱增。面对双重挑战,重庆农商行原有运维体系已经捉襟见肘,存在诸多问题。一是运维指标方面,部分重要应用系统缺乏监控、预警指标单一或缺失、预警阈值为固定值;二是预警内容方面,格式未统一、未进行等级划分、预警信息未进行集中收集和处置,易产生预警风暴等。

基于此背景,如何在数字化新形势下打造更为高效、准确、智能的运维体系,是科技运维部门面临的主要问题。在广泛汲取国内外同业成功经验的同时,结合自身科技发展,重庆农村商业银行启动和实施了基于微服务架构的新一代智能运维系统项目。

二、项目方案

新一代智能运维系统旨在解决传统运维系统人工干预多、监控手段单一、无法适应技术快速迭代等问题,打造一个自动化、智能化、可持续升级的全能型运维平台。基于微服务架构,该平台实现了日志统一管理与查询、应用程序自动化部署、一键检查、恢复与切换、自动化变更、交易监测、智能预警、运维工具箱等多种运维场景,形成了应用发布、应用监控、应用告警等十余个能力中心,涵盖了日常运维工作的各个方面,极大地提高了运维人员的工作效率,加快了应用发布的速度,保障了系统和应用的安全稳定运行,为重庆农村商业银行金融科技的持续快速发展奠定了坚实的基础。系统总体架构如图所示。

图1智能运维系统总体架构图

三、创新点

1.主动出击,应用质量拨测

重庆农商行在智能运维系统项目建设过程中敏锐地发现运维系统的智能化不仅体现在对系统、应用的被动监控上,还应主动出击,对应用进行质量拨测。这样就能避免只从服务端视角进行监控,发现内部监控体系显示设备状态正常,但却收到了客户端的报障和投诉的情况。我们通过应用主动拨测技术来模拟各业务环节的访问流程,化被动处置为主动感知,实时洞察客户端存在的各类风险,并进行有效干预。现阶段,我们主要对应用及数据库的健康状态进行拨测,包括基于http协议的RestFul请求,以及基于tcp的心跳指令。下一阶段,计划对重要业务关联系统进行适配改造,结合RPA机器人流程自动化,实现基于业务流程的定制化拨测。例如针对内网应用,通过结合逐段探测与业务画像,快速确定影响业务整体可用性的具体环节;针对外网应用,通过多地区网点主动拨测,模拟域名解析、网络建连和复杂的业务访问,获取终端用户的使用体验。最后,将主动拨测和智能运维相结合,能够实现故障自动定位、服务质量优化、自动化验证等场景,极大地提高运维效率。应用拨测架构如图所示。

图2应用拨测架构图

2.智能巡检,业务安全防护

尽早发现故障、处置风险是智能运维系统建设的目的之一。我行通过融合多维度业务安全指标实现对应用的智能防护,主要包含三个方面:一是交易链路时序分析,对于重要渠道,特别是线上应用系统,通过分析重要交易流程调用链节点、执行步骤和时序,进行针对性的检测和告警,防止不法分子通过系统漏洞,跳过关键性的交易验证逻辑,发生非法交易。例如:开户时跳过人脸识别等。二是用户异常交易检测,针对用户通过编写脚本或程序恶意攻击、非法请求应用接口等场景,为避免应用遭受攻击和数据外泄,系统对单位时间内用户、交易、交易频率等信息进行监控,对于数量异常的交易进行告警。三是敏感交易监控,针对重要交易系统的敏感交易,如开户交易和转账交易等,对线上等特殊渠道进行的交易笔数、交易金额等指标进行监控,防止用户通过系统漏洞进行非法交易。所有的业务安全指标既可自定义固定阈值,也可以基于智能运维系统生成的动态基线,实现智能化业务安全告警。

四、技术实现特点及优势

1.面向云原生,基于微服务架构

本系统在底层依托开源的SpringCloud框架,对搭建在其上的应用按照业务范围划分为十余个能力中心。每个能力中心成为一个高内聚的微服务,能力中心之间是低耦合的组织形态,通过高性能的RestfulAPI进行调用。由此构建智能运维的技术中台和业务中台,在其上持续建设运维门户、可视化展示、自动化操作、智能预警等管理应用,体现中台为上层应用能力提供消费调用的价值,方便了后续功能的扩展以及架构的持续升级。另外,划分的每个微服务可以方便地以容器方式进行部署,采用Kubernetes进行容器编排,能够实现微服务的动态扩容和自动运维。

2.全方位多形式数据采集

本系统支持对数据中心所有的系统和IT设备的各种格式数据进行全面的日志采集,包括但不限于应用系统、主机、网络设备和安全设备的日志采集等,保证日志的连续性、完整性。采集方式支持Agent方式、Syslog方式、API接口方式、脚本上传、SNMP等,支持目录作为对象的采集能力,监听目录下最新的文件,将所有最新的内容上传至本系统,可以读取子目录的日志文件。同时,日志采集过程是准实时的,可以查询到10秒之前产生的最新日志。采集代理Agent具有限速功能和十倍以上压缩传输能力,由平台进行统一的管理,包括安装、升级、报表导出、资源消耗控制等。在日志解析方面,平台支持解析规则库,可通过基于正则表达式的字段解析功能,实现在线预览解析效果。并且利用分布式架构可以实现每秒钟分析百万条日志,每天处理几十TB级的日志量。

3.多功能自动化应用发布

本系统能够实现应用发布全流程的自动化管理,包括程序包下载、备份、更新和一键式部署,可以采用Excel或图形化界面拖拽的方式对部署流程进行编辑,支持串行和并行发布,支持执行前预览,支持完整流程和执行顺序可视化展示,提供部署中对部署流程的终止、暂停、继续的能力,支持接入自动化流水线和私有云,促进了应用运维的标准化实施,加快了应用系统交付速度,降低人工操作风险。同时,平台自带的配置管理数据库,包含了配置项全生命周期信息以及配置项之间的各种关联关系,可自动生成应用关联关系拓扑图,方便运维和开发人员对应用的上下游和数据流向进行把握。

4.基于自适应机器学习的应用预警

本系统梳理各应用系统指标模型,形成标准化的指标拓扑图和指标模板。通过引入AI机器学习,根据历史运行数据建立融合多种异常检测模型,对指标曲线实现高准确率的异常检测,生成各指标动态阈值基线,实现智能预警,并通过邮件、短信等方式将告警信息推送给相关负责人。目前可供融合的算法包括:Ripple、Dtmos、Spider。同时通过建立预警中心,统一收集和处置预警信息,实现了预警压缩降噪。另外,平台根据波动分析、根因量化,能够智能地提供处理建议,有效地提高了问题处理效率。最后,应用预警还提供多种友好的可视化视图,能够方便直观地展示历史告警信息。并且通过日志联动,运维人员可以快速准确定位交易告警产生的位置。

5.基于DevOps的软件开发管理模式

在本系统的开发、测试、部署过程中,团队使用了基于DevOps的软件开发管理模式。DevOps是在敏捷开发模式的基础上,将运维并入进来,是软件开发、运维和质量保证三个部门之间的一体化沟通机制。基于持续集成的软件交付方式,编译、打包、发布、测试等行为能够更高效,更稳定。总之,DevOps使得团队能够对平台的各个微服务能力中心实现快速的开发、测试、部署,提高了平台各微服务模块的交付效率和交付质量,加强了人员之间的沟通协作和对需求的理解实施。

五、项目过程管理

项目各阶段的实施周期。

需求分析和概要设计阶段:2019年7月至2019年8月。

系统详细设计阶段:2019年8月至2019年10月。

系统编码、测试和上线准备阶段:2019年10月至2021年5月。试运行阶段:2021年5月至2021年6月。

推广实施阶段:2021年7月起。

六、运营情况

1.实现了自动化作业代理的统一

系统采用统一的自动化作业代理agent,代替了以往为网络、系统运维需求而开发的单一功能代理,实现了日志采集、指标巡检、应用发布、运维工具箱等各业务模块所需的底层能力,减少了因部署多个agent而导致的服务器性能损耗。目前行内已经部署2159台agent,涵盖150个应用系统,制定了107条定制化日志采集规则,平均每日处理日志量为5.5TB。

2.重要信息系统应用发布自动化

自动化应用发布依据传统流水线操作流程,结合定制化的作业脚本进行优化,实现应用版本发布自动化。自2021年9月上线以来的5个月内,接入的9套业务系统,实现了48次上线。固定的上线流程6个,可实现应用服务器的分批备份上线。应用发布时间由之前的90分钟左右缩短至30分钟之内,除去人工检查上线结果所花费的时间外,自动化发布时间可缩短至15分钟左右,发布效率提升了至少3倍,运行至今所有变更流程全部执行成功,0失败。

3.智能预警实践银行AIOPS

应用智能预警服务通过融合多种机器学习算法生成动态基线,目前支持单指标异常检测类算法6个,单指标预测类算法4个,多指标分析类算法2个,已监控464个指标,涉及13个系统。异常检测准确率96,5分钟内可完成根因定位,速度提升70。平台准确预警因第三方机构重启服务器导致行内支付交易失败的问题,使我行开发人员迅速定位处理问题,并与第三方机构取得联系,尽快恢复服务,避免了用户的投诉,提升了系统的稳定性。

七、项目成效

1.社会效益

符合国家、央行金融科技发展规划,助力银行数字化转型。本系统在金融业的成功落地,为金融科技发展提供了行业知识范本、落地经验与可借鉴的案例,是行业对AIOPS一次成功的实践,具有较大的行业创新意义。

2.经济效益

本系统的建设实现了以统一日志平台、自动化运维平台、应用智能预警平台为技术中台的新一代智能运维系统,建立起重庆农商行统一且全面的智能运维体系,打通了以往各个系统运维信息孤岛,满足了业务系统的稳定性、持续性要求。同时引入AI机器学习,极大地提高了应用发布和运维的效率,有效地降低了运营人力成本。

八、经验总结

新一代智能运维系统的建设并不是一蹴而就的,在建设过程中需要遵循软件工程原理,科学统筹规划,分阶段分系统进行建设和接入。同时它的建设也不是一劳永逸的,需要结合最新技术,吸取最新理念持续优化。随着支撑数字世界的软硬件系统越来越庞大、越来越复杂,运维对智能化的要求就会越来越高。在下一阶段,我们还将继续探索RPA机器人流程自动化和智能运维的结合,以及持续用大量真实数据对AI机器学习算法进行训练和验证,筑牢金融科技技术底座,为银行数字化、智能化转型提供更强的助力!

更多金融科技案例和金融数据智能优秀解决方案,请登录数字金融创新知识服务平台-金科创新社案例库、选型库查看。

最新机关事业

欢迎咨询
返回顶部