查看原文
其他

当代金融家•封面文章|光大证券晏强等:智能运维在证券行业的应用、价值及不足

晏 强等 当代金融家 2022-05-10

晏强   光大证券股份有限公司信息技术总部董事总经理  


相比传统运维方式,智能运维能够实现更细粒度、更高精度的异常发现,特别是一些潜在的业务风险、系统瓶颈,能够实现更高效、更准确的定位故障根因
来源 | 《当代金融家》杂志2021年第7期原题 | 《智能运维为金融科技高质量发展保驾护航》



伴随近些年人工智能技术的蓬勃发展与推广使用,IT运维领域也逐渐展现新的演进趋势,智能运维逐渐成为各金融企业应对新业态、发展金融科技的强有力抓手之一。IT运维即为“IT Operations”,对企业IT系统与服务的可用性和可靠性负责,其维护对象包括计算机硬件和软件系统,利用技术手段结合管理流程对它们进行监控、调度、故障处理与恢复等操作,保障业务系统稳定、安全、高效运行。IT运维对于企业的业务经营活动极为关键,是数字经济的核心技术之一,是保障各行各业稳定高效运转的基石。


尽管目前智能运维场景的落地应用还受到各种因素的影响,但随着智能运维在金融行业的深入探索和发展,未来更多单点场景的突破应用,必将构成更加强劲的多场景联动合力,进一步降低信息系统故障事件的发生概率和处置成本,不断夯实信息系统的技术保障,促进金融科技的广阔应用,加快金融机构数字化转型,为资本市场的高质量发展奠定坚实的技术基石。


1

什么是智能运维


智能运维,参照2016年Gartner的定义,AIOps即Artificial Intelligence for IT Operations,旨在通过人工智能技术结合大数据处理能力,对海量、异构、多源的运维数据进行挖掘分析,提供高效、准确的分析决策能力,用以提升运维工作效率和质量。


相比传统运维方式,智能运维手段以机器学习算法和大数据处理能力为基础,能够处理的数据种类更加丰富、数据量更大,可以从海量数据中捕捉IT系统异常痕迹和分析可能的故障成因,并提供准确的故障处理决策建议,帮助运维人员及早发现、定位和处理问题,降低平均故障修复时间,提升系统平均无故障运行时间。


理论上,智能运维领域包含了广泛的运维场景,基于机器学习算法和大数据技术,结合运维知识和自动化手段,智能运维可以提供深入、主动的洞察和见解,如故障发现、故障定位、决策推荐、故障修复甚至故障自愈。但限于数据范围、数据质量以及算法研究水平,目前智能运维场景落地主要集中在一些具备明确边界范围、充足数据基础和较高数据质量的特定场景,如异常检测和趋势预测。这与人工智能场景在业务领域的应用情况十分相似。


从具体落地实施情况看,金融行业在智能运维领域发力较早、投入较大,特别是银行、证券等行业,目前已能够在特定场景中发挥作用。


2

智能运维在证券行业的应用


从IT技术的历史发展路线来看,由于其自身需求强烈、资源投入充足、技术储备深厚等特点,金融行业一直处于IT技术发展的第一梯队。证券行业由于交易时段集中、资金规模巨大的业务特点,对IT系统的可用性和响应率的要求往往更高、容忍度更低。同时,交易时段集中所带来的海量交易数据的集中处理压力,也使券商的IT系统运维工作面临巨大挑战。


光大证券于2017年开始进行智能运维相关研究,先后升级了大数据平台、完善了日志解析、引进了NPM、重构了CMDB、建了统一的消息总线,经过一系列运维工具、平台升级、数据准备,2018年智能运维平台顺利完成投产。


结合现有算法成熟度、日常实际运维工作中的痛点,以及证券行业对可用性、连续性要求较高的特点,平台建设围绕异常发现、定位、处置展开。首先采用实时动态基线对指标实时监测,该技术主要用于解决传统固定阈值或简单的同环比不准确以及设置复杂的问题,核心技术包括无监督异常检测算法、数据实时计算。目前已经完成集中交易、融资融券、快速订单、网上交易等核心交易系统共计1.7万个业务指标(功能号的成功率、响应率、响应时间、调用次以及调用队列等)。其次是对日志异常进行检测,日志数据中往往隐藏着有价值的信息,甚至是异常的根本原因,如果能够对日志进行主动、实时的异常检测,提前发现问题,甚至可以避免更大规模的故障。由于日志量大、种类繁多,基于关键字的异常检测易带来告警风暴、误报等,通过NLP提取日志模板(模式),转换为指标检测问题,同时支持传统关键字以及规则的设置,可以很好地集成运维经验以及AI优势。光大证券通过对操作系统日志、数据库日志、主要模块的运行日志进行实时监测,多次发现了传统应用监控没有发现的异常,取得了比较好的效果。


异常定位领域主要包括业务层面的业务明细多维度定位以及基础层面的基础组件指标定位。其中,业务明细多维定位主要是通过算法自动遍历潜在业务维度组合,如交易量、响应时间,其背后每一笔交易往往存在多个维度属性(客户号、返回码、客户端版本、线路等),出现问题时快速判断异常程度最高的维度属性组合往往能帮助管理员迅速缩小排障范围,进而提升故障处置效率。光大证券通过网络解包或者日志解析的方式对交易日志进行解析,可以在1分钟内完成17个维度的分析,给出可能的异常维度(组合)。基础组件指标定位则是在异常发现之后,自动关联CMDB对相关的基础设施组件的指标进行分析,利用聚类、时序检测等算法快速排查存在异常波动的机器指标,有效提升故障排查效率,目前平台已接入近5万个机器指标,通常在1分钟内可以给出结果。


在异常处置方面,光大证券建设了基于NLP技术的智能服务台,其核心分别为知识库和智能问答引擎。知识库构建的关键流程包括:知识点的收集、问题梳理和问法标注、词库梳理等;智能问答引擎的关键包括:模型训练、模型优化。平台存储了多年的运维经验以及常见故障的解决方法,可以自动生成事件工单到ITSM平台,同时推送给相关维护人员,并基于知识库给出可能的修复方案。


最新统计数据显示,近两个月平台共计发出近200次异常告警,告警的准确率以及维度定位的准确率均达到近90%,其中有多次是其他监控没有发现的异常。


3

智能运维的应用价值与不足


相比传统运维方式,在明确的应用场景下,智能运维在数据分析效率、分析结论准确性、数据处理广度等方面具有明显优势,能够实现更细粒度、更高精度的异常发现,特别是一些潜在的业务风险、系统瓶颈,能够实现更加高效、更加准确的定位故障根因。


总体来看,当前人工智能技术在各领域内应用场景的发展阶段大致相同,如智能语音助手和无人驾驶,无一不是在特定场景范围内、明确数据条件下具有突出优势,但放在更加开放、模糊的场景中尚不能发挥有效作用。智能运维的发展阶段,按照其成熟度,可以划分为L0至L5的不同阶段。目前智能运维大约处于L2-L3级,既有单点场景的应用,也有多个单点场景的串联,在特定场景中已经体现出相比传统运维的优势,但距离L5的无人值守运维还有很漫长的路要走。


众所周知,数据是算法分析的基础,数据质量的高低直接决定了算法分析结论的有效性高低。智能运维场景的落地效果受到数据范围、数据质量、算法适配水平等诸多因素影响。而当前智能运维更多是对已有数据进行分析从而得出结论,尚不能很好地通过自训练挖掘知识,也从应用场景广度上限制了智能运维的作用。



|   晏强为光大证券股份有限公司信息技术总部董事总经理,杨超为信息技术总部副总经理,吴浩为信息技术总部基础资源团队总监,孙伟为信息技术总部数智化支持团队总监,沈波为信息技术总部资深经理



资本市场监管科技寻踪(上)

文/屈  燕



2020年4月,中国证监会科技监管局正式“营业”。6月,证监会官网更新机关部门一栏,科技局新增入列。科技局由学者型官员姚前领衔,旨在打造一个整合、打通现有各信息资源的资本市场大数据监管系统,掀开了证监会科技监管的新篇章。经过这一系列重大改革后,形成了科技监管局、信息中心、中证数据、中证技术为主体的科技监管工作体系。


10月,科技监管局局长姚前表示,证监会已于7月启动了区域性股权市场区块链登记托管基础设施建设的试点工作,首批确定了北京、上海、江苏、浙江、深圳5个试点地区,目前试点工作进展顺利,各地的区域性市场区块链基建各具特色,证监会负责建设的中央监管链也已初步建成,5个试点地区的地方业务链至9月全部实现与中央监管链的技术联通。


时隔一年后,随着资本市场金融科技发展势头向好,诸多挑战也接踵而至,包括智能化数字化发展还处于早期阶段、新一代信息技术应用可能伴生风险隐患以及金融科技监管还需不断完善等。通过金融科技创新试点,可以极大发挥助力,推动行业机构借助金融科技手段提质增效、探索构建适合金融科技发展的长效监管机制、投资者合法权益保护以及金融风险防范。


由于资本市场监管科技建设任务繁重,行业来稿亦多,为真实全面展示“当前所处位置”,本期组稿将分为上下两期刊登。如姚前局长所要求,期待本期组稿能够促进行业机构真抓实干,积极参与试点工作,打造新型金融基础设施,促进我国资本市场数字化发展。




监管科技

1

基于区块链的OTC衍生品金融基础设施

姚前   中国证监会科技监管局局长
为了支持高效的场外衍生品交易匹配、确认、执行、清算和报告等,需要在现有标准化工作的基础上,进一步构建一个可自动化执行的统一、开放、高效、合规、稳健的场外衍生品基础设施平台,从而实现更高的运行效率、更一致的监管合规、更好的数据质量和市场透明度。
2

深交所:以企业画像辅助智能监管

喻华丽为深圳证券交易所总工程师


企业画像系统并非完全取代监管人员实现自动监管,而是定位于智能监管辅助系统,推动监管由人力为主向人机深度融合的模式转变。


3

上交所:以数据平台赋能智慧监管

王泊   上海证券交易所数字化专业委员会副主任、上交所技术有限责任公司总经理兼CTO


本文回顾分析了上交所在大数据平台建设和数据迁移方面的实践经验,同时分享了推进数字化转型过程中针对数据治理和大数据应用的探索与思考。



监管科技建设

4

App平台驱动下的券商财富管理转型

俞枫为国泰君安证券股份有限公司首席信息官
行业数字化转型背景下,证券公司必须依托金融科技对证券App的技术架构、研发模式进行创新,更好提升新形势下金融服务的普惠性、差异化和服务效率。
5

SM系列商用密码构建证券网上交易安全保障体系

罗黎明为中国银河证券股份有限公司副总裁


以中国银河证券为代表的密码算法试点单位,自主规划、自主设计、自主开发了从算法理论层面到平稳落地应用系统,并在证券生产交易系统上线稳定运行。


6

基于分布式架构的新一代机构交易服务平台

舒宏为东方证券股份有限公司副总裁、首席信息官


基于分布式架构的新一代机构交易服务平台为证券核心交易业务系统从传统集中式架构向新一代分布式架构的转型升级迈出了坚实一步。


7

证券公司集团化大数据服务体系构建及创新应用

李予涛为兴业证券股份有限公司首席信息官
随着金融科技快速发展,金融监管改革持续推进,行业竞争与日俱增的时代背景下,证券公司应加速数字化转型,致力于提高企业经营管理、风险管控、客户差异化服务等能力,构建企业核心竞争力。
8

聚力证券核心交易技术的新一代A5系统

高海明为东吴证券股份有限公司副总裁


第七届证券期货科学技术奖评选结果已正式揭晓,东吴证券与顶点软件联合研发建设的证券新一代交易系统A5荣获二等奖。该奖项是行业科技的权威认证,也是行业官方组织评选的科技类奖项。A5系统获此殊荣,标志着证券IT核心技术迈入全面自主可控的发展新阶段,标志着证券交易系统的创新性变革取得了历史性突破。


9

智能运维为金融科技高质量发展保驾护航

晏强为光大证券股份有限公司信息技术总部董事总经理


相比传统运维方式,智能运维能够实现更细粒度、更高精度的异常发现,特别是一些潜在的业务风险、系统瓶颈,能够实现更高效、更准确的定位故障根因。





您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存