金融行业不同 AI 应用阶段基于 IBM AI 参考架构的最佳实践
本文分析了人工智能在金融行业的应用机会和挑战,并介绍了IBM AI 参考架构在不同AI应用阶段的金融行业案例,为目前正在探索和实践更加个性化与智能化服务的金融机构提供参考。
一、人工智能在金融行业的应用机会
近些年随着互联网对各行业的改造(或者说数字化转型),传统金融机构受到很大冲击。但是,大数据分析和人工智能等新技术的发展,也使得金融行业客户能够重获逆袭的可能。因为,对于金融行业来说,在过去几十年的发展中沉淀了巨量的可信数据,比如各类交易数据、市场数据、客户信息、票据影像等等,这些都是数据时代最宝贵的资源。以前限于处理能力,对于非结构化数据的利用十分有限,主要是为了满足各种合规性要求进行备份存档;如今随着计算硬件(如GPU和服务器集群)、大数据分析和管理技术、以及神经网络算法的发展,我们能够进行反复利用这些宝贵的数据资源来更精准地识别客户、更深入的洞察市场、更科学地设计产品、更有效地防范风险、更精细地营销管理。
目前人工智能在金融业的应用主要集中在量化交易、智能投顾,智能客服和生物身份识别等领域。除了当前比较普遍的自然语言处理和图像视频识别类应用,在风险与交易管理这种对复杂数据的处理方面,人工智能的应用更将大幅降低人力成本,并显著提升金融风控和业务处理的能力,为用户创造更高业务价值。
二、人工智能应用的特点及其当前面临的主要挑战
如果说传统的计算机程序是由人来定义执行逻辑,传统的统计分析是由人根据经验来设定各种规则模型,更多依赖于专家的经验和判断,是“人主导”的;新一代的人工智能(AI)应用可以通过数据反复训练学习来自动地找到适应的规则和逻辑,更多依赖于数据,或者说是“数据主导”的。因此,对于AI应用来说,不仅仅需要巨大的计算能力来进行建模和推理,更需要强大的数据管理能力来满足数据收集、整理、高速访问和安全性的要求。从数据收集、数据准备、建模优化到推理应用,然后在推理应用中产生新的数据来不断优化现有模型,最终形成一个闭环来适应应用需求的变化并不断提高模型的准确度,整个AI应用的流程是“数据驱动的” ,如下图所示。
对于AI的用户来说,在应用导入的不同阶段,也会面临不同的问题。在刚开始的“试验”阶段,更多的是人员经验和应用的可落地性(如模型的效率和准确性);当进入到“生产”阶段,随着应用规模和数据量的增加,可扩展性和数据管理能力成为了主要瓶颈;而当应用规模进一步”扩展”时,需要利用各种数据分析工具来最大化利用数据资产以产生价值,数据平台和应用平台的“多租户”支持能力又成了关键。
对于金融行业客户来说,当前普遍面临以下三个主要挑战:
人员效率
AI相关技术人员供不应求,人力成本水涨船高,需要用更少的人工和更短的时间来完成更多、更高质量的应用模型;
数据效率
AI应用的数据量平均是传统型分析应用的八到十倍,需要优化现有数据存储和访问架构以满足新的应用需求;
资源效率
GPU和异构环境带来更高的复杂性,需要简化集群管理和应用调度,共享并充分利用宝贵的系统资源;
三、IBM AI 参考架构
为此,对于需要自建AI基础架构的用户,IBM推出了“IBMAI参考架构”,提供了一个开放的、可扩展的AI平台框架解决方案来满足客户不同应用、不同导入阶段的AI需求,并可和客户现有的基础架构进行整合来减少额外的管理开销。
整个参考架构分为三个层次。
1、应用和工具层:
通过开放接口支持各种不同开源或商用工具软件,用户可以在共享的计算和数据平台上根据应用需求灵活选用所需的工具来实现AI应用,大大提高数据资源和系统资源的利用率,同时满足不断变化发展的应用需求。
2、深度学习平台层:
通过Spectrum Conductor Deep Learning Impact(以下简称为DLI)整合多种开放的框架和函数库,提供统一的应用门户和流程平台,并为数据准备、模型设计与调优、模型部署等提供智能化的操作和运行平台。DLI可以充分利用分布式的集群架构,让数据科学家能够同时运行多项应用流程,迅速获取、转换、训练和迭代数据。
Spectrum Conductor强大的分布式计算和调度能力,可以确保提供应用所需的性能和扩展能力。通过IBM Spectrum Conductor高可用、多租户的优势,可支持各种多集群、或多云的部署环境,构建共享的企业级AI环境,部署和管理各种现代化的计算框架和服务,例如 Spark、Anaconda、TensorFlow、Caffe、MongoDB 和 Cassandra等等。在提供端到端的安全性之外,还可提供集中式管理和监控。
整个深度学习平台可提供的支持包括:
在许多运行多种模型的数据科学家之间动态共享服务器资源,实现多租户、提高利用率和 ROI;
弹性的资源分配,可在不中断培训的情况下将资源添加到运行时的模型中,并在发生服务器或 GPU 故障时提供复原能力;
分布式数据摄取、转换和训练,因此可以在服务器集群中并行处理作业,有助于缩短处理数据的时间;
分布式训练架构,无须更改代码,即可并行运行大多数AI应用程序;
可视化训练和调整,在训练过程中监控模型的准确性,如果不能拟合,或者准确性较低,则会进行调整或终止运行;
超参数搜索和优化,在训练运行过程中利用基于建议的逻辑提高模型准确性;
针对深度学习框架和 Spark 基础架构的生命周期支持;
端到端的安全性,满足企业级环境部署的需要;
3、数据层:
通过Spectrum Scale和Cloud Object Storage结合,前者可以为不同应用提供统一的、可扩展的高性能数据访问,最高提供TB/s级别的数据带宽,在满足性能要求的同时实现和各种现有应用系统的对接;后者可以为数据收集和长期保留提供一个易于扩展、永远在线、安全可靠的存储平台,支持EB级的数据存储。这样,企业可以构建统一的非结构化数据资源池,实现“非结构化数据即服务”。
对IT人员来说,这一参考架构可以提供一个易于管理、易于扩展、高度安全的企业级AI基础设施,在三个层次均可提供可与现有基础架构整合的管理工具,实现和传统平台的对接;对数据科学家来说,可以提供一个开放的深度学习即服务平台,可以根据应用需求扩张算法包或整合新的应用框架,满足不同AI工具(包括开源框架和商业软件)的使用需求。
四、IBM AI 参考架构在不同AI应用阶段的金融行业客户案例
下面我们看下这一架构能够如何帮助到不同AI应用阶段的金融行业用户。
国内某一处于试验阶段的金融行业用户,需要通过深度学习的方法,根据前1000分钟交易记录和其它相关参数来预测期货指数的涨跌。该用户采用了基于开源工具TensorFlow的递归神经网络(LSTM)进行序列预测,但是通过人工进行超参数调整的方式,始终无法提高模型的准确度,预测正确率始终徘徊在50% 多,不具有实用价值。采用IBM AI参考架构,基于Spectrum Conductor DLI深度学习平台,该用户成功地将模型的预测准确率提高到了80%以上,为进一步实现生产级应用打下了良好基础。
下面我们看下该用户是如何实现这一应用的。
首先,需要收集和整理过去几年的分钟级交易数据,包括高、开、低、收、持有量、交易量等,将输入数据和标签数据以CSV的格式导入Spectrum Conductor DLI:
Spectrum Conductor DLI可以自动的根据输入数据准备好模型训练所需要的训练数据集、测试数据集和验证数据集,放到指定的目录中。针对不同需要,Spectrum Conductor DLI可以根据数据维度和网络输入层来调整数据集大小,并根据所选择的深度学习框架选择数据分布性算法,并行地进行数据转换。
和使用开源工具相比,Spectrum Conductor DLI可以帮助用户简单,快捷地完成数据准备工作。
而后,在利用这些数据进行训练的过程中,通过Spectrum Conductor DLI内置的可视化训练功能(MAO,Monitoring, Advisor and Optimizer),发现模型的损失(Loss)值下降得很慢,说明这一模型的超参数组合没有得到优化,模型的准确率不高,建议应该提前终止。
用户可以利用Spectrum Conductor DLI的超参数自动优化功能,自动地对模型进行超参数优化:
Spectrum Conductor DLI 可以并行地在集群上同时执行大量的搜索任务,充分利用可用的计算资源来得到推荐的超参数组合:
利用推荐的超参数组合进行训练,模型立刻得到了很大的改善,损失(Loss)值在迭代过程中快速减小,说明预测准确率得到大幅提升。
最后,用户可以将训练好的深度学习模型应用到生产环境。使用Spectrum Conductor DLI,仅需要在应用门户上点击几下就能轻松而高效的实现这一步骤,并将推理模型作为Spectrum Conductor集群中的一项服务实现统一管理。基于Spectrum Conductor强大的调度能力、弹性扩展和高效的资源管理功能,深度学习应用能够流畅且高效地服务于最终用户的推理请求。
另外还有一个案例,是国内某一商业银行用户,希望通过AI实现发票文字识别与OCR输出的自动纠正。当前该用户使用的是 IBM OCR 解决方案 (DATACAP),但是传统的OCR 无法处理模糊的文本(如划线,无复选框等)和质量不佳的打印文本,同时无法自动纠正输出文本的拼写或语义错误。该用户需要大量的人工操作来进行反复核对,同时仍然存在一定程度的失误率。
采用深度学习的方法,可以提高对模糊文本的识别能力,同时结合基于拼写检查和语句理解的智能化处理,可以大幅度提高识别准确率,为客户节约大量成本。但是,若使用传统的深度学习解决方案来实现这个应用,数据科学家的大部分时间会用在导入、转换和准备训练数据上,同时,多项不同类型深度学习模型的开发也带来更高的复杂性。通过DLI内建的工作流和数据转换工具,大大缩短了准备数据的时间;由于DLI整合了多种开放的工具和应用框架,可以方便地提供该应用所需的图像识别和自然语言处理(NLP)工具;更重要的是,DLI的分布式架构可同时运行多项任务,缩短导入和执行模型转换(transformation)所需的时间,数据科学家可将更多时间用在训练和优化模型上以获得所期望的结果。
在以上两个案例中,DLI提供的丰富的工具、自动化功能和工作流,可以大幅度改善深度学习的应用效率,用更少的人工、在更短的时间里完成准确率更高的模型。
对于生产阶段的AI用户,往往拥有具有丰富AI应用经验的技术团队,以及具有一定规模的AI应用部署。随着业务模型的改变和数据变化,将不断地进行持续训练和增量训练,需要及时地将经过整理的数据应用到模型训练中,同时确保当集群规模扩大时数据访问速度不会成为整体的性能瓶颈。对这个阶段的用户来说,数据效率和安全性是关键。
比如,某一保险公司,在过去几年大数据应用的过程中构建了具有一定规模的数据湖用于Hadoop分析应用,当前又采用了最新的深度学习框架来用于如智能核保和智能定损等业务。如何能有效地利用现有的数据资源来为AI应用服务,避免因多份数据复制造成的成本、效率和安全性问题,是客户需要解决的首要问题。采用IBM AI参考架构,构建如下图所示的应用平台,通过IBM Spectrum Scale软件的多数据访问接口支持能力,不仅可以实现面向大数据分析和AI应用的统一数据资源平台,实现非结构化数据的统一管理;而且Spectrum Scale的并行性能扩展能力,也可以提供不断增加的应用所需的高速数据访问;得益于软件定义平台的开放性,用户可以根据需求灵活扩展异构的存储硬件环境,从而降低总体成本。
对于扩展阶段的AI用户,需要不断拓展数据资源和应用种类来获得更高价值,因此平台的多租户能力和可扩展性是这一阶段的关键。某全球领先的商业银行,通过Spectrum Computing软件定义计算平台,实现了全球范围的高性能数据分析即服务,为不同应用部门提供了高性能的自服务环境来支持各种实时/随机查询/分析应用、批处理报告和深度学习应用。IBM AI参考架构的多租户能力,使得计算和存储能力均可独立自由扩展,不仅可同时支持Spark、批处理、以及包括深度学习在内的各种微服务应用框架,而且也可以支持多个业务部门和用户动态共享计算资源并进行SLA管理,提高利用率和投资回报。
五、结语
数据时代已经到来。人工智能(或者说认知能力)将成为未来金融机构、金融科技公司们的核心竞争力,使得金融服务更加个性化与智能化。希望IBM AI 参考架构能够帮助各位金融行业用户踏上AI之旅,实现更高价值。
附录 IBM相关软件资料
IBM Spectrum Computing:加速并简化 AI、数据分析和 HPC
http://www.ibm.com/cn-zh/it-infrastructure/spectrum-computing
http://www.ibm.com/cn-zh/marketplace/spectrum-conductor-deep-learning-impact
IBM Spectrum Scale:针对高性能计算、大数据分析等的高级非结构化数据存储管理
http://www.ibm.com/cn-zh/marketplace/scale-out-file-and-object-storage
IBM Cloud Object Storage:业界领先的软件定义对象存储解决方案
http://www.ibm.com/cn-zh/marketplace/cloud-object-storage-system
作者:周立旸,现任IBM系统部软件定义与云对象存储解决方案大中华区业务总监,在IBM的过去近20年间参与并领导了国内政府、金融、企业等多个领域的重大项目,对网格计算、高性能计算与大数据分析,动态基础架构、云计算、软件定义等分布式系统解决方案及应用具备丰富的经验。
长按二维码关注公众号