才云受邀亮相中国国际科技产业博览会金融论坛:深度学习让金融更智能
作为已经连续举办 19 届的科博会中的重点论坛活动,“2017 中国金融论坛”于 2017 年 6 月 7-8 日在京召开。本次论坛主题为“金融科技创新服务实体经济发展”,重在展示我国金融科技先进成果,传播前沿金融思想理念及促进国内外金融机构交流合作。
据中国银行业协会党委委员、秘书长黄润中介绍,5 月 5 日,央行刚刚成立金融科技委员会,旨在加强金融科技工作的研究规划和统筹协调。可以说,金融科技势不可挡的时代已经到来。
正是看到金融行业的创新需求及渴望拥抱大数据及深度学习等领先技术的迫切心态。才云科技(Caicloud)解决方案和交付总监杜宁携国内首家谷歌级容器化深度学习平台及解决方案亮相本次峰会,并带来才云在金融行业创新的最新实践经验。
才云科技(Caicloud)解决方案和交付总监 杜宁
下面是杜宁的现场演讲实录:
感谢大家今天来参加这个论坛,上午大家都非常辛苦,在讲普惠金融的事情,探讨也非常热烈,后面这二十分钟我希望谈一些比较轻松的话题,这里面会有一些小故事,让大家稍微休息一下。
我今天希望给大家分享一下,刚才提到的大数据,甚至是深度学习,包括才云科技过去在行业实践当中的一些探索。
今天这个议题我想分成四个部分与大家分享,第一部分关于公司的介绍会快速略过;第二部分谈一下现在金融行业的大数据应用面临的一些痛点和难点到底是什么;第三部分我会简单介绍一下才云科技的深度学习平台;第四部分跟大家发散一下,在具体业务场景中会怎样用到深度学习系统。
首先简单介绍下才云科技(Caicloud),这个 Caicloud 的 C.A.I 是怎么来的?我们把 AI 叫做人工智能,C.A.I 是 Cloud AI 的缩写,Caicloud 蕴含了两层含义,一是 Cloud AI,二是 AI Cloud。才云把人工智能放在了云端,让它可以随取随用,就像普惠金融一样,我们把AI (人工智能)也变成了普惠的方式提供出来,让大家去使用,这是 Cloud AI。另外,才云科技利用在AI方面的积累,将云变得更加智能化了,这是 AI Cloud。
过去很多金融企业,经常会想应用大数据,但是实际过程中我们会发现数据的匮乏。为什么会没有数据,实际上有些可能是因为企业对于非常复杂多样海量的数据没有办法通过一种系统,或者一种方式把它用起来。像金融企业里面会有一些历史性的数据,比如用户的账户信息,包括用户的历时交易记录,用户个人信息等,这些都是我们历史过程当中、业务过程当中积累的数据。
那么在实时业务当中,其实也会积累很多的实时数据,比如在网点可能会积累客户的行动路线,网点内部的交易记录,甚至现在有的网点可以实现生物识别而产生数据;在网上银行我们可能会有一些点击操作的数据;在电话银行里面,我们又会有语音的数据。
那这么多海量的、多维度、多种类的数据汇集在一起,怎么让这些数据产生价值?我们需要一个什么样的大数据平台,能够让这些数据产生价值?实际上今天我想跟大家分享一个可能的选项,就是深度学习系统。
其实谈到深度学习,大家并不陌生,AlphaGo 从去年开始到今年风靡一时。在人类和 AlphaGo 对战的历史上,人类只胜过一次,在李世石打败 AlphaGo 这一天晚上,他很早就睡着了,但是 AlphaGo 这一天晚上自己和自己对弈,下了一百多万盘棋,这一天之后,人类再也没有赢过围棋机器人。AlphaGo 就是通过深度学习系统和增强学习系统来构建的一个智能机器人。
还有一个案例是 Google 的无人驾驶汽车,Google 做这件事情是从 2009 年开始,从 2009 到 2016 年的 6-7 年时间,无人驾驶汽车在路上跑了两百多万英里,大概是三百多万公里,在这期间它只发生了 17 次的交通事故,这 17 次交通事故里面,全部都是因为对方车辆,或者驾驶无人汽车的人类驾驶员失误造成的。
所以从这些我们身边的案例来看,深度学习系统已经慢慢进入到我们的生活、企业的工作场景当中。深度学习系统是从 2012 年开始有了一个长足的发展,虽然其诞生的时间已经很长。
ImageNet是一个图像识别库,由华裔教授李飞飞牵头维护,它用来检测图像识别算法的准确率或者错误率。 2012 年之前,传统的人工智能算法只能对这个图像识别的错误率做到 26%,但是 2012 年当年的这个竞赛,深度学习系统构建的模型已经可以做到 16%,这在当时是非常轰动的事件,在之后的四年,每年都会以平均 3-4%的速度下降,目前深度学习系统对于这种图像的识别的场景,它的错误率现在可以做到 3% 左右,但是我们人类的平均水平是 5.1%左右。
过去总在谈人工智能、机器学习、深度学习,这三者之间是什么样的关系,今天也想跟大家聊一聊,简单说其实就是一个很普通的包含关系,那它们三者有什么样的区别呢?
人工智能和机器学习相对比的话,人工智能主要采用规则,通过历史人为的经验设定一些规则,新的数据进来的时候,利用这些规则来判断并预测未来的结果。
而当数据量很大,数据维度很多的时候,设定规则就不会特别有效,而且人为的专业经验有的时候也会有疏漏。
我举个简单的例子,我跟小明去约会,他经常迟到,以前利用规则来判断,比如我跟他约会过五次,迟到过一次,我会判断,五次里面小明会有一次迟到,五次里边有一次我可以晚出门一些。
但是在机器学习这个时代,我们面临的数据不止是统计这个次数,它可能还会去分析小明为什么会迟到,是因为天气原因,还是交通状况,还是因为他的个性的原因造成了这种迟到,所以这么多维度的数据汇总起来的时候,我们就需要去建立一个算法模型,然后把以前小明迟到所有的数据和特征导入到这个模型里面来,训练出一个准确率相对较高的,可以对外提供服务的模型,在这个基础之上来做新数据的判断和预测。
数据量更大的时候,机器学习会面临一个瓶颈,它会达到一个天花板,比如从几十G到上百G,但深度学习依然可以以一个接近线性的水平继续提升性能和准确率,这是深度学习在大数据量下的优势。
同时深度学习可以帮助我们去自动化地发现一些数据之间的特征,那么这些特征可能是一些多重数据潜在关联关系,因为当这个数据的层数很深的时候,数据之间的关联关系和特征是很难找到的,这也是深度学习系统,相对于机器学习系统的一个优势。
目前机器学习和深度学习的平台框架、计算框架非常多,目前从业内的认可度到社区的活跃度及社区代码贡献度上,TensorFlow 是在一个遥遥领先的位置,而且目前发展趋势非常好。
TensorFlow 帮助企业解决了很多内部的问题,在 Google 内部除了 AlphaGo 机器人、无人驾驶汽车之外,其实 Google 上面很多的应用都是基于 TensorFlow,包括同声传译系统,咱们在会场上也会有这种同声传译系统,可以通过深入学习系统让它自动化的去完成。
包括 Google 电商里的精准推荐,也是构建在 TensorFlow 之上的。在国内也有很多企业,像小米、京东也在使用这个计算框架来解决他们的问题。那么,才云科技可以把 TensorFlow 作为一个云化的方式来对企业提供服务。
对于这么一个新兴的技术能力很强的计算框架和技术方向,深度学习系统 TensorFlow 可以解决很多复杂场景的问题,但是它也有很多不足的地方,比如我们刚才说的这个图像识别的这个场景,如果我们建立这么一个标准的模型,这上面是一个神经网络,这个里面计算节点非常多,如果想把这么一个模型训练到 80%的准确率,我们需要在一个单机的 CPU 的服务器上,花六个多月的时间,而这个时效性是企业所不能接受的。
现在我们把 TensorFlow 架构在了一个资源调度平台上,这个资源调度平台是由同是 Google 开源出来的容器编排框架 Kubernetes 来构建的,在这个平台上我们可以帮助 TensorFlow 去完成分布式计算任务的安排。另外我们可以帮助 TensorFlow 去调度更多的计算资源,包括 CPU、GPU、甚至 Google 现在新出来的 TPU,都可以提升训练的效率。在这种情况下,TensorFlow 计算的能力就可以最大化地发挥出来。
这是一个总体的框架,最底层是所有 X86 的物理资源,上层是资源调度层。深度学习,机器学习再上一层,会提供出来一些算法,这些算法包括现在比较强的这种深层的神经网络算法,包括卷积神经网络和循环神经网络等,再往上就是构建我们企业内部的业务模型。
后面花很少的时间,我们发散一下,在我们金融领域里面会有那些场景能够用得到 TensorFlow,给大家留一个小小的印象,未来如果遇到这样的场景,有问题解决不掉,或者有数据没法处理,可以想像一下用才云的技术来解决。
第一我们可以通过深入学习系统来做一些预测,比如说期货,基金,股票或者证券,我们可以去预测未来的走势。现在国内很多基金背后的基金经理已经通过深度学习系统在无人为干预的情况下来完成的,包括在国外像高盛、瑞银他们的这些交易员也逐步减少,也是因为深度学习系统在代替人做金融的交易。
在我们金融企业内部深度学习系统还可以帮助我们去建立更加精准的客户画像,可以帮助我们去做更加精准的理财产品的推荐和智能投顾。
保险精算的场景其实跟 AlphaGo下围棋的场景是一模一样的。行业景气指数的预测和行业风险的预测以及模型的建立,帮助我们去更好地预测每个行业的发展和未来的风险。
在人脸识别方面,深度学习可以帮助我们做身份的识别,包括人脸识别的告警通知,还有一些手写电子签权验证,包括现在深度学习系统可以帮助我们自动检录身份证、发票等。
在保险行业,深度学习系统可以帮助我们做酒驾的判断,帮助我们做灾害的预测,但是地震可能暂时无法预测。
在银行的风控领域可以帮助我们去构建风控模型,包括信用卡逾期的管理,贷后逾期管理等,这些都可以通过深度学习系统来提高精度。可以去智能化的分析客户的行为,帮助我们管理客户的黏度,避免客户的流失。
在我们金融企业的科技部门,可以帮助大家去做一些自动化的运维,甚至智能化的运维,包括对于数据库高危操作的检测,平台上业务负荷的预测,让我们自动化智能提供资源的用量,可以智能地设置系统监控的阀值,这都是可以利用深度学习的场景
智能坐席和客服可以让客户打进电话来的时候,根据客户习惯自动排电话语音菜单的顺序,可以给坐席智能推送适合这个客户的知识库,帮助他解答客户的疑问。
【延展阅读】
金融界媒体报道
杜宁:深度学习系统汇集多维度数据 产生价值
http://m.jrj.com.cn/madapter/bank/2017/06/08153222587969.shtml
李剑:数据共享能避免数据脱敏 构建中间层尤其重要
http://m.jrj.com.cn/madapter/bank/2017/06/08180422588727.shtml
新浪财经媒体报道
杜宁:通过机器深度学习发现大数据价值
http://finance.sina.com.cn/meeting/2017-06-09/doc-ifyfzhac0916681.shtml
李剑:科技加金融是未来发展趋势
http://finance.sina.com.cn/meeting/2017-06-09/doc-ifyfzfyz2809884.shtml