罗平:“AI+”驱动中国新一代金融创新 | Fintech公开课第13讲干货
2017年12月6日,由中国人民大学国际货币研究所和人民日报社《环球人物》杂志联合主办,浙江大学互联网金融研究院、全球金融科技实验室协办的“金融科技二十讲”公开课第十三讲在中国人民大学举行。中国科学院计算技术研究所智能信息处理重点实验室任副研究员、博士生导师罗平担任此次公开课的主讲嘉宾,就“‘AI+’驱动中国新一代金融创新”发表主题演讲,对人工智能在金融行业中的运用及发展前景进行了讲解。
以下为演讲摘要:
一、金融行业具有“文档密集”的特点
首先向大家展示的是我对金融行业的理解。我认为整个金融行业是以资金流向为主形成的生态圈,整个金融活动大概分为两个部分,分别是融资和资产的配置。在整个金融领域,实际上有不一样的角色或者参与人员在里面起到不一样的作用。其中,投资机构是一种特殊的企业,它通过将资金投资到其它企业,使自身盈利;与此同时,监管机构需要监管金融市场中的所有金融活动;这里面其实还有一个非常重要的角色就是投资银行,投资银行把资金募集给真正需要用钱的企业,是资金需求方和资金方之间的桥梁。
总体而言,我认为:整个金融也就是一个“文档密集型”的行业,所有的金融活动实际上都记录在大量的公开的或者非公开的金融文档中。这里有各种各样的文档,例如一家投资银行要为一家企业募集资金,或者选择IPO,或者选择发债;无论采用什么方式,投资银行都要和企业写一份好几百页的募集说明书,将这份说明书递交给监管部门去审核;如果审核通过了,IPO上市成功,那么这份募集说明书就会披露出来给各种投资人来看,投资人包括一级市场的投资人和二级市场的投资人。
除了募集说明书之外,金融行业中还有其他各种各样类型的文档,例如股权质押通告、发行上市沟通材料、融资可行性报告,甚至是一些政策性文件,比如十九大报告、行业研究报告等。所以我认为整个金融行业实际上是以文档为重心的行业,是一个“文档密集型”的行业,市场中的金融行为与金融活动需要大量的文档来记录。
从文档消费链的角度来看,任何一个文档都有产生(撰写)、监管审批、阅读使用的过程。以募集说明书为例,首先需要文档的撰写和生成,这个主要由投资银行根据发行方提供的材料完成;随后将文档递交给监管部门审核;监管部门审核通过后,将该文档公开披露出来,则有大量的买方、投资机构来阅读和分析这些文档。然而,这些文档真正有人读么,真的有人一页一页看么?不见得。因为每一份这样的募集说明书少则一百页,动辄五六百页,虽然里面有各种有用的信息,但是几乎没有人读得过来。
所以今天我们希望机器能够真正读懂这样的金融文档,让它们在金融行业中发挥一些作用。我们以投资银行的工作为例。为什么以投资银行为例?我曾经在知乎上看到一个调查,调查的内容是金融行业中哪个职位最辛苦,排名第一的是投资银行家,他们的工作非常辛苦。在大众眼中,他们的薪水非常高,这是一个“高大上”的行业,能够进入这个行业首先要有非常光鲜的教育背景,只有人大、清北还有几个最好的财经院校毕业的才可以,他们看上去是高学历高收入的人群。但是据我所知,入行五年以下的投行工作者,每天做的都是文档撰写和复核的工作。他们也经常调侃自己是“金融民工一级狗”。坦率说,处理这些大量的文档工作,是一种高强度的锤炼,但学习曲线几近平缓。
另一方面,记录一切金融活动的金融文档都必须满足“真实、准确、完整”的核心要求;文档里面的每一处微小的错误都要带来很大的损失。例如,高盛在几年前就出了这样的问题,在它的一个合同上有一个简单公式的笔误,这直接造成了4500万美元的诉讼;无论是从声誉还是从经济的损失来看,在金融文档中犯错误都是一件很严重的事情,这给投资银行家们带来了很大压力。除此之外,现在金融市场的业务量也在不断扩大,IPO也开闸了,债券募集量也在逐年增加。也就是,投资银行家们的工作量还在不断增加。
所以,我们计算机专业的工作者知道了这样的重要需求之后,我们想创造一些做文档智能的工具,让计算机能够更好地读懂、处理文档,把投资银行家们从繁重的文档工作中解救出来。
二、人工智能对于处理金融文档的优势
关于我们的整个工作,我想篡改一个成语——“庖丁解文”,我们希望计算机也能像庖丁一样,能够仔细剖析并结构化一个五六百页的文档,让计算机能够读懂它。
我们可以大致看一下计算机能够做到什么程度。去年五月份我们在公众号“债有主”上发布了全球首款金融文档智能甄别产品AutoDoc。只要用户上传一份(正在撰写的)募集说明书,计算机就会自动处理里面的每一句话,形成一个report,告知用户文档里面有什么错误,例如各种财务数据的勾稽错误。这个功能当时在微信朋友圈刷屏了,阅读量达36000多。
具体来看,我们的这个产品能够做什么呢?我们将一份募集说明书所呈现出的内容划分为两种形式,一部分是大量的表格,另一部分是大量的文字说明。我们首先能够复核的是各种财务指标数据之间的勾稽关系是不是一致的。例如,文档的某处提到了2017年1月到6月的营业总成本是一个数字,在后面的表格中同样时点的同样科目对应的数字却发生了变化,这样的错误,我们能够通过计算机快速地找出来。除了简单的财务指标复核之外,我们还能够复核一些更加复杂的内容,例如,文档中提到“2015年度三项费用合计占营业收入的比重较2014年度减少了1.49%”,通过语义理解之后,计算机就能够自动寻找到相关的数据,复核这个减少的比例是否真的是1.49%。
展示了这些功能之后,AutoDoc的使用效果究竟怎么样呢?今年上半年我们内部做了一些测试,我们使用1000份在网上可以下载到的公开的募集说明书做了一下自动地分析,通过人工确认,我们发现68.92%的文档里面都存在着数据不一致的问题,每个有错误的文档中平均有4.26处错误。我认为,已公布的募集说明书的质量是非常糟糕的,只不过大家没有深究里面的法律责任。我们的这个产品上线之后,截止到今年10月底,大概有两三千份文档上传到了系统中进行复核,它们来自50家左右的券商。我们发现有98.4%的文档存在数据的冲突,每篇平均出错6.5个。
三、人工智能处理文本、表格信息的简要流程
接下来揭秘一下这些功能背后的AI技术:金融文档结构化。我们需要把非结构化的文档(PDF或者word文档)处理为计算机能够分析和比对的结构化的数据。我们把这个过程叫作“智慧迁移”;也就是说,本来这些知识是分散在整个文档中的,我们通过自动的整理和分析,把它们迁移到计算机能处理的知识库中。
具体的做法是,对于一份待处理的文档,走两个分支,一个分支对文档中的所有自然语言文本进行处理,识别其语义;另一个分支处理文档中的各种表格,同样识别表格的语义;最后,将表格处理的结果与文本处理的结果进行比对、复核,以报告的形式呈现最终的复核结果。这是处理的基本流程。
接下来我们看一下计算机在处理文本和表格的时候分别做了什么。首先看一下我们怎么从自然语言里面提取出来所表达的公式。举一个简单的例子,假如说这句话,“公司第一大客户2013到2015年营业额分别是…”,计算机本来是读不懂这句话的,通过一个AI模型,将这句话分解为<时间,财务指标、数值>的三元组,只有三元组这样的结构化数据才能被计算机处理;再比如,这句话,“公司前五大客户的销售额占总销售额的比重呈现出下降趋势”,这个比例就是前五大客户的销售额占总营业额的比例,人很好理解这句话,但是机器不懂,计算机需要将它的语义翻译成一些由各种指标的计算形成的等式和不等式。
这里面核心的问题就是让AI模型处理自然文本的语言,使计算机能够将其翻译为具体的语意和结构化的信息。做这件事情实际上有非常大的难度,做计算机的人需要了解语言学的知识以及金融语言的特点。
以下跟大家分享一些我们对金融领域的语言的一些分析经验。举例来说,自然语言中有一个语言现象叫长程修饰,就是修饰词语与被修饰对象的距离很长。例如一句话说公司贸易业务(定语)的收入是多少,然后说了一堆后,立马又说它实现的毛利润是多少钱,这个时候这个毛利润指的是公司贸易业务的毛利润还是其他业务的毛利润抑或是公司全部业务的毛利润,计算机是不清楚的。如果我们仔细看这个语意,它指的是公司贸易业务的毛利润,由于大家在书写的过程中不是那么规范,所以这样的一个定语经过这么长的距离,实际上修饰的是这样的一个财务指标,计算机需要把它识别出来,这个语言现象就是长程修饰。
与此同时,语言学上还有承前省略或者零指代的现象。例如一句话说发行人一年之内的其他应收款账面余额占比是这么一个比例,后面立马说一年到两年是多少比例、两年到三年是多少比例、三年以上是多少比例,其实这些比例都指的是其他应收款账面余额,但这个指标后面都被省略了。类似的,例如一句话中说流动负债、非流动负债与所有者权益分别是多少比例,这样的语言中根本没有提分母是什么东西,这时候就需要AI将它自动补全,这里需要一些专业的金融知识。英文文档的处理是类似的,坦率地讲,英文的金融文档非常规范,英文国家的监管机构要求大家用最简单的英文进行撰写,进而计算机对英文的处理是相对容易的。
接下来说第二个方面,对于表格的处理。人去阅读表格是非常方便的,但机器识别和阅读表格会有相当大的问题。举例来说,假如一个PDF页面里面有一个无边框的表格,人立马能够辨别出来,但是机器自动识别是很困难的。人的视觉功能通过一些对齐的关系认定表格的存在,我们需要计算机同样具备这样的功能。我们即将推出的一个功能能够将一切PDF无边框的表格处理地非常好,能够将所有的外部边框和内部的线准确地画出来。只有在将内外边框准确地画出来之后,我们才能精准地提取表格所对应的语意,这是一个世界难题,但我们有信心做得非常好。
除了处理文本与表格之外,我们最近推出了一个自动识别错别字的功能。举例来说,我们的一个客户让我们测试他们文档中的错别字,这里面都有哪些实际的情况呢,例如,“除权”被写成“出拳”、“减持”被写成“健齿”,这就闹成了很多笑话,如果将这样的文档发布到公开网站就会产生很大的问题。我们的这个功能获得了客户的高度认可。
实际上,我们的这个功能主要是检测两类错别字,第一类错别字叫近音异字,我们在这个方面考虑到了各种拼音相近的情况,比如卷舌、平舌、前鼻音、后鼻音以及各个地方特色的读音;我们同样考虑了一些形近的异字:考虑到了少数使用五笔输入的用户,他们敲错了一个字母,整个字就完全打错了。整个模型都是自动学习的,没添加任何人工规则;同时,我们也在不断地扩充语料,效果会越来越好。
四、人工智能应用于金融行业的前景
我们实际上研发了一个平台,一个从标注,到训练,到预测再到反馈的平台,我们期待平台内部的数据流动起来,这样它的效果就会越来越好。这里面有很多值得研究的内容,包括底层优化算法,到深度学习模型、以及上层前沿的研究,我们需要一整套深度学习的方案向大家呈现出这样一些功能。
总结起来,我们事实上就在做这样一个智慧迁移的事情:整个金融大环境每天都会披露出大量文档,这些文档都会汇入我们的文档智能化分析引擎,将这些非结构化的金融文档转化为结构化的知识。这样的转化过程有三个特点,第一是瞬时,一个文档一旦从交易所的网站公开,20秒之后就能够结构化到我们的数据库;第二是精准,尽管自然语言的表达以及文档的呈现方式会非常丰富,AI模型都能正确识别其语义;第三个是深度,我们不应当停留在一些简单的财务指标,我们希望计算机能够进一步将脚注的内容也能够读懂,进而能够更加透彻地了解一家企业。
拥有这样的一个平台,相当于拥有了一个引擎去了解整个金融行业。现在大家都非常关注灰犀牛的事情,如果我们有了这样的一个知识库,我们对每一家公司财务状况做结构化,然后抽取它的同业公司信息,以及它的上下游产业信息,这是企业层面的结构化,也就是企业画像;同样,我们可以将这个技术拓展到跟这个企业相关的行业,对行业信息进行结构化;进而,可以对整个金融行业的场景进行结构化。这样,我们实际是掌握了整个金融市场的实时动向。
现在大家都非常关注“灰犀牛”的事情。其实,预测“灰犀牛”所需要的数据都在大量的金融文档中,原来由于技术没跟上,没办法分析;而今后,金融文档智能化技术将大大助力。我们将不会对灰犀牛视而不见,而是提早发现,让整个金融环境向着更健康的方向发展,即朝着价值投资的方向实现真正的发展。
如果能够让计算机读懂金融文档,我们在投行繁重的 paper work就能变成happy work,我们也希望这些技术能够更好地为投行、监管以及其他的投资行业服务。
编辑 郝芮琳 张黎丝
排版 赵玉卿
监制 朱霜霜 李欣怡
点击查看近期热文
杨东:我国现金贷、网络小贷行业发展与监管建议 | Fintech公开课第11讲干货
王永利:货币的本质与虚拟货币 | Fintech公开课第10讲干货
贲圣林:新形势、新机遇—互联网金融的转型发展之路 | Fintech公开课第9讲干货
天创信用李文贤:是什么力量让中农工建联手BATJ?|Fintech公开课第8讲干货
欢迎加入群聊
为了增进与粉丝们的互动,IMI财经观察将建立微信交流群,欢迎大家参与。
入群方法:加群主为微信好友(微信号:imi605),添加时备注个人姓名(实名认证)、单位、职务等信息,经群主审核后,即可被拉进群。
欢迎读者朋友多多留言与我们交流互动,推荐好文章可联系:邮箱imi@ruc.edu.cn;电话010-62516755
关于我们
中国人民大学国际货币研究所(IMI)成立于2009年12月20日,是专注于货币金融理论、政策与战略研究的非营利性学术研究机构和新型专业智库。研究所聘请了来自国内外科研院所、政府部门或金融机构的80余位著名专家学者担任顾问委员、学术委员和国际委员,70余位中青年专家担任研究员。
研究所长期聚焦国际金融、宏观经济理论与政策、金融科技、财富管理、金融监管、地方金融等领域,定期举办高层次系列论坛或讲座,形成了《人民币国际化报告》《金融机构国际化报告》《中国财富管理报告》《金融科技二十讲》等一大批具有重要学术和政策影响力的产品。
2016年,研究所入围《中国智库大数据报告》影响力榜单列高校智库第4位,并在“中国经济类研究机构市场价值排行榜(2016)”中名列第32位。
国际货币网:www.imi.org.cn
微信号:IMI财经观察
(点击识别下方二维码关注我们)
只分享最有价值的财经视点
We only share the most valuable financial insights.