查看原文
其他

实战丨​证券市场文本信息智能化应用与实践

金融电子化 金融电子化 2021-08-11

欢迎金融科技工作者积极投稿!

各抒己见!

投稿邮箱: 

newmedia@fcmag.com.cn

                                 ——金融电子化

文 / 深圳证券交易所总工程师    喻华丽     

       深圳证券交易所技术规划部副总监    曾海泉


深圳证券交易所总工程师  喻华丽

文本信息是证券市场一种重要的数据信息,不仅数据量大,而且涵盖内容价值丰富。如何实现高效的文本信息处理,挖掘其内在价值一直以来是证券市场各机构关注的重点课题。近年来人工智能、大数据以及自然语言处理技术快速发展应用为文本处理智能化提供了技术可行的方法路径,从而推动了证券文本信息智能化的创新发展应用。


证券文本信息智能化意义

1. 文本信息是证券市场重要资产。证券市场是众多参与者信息交换密集处理的市场。市场的每日运行,监管机构、交易所、登记结算机构、上市公司及产品发行人、证券公司、投资者等市场参与主体的业务活动,产生和处理大量数据信息,既包括结构化的市场交易数据,也包括非结构化的信息披露公告、市场舆情资讯、公函报告等文本数据。近年来随着互联网应用普及,非结构化数据呈现出爆炸式的增长,并逐步成为当前证券市场日趋重要的数据资产。


相比结构化的数据信息,证券文本信息不仅数据规模大,而且蕴含的知识信息丰富,包含了事件描述、深度分析、信息传递等各种价值信息,因而对证券市场具有重要的影响作用。一个公司公告、一条新闻都有可能引发市场股价的大幅波动。如何实现海量文本信息高效处理,挖掘分析出其中市场机会、风险预警、趋势判断、违规线索发现等价值线索,日益受到证券市场各机构的高度重视,成为提升投资决策分析,加强市场监管的必要手段。


2. 证券文本信息智能化迫切需求。对于文本信息处理而言,如何准确获取文本信息内容理解是至关重要的。虽然在信息内容理解上人工方式具有优势,但是面对海量的文本信息,低效率的人工方式难以适应当前证券市场电子化信息处理业务需求。为此,市场急需引入更加高效智能化的处理技术,实现文本信息内容的机器自动理解,其需求驱动因素有如下方面。


(1)满足量化交易发展需要。近年来,量化交易模型在欧美市场得到广泛深入应用。随着交易和决策流程变得更加自动化,模型人员越来关注证券文本信息的数据模型输入,以优化提升模型算法质量。为此,早在2011年,一些华尔街新闻服务商推出机器可读新闻(Machine Readable News),为市场机构提供自动算法交易服务。根据 Aite Group 2012 年的报道数据,当时至少有35%的量化交易公司使用了机器可读新闻源作为模型算法的输入数据源。


(2)满足市场合规监管需要。文本信息所蕴含大量的价值信息同样也为监管机构所重视,监管机构迫切需要从证券文本信息中发现合规检查线索。例如根据2013年 SMARTS全球会议的统计调查,40%的调查者认为,交易所和监管机构应重视社会媒体监控,其应成为市场监管的一个重要方面。


(3)技术创新发展激发了应用需求。近年来自然语言处理等技术创新发展,并在一些领域环节中得到了应用实践,如文本分类、文档摘要、智能问答等。这些应用实践案例推动了证券文本智能化应用,使得一些针对证券领域智能文本需求得以涌现,例如证券舆情内容自动分类、投资情感分析、证券文档抽取解析等。


证券文本信息智能化行业探索

证券文本信息处理有其自身行业特点,如证券文本结构复杂,领域专业性强,实时性、准确性要求高等特点。证券文本信息智能化处理通常需要将自然语言处理技术和证券行业领域知识相结合开展行业探索,针对特定业务应用场景,研发智能化的算法模型。由于境内外证券市场环境以及自然语言存在着差异性,境内外证券市场文本信息智能化方面有着不同的应用探索。


1. 境外市场。境外市场证券文本信息智能化是伴随以算法程序为核心的量化交易发展应用而逐步发展,机器可读新闻便是典型例子。所谓机器可读新闻就是使用计算机来自动处理数以千计突发新闻,优先考虑对交易者的相关性,并以特殊的结构化信息进行传递,为高频量化交易者提供了用于驱动其策略的信号,使得他们能够根据新闻报道做出“瞬间交易”决定。


机器可读新闻的推出加剧了市场机构围绕交易技术的军备竞赛,也吸引了更多机构参与到证券文本信息的创新发展应用。例如,汤森路透在2010年推出了一款名为 NewsScope Analytics服务,其可衡量文章的情绪或语气,从而为其机器可读新闻产品添加社交媒体情绪分析,让用户轻松地将新闻和事件纳入各种交易策略。在市场监管领域,美国证监会(SEC)经济与风险分析部(DERA)近年来同样尝试对信息披露文档系统EDGAR的1100万份披露文件进行智能化处理应用。


随着NLP技术的发展,市场机构继续加大了对文本信息的处理力度,对各种篇章结构的信息披露文档数据进行精准的解析,提取关键的字段数据信息,从而实现了非结构化文本向结构化文本的转变,实现机器智能化处理。


2020年4月,标普公司推出了全球机器可读文件(Machine Readable File)服务。该服务通过自然语言处理技术,可以对SEC监管文件进行解析,提取出机器可读文本字段信息。市场机构与投资者通过这些机器可读文本字段信息,将上市公司绩效的定性指标纳入投资策略,以增强对上市公司的投资决策分析。例如通过解析文档可获取COVID-19对特定业务领域的影响,以及监管文件中提供了额外的业务数据信息源。


也正是由于证券文本信息智能化所带来的重要价值,欧美市场机构目前仍然持续在加强文本智能化研发投入。根据研究公司 Burton-Taylor International Consulting 的数据报道,2019年全球在金融市场数据,分析和新闻方面的支出增长了5.6%(这是自2011年以来的最快增幅),并首次超过300亿美元。


2. 境内市场。不同于境外市场,由于中文自然语言处理技术更为复杂性,加上境内程序化交易比重小,使得境内市场针对机器可读新闻的普及应用不如境外。尽管如此,围绕证券文本信息智能化应用也日益受到市场关注,一些相关应用探索也在持续开展推进。


在市场舆情方面,一些针对新闻舆情事件标签和情感分析的应用逐渐兴起。一些市场信息服务商对其提供的舆情新闻提供了公司重要事件的标签化,以便机器快速判断该舆情事件的重要性。此外,还可支持舆情新闻进行情感分析,以刻画市场投资者情绪。通过上述标签化的舆情信息可以辅助智能投顾、智能投研的业务应用。


在监管领域,一些监管机构也有尝试对舆情新闻开展违规线索发现。例如深交所早在2014年通过文本挖掘技术,开展以“抢帽子”交易操纵的信息监测应用探索,并取得一些成功案例。在信息披露文档方面,受市场监管因素的影响,有关信息披露文档智能化合规应用正日益受到市场各机构的重视,如信息披露文档一致性自动审核,信息披露文档的实体关系提取解析等等,由此还研发可配套的应用工具和系统服务。


此外,行业机构积极开展智能文本处理的创新型探索预工作。根据证券期货业金融科技研究发展中心(以下简称行业金融科技中心)的统计,最近三年文本信息处理立项课题呈现出逐年增加趋势。聚焦领域主要有两方面,一是侧重于金融文档语义分析与理解技术处理,如金融文档结构语义分析应用等;二是围绕智能投研、智能投顾、智能监管等证券业务场景,探索证券文本信息智能化应用模式,如自动化舆情在智能投顾中的应用研究。


深交所文本信息应用实践

作为市场的组织者,深交所在日常业务中,积累了丰富的文本信息资源。围绕这些文本资源的应用处理,经历了从有纸化到信息化再到近年的数字化三个发展阶段。文本信息处理方式,也由简单的基于内容展示到基于内容的智能化理解,从而有效地支持市场监管和市场服务。


1. 应用思路。深交所开展文本信息智能化处理,旨在提升文本信息处理的能力和水平,增强监管科技能力,进而全面推动数字化转型升级发展,建设智慧交易所。


考虑到智能化文本信息处理是一项探索性很强的实践工作。因此,在智能文本处理方面采用如下发展思路:积极运用当前最新的技术成果,同时充分发挥行业自身的领域知识,加强领域知识训练。在此基础上,先开展探索预研,将效果好的智能化分析模型算法进行工程化落地研发,将成果应用于实际业务。在经验总结基础上,推广应用到其他场景、行业机构。


在上述思路指导下,近年来深交所依托行业金融科技中心,开展场景探索、关键技术研究和模型优化等方面探索预研工作。目前已陆续开展了证券文本信息抽取技术、面向证券市场运行监测智能化应用技术、信息披露文档合规性分析,智能舆情分析关键技术研究等课题研究,其中部分课题已预研结项,取得了积极成果,并实现了工程化落地应用。


2. 平台建设。“工欲善其事,必先利其器”。证券文本信息智能化处理必须依赖强大的技术平台与工具。为此,深交所在开展智能文本处理的同时,重视并积极推进文本信息平台工具建设。


为此,根据市场文本信息处理业务的各种场景,深交所集成了目前NLP主流常用的模型、算法、工具,并在2019年底在行业内较早构建面向证券领域的功能完善的自然语言处理平台,以便更好地支持各种场景下文本处理分析业务。该平台支持标注服务、任务管理,提供文本抽取、文本分类、实体关系抽取以及领域分词等领域的模型算法,集成了一些成熟的NLP应用工具,形成可标注、可训练、可定制、可评估、可导入导出等多功能领域自然语言处理平台。


3. 领域知识构建。证券文本智能化模型算法离不开领域知识的支撑。深交所在做好证券文本信息模型算法应用研究的同时,重视并积极推进行业领域知识积累与构建,以提升智能化模型算法准确率,增强业务知识发现能力。


一是积累大量行业标准化标注训练样本,同时构建行业领域知识规则库,以辅助提升场景业务处理能力。


二是针对舆情资讯文本,为了更好研究资讯文本的重要事件识别,推动构建公司舆情事件分类体系,以提供更加精细化的公司资讯内容服务。


三是重视行业知识图谱构建,并将这些图谱与文本智能化处理相结合,以发挥图谱所蕴含的知识,更好地去“读懂”“理解”文档信息内容。


深交所文本信息智能化应用案例

在应用场景方面,目前文本处理智能化已应用于智能监管、智能监察、智能风控、智能舆情和智能服务等多个领域场景,为深交所的市场监管和市场服务方面发挥了积极重要作用。结合智能监管领域场景,下面介绍两个实际应用案例。


1. 上市公司信息披露公告类别识别。公司信息披露公告类型很多而且量很大,不同公告类别,后续市场监管操作流程因而也不同。为确保信息披露直通车文档归类质量,避免监管业务操作风险,深交所运用文本信息分类技术研发了上市公司信披公告类别识别系统。该系统针对上市公司提交的披露公告进行公告别类自动识别,辅助业务监管人员对重点公告类别进行甄别复核,并提醒业务操作。该系统通过自动标注,支持股东大会、重大资产重组、停复牌等多种类型的公告自动分类,并且分类准确率已达92%以上。该系统上线以来,排除了多起上市公司直通披露错误类别标注风险,杜绝了类别标注可能造成的巨大市场影响,提升了公司信息披露监管效率。


2. 重组公告信息抽取审核。重组公告是上市公司一种重要的信披公告类型,公告文档结构复杂,缺乏固定格式,且公告内容事项多,有的公告多达上千页。业务监管人员对重组公告审查往往需要对重组公告文档进行特定字段信息抽取,这不仅是审核关键点,同时也是整个文档数字化信息的重要基础。为此,深交所通过前期预研课题技术攻关,取得了积极效果,在此基础上研发公告信息抽取平台。


重组公告抽取平台通过对原始的文档进行解析,并对特定数据进行标注,运用深度学习模型,实现了关键字段信息的结构化抽取。这种抽取技术能支持Word和PDF 文档,支持对实体类型、概要类型、数字类型、关系类型、表格类型等类型字段的抽取。在抽取的样本标注过程,可支持多人标注、协同标注,同时对标注后的训练样本进行导出。对于抽取后的字段信息,也支持溯源追踪,以便复核人员核查。这项技术目前已应用于重组公告审核,总体抽取准确率达到了90%。现在这项技术还准备拓展应用于年报、基金公告、注册制公告审核字段信息抽取。


未来展望

随着智能化技术的不断创新发展,证券文本智能化必然在更广的领域有着更深入的应用,不断提升证券市场智能化运作水平。为此,为了更好推进证券文本信息智能化的应用,未来深交所重点将积极做好如下方面工作。


一是加强文本信息智能化场景应用探索,提升证券信息智能化的业务赋能。围绕业务监管与服务应用场景,拓展文本智能分析服务场景,完善服务模式,提升服务效果。


二是不断完善文本信息智能化平台工具建设,提升文本信息智能化模型算法的研发能力,完善证券行业领域知识库,构建完善AI中台能力,从而全面支持各类文本信息智能化应用。


三是积极推动行业成果交流共享与应用推广。深交所将继续发挥行业引领作用,加强行业合作,实现行业文本信息处理关键技术和应用推广上的突破,推动行业文本信息处理共同进步发展,形成一个良好的文本信息处理数字化生态。





往期精选:

(点击查看精彩内容)


● 实战丨数字经济时代下券商的金融科技转型

● 实战丨区块链平台夯实扶贫线上线下协同创新模式

● 实战丨网络数据在金融科技领域的创新应用

● 实战丨安全研发体系建设实践

● 实战丨对公营销数字化转型探索与实践






关于仿冒我刊收费的声明





我刊自创刊以来,从未向投稿人收取过任何费用。任何以刊发文章为名向投稿人收取费用的行为,均属于对投稿人的欺诈行为。


我刊官网地址为 www.fcmag.com.cn。

我刊投稿邮箱为 fcmag@fcmag.com.cn。


对于仿冒我刊网站、网页的违法行为,我社将追究其侵权责任,以维护我社和投稿人的合法权益。仿冒网站、网页举报电话:010-88232443



《金融电子化》新媒体部:主任 / 邝源  编辑 / 潘婧 傅甜甜

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存