查看原文
其他

观点 | 海通证券知识图谱应用研究

金融电子化 金融电子化 2021-05-22

欢迎金融科技工作者积极投稿!

投稿邮箱:newmedia@fcmag.com.cn

                                           ——金融电子化

文 / 海通证券股份有限公司软件开发中心  蔚赵春 王晨 吴保杰 王洪涛

知识图谱本质上是语义网的知识库,奠定了认知智能知识推理基础。随着硬件设备、数据规模、深度学习算法发展,知识图谱在越来越多垂直领域得到应用。以证券业为例,依据《中国证券业发展报告2020》,已有32家证券公司开展了知识图谱应用,应用领域覆盖证券经纪业务、资产管理、自营投资、固定收益、投资银行、合规风险、运营决策、系统运维等主要业务领域;同时加强了知识图谱的自主掌控,建设模式已由外购转化为合作研发和自主研发。


知识图谱的关键技术

知识图谱是一种多关系图,由节点和边组成,节点表示实体,边表示实体之间的关系。实体指现实世界中的事物,关系表示不同实体之间的某种联系。构建知识图谱是一项系统工程,涉及的关键技术主要包括:知识抽取、知识融合和知识加工。


1.知识抽取

从不同的数据源中识别出所需的实体和关系,其准确性直接影响知识的质量。数据源包含结构化、半结构化以及非结构化数据,对于垂直应用领域的数据源主要分为三种:(1)业务自身积累的数据,通常存储在企业内部的数据(仓)库中;(2)从数据供应商购买的数据。(3)网络上抓取的公开数据。知识抽取包括实体抽取、关系抽取、属性抽取,常用方法有众包法、爬虫、机器学习、专家法等。实体抽取是从数据中识别出实体并对实体分类和打标;关系抽取是识别出实体间的关系;属性抽取完成实体属性识别,以实现对实体的完整描述。


2.知识融合

作为知识图谱核心关键,知识融合需要将从数据中抽取出的众多碎片知识连接并与外部知识库合并,具体分为数据层融合和模式层融合。前者解决实体及关系的冲突,避免造成不必要的冗余,主要技术是实体消岐和共指消解;后者将新得到的本体融入已有的本体库中,主要技术是实体链接和实体对齐。(1)实体消岐用于消除同名实体产生的歧义。由于同一个词在不同上下文中所表达的含义不一样,需要应用空间向量、语义、社会网络、百科知识等模型度量实体之间的相似度消歧。(2)共指消解用于消除异构数据中实体冲突、指向不明等不一致性问题,一般通过分进行类或聚类自动识别表示同一个实体的名词短语或代词,方法包括基于实体属性值相似度的计算、基于本体语言等价推理等。(3)实体链接是指将数据源中抽取得到的实体链接到知识库中对应的正确实体对象。根据给定的实体指称项从知识库中选出一组候选实体,然后通过相似度计算确定最终目标实体。(4)实体对齐通过机器理解多源异质数据,应用概率模型、机器学习等方法找到两个图谱中相同的等价实体,从顶层创建一个大规模统一的高质量知识库。


3.知识加工

知识加工包括本体构建、知识推理和质量评估。(1)本体构建。本体反映的是一种明确定义的共识,可借助本体编辑软件手动构建,也可用数据驱动的自动化方式构建,还可采用跨语言知识链接的方法构建。(2)知识推理目标是从现有知识中发现新知识,从而补全、拓展和丰富知识网络,主要分为基于规则的推理、基于图的推理、基于深度学习的推理。(3)质量评估用于对知识的可信度量化,通过舍弃置信度较低的知识来保障质量。


海通证券知识图谱研究与实践

海通证券自主研发了企业级知识图谱平台“e海智信”,实现了知识抽取、知识加工和知识融合,通过和大数据平台、人工智能平台集成,打造了集图谱组件、模型、算法和业务场景为一体的综合性平台,实现可视化、全方位、全流程的知识图谱能力,应用于风险合规、营销管理、融资租赁、投资银行和企业管理等多个业务场景。


1.平台特色及功能

平台具有四大特色:一是数据全。汇集1.7亿家企业、工商、司法、财务等外部数据,融合账户、委托、交易等内部数据,形成了200多个维度企业全景数据。二是功能多。支持企业、风险、人员、关系等查询、提供征信报告、舆情监控、风险预警等功能。三是高性能。基于分布式架构、内存计算和高性能图数据库,支持复杂关系分析。四是易使用。图谱化显示,人性化交互,功能划分合理,支持实时预警和及时消息推送。


平台涵盖四大功能:(1)企业征信。支持企业信息检索,提供结合公司自身沉淀的内部数据生成的超过200个维度的企业画像,应用于投行承销机构筛选挖掘、持续督导风险发现、投后监控、企业尽调等。(2)关系图谱。融合公司内外部数据,基于图计算提供投资、集团、受益人、实控人等8大关系图谱服务,应用于企业图谱查询、客户身份识别、集团统一客户认定等。(3)全景分析。深度洞察投资、股权、董监高、法人、电话、地址等企业画像,并可生成定制化报告,应用于客户尽调、客户身份识别、企业信息查询、潜在风险挖掘、企业关联关系核查等。(4)风险预警。运用NLP技术和深度学习算法构建了以多维指标为驱动的动态风险传导体系,支持多维度风险监控和预警设置,应用于企业变更监控、投后企业监控、风险监控、舆情预警等。


2.关键技术实现

(1)基于机器学习的动态风险传导预警机制。自主研发了基于机器学习的动态风险传导预警模型,综合叠加新闻舆情、司法诚信、股权变更等动态信号,结合有监督模型和无有监督模型建立风险传导体系,从企业的信用水平、违约概率以及异常水平衡量目标企业发生违约的可能性。有监督模型使用机器学习算法训练并评估入模因子后生成定量模型;无监督模型采用自编码神经网络深度学习算法,经过特征预处理、特征降维、模型运算后生成违约概率。


(2)NLP与内部知识库相结合的知识抽取方法。平台中一个重要高质量知识来源是公司已积累的数据。从客户、交易、资金、委托、工商、司法、风险等内部数据和新闻舆情、司法诉讼、投融资、行政处罚等外部非结构化数据中抽取了实体、关系、属性和事件,形成内外部数据融合的图谱。知识抽取中企业、人物、地址、产品、合同等实体和任职、投融资、资本中介等关系识别结合公司内部知识库应用BiLSTM+CRF模型,实体和关系可按照业务需求灵活扩展。


(3)基于深度学习的知识融合技术。平台应用大数据和NLP技术实现了内外部数据清洗和知识融合。知识融合采用分类和聚类并用方法。内外部实体融合采用基于属性规则的聚类方法,通过聚类将实体分为不同的组,并将组中的实体和基准实体连接实现聚合,最后完成属性聚合和关系聚合。基准实体选择工商全量数据中的企业实体,使用BERT模型计算实体和基准实体的相似度,并按照相似度高低匹配。对于节点数量多和关联关系复杂的知识融合采用LightGBM,并结合图神经网络模型分类。


(4)语义模型与图计算结合的实体消歧技术。外部公开数据由于隐私保护并未包含唯一标志ID信息,可能造成重复,必须进行消歧。平台采用了基于语义模型的重名判断和分布式图计算相结合的实体消歧技术。(a)基于语义模型的重名判断。首先根据语义和词语属性分词,并按照词语的前后顺序、位置、统计值等属性赋权,然后应用语义模型并辅以外部知识库判断重名实体之间的关联程度。例如通过两家企业是否在同一办公地点推断其关联程度。(b)应用图计算构建自然人或企业之间疑似关系,通过连通子图的聚类进行消歧。实体之间的联系会产生大量数据连接和聚合操作,传统方法严重消耗计算资源,利用图计算却能达到异曲同工之妙。典型例子是识别一家投资机构可能在几十个不同领域投资成百上千家处于不同阶段企业的“广撒网”行为。


(5)基于图数据库的知识存储与处理。平台应用高性能图数据库neo4j存储和加工知识,通过图数据库语言将关系数据模型转换为图数据模型,将企业、法人、合同、企业任职、股权穿透、实际控制人等实体和关系存储在图数据库中。应用最短路径算法、中心性算法等挖掘多实体间关系进行实体融合和消歧。例如通过GraphX将企业关系形成的超大网络切割成联通子图,通过广(深)度优先、A*等图搜索算法实现遍历每个连通子图分析股权穿透情况,挖掘最深的根节点作为源头企业。


知识图谱的应用展望

目前金融业积累了庞大的数据资源,但在数据关联使用以及其中蕴含的知识应用上仍有不足。知识图谱作为语义理解和知识搜索的基础,能够为金融业的企业征信、风险评估、反欺诈、金融营销、智能搜索等提供全方位支持,必将推动金融业向数据知识化方向升级发展。越来越多的金融机构开始自主构建领域知识图谱,并结合知识库、深度学习等技术拓展场景。未来企业级知识图谱平台“e海智信”将持续完善,打造成“数字海通2.0”的认知中枢,以企业征信为核心,深挖产业链分析、风险传导、客户识别、客户营销等业务场景,赋能业务,助力公司数字化转型。


参考资料

[1] 王洪涛:《发力数据中台,打造智慧海通》,金融电子化,2020(9):30~31页 

[2] 中国证券业协会:《中国证券业发展报告(2020)》[M],北京:中国财经出版社,2020 

[3] 唐杰:《知识图谱-人工智能的下一个瑰宝》,中国计算机学会通讯,2020(8):8~10页



(栏目编辑 :韩维蜜)




往期精选:

(点击查看精彩内容)


● 观点 | 城商行建设信息安全管理体系的思考

● 观点 | 区块链技术在跨境支付领域的应用研究

● 观点 | 保险欺诈检测与系统优化设计(三)

● 观点 | 卫星服务:银行金融科技的新抓手

● 观点 | 5G 网络状态下移动金融应用场景探索









《金融电子化》新媒体部:主任 / 邝源  编辑 / 傅甜甜 潘婧

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存