查看原文
其他

广发资管联合达观数据打造智能知识图谱系统,AI助力智能投研

哒哒 达观数据 2022-09-16

随着人工智能技术的发展与应用,知识图谱作为AI进步的阶梯越来越受到学术和产业界的重视,并且已经在很多金融领域体现了应用价值。作为证券的龙头企业,广发资管一直走在技术创新的最前列,在广发资管与达观数据合作的知识图谱系统中,通过AI赋能智能投研,有效提升投资效率。



达观知识图谱平台致力于以知识图谱为中枢的知识中台,为企业实现一整套图谱全流程设计构建工作。从原始数据源(包括结构化数据、非结构化数据)、数据集管理到设计、构建图谱以及图谱的管理、应用,进行了平台化、工具化的功能整合和优化。

主要功能包括:达观知识图谱首页、图谱管理、图应用、时序图应用、机器学习建模、图谱模式设计、实体和关系标注、数据源管理、数据集管理、知识获取、系统管理等功能模块。



在智能投研场景中,知识图谱平台依托数据和技术,用机器辅助研究与投资。以下介绍达观数据与广发资管合作的知识图谱系统在智能投研场景的应用实践。

#1

智能投研图谱建设主要需求分析


智能投研以数据为驱动,经过NLP自然语言处理后形成直观的可视化指标数据,最终给决策参考带来有价值的投研情报。在这过程中,要实现最终的可视化投研情报,我们主要需要做以下几点:

🔵图谱构建:在最新的图谱技术框架上构建公司基础图谱、公司关系图谱、股权结构图、证券图谱、地区图谱、地区公司图谱、产业链进出口图谱、国家进出口图谱、人物图谱、行业图谱等。

🔵关系量化:通过特定数值权重和算法,将图谱节点之间的关系量化成数值,图谱节点根据风险程度(或者实体重要性、实体关注度等其他权重)来展示颜色、大小。

🔵智能搜索:按照公司关注度对搜索结果进行排序,根据关系量化结果智能推荐实体重要的关联方。


#2

智能投研图谱建设解决方案


达观围绕以上三点主要诉求进行方案设计,构建起一套完整的知识图谱系统。

图谱构建


以下为一个图谱构建完成的例子来介绍整体图谱结构: 


01

公司基础图谱 

通过公司基础信息、财务指标、关联公司、关联证券和属性等数据来了解公司相关信息。



02

公司关系图谱

查看公司间多重关系、公司关联方的特征分布。



03

股权结构图谱

股权结构通过股权关系,可以了解一个公司投资另一个公司及投资占比。



04

人物图谱 

从公司基础信息表中将人物信息作为节点,将个人信息与公司进行关联,将任职关系表中的公司代码与公司节点进行关联,构造图数据库中人物图谱。



05

证券图谱 

展示公司发行的证券相关信息,支持查看证券的关联公司和详细属性。



06

地区图谱

展示所属地区的多重关系、地区经济财政数据等。



07

地区宏观图谱


查看该地区经济财政数据。




08

地区公司图谱

查看当地公司间的多重关系、公司关联方的特征分布。



09

行业图谱

查看公司间上下游关系及公司从属行业



10

产业链公司图谱

通过公司间上下游关系推导行业间上下游关系。



11

产业链进出口图谱

根据世界投入产出表查看国内行业对外进出口关系及依存度。





12

国家进出口图谱

根据世界投入产出表查看国家间进出口关系及密切程度。



关系量化


此过程主要重在梳理原始数据中关系量化的规则。

首先,公司与公司之间存在股东、子公司、孙公司、投资、合营、合作、担保、诉讼、实际控股、债权、债券、上下游以及其他关系。规则可根据相应关系梳理为对应的投资占比、表决权、担保金额、刑事诉讼、民事诉讼、行政诉讼、仲裁、发行债券等来定义权重,最后由模型算法算出综合得分。

其次,公司与人物之间存在投资、高管、实际控股等关系。当投资占比、控股比例的不同会有相应的权重得分。

最后,综合以上两方面的权重得分,再次计算出最终的关系量化数值,图谱节点亦根据该数值(风险程度或者实体重要性、实体关注度等其他权重)来展示颜色、大小。



在这个场景中,存在的挑战如下: 

第一是数据的庞杂和异构。在投研场景中面对的数据类型和数据源非常丰富,且存在多个数据库系统的集合。

第二是面临缺乏专业投研领域的人员参与。这极大的增加了梳理数据的成本。 

智能搜索


在投研工作中,投研系统一般都会提供基础搜索服务,但面临数据的复杂性,基础搜索无法有效辅助投研人员快速从海量数据中找到所需要的信息价值点。因此,在基础搜索之上,根据项目实际搜索规则,模型算法计算出搜索推荐的排序得分,以提供精准搜索结果的服务,最终可以协助投研人员快速查询到所需的问题答案,极大的提高了投研中在信息分析方面的工作效率。

整个搜索优化主要使用场景为搜索联想排序和搜索结果排序。

当输入内容(下文用query)与数据中的实体名称完全匹配时,搜索排序按照相关度算法结果进行排序;

当query与数据中的实体名称进行模糊匹配,数据库中有多个实体名称与query相关时,多个实体需按一定规则进行排序。

第一层:优先按照相关性排序; 

第二层:返回的相关多个实体,按照类型排序:

优先返回:公司,Company

其次:债券,Bond

再次:行业,Indusrty

第三层:存在多个结果都与query相关时,按照实体得分进行排序,例如输入“招商证券”,可以匹配到“招商证券股份有限公司”、“招商证券资研究发展中心”、“招商证券股份有限公司深圳前海证券营业部”等,按照实体的得分进行排序来提供精准搜索结果。

投研的智能图谱通过数据结合逻辑,在有了海量数据后,结合专家逻辑,达观数据建出了一整套系统,将投资分析的研究体系沉淀于知识图谱系统中,为投研量化研究提供了良好的基础设施。 

目前,作为中国知识图谱领域代表厂商,达观数据参与IEEE知识图谱系列标准研制工作,积极推动知识图谱在国内的发展与规范及参与编写《知识图谱选型与实施指南》。

达观知识图谱平台可广泛应用于金融、汽车工业、电力电网、能源、消费电子、通信、集成电路、船舶制造、材料、航空航天、制药、医疗设备、机械装备、矿业、锂电等领域,赋能企业向知识驱动转型,激活企业创新能力,助力实现十四五规划和2035年远景目标。




相关阅读



戳原文,申请试用达观智能系统

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存