老刘说NLP

其他

再看大模型ICL推理范式中的prompt策略:从动态Few-shot到KNN选择再到Shuffling Ensemble

今天是2023年12月4日,星期一,北京,天气晴,新的一周开始。社区昨天讨论prompt工程时,提到一个很有趣的点,即"给大模型指令的时候可以给个小费(画饼)然后GPT输出会更详细。"这使得,prompt也越发成为了一个十分有意思的事情。例如,已经又的prompt包括:《深呼吸》,《装可怜》,《给小费》,《带情绪》…所以,我们再回到promt工程本身,因为其雨大模型研发中的数据构造和评估关系最为密切。实际上,我们在之前的文章中已经讲过许多,例如:《再看面向NLP任务的大模型Prompt设计:PromptSource等代表性NLP开源Prompt数据集》(https://mp.weixin.qq.com/s/eWEjVhXfySppOQk_y6mduw)中说到,prompt是影响下游任务的关键所在,当我们在应用chatgpt进行nlp任务落地时,如何选择合适的prompt,对于SFT以及推理环节尤为重要。《如何快速地设计并评估few
2023年12月4日
其他

也读Lawyer LLaMA法律领域微调大模型:从训练数据、模型训练到实验效果研读

在前面的文章《LaWGPT:面向法律领域的两大微调模型介绍及今日前沿大模型动向速递》中,我们从原始数据、模型训练以及模型效果三个方面对两个法律领域的微调模型:pengxiao-song/LaWGPT以及LiuHC0428/LAW-GPT,进行了介绍,但这两个项目相对简单,也并未做许多深入的对比实验。实际上,领域微调模型,尤其是基于llama的领域微调模型中存在着诸如增量预训和垂直语料预训、微调SFT的数据准备和训练问题,关于不同阶段数据对模型的影响到底如何,这些很有趣。最近一篇工作《Lawyer
2023年5月26日
其他

也看垂直领域大模型微调落地-以医疗领域为例:从PMC-LLaMA增量预训到MedicalGPT-zh指令微调项目概述

如果在发生灾害事故等情况下造成的损害,例如火灾、地震、洪水等等,一般是由当地的政府部门作为主体进行调查并作出结论,然后向相应的责任人追偿;如果当地没有这样的机构,那么可以直接向保险公司申请理赔。"
2023年5月3日
其他

ChaGPT+学术研究之开源工具原理概述:ChatPaper、ChatReviewer、ChatGenTitle等项目源码实现

以chatgpt为代表的大模型已经成为了一个重要的生产力加速工具,尤其对于学术群体而言,知道有哪些工具以及如何更好的使用工具十分重要。而如何更好的使用这些工具,需要我们对工具的具体实现原理和思想有一定的了解,并且对其中发挥重要作用的prompt加以掌握,即知其然,也知其所以然。因此,为了解决以上问题,本文主要从实现思想、功能以及实际效果三个方面,介绍当前开放且受欢迎的大模型辅助学术的项目工具,包括ChatPaper论文初筛、ChatReviewer论文预审稿、ChatImprovement论文润色、ChatResponse论文审稿意见回复、ChatGenTitle论文标题生成以及AutoResearcher论文综述生成共6个工具,涵盖论文筛选过滤、审稿、改稿、标题生成以及综述等环节,供大家一起参考。一、ChatPaper论文初筛ChatPaper,通过ChatGPT实现对论文进行总结,帮助科研人进行论文初筛,可以根据用户输入的关键词,自动在arxiv上下载最新的论文,再利用ChatGPT3.5的API接口强大的总结能力,将论文总结为固定的格式,以最少的文本,最低的阅读门槛,为大家提供最大信息量,以决定该精读哪些文章,也可以提供本地的PDF文档地址,直接处理。在实现思想上,先提取摘要和introduction的内容,因为abstract很少会告诉你过去的方案是什么,存在什么问题,,然后提取method章节,总结方法的具体步骤,最后提取conclusion章节,总结全文。其底层依赖于arxiv网站,从中找到对应的论文信息,并依赖于chatgpt接口进行分析。地址:https://chatpaper.org/、https://github.com/kaixindelele/ChatPaper效果:二、ChatReviewer论文预审稿ChatReviewer,利用ChatGPT对论文进行预审稿,对论文进行批量总结和评审,提高科研人员的文献阅读和理解的效率。
2023年4月14日
其他

GraphEmbedding图嵌入表示技术解析:基于DeepWalk+Skipgram的节点向量化方法及落地案例剖析

GraphEmbedding,旨在解决图节点的向量表示以及图表示两个基本任务,以支持后续的节点分类、节点推荐、链接预测等下游应用场景。不过,对于这一问题,我们首先需要想到的是,生成一个图的向量表示必须与图本身的特征挂钩,即图里有什么?一方面,一个基本的图,由节点和边构成,形成一个拓扑结构。节点自身可以携带标签,边可以是有向的、无向的,且可以携带权重和边的标签。这些是图自身的特征信息。另一方面,通过边的关联,节点之间形成了一张张子图,即特定的网络拓扑结构,这种结构特征为一个节点提供了上下文的特征信息。因此,将网络结构和图自身特征信息作为处理对象,进行节点向量表示学习,成为了一个重要的工作方向。一般的,如下图所示,当前节点向量表示的方法可分为因式分解方法、随机游走方法和深度方法。本文主要介绍当前几个主流的随机游走方法图节点表示方法,包括DeepWalk、LINE、node2vec,从中我们可以看到这一类方法的处理范式,并以业界Airbn、淘宝推荐两个实际落地场景作为例子进行案例总结,以说明该方法的实际价值。供大家一起参考。一、从Word2Vec到DeepWalkword2vec是通过语料库中的句子序列来描述词与词的共现关系,因此对于Graph而言,其关键问题是如何描述节点与节点的共现关系。经典的deepwalk借鉴了word2vec思想,同样认为,具有相同上下文的节点,也应该是相似的,而这一上下文,可以是一阶邻居,也可以是二阶、三阶等,可以通过游走的方式,形成上下文,然后采用wordvec的架构,完成节点表示学习。1、随机游走生成节点序列随机游走生成序列的方法,包括深度优先遍历以及广度优先遍历两种。1)深度优先遍历深度优先遍历尽可能优先往深层次进行搜索。在实现上,在G中任选一顶点v为初始出发点(源点),首先访问出发点v,并将其标记为已访问过;然后依次从v出发搜索v的每个邻接点w。若w未曾访问过,则以w为新的出发点继续进行深度优先遍历,直至图中所有和源点v有路径相通的顶点均已被访问为止。例如,给定图:深度优先遍历的路径为,
2023年3月17日
其他

Meta最新语言模型LLaMA论文研读:小参数+大数据的开放、高效基础语言模型阅读笔记

Meta最近提出了LLaMA(开放和高效的基础语言模型)模型参数包括从7B到65B等多个版本。最值得注意的是,LLaMA-13B的性能优于GPT-3,而体积却小了10倍以上,LLaMA-65B与Chinchilla-70B和PaLM-540B具有竞争性。Meta表示,该模型在数以万亿计的token上进行训练,并表明有可能完全使用公开的数据集来训练最先进的模型,而不需要求助于专有的和不可获取的数据集。特别的,LLaMA-13B在大多数基准上超过了GPT-3(175B),LLaMA-65B与最好的模型Chinchilla-70B和PaLM-540B具有明显竞争力。为了了解该工作,本文主要通过研读该论文,供大家一起参考。该论文介绍了对模型架构的修改(Vaswani等人,2017),给出了具体的训练方法,并报告了模型的性能以及在一组标准基准上与其他LLMs进行了比较。地址:https://github.com/facebookresearch/llama
2023年2月26日
其他

ChatGPT下的知识图谱审视:一次关于必然影响、未来方向的讨论实录与总结

昨天,跟知识图谱领域专家王昊奋老师一起就chatgpt会对知识图谱造成什么影响、两者之间的关系以及未来发展这个话题进行了讨论,其中的一些观点具有一定的参考和指引性,整理出来与大家一同思考。一、关于chatgpt带来的kg研究与落地影响的讨论下面是昨天讨论的全程实录(对话中的观点仅供参考):刘:有个问题想咨询下您的观点:chatgpt会对知识图谱造成什么影响呢?两者之间的关系是怎样的,未来发展是怎样的?想听听您的看法。王:我觉得ChatGPT或LLM的出现其实本质来说,对于是否我们需要完全结构化(符号)表达的传统图谱会有反思。甚至很多传统的KG任务,比如知识抽取,知识融合,知识推理与计算,以及上层的问答、搜索、推荐其实都会受到影响,就和早年大家在针对PTM(还不算LLM)的时候,大家就说PTM就是Knowledge
2023年2月8日
其他

NLP视角下的2022全年记忆总结:基于历时热点榜单数据与标签词云可视化的实现与印记展示

今天是2022年12月31日,农历腊月初九,星期六,2022年的最后一天。随着日历最后一页的最后一格被勾掉的那一刻,这一年的岁月也就算画上句号,这一年的记忆也就开始封存。在年终的时候,我们总会使用不同的方式,从不同的角度,以不同的媒介来进行全年的总结。一年三百多天,十二个月,每个月都不同,都会发生具有特点的事情,成为每个月的特定记忆标签,而这一标签的刻画,通常需要有可供计算的历时文本存在,也就是语言学上的历时语料库,这个在现在的新闻平台历时榜单中有直接的体现;也需要有记忆标签的生成方式,我们可以简单而高效的词云直接刻画,例如,之前文章《NLP文本多样性可视化开源组件大赏:TextGrapher图谱、wordcloud词云、shifterator差异性等项目总结》一文中介绍了多种文本分析的方法。因此,本文作为对2022年的历史性记忆回顾,以开源项目trending-in-one给出的当前全年历时热点数据,进行词云生成,并按月度为单位,以不同的榜单进行统计呈现,将词云及代表性热点记忆进行客观、真实的展示,供大家一起思考。这是2022年老刘的最后一篇文章,感谢大家的支持与关注,提前祝大家新年快乐。一、基于历时热点数据的词云生成逻辑1、数据来源开源项目trending-in-one,给出了当前的历时热点数据。包括今日头条热搜、知乎热门视频、知乎热搜榜、知乎热门话题以及微博热搜榜,记录从
2022年12月31日
其他

NLP前沿技术:One-shot就能做事件抽取?ChatGPT在信息抽取上的强大应用

GPT在信息抽取上的使用。本文主要围绕chatgpt进行信息抽取这一话题,介绍chatgpt在信息抽取中的使用方法和实际效果,供大家一起参考。一、灵感事情的起因是Blender
2022年12月12日
其他

知识图谱应用技术总结:实体链接核心技术概述及链接项目开源实践

本文主要介绍实体链接的任务,包括其主要实现方法,供大家一起参考。​零、引言在典型的知识图谱问答场景中,通常需要从用户的问句中识别出指定的实体,并将该实体准确地链接到知识图谱数据库当中。例如,在
2022年10月29日
其他

开放知识图谱构建必读:封闭域VS开放知识抽取与4大类开放抽取常用方法概述

最近社区抛出一个关于开放知识抽取的话题,也是当前知识图谱构建的一个热点,​希望能够介绍相关的工作,而在之前也做过一些工作,借着这个机会,写一篇文章,来跟大家谈谈这个问题。开放知识抽取是目前比较有趣的问题,在前面的文章《知识图谱构建:以OpenIE为代表的开放信息抽取项目技术方案解读》中,我们围绕着OpenIE这一项目的几个版本系统进行介绍,从中我们可以看到基于规则的方法在信息抽取中的强大作用,以及整个系统逐步完善的整个过程,如下图是关于opnie的一个例子。不过,就封闭域知识抽取与开放知识抽取而言,其在实现方式、落地价值上存在着差异性,就开放域抽取而言,特点是不限定关系类别、不限定目标文本,难点在于如何获取训练语料、如何获取实体关系类别、如何针对不同类型目标文本抽取关系。因此,带着这些问题,我们先介绍从封闭域知识抽取和开放知识抽取的异同进行对比,然后介绍目前开放知识抽取的主流做法,包括基于规则的,基于生成的、基于序列标注的以及基于分类的,供大家一起参考。一、封闭域知识抽取VS开放知识抽取一般而言,在进行知识抽取时候,我们所看到的,能够较好建模以及应用的,都是限定关系抽取。为什么,因为对于任何一个抽取任务,其问题的确定性越高,越容易界定为科学性的可评估的量化性越大,其优化目标就越可能被明确,以此带来的落地价值,学术发文价值就越高。正如我们所了解的,实体识别ner,实体关系抽取任务re,以及事件抽取任务ee,都是在预定义schema的范畴下进行的,先定义好实体类型,实体关系/属性类型,以及事件要素,然后采用基于规则、基于模型的方法来进行训练预测,能够很清晰快速的推进,虽然这个过程是很不灵活的,并且定义规范的schema并非易事,所以越来越多的场景会需要我们针对给定的随意文本,抽取出其中的知识元组,也就是开放知识抽取。开放抽取,与上面说的限定域抽取,最大的价值在于海量、起量快,在没有约束的情况下,可以快速生成大量有意义的知识,但没有约束也就成为这种方法在后期管理上较难问题的根源。我们为什么要进行按照限定schema进行抽取,是因为我们预定定义好后,就可以直接入库,直接进行下一道程序,如分析,查询,更新等。但事先抽取,然后再进行使用,事实上还需要针对抽取出来的头实体,关系,尾实体进行分类。例如,给实体进行实体分类,打上人物、电影等实体类型,给关系进行规范化,如江父亲、爸爸、老子、继父等不同表述统一规范成父亲,这其实就变成了一个非标转标的问题,而且,非标转标,最大的问题是标准的确立,因此就会陆续出现聚类、schema自动生成等复杂问题,这些目前都是很不好控制和评估的。因此,综上,我们可以看到,开放信息抽取在面向通用搜索的场景中,或许还有落地可能,其他方向其实是很少的,这也是为什么在工业场景,尤其是垂直行业,开放知识抽取的讨论是较少的,学术界的探索也是较为缓慢的,因为不好评测,实现难度也很大。当然,如果从技术这个角度,通过调研发现,整个开放知识抽取还是出现了以openie为代表的多个系统,从技术发展的脉络来看,包括基于规则的,基于模型的几种方法上。其中,基于规则,包括基于词性模板的,基于依存句法模式的,基于有监督的,则根据现有nlp的几种范式可进一步分为基于序列标注的方法、基于seq2seq的生成方法,基于span的分类方法等多种。而对于有监督而言,其问题的关键在于标注数据的获得,目前以OIE2016以及Re-OIE2016为代表的数据集使用最广,但规模还是较少。实际上,一般的抽取任务都会涉及到这个问题,通常可以借助外部知识库如百科图谱进行原文回标,而回标的前提在于实体或者关系名称在原文中是有对应的span的,如在句子“北京是中国的首都”中实际出现,但有些实际上是不出现的,例如对于,在句子“张三和小红一起参加了结婚十周年纪念日”中并不能严格定义。因此,关系词是否在原文中出现,也常常作为封闭域和开放域抽取的一个重要区别。因此,我们需要从一个句子中,准确的挑选出那些词语可以作为头尾实体,哪些词语可以充当关系词。从经验来看,如果抽取的是实体图谱,头尾实体一般都是名词性的,可以常常将名词或者名词性短语成分作为头实体,而关系类型一般也是名词性的,如父亲、朋友、首都等等。而如果是要抽取的目标是事件三元组,那也对应的头尾实体可以是名词性成分,关系名称则可以是动词等谓词。因此,总结的看,开放抽取的流程,可能就会变成给定一个句子,从原文中抽取符合要求的spo姐成分,然后再根据要求,对so进行实体标签分类,对p进行关系标准化或者聚类,从而完成规范管理,这与限定域抽取的顺序是有一定颠倒的,当然后续的标准化工作可以不做,但其价值是大打折扣的。下面,我们从无监督基于规则、有监督基于生成、有监督基于序列标注、有监督基于分类的三种典型工作出发进行介绍,从中借鉴了https://zhuanlan.zhihu.com/p/353576462一文中对开放信息抽取的一些整理内容,对此表示感谢。二、无监督基于规则的开放知识抽取无监督基于规则的开放信息抽取,其思想在于不需要标注数据,只利用语法或者句法规则识别出特定的成分,筛选出高质量的三元组,然后再通过评分函数和分类器进行评价,最终得到相关结果。无监督Rule-based的代表作textrunner、StanfordOIE等,在前面的文章《知识图谱构建:以OpenIE为代表的开放信息抽取项目技术方案解读》中,我们围绕着OpenIE这一项目的几个版本系统进行介绍,从中我们可以看到基于规则的方法在信息抽取中的强大作用,以及整个系统逐步完善的整个过程,感兴趣的可以查看。下面以textrunner以及srandfordioe进行介绍。1、textrunner系统textrunner的思想在于使用深层次语法解析器(parser)去互联网语料上自动抽取三元组,抽取结果有一个置信度,置信度较高的作为正例,置信度较低的作为负例形成分类训练数据集,学习一个二分类贝叶斯分类器,判断(论元1,关系词,
2022年7月24日
其他

知识图谱平台与图算法必读:图算法的应用场景、基本理论、开源工具概述

在前面的文章中,我们介绍了neo4j图数据库中所提供的数据科学工具,可以很方便快捷地实现各种图算法。此外,我们还介绍了当前知识图谱平台中所能承载的一些图谱分析能力,如下图是来自来自于星环科技知识图谱白皮书中的一张图,关于图算法的应用模块,包括KG
2022年7月18日
其他

平台化知识图谱的是非之论:代表性知识图谱平台中的数据流程、关键模块与构建范式思考

在前面的文章《老刘说NLP入门:谈谈知识图谱与NLP学习的几点建议》中,我们已经介绍过NLP和知识图谱入门的一些经验,而依旧有很多同学对于知识图谱平台来说,依旧有些误解。因此,我们来谈谈这个问题。知识图谱平台,作为一个面向不同领域的标准化、可复用平台,是各大知识图谱公司、企业都在努力的方向,例如,知乎文章《中国最强知识图谱平台都在这》中列举了2021年冬季以来的国内知识图谱平台。那么,作为一个标准化的知识图谱平台,其构成是怎样的,其数据流程与构建范式是按照一个怎样的流程进行的。带着这个问题,笔者根据自身的经验,展开思考。一、知识图谱平台的目标知识图谱平台的目标,最终是提供一个领域数据自适应的、可灵活配置、低成本可扩展可维护的知识系统、工具或服务,对客户不同来源的数据进行结构化整合、联通,发挥出知识的潜在价值。数据自适应,界定了该平台的可复用性,能够根据不同的业务数据提供标准化的处理流程,将差异化的环节压缩到最小;图-来自云知声知识图谱平台(UniKG)图-来自星环智能知识图谱平台(UniKG)在这些典型的知识图谱平台中,可灵活配置,规定了平台的易用性,即不需要很高的用户学习成本,用户群体可以是业务人员,也可以是代码能力不高的程度员,他们只需要根据自己的需求,通过系统规定的流程进行流程配置即可,小白客户也能轻松入门是最理想的状态;低成本可扩展可维护,是平台的另一个重要特征,即整个知识图谱构建不会是一次性(静态)的,而是会随着业务的扩展,数据情况的变化(数据的格式、数据的规模等)而不断发生改变,这样就要求系统在能够充分适应这种动态变化的同时,能够尽可能的保持稳定、维护成本较低,以此来适应复杂多变的业务场景。二、知识图谱平台的主要功能做过知识图谱的朋友都知道,知识图谱最大的价值,就是它的建模规范,正所谓无规矩不成方圆,要对外部的现实世界进行管理、应用,并发挥出潜在价值,那就必须要将外部世界的事物纳入到这个体系当中,这个体系规定了里面有哪些东西以及东西与东西之间的运行规则,这样一来,整个系统才能运转于一个可控的状态之中。因此,知识图谱平台也必定是一个这样一个“有序世界”的外部辅助工具,其提供了一个搭建“有序世界”的入口,细分起来就是“有序世界”的规则、参与“有序世界”规则的数据、数据在这“有序世界”的生产活动三个重要组成部分。1、本体构建:“有序世界”规则的制定与管理这个规则就是我们常说的本体,本体界定了知识图谱中的概念(实体/事件类型)、概念属性(实体/事件的属性/要素)、概念与概念之间的关系(实体/事件的关系),以及概念属性关系的取值约束条件(单值、多值、有限区间)、数据库存储的数据类型(如“
2022年7月16日
自由知乎 自由微博
其他

知识图谱与搜广推(一):广告投放业务流程及知识图谱应用场景概述

最近一段时间​在支持商业化广告的相关业务,在做的过程中有一些自己的想法和积累,因此,想着是否能够写这么一个系列,围绕知识图谱与搜广推,在做自我知识积累的同时,也与大家一起分享,一起思考​。​广告投放是当前互联网流量变现的重要方式,也是互联网公司赖以生存的一个收入来源。​而就这一业务而言,如何选择广告平台,如何选择广告投放策略,如何节约广告投放成本,如何优化广告投放效果,如何提高广告转化率成为企业的一大难题。随着当前知识图谱技术的发展,将知识图谱应用于广告场景的尝试和落地探索也越来越多。比如在广告投放业务中积累的标签可用于指导后续广告精准投放;在内容营销业务中积累的标签可用于指导后续内容产出、KOL选择、人群圈选。因此,本文介绍广告投放业务的基本构成,并以知识图谱在广告投放业务中的两个应用例子进行介绍。​对于想加入更优质的知识图谱、事件图谱实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。一、广告一般都是如何投放的?以信息流广告投放为例信息流广告是当前广告的常见类型,常见于朋友圈、抖音、头条等多个平台当中,而对于广告投放而言,其最关键的参与者就是平台、广告、广告主以及流量主等几个。文章《周冰倩:广告主视角下的信息流广告算法探索》一文中,较为清晰地从平台视角和广告主视角两个角度下的广告投放流程。1、平台视角看广告投放平台视角,用户在流量主侧产生浏览行为,流量主会向ADX(ad
2022年7月11日
其他

KBQA动手实践:基于规则模式的军事和医药领域知识图谱问答快速实现

知识结构化问答是知识图谱的一个重要的应用方向,虽然现在许多真实的使用体验上,会被评价为“鸡肋且智障”,并且在落地上还没有太多的付费场景,但也不乏有不少学生、公司、机构在尝试花时间去做这个事情。当前,医疗知识图谱QAonMilitaryKG,成为了不少朋友都会参考的一个问答快速实现demo的案例,网上也有不少的复现和踩坑记录总结。本文则围绕着医疗知识图谱QAonMilitaryKG和军事武器知识图谱问答两个项目进行简要介绍,希望可以作为大家的一个指引。因此,借着这个机会,本文从句子成分句法分析出发,从开源句子成分句法分析工具,句法树分析和特定成分提取两个角度出发进行介绍,以期加深这一NLP基础知识的理解,供大家参考。一、军事知识图谱构建与自动问答QAonMilitaryKGQAonMilitaryKG,QaSystem
2022年7月10日
其他

NEO4J与图算法共舞:NEO4J内置图算法功能、计算思想与实例实操概览

Neo4j作为当前最为流行的图数据库之一,已经为众人所熟知。而基于Neo4j图数据库进行图算法相关的分析应用也逐步受到关注。一般而言,我们可以使用Neo4j+图算法分析工具(networkx等开源工具)的方式进行配合来完成相关工作。幸运的是,Neo4j图形数据科学(GDS)库中提供了许多图形算法,包括Path
2022年6月26日
其他

OGB-知识推理概览必读:三大推理评测任务、数据集与现有模型水平概述

知识推理与知识表示是一个十分有意思的话题,我们在之前的文章对这一话题进行了介绍,团队也在跟进知识表述模型的研制和业务落地工作。例如:《从OGB评测看大规模知识图谱表示:从TripleRE、InterHT再到Trans模型赏析》、《KG-Embedding前沿:引入节点位置特征的注意力神经网络表示模型GFA-NN剖析与总结》、《大规模知识图谱表示必读:从Bert中的wordpiece到KG中的nodepiece》等文章中都提到了大规模知识图谱OGB数据集的相关预测任务。其实,就OGB评测而言,其包括了面向节点属性补全的Node
2022年6月12日
其他

再谈图谱表示:图网络表示GE与知识图谱表示KGE的原理对比与实操效果分析

知识图谱嵌入是一个经典话题,在之前的文章《知识表示技术:图谱表示VS图网络表示及基于距离函数的表示学习总结》中,围绕知识图谱嵌入学习这一主题,对比了知识图谱嵌入与图网络嵌入的异同。而在实际工作中,我们通常会面临着对一个知识图谱进行嵌入的问题,并且要选择对应的方法进行处理。先给一个草草的发现:如上面图所示,给定一个图谱中,有a,b,c,d,e,f,g共7个实体,有两个关系类型0和1,两类embedding在嵌入的相似性上存在一定的差异性,例如:Graphembedding中,相似的包括(d,f,c)、(g,e,b),其关系类型相似;Knowledge
2022年6月8日
其他

知识图谱Schema必读:面向开放实体与事件的CommonSchema开源项目介绍

在前面的多篇文章中,我们提到了schema对于知识图谱或事件图谱的重要性,也提到了当前的一些开放的schema资源。例如schema.org、cnschema,ACE事件体系以及以CCKS系列评测为主,推出了系列schema。为了进一步地对这些数据汇总,试图构建起覆盖度尽可能广的schema体系,包括实体以及事件。我们建立CommonSchemaKG这一项目,以填补这一方向的空缺。地址:https://github.com/liuhuanyong/CommonSchemaKG本文是对该项目的介绍,并介绍面向实体的百科schema以及面向事件的framenet事件schema两种代表性的schema,一、面向实体的百度词条Schema当我们进行百科图谱词条创建时,会自动地给出关于词条所属类型以及属性要素的模板,这为我们提供了很好的参考。该项目通过采集百度百科词条,整理后,共包括有13个大类、163个小类的数据schema。
2022年6月6日
其他

常识系统“学迹”回顾:典型的实时事理常识学习、搜索与推理系统构成总结与思考

“踏雪有痕,抓铁有印”,“来时须有影,去时更有踪”,万物皆有迹可循。语言是社会的镜子,每天产生的文本中蕴含了大量的事件知识,清晰地记录了社会发展中各个事物在人们脑海中的印象以及自身发展和演变的轨迹。我们常想,“要是能够构建一个全面、精准、紧随社会发展的轨迹库(事理知识库),将社会对某个事物或事件不同的认识整理出来,将某个或每类事件发展和演化的逻辑轨迹梳理出来;并基于这种认识和演化逻辑,将互相关联的事物联系起来,做些有意义的未知推理,将是件多么美妙的事”。有一个面向事理的实时学习和搜索系统Demo,取名叫“学迹,从上线到目前,已经有两年多的时间了。回过头来,面向事理的第一个事件因果的常识性开放式系统,很具有前瞻性意义。包括其中的思想,定位,当初设计时所寄托的愿景,仍然具有很强的借鉴性。本文是对之前文章的汇总,来系统性的回顾下这个系统,供大家一起思考。一、
2022年6月2日
其他

NLPer基础必备:面向KG构建的文本标注任务、工具、策略与动手实践交流总结

​​​文本标注是自然语言处理深度学习和机器学习范式的根本,而标注数据更是性能指标的天花板。五一假期第一天,4月30日,老刘说NLP技术社区举行了第三次线上交流活动,以《面向KG构建的文本标注任务、工具、策略与动手实践》为题,介绍了知识抽取环节中的知识标注任务展开讨论,总时间2小时。社区进一步从理论过渡到实践,后续也将陆续从实践出发,做更多更为落地更的交流。感兴趣的朋友,可以加入社区,观看回放,一同思考。在本次交流中,从知识图谱/事件概述,知识抽取中的NER\RE\AE\EE任务,知识抽取中的标注策略与常用规范、知识抽取中的开源标注工具与数据集、基于开源标注工具的动手实践等五个方面进行了介绍:一、知识图谱/事件概述首先,从知识图谱过渡到事件类图谱,讲述了两者之间的差别,对其进行概述;二、知识抽取中的NER\RE\AE\EE任务然后,介绍知识抽取中常用任务,包括NER实体识别、RE关系抽取、AE实体属性抽取以及EE事件要素抽取几个任务;三、知识抽取中的标注策略与常用规范接着,对当前知识抽取中的标注策略与常用规范进行介绍,包括BIO,BMES等,同时包括非连续实体标注,实体关系标注,事件要素标注等;四、我们知识抽取中的开源标注工具与数据集在第四部分,为了对标注数据集进行更加具象化,我们对当前的一些开源的标注工具与数据集进行列举,可以作为一个很好的指引。五、基于开源标注工具的动手实践最后,理论与实践相结合,我们选择当前最好的文本标注工具进行如上几个任务的标注动手实践,加强大家对该任务的理解。首先,选用label-studio进行了实体标注和关系标注的实验。随后,使用Marktool进行了事件要素标注的实践。心得总结通过本次的线上交流,我们对面向知识图谱构建的文本标注这一话题,从理论到实践都有了初步的认识。而在实际的工作中,我们深刻的发现:数据是深度学习方法的基础,也是深度学习模型的上限
2022年5月4日
其他

从OGB评测看大规模知识图谱表示:从TripleRE、InterHT再到Trans模型赏析

在前面的文章中,我们讲述了大规模知识图谱表示模型的一些工作。我们知道,在规模知识图谱表示学习上,基于距离公式的知识表示方式成为当前的一个流派,为了解决一对多、多对多、对称性、反对称性以及组合性的问题,先后涌现出了TransE,TransR等模型;该榜单数据来源于Wikidata知识库,涵盖现实世界约250万个实体之间的500多种不同关系,构成了1700多万个事实三元组。而从2021年年底开始至今,随着360TripleRE模型的提出,该榜单逐步受到大家关注,并陆续出现了科大讯飞InterHT模型、度小满TranS模型等系列模型。本文主要围绕着这一工作,对三个现有模型进行索引介绍,供大家一起参考。一、20211217-360
2022年4月28日
其他

图的重要性计算必读:节点重要性与节点间相关性计算中的中心度和PersonalRank算法总结与实现

在前面的文章《KG-Embedding前沿:引入节点位置特征的注意力神经网络表示模型GFA-NN剖析与总结》以及《大规模知识图谱表示必读:从Bert中的wordpiece到KG中的nodepiece》中,我们都说到,当前引入节点拓扑结构信息到知识表示中的重要性。其中有个重要的点,就是重要节点的选择问题,如nodepeice中的锚点anchor选择。因此,本文主要介绍节点重要性以及节点间相关性的计算方法,这在当前图表示中有着十分重要的应用场景。本文中参考和引用了参考文献的内容,在此对前人的工作表示感谢。一、基于PageRank与中心度的节点重要性计算在一张大图中,如何衡量图中节点的重要性,是当前图算法的重要应用场景,下面介绍几种方法。1、基于PageRank的节点重要性算法PageRank算法,又称网页排名算法,是一种由搜索引擎根据网页(节点)之间相互的超链接进行计算的技术,用来体现网页(节点)的相关性和重要性。如果一个网页被很多其他网页链接到,说明这个网页比较重要,也就是其PageRank值会相对较高。如果一个PageRank值很高的网页链接到其他网页,那么被链接到的网页的PageRank值会相应地提高。2、基于中心性的节点重要性算法对于节点重要性的解释有很多种,当前最主要的度量指标为点度中心性(Degree
2022年4月27日
其他

图算法经典必读:Louvain、LPA等5类经典社区发现算法的实现策略与开源实现

上一篇文章《​事件演化挖掘开篇:故事森林storyforest系统中的keygraph算法思想与实现细节》,我们提到了一个社区发现算法,用于文本聚类。而社区发现算法而言,其自身也是图谱算法中一个重要组成部分。本文我们将继续沿着这个主题,对现有的几个经典社区发现算法,从实现思想,实现代码以及效果展示几个方面进行介绍。在本文中,主要参了CSDN博主「东方小虾米」的一些算法总结,很有参考意义,对此表示感谢,在此​基础上,利用开源工具networkx进行实践,大家可以看到具体的效果。​一、社区发现概述​根据图论,加权网络表示为𝐺=(𝑉,𝐸,𝑊),未加权网络表示为𝐺=(𝑉,𝐸),其中𝑉和𝐸表示节点和边的集合,𝑊分别表示𝐸相应的权重,以连接的强度或容量为单位。在未加权的网络中,𝑊被视为1。子图𝑔⊆𝐺是保留原始网络结构的图划分。子图的划分遵循预定义(pre-define)的规则,不同的规则可能会导致不同形式的子图。社区是代表真实社会现象的一种子图。换句话说,社区是一组具有共同特征的人或对象。社区是网络中节点密集连接的子图,稀疏连接的节点沟通了不同的社区,​使用𝐶={𝐶1,𝐶2,⋯,𝐶𝑘}表示将网络𝐺划分为𝑘个社区的集合,其中𝐶𝑖是社区划分的第𝑖个社区。节点𝑣属于社区𝐶𝑖满足如下条件:社区内部每个节点的内部度大于其外部度。因此,社区发现的​目标是发现网络𝐺中的社区𝐶。二、KL社区发现算法K-L(Kernighan-Lin)算法是一种将已知网络划分为已知大小的两个社区的二分方法,它是一种贪婪算法,它的主要思想是为网络划分定义了一个函数增益Q,Q表示的是社区内部的边数与社区之间的边数之差,根据这个方法找出使增益函数Q的值成为最大值的划分社区的方法。1、实现策略​该算法的​具体策略是,将社区结构中的结点移动到其他的社区结构中或者交换不同社区结构中的结点。从初始解开始搜索,直到从当前的解出发找不到更优的候选解,然后停止。首先将整个网络的节点随机的或根据网络的现有信息分为两个部分,在两个社团之间考虑所有可能的节点对,试探交换每对节点并计算交换前后的ΔQ,ΔQ=​Q交换后-Q交换前,记录ΔQ最大的交换节点对,并将这两个节点互换,记录此时的Q值。规定每个节点只能交换一次,重复这个过程直至网络中的所有节点都被交换一次为止。需要注意的是不能在Q值发生下降时就停止,因为Q值不是单调增加的,既使某一步交换会使Q值有所下降,但其后的一步交换可能会出现一个更大的Q值。在所有的节点都交换过之后,对应Q值最大的社团结构即被认为是该网络的理想社团结构。​地址:http://eda.ee.ucla.edu/EE201A-04Spring/kl.pdf2、代码实现:>>>
2022年4月15日
其他

KG-Embedding前沿:引入节点位置特征的注意力神经网络表示模型GFA-NN剖析与总结

在上一篇文章《大规模知识图谱表示必读:从Bert中的wordpiece到KG中的nodepiece》中,我们介绍了nodepiece这一将自然语言处理的WordPiece技巧迁移到知识图谱的方法,从而用较少的子实体嵌入去建模大规模知识图谱上的实体嵌入,并增强模型的泛化性能。其核心思想在于利用pagerank等算法选取一些具有代表性的锚点节点集合(achor
2022年4月4日
其他

大规模知识图谱表示必读:从Bert中的wordpiece到KG中的nodepiece

知识表示是当前的知识图谱技术的前沿课题,而大规模知识图谱的出现,使得学习所有节点的嵌入变得非常困难。一般来说,在现有的知识表示模型当中,将每个节点映射到一个嵌入向量会产生非常大的嵌入矩阵,这使得计算量十分巨大。现在知识图(KG)越来越大:Wikidata有大约1亿个节点(实体),YAGO4大约有5000万个节点,而像Google
2022年4月2日
其他

KG与搜广推入门:C端广告业务的生态、展示类型、结算方式与评估指标总结

搜索、游戏、广告、推荐是互联网最赚钱的商业模式,这也是C端场景中的一个十分落地的业务,并且提供了包括NLP、知识图谱等技术创新和应用的重要场所。笔者之前在《技术总结:面向C端场景的概念图谱构成、建设与应用索引》一文中介绍了知识图谱的一些建设案例。当然,技术应该结合具体的业务,才有实际意义,借着这个机会,老刘从三月份开始陆续就搜广推这一业务进行介绍,并推出知识图谱与搜广推的技术系列。本文就广告业务中的基础知识这一主题,从广告业务的技术生态圈概览、广告业务中常见的广告类型、广告业务的流程与常用结算方式以及广告业务中的效果评估指标四个方面进行介绍。从中我们可以大致理解广告业务中的基本情况。一、广告业务的技术生态圈概览互联网广告本质就是流量售卖,参与方有:流量卖方,流量买方;为了保证真实交易,又有第三方的广告监测方;为了保证流量质量,又有数据提供方,帮助筛选流量。下图展示了RTB发布的中国程序化广告技术生态圈,从中我们可以看到在整个生态中包括广告主、消费者两头下(左边是广告主,右边是消费者),从广告主到达消费者,内置了多项广告服务细分厂商。例如综合大型投放平台、程序化广告采购方、程序化广告供应方、采购交易平台及技术、广告验证、监测分析工具、数据提供和数据管理、程序化创意、程序化电视广告以及程序化的数字户外广告等。总结起来就是DSP需求方平台、ADNetwork广告联盟、ADX广告交易平台、SSP供给方平台以及数据提供方与数据管理平台。其中:
2022年2月27日
其他

技术总结:业务场景中的标签挖掘与开源概念标签知识库总结

标签是当前信息组织、简化和推荐的重要基础设施,整个内容侧的业务中,我们发现,大多都是基于一个标签体系运作的。​例如,为了对一个文本进行索引,我们通常会对文本进行归类、打标签,然后就可以在搜索栏中对文本进行快速定位,又如,在SEO场景中,网页发布者通常会在网页元信息中加入关键词来提升网站的排名和曝光率。又如,在用户画像场景中,通常需要挖掘用户属性,并以词级别信息进行用户特征,从而更精准地进行产品推送,如广告投放、资讯推送或者视频推送。因此,我们发现,无处不在的标签,已经成为了当前内容业务上的重要组成部分,与此相对应的标签挖掘方法也值得关注。本文主要围绕标签这一主题,对业务场景中的标签挖掘方法以及特殊品类的概念标签开放知识库进行梳理,供大家一起参考并思考。一、标签的类型定义与场景实现根据业务的不同,我们会制定不同的标签类型,例如关键词标签,概念标签,属性标签、行业标签等。一般来说,随着业务复杂度的提升,一个健全的标签体系尤为重要。在建设过程中,需要考虑到标签的规范性、开放性与层级性三个特点。其中,规范性指标签的唯一性,所以表达同一标签含义的都用同一个命名。层级性指的是标签自身是需要要分级的,有大类、中类还有小类,有的时候甚至还要有跨类别。开放性指整个标签是有限集还是开放集,不同的类型所需要的运营和算法路径是不同的。1、关键词标签关键词是一类标签,用于对某个文本描述进行关键信息的浓缩。通常,会有以下几种情况:其一。普通关键词,我们会使用诸如TFIDF算法或者TextRank算法这些无监督方法进行抽取。其二。实体关键词。对于一些特殊的需求,关键词还会进一步扩充至一些具有实际意义的名词,如人名、地名、机构名或者特定类型的实体。对于后者,则可以用通用的实体识别模型来获取。其三。预设关键词。对于已经有目标关键词集合的,则更多地采用关键词扩展和词典匹配的方式来进行处理。其四。主题关键词。主题关键词与普通关键类似。但更多的是反映了一个文本的领域主题特征。在实现上,通常可以使用LDA主题模型或者分类模型的方式来处理。2、概念标签概念标签是面向搜索和推荐场景的重要一类,在上一篇文章《技术总结:面向C端场景的概念图谱构成、建设与应用索引》对其进行了论述,可以利用pattern的方式对query或者点击title进行挖掘,后者再利用回标构造正负样本来迭代扩充。实际上,概念标签在实体识别这个任务上还是有应用的,例如哈工大的一个工作《基于多信息源的实体类型(上位词)抽取方法》中,利用概念标签的方式来挖掘开放细粒度实体类型。在具体实现上,首先将该实体输入搜索引擎,发现与它共现的词语,这个共现的词语很可能代表实体的类别;第二种方法是通过词典去查这个实体的类型;第三种方法是通过核心词来识别。例如,对于“可口可乐公司”这个实体词,它的核心词是“公司”,故我们可通过该核心词,识别“可口可乐公司”这个实体词的类型是“公司”"3、行业/用户标签主题和行业标签在如金融领域中的应用较多,如对金融公司进行组织时,通常会给公司打上不同的行业标签、板块标签、地域标签等。但这个标签比搜广推场景更为精细和固定,标签需要业务行业专家进行事先制定,然后利用公司的信息进行标签分类任务,在实现上难度较大,因为对于一些长尾的公司实体,其所能利用的信息是很少的,所以行业标签的输入特征较少。类似的,在用户画像场景中,我们常常会遇到用户属性挖掘的问题,需要挖掘用户属性的特征然后与商品等进行匹配,比如用户的兴趣标签、行为标签等。二、常用开放实体标签挖掘方法1、基于开放文本的标签挖掘围绕实体,为其添加更多的信息,包括属性、同义词、上下级信息等能够更多地帮助理解一个实体。这些信息都是以“侧面”的方式来表示一个实体,而对于实体语义保留最丰富的,是实体描述。而从非结构化文本中进行实体描述抽取,形成实体描述网络,一方面可以进一步生成实体标签、实体embedding、实体上下位知识、实体同义词、产品上下游的知识。另一方面,也可以作为实体重要性计算的重要来源。下图展示了magi系统中对特定实体的描述结果,从中可以得到关于该实体标签来源的干净上下文。在笔者之前的文章《经验分享:基于BERT-BiLSTM-CRF的实体描述知识抽取建模实战》一文中,采用了序列标注的方式来实现这一工作。​类似的,在丁香园的《如何为实体抽取描述性短语》​一文中,系统介绍了使用类似名词短语抽取或者IS-A关系抽取的方式来抽取。例如,利用模版匹配生成候选的描述性短语,通过观察描述性语句的特点,归纳了一些经常在描述性句子中出现的trigger,
2022年2月17日
其他

技术总结:面向C端场景的概念图谱构成、建设与应用索引

C端是知识图谱应用的一个重要领域,这个领域有大量的用户行为数据,存在着包括搜索、推荐、广告投放等业务。当前,主流的互联网公司,如美团、阿里、腾讯都在尝试相关落地,在此当中,概念图谱的建设和应用受到关注。概念图谱可以用于特征的补充,实体的召回等数据增强等实际工作当中。本文主要从工业界的角度,对已有开放的大厂工作进行汇总、介绍,并对C端场景的概念图谱构成、构建与应用进行总结。最近也在做这个方面的工作,写出来,与大家一起思考,对于进一步的扩展阅读,大家可以从延伸阅读的链接中查询。一、美团常识性概念图谱《常识性概念图谱建设以及在美团场景中的应用》
2022年2月16日
其他

知识图谱指引:五大开源知识图谱技术白皮书/报告概述与开放下载

知识图谱发展至今已有数年,无论是学界还是业界,都对知识图谱有了不同的见解,如何形成规范化、标准化的知识图谱认识,并在垂直行业中应用落地,是知识图谱从业者的重要使命。而专业性、垂直性的技术白皮书,是解决上述问题的一个重要手段。通过行业调研和开放信息收集,本文进一步整理了《知识图谱选型与实施指南_2021》、《中国知识图谱行业研究报告_2020》、《面向人工智能“新基建”的知识图谱行业白皮书_2020》、《知识图谱标准化白皮书_2019》、《知识图谱发展报告_2018》共5个代表性的知识图谱材料。该材料具有很好的参考性和指引性,阅读价值较高,供大家一起参考。一、知识图谱选型与实施指南_2021《知识图谱选型与实施指南》(2021年版)由中国电子技术标准化研究院依托全国信标委人工智能分委会知识图谱工作组联合星环科技等49家企事业单位、高校和研究院所共同编制,于2021年12月在第二届知识图谱产业发展论坛正式发布。地址:https://www.jianguoyun.com/p/DQnRU9kQyrjVCRjVkqIE二、中国知识图谱行业研究报告_2020艾瑞于2020年3月份发布的《去往认知海洋的一艘船-2020年中国知识图谱行业研究报告》,报告包含知识图谱技术概述、中国知识图谱市场概述、中国知识图谱细分市场分析、中国数据智能代表企业案例展示四种。地址:http://www.invest-data.com/eWebEditor/uploadfile/2020041219471056684555.pdf三、面向人工智能“新基建”的知识图谱行业白皮书_2020认知智能国家重点实验室&艾瑞咨询联合发布了《2020
2022年2月14日
其他

知识图谱应用:安全领域知识图谱建设与典型应用场景总结

安全知识图谱是网络安全领域专用知识图谱,也是知识图谱应用于安全业务的重要工业尝试。当前,安全领域中存在大量的业务数据,建模需求以及应用需求,了解安全领域知识图谱的建设方法以及典型应用场景,具有重要意义。本文主要对《安全知识图谱技术白皮书》一文进行解读和总结介绍,对于安全领域的朋友可以重点关注。一、安全知识图谱概述安全知识图谱作为一种实体和概念等安全知识的高效组织形式,能够发挥其知识整合的优势,将零散分布的多源异构的安全数据组织起来,为网络安全空间的威胁建模、风险分析、攻击推理等提供数据分析和知识推理方面的支持。例如,上图展示了一个典型的安全知识图谱,由网络和安全知识库、情报库、资产库、行为日志中关键实体(概念)及关系构建而成。二、安全知识图谱的数据类型与开放本体一个典型的安全知识图谱构建流程主要包括以下几个步骤,包括数据来源、本体设计、图谱构建以及图谱应用等环节,下图展示了技术流程图。1、主要数据来源安全知识图谱的数据为多源异构数据,不仅来自多个不同来源,而且有混合型数据(包括结构化和非结构化)和离散性数据(分布在不同的系统或平台的数据)。数据来源包括企业内部和互联网数据,其中:企业内部信息系统本身每天产生海量的检测数据,而攻击者的操作行为也隐藏在系统自身记录的审计日志和网络流量数据中。互联网数据包括开源情报、安全论坛发布的信息和网络公布的安全报告等。2、主要数据形式从数据结构上看,安全数据包括结构化数据、半结构化数据以及结构化数据。首先,常见的结构化数据包括漏洞(CVE)、攻击模式(CAPEC)、知识数据库等知识以及从传感器收集的网络资产和终端日志等数据。通常存储在关系型数据库中,授权后可以直接获取。其次,半结构化数据包含日志文件、
2022年2月9日
其他

知识图谱应用:专利知识图谱的概述、构建与应用案例剖析

本文主要围绕着知识图谱应用中的一个典型应用领域-专利领域进行介绍。以ppt的形式从专利知识图谱概述、专利知识图谱构建、专利知识图谱的应用以及现有专利知识图谱的产品案例进行剖析。注:对于文中PPT全文,可关注老刘说nlp公众号,点击会员社区->会员入群,加入老刘知识图谱技术会员群获得。一、专利图谱概述专利知识图谱是以专利为核心,描述专利属性、专利与发明人、专利与发明申请人、发明所属行业或领域的一类知识图谱。二、专利图谱的构建为了构建一个健全的专利图谱,我们可以按照知识图谱构建的全生命周期进行处理。首先,以国家知识产权局为基本数据来源,并针对不同的数据类型采用相应的专利图谱结构化方法进行抽取。但是,我们需要注意的是,专利知识图谱最大的问题在于,专利内容的实体单元和实体关系单元不好确定。三、专利图谱的应用基于构建好的专利知识图谱,可以应用于检索和分析两个基本场景,用于掌握技术发展路径、洞察竞争对手动向以及明确技术研发方向。例如,我们可以利用专利知识图谱与企业图谱关联后进行企业监控,进行人才引进和投融资推荐,并对当前的技术热点和潜在风口进行识别。四、专利知识图谱案例剖析当前,已经陆续出现不少专利服务供应商,下面主要以吉江数据、incopat两个产品中所涉及到的一些实现细节进行拆解。关于我们老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。就职于360人工智能研究院、曾就职于中国科学院软件研究所。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。注:对于文中PPT全文,可关注老刘说nlp公众号,点击会员社区->会员入群,加入老刘知识图谱技术会员群获得。
2022年1月23日
其他

也谈Magi系统:知识(非搜索)引擎下的别样高度与落地批判

“你所谓的老大是指?”。正是由于这种不对称性和不确定性,很多被保存在知识图谱中的信息难以被检索到。事实上,在开源图数据库方案中,支持模糊匹配已经十分难得,多数情况下都会要求用户使用规范的关键字或是
2022年1月13日
其他

知识图谱技术:Probase概率性概念图谱与NELL实时知识库学习系统总结

在前面的文章中,我们介绍了以bigcilin、CN-probase为代表的确定性上下位概念图谱项目,以及openie系列的开放知识图谱构建项目。本文,将继续围绕这两个点,进一步介绍Probase概率性概念图谱以及著名的NELL实时知识库的构建方法。一方面,就概率性概念图谱而言,当前的知识,都严格地认为知识库应该提供标准的、定义良好的和一致的可重用信息,但对于概念而言,这显然未能反映真实情况,因为概念本身就是很主观且模糊的,例如,什么是大公司、什么是美丽的城市并没有明确的界限。此外,通过机器自动化获取概念上下位的方式并不能严格梳理出一致性的分类标准,常常会引入错误和不一致问题。Probase概率性概念图谱对此作出了一个探索性的工作;与openiex相比,NELL的输入包括预定义的关系类型、关系类型、对应的模式集合以及对应的少量样例,目前已经积累了2,810,379个知识库,其中包括1,186个不同类别和关系的断言实例,对其进行剖析,对于理解这种实时学习系统有重要作用。一、Probase概率性概念图谱Probase(A
2022年1月9日
其他

知识表示技术:图谱表示VS图网络表示及基于距离函数的表示学习总结

上一文章中,我们介绍了基于随机游走的节点嵌入学习方法,其充分借鉴了自然语言处理中的word2vec思想,通过随机游走,形成节点序列,然后后接skipgram进行邻居节点预测,以完成节点学习。在这一思想下,先后出现了同时考虑同质性与结构性的带偏游走node2vec、考虑一阶和二阶相似性的LINE等。由于图网络中,更多的将无向,节点类型以及节点边类型加以忽略,所学习到的节点嵌入本质上是在还原图的一阶或二阶邻居,即图的结构信息。而对于知识图谱这种网络结构而言,其是由异构的复杂关系三元组形成的网络,在复杂知识推理需求的推动下,如何将实体或实体关系嵌入加以学习,成为了一个经典问题。本文主要围绕知识图谱嵌入学习这一主题,对比知识图谱嵌入与图网络嵌入的异同,并介绍基于Score函数的知识图谱表示方法,希望能够带来一定的思考。一、网络嵌入VS知识图谱嵌入就图嵌入而言,分为图网络嵌入graph
2021年12月28日
其他

图谱应用剖析:智能投研代表系统Kensho介绍与核心部件简述

智能投研是当前Fintech的重要方向,同时金融咨询行业也是该系统的一个重要出口。金融咨询行业的服务主要是为客户提供市场数据的分析、给出投资建议等,属于人力资源密集型行业,其服务的价值在于,受过专业教育的从业人员在与客户信息、知识不对称的情况下,能为客户提供信息与分析决策服务。而在实际的工作中发现,由于多种复杂的因素,资产价格已经不像30年前一样受小类因素的影响,而是收到多种因素的影响,例如政治事件等。因此,Fintech系统很希望建立一个模型去分析资产是如何暴露在非传统因素影响下的,哪一类资产价格收到某件因素最敏感。设想一下该场景,突发新闻报道叙利亚遭到袭击,投行的客户们一定纷纷打给他们的客户经理,询问该事件会对他们的资产组合造成什么样的影响。客户经理的反馈模式是利用他们的自有知识和有限的记忆对这件事如何对某类资产造成的影响作出判断。如果打电话过来的是一位重量级客户,他们可能需要要求研究员对该问题进行一个系统的研究,出一份研报。该模式的问题在于,如果反馈需要时间,则该交易机会可能会流失。以上的过程,如果交给一名传统金融分析师来做,可能要花上数天时间,总计40个小时左右。因此,如何借助机器,来完成上述场景的快速解决,以知识图谱、事件关联分析挖掘的前沿产品被先后提出,本文主要介绍在智能投研角度下的知识图谱应用,并以Kensho-warren产品典型分析对象,进行实现思想进行介绍。一、从知识图谱到智能金融在金融领域,通过知识图谱相关技术,机器可以从招股书、年报、公司公告、券商研究报告、新闻等半结构化表格和非结构化文本数据中批量自动抽取公司的股东、子公司、供应商、客户、合作伙伴、竞争对手等信息,并构建出公司的知识图谱。1、智能投研与知识图谱当某个宏观经济事件或者企业相关事件发生的时候,投资者可以通过知识图谱做更深层次的分析和更好的投资决策,比如在美国限制向中兴通讯出口的消息发布之后,如何构建最佳投资组合。因此,随着知识图谱相关技术逐步发展并应用,不仅可以进一步完善数据的丰富度和准确度,还可以加速数据标准化、关联化的建立,进而促进搜索向投资观点的一步跨越。其中,智能投研是智慧金融的一个阶段性形态,其终极目标实现搜索到投资观点的自动跨越。如上图所示,传统投研流程,可简化成四个步骤:1)搜索:通过百度/谷歌、专业书籍、公告等寻找行业、公司、产品的基本信息。2)数据/知识提取:通过万得、彭博等金融终端或者直接阅读公告、新闻获得数据/知识。3)分析研究:通过Excel等工具和逻辑推演完成分析研究。4)观点呈现:将分析研究的结果以PPT、word等形式呈现。传统投研流程存在搜索途径不完善、数据获取不完整且不及时、人工分析研究稳定性差、报告呈现时间长等缺陷,而利用知识图谱等方法,可以帮助每一个步骤提高效率,如智能搜索和智能资讯增大有效信息来源,公告/新闻自动化摘要和上下游产业链分析提高数据知识提取效率,事件因果分析和大数据统计分析完善研究方法等等。在这一需求的驱动下,国内外国外创业公司跃跃欲试,相较于智能投顾,智能投研技术难度更高,其发展态势初露雏形,还未成规模。2、国外智能投研厂家路线PalantirMetropolis平台整合多源数据,将不相干的多个信息置于一个统一的定量分析环境中,构建动态知识图谱;VisibleAlpha通过设立专有的新数据集和工具套件以增强机构投资者对公司未来基本面的量化见解能力;Trefis细拆公司产品/业务预测收入;Alphasense获取专业且碎片化信息;Dataminr收集Twitter等公共来源上的实时数据,并转化为可付诸行动的信号;Kensho试图回答“当Netflix超出盈利预期,Amazon明天表现将如何?”、“Apple发布新产品前后的股票交易如何?”等投资问题。3、国内智能投研厂家路线通联数据的萝卜投帮助分析师提高处理信息、快速挖掘投资线索的能力,产品包括智能咨询、智能搜索、智能财务模型;数库科技提供数据关联化、智能化服务;天弘基金2015年建立了业内领先的投研云系统,其中的信鸽和鹰眼两大系统分别为股票和债券投研提供精准支持;嘉实基金2016年成立了人工智能投资研究中心,构建可扩展的智能投研平台,为系统化的科学投资决策提供支持;华夏基金和微软亚洲研究院战略合作,双方将就人工智能在金融服务领域的应用展开战略合作研究。不过,需要注意的是,由于国内金融数据较于国外存在数据不丰富甚至残缺的致命缺陷,数据标准化、关联化的建立显得至关重要,因此国内数据服务商,如wind、东方财富、同花顺、恒生聚源等公司是推动智能投研发展过程中的重要组成部分。4、智能投研下的主要产品形态现阶段智能投研工具与传统投研工具的本质区别在于交互体验、数据逻辑和自我优化学习能力。1)交互体验:传统投研工具如万得、彭博均是非图形化的类EXCEL表格界面,而Kensho、数库科技等智能投研工具均是图形化界面,交互体验更强,比如可以在图形界面上随意点击一个节点进行相关查询,非常利于投研效率的提高。2)数据逻辑和自我学习优化能力:由于传统金融数据服务商的数据是基于财务报表的逻辑关系,是静态存在的,因此没有自我学习优化能力,并且不能跨公司实现数据之间的逻辑关联;例如,Kensho、数库科技所提供的数据服务,一方面具有静态基于会计逻辑的数据,另一方面可以实现数据的动态关联,并且这种动态关联可以跨公司和行业实现,通过海量数据、知识图谱和深度学习能力,机器可以发现事件与事件之间的关联关系,并通过知识图谱实现信息向决策的一步转化,并且这种转化过程是可以通过机器学习逐步自我优化的,甚至可以说会比人类做得更好。智能投资、智能投顾、智能咨询、智能客服四大产品亮相:1、智能投资:基于大数据分析、机器学习和推荐引擎等技术,打造以用户画像为依据,可以帮助金融机构为个人用户提供机会挖掘、交易陪伴以及精准服务的智能决策辅助系统。2、智能咨询:通过强大的人机自然交互,投资者可获得关联的股票和资讯信息。3、智能投顾:分为客户需求探索、资产优化模型、智能择市(量化投资策略)和资产智能管理四个环节。4、智能客服:运用语音识别、智能语义、以及智能知识的核心技术,帮助金融机构提高客服效率,提供7*24小时不间断的快速服务,降低人工的运维成本。二、Fintech的典型代表系统:kenshoKensho公司属于金融咨询行业,是一个将云计算与金融咨询业务结合起来的科技型公司,主要产品是一个名叫“Warren”(沃伦)的金融数据收集、分析软件。Kensho官网上声称“Kensho是一个先锋级的实时数据计算系统、一个可量化的数据框架,是全球化金融系统的新一代升级产品”。它拥有强劲的云计算能力、良好的人机交互界面和深度学习能力。Kensho公司的目标是让此软件的功能取代现有的大量投资分析人员的工作,为客户提供更加优质、快速的数据分析服务。两位创始人因禅结缘,创立Kensho,团队成员人才济济。自2013年起,公司累计融资超1亿美元,2017年4月获标普国际领投的B轮5000万美元融资,估值达5亿美元,目前已实现盈利。公司产品Warren试图通过构建事件数据库及知识图谱的综合图表模型,解决投资分析中“速度、规模、自动化”三大挑战。Kensho客户主要包括两条业务线,1)利用历史数据帮助大型银行和其他金融机构分析诸如地理、天气等因素带来的风险敞口;2)帮助全球商业媒体承担事件分析业务。目前,公司已经和谷歌、S&P等金融机构达成战略合作关系,它们不仅是Kensho的风险投资者,亦是合作伙伴,如B轮融资领投机构S&P将为Kensho分析平台提供全球市场情报数据,在此基础上双方将合作开展未来产品开发,将新的创新能力推向市场,此外S&P将拥有Kensho的一个董事会观察员席位。与此同时,Kensho作为CNBC(美国NBC环球集团所持有的全球性财经有线电视卫星新闻台)的独家分析提供商,其数据可视化分析每天在CNBC上播放多次。当然,商业媒体的核心竞争力是某事件发生之后以最快的速度给出一个站得住的分析结论,该属性使得CNBC对Kensho的分析能力不会有过高要求,而会更加注重分析速度。从谷歌、S&P、CNBC既是风险投资商也是商业合作伙伴的属性看,未来Kensho有望拓展至美国政府部门。三、Kensho系统中的核心部件:WarrenKensho主打产品,是叫“Warren”(沃伦)的金融数据收集、分析软件,拥有强劲的云计算能力、良好的人机交互界面和深度学习能力,试图通过构建国际事件数据库及知识图的综合图表模型解决投资分析的速度、规模、自动化“三大挑战”。该产品类似于Google搜索引擎的金融分析软件,用户只需以通俗易懂的英文来询问Warren金融问题,比如“台风对建筑行业股票价格影响是怎样的”,随后便会将问题转换成机器能够识别的信息,并寻找云数据库与互联网中的各类相关数据与事件,运用大数据技术进行分析,并根据市场走向自动生成研究预测报告,回答投资者的问题。据福布斯介绍,“在能够找全数据的假设下,对冲基金分析师团队需要几天时间才能回答的问题,Warren可以通过扫描超过9万项全球事件,如药物审批,经济报告,货币政策变化和政治事件及其对地球上几乎所有金融资产的影响,立即找到超过6500万个问题组合的答案。具体的:Warren的强大功能使得用户不再需要有专业的金融知识,也不需要设置复杂的参数和配置算法,就可以得到类似于金融分析师分析的结果,让更多的人能够以较低的门槛获得专业的分析结果。1、寻找事件与资产的相互关系Warren可实现,寻找事件和资产之间的相关性及对于其价格的影响、基于事件对资产未来价格走势进行预测。其中:1)寻找事件和资产之间的相关性a)寻找影响资产价格的关联事件:
2021年12月26日
其他

知识图谱技术:WordNet、Babelnet等经典语言知识库项目案例构建剖析

知识图谱作为一个知识的表示方式,其可以根据所描述知识对象、内部知识单元、所属领域、应用场景的不同而分为不同的知识图谱类型,即“知识类型+知识图谱”。例如,如果存储的是供语言学习者学习的语言类知识,如词语的释义、同义、反义、上下位,同一个词在不同语言中的翻译,可以形成语言类知识图谱;如果存储的是供信息查询使用的百科类名词性实体类知识,如人物、地点、机构,以及人物的属性,人物之间的关联关系,可以形成百科类实体图谱。随着知识图谱的思想逐步在各个领域、各个行业传播,并与具体的业务场景和数据类型进行了结合,目前陆续出现了众多优秀的知识图谱项目。如语言类知识图谱项目Babelnet,百科类知识图谱项目Freebase,实时常识知识库项目NELL等。这些项目显示出了知识图谱项目构建的几个趋势,即更多数据的融合(从单语言到跨语言,从单模态到多模态,从单一到集成)、从一次性到实时等。之前的文章中已经介绍过Freebase,实时常识知识库项目NELL,在本文中,将主要介绍WordNet词汇知识库、HowNet义原知识库、
2021年12月20日
其他

图嵌入表示技术:基于DeepWalk+Skipgram的节点向量化方法及落地案例剖析

引言GraphEmbedding,旨在解决图节点的向量表示以及图表示两个基本任务,以支持后续的节点分类、节点推荐、链接预测等下游应用场景。不过,对于这一问题,我们首先需要想到的是,生成一个图的向量表示必须与图本身的特征挂钩,即图里有什么?一方面,一个基本的图,由节点和边构成,形成一个拓扑结构。节点自身可以携带标签,边可以是有向的、无向的,且可以携带权重和边的标签。这些是图自身的特征信息。另一方面,通过边的关联,节点之间形成了一张张子图,即特定的网络拓扑结构,这种结构特征为一个节点提供了上下文的特征信息。因此,将网络结构和图自身特征信息作为处理对象,进行节点向量表示学习,成为了一个重要的工作方向。一般的,如下图所示,当前节点向量表示的方法可分为因式分解方法、随机游走方法和深度方法。本文主要介绍当前几个主流的随机游走方法图节点表示方法,包括DeepWalk、LINE、node2vec,从中我们可以看到这一类方法的处理范式,并以业界Airbn、淘宝推荐两个实际落地场景作为例子进行案例总结,以说明该方法的实际价值。一、从Word2Vec到DeepWalkword2vec是通过语料库中的句子序列来描述词与词的共现关系,因此对于Graph而言,其关键问题是如何描述节点与节点的共现关系。经典的deepwalk借鉴了word2vec思想,同样认为,具有相同上下文的节点,也应该是相似的,而这一上下文,可以是一阶邻居,也可以是二阶、三阶等,可以通过游走的方式,形成上下文,然后采用wordvec的架构,完成节点表示学习。1、随机游走生成节点序列随机游走生成序列的方法,包括深度优先遍历以及广度优先遍历两种。1)深度优先遍历深度优先遍历尽可能优先往深层次进行搜索。在实现上,在G中任选一顶点v为初始出发点(源点),首先访问出发点v,并将其标记为已访问过;然后依次从v出发搜索v的每个邻接点w。若w未曾访问过,则以w为新的出发点继续进行深度优先遍历,直至图中所有和源点v有路径相通的顶点均已被访问为止。例如,给定图:深度优先遍历的路径为,
2021年12月19日
其他

知识图谱技术:工程化视角下的知识图谱特性及支撑应用总结

目前,各大知名公司也陆续推出了自己的知识图谱产品,如百度知心、搜狗知立方、阿里巴巴的商品知识图谱、微软的概念知识图谱、Facebook的社交知识图谱等,初级阶段的行业知识图谱也开始落地,如金融领域中的知识图谱查询平台企查查、情报领域在抓捕本拉登时斩获战功的palantir(虽然技术细节弄不清楚)。不过,从这些应用中,我们发现,一项成功的应用,是要解决一个特定场景下的特定问题的,而特定问题的解决对解决的手段有严格的定义和约束,知识图谱也是一样。它的应用场景肯定是与知识图谱自身的技术特征相匹配的。本文主要从工程化的视角谈谈知识图谱与语义网络、语义网的区别,并归纳出知识图谱的技术特性,以及各技术特性所支撑的应用形态,以增强对该技术的理解。一、再谈知识图谱的工程化理解知识图谱本质上是一个语义网络,是当下大数据以及应用驱动的综合性结果。从形式上,语义网络(semantic
2021年12月18日
其他

图神经网络技术:从序列神经网络到GCN、GraphSage、GAT图模型总结

对角线上每个对应元素开根号、取倒数后的结果。3、GCN具体实例下面以一个具体的例子来说明:以上面该图为例,图中共有1、2、3、4四个节点,(1,2)、(1,3)、(2,3)、(3,4)共4条边
2021年12月17日
其他

知识图谱技术:大词林为代表的中文概念层级图谱构建项目剖析

本体schema是知识图谱构建中的重要一环,而本体的层级is-a体系是schema的一个核心。例如,我们在构建一个金融领域知识图谱时,需要定义一些类型,如上市公司,而上市公司是公司的小类,公司又是机构的小类。如果有一个涵盖父子类层级关系知识库,对于schema辅助构建、基于图谱的上下位推理、事件抽象具有重要意义。YAGO、wordnet、wiki-taxonomy等都是面向英文的概念知识图谱,近年来,也陆续出现了中文的概念图谱资源,其中CN-probase和大词林实体类型知识库是两个典型代表,前者以百科词条义项和标签等信息作为上下位概念数据来源进行构建,后者借助搜索引擎和启发式规则进行概念对识别,并借助同义词词林作为上下位层次骨架进行组织,均实现了数千万级的规模。本文主要围绕知识图谱技术中的概念层级关系获取,从大词林、CN-probase两个代表性工作出发,对其构建细节相关技术进行介绍。一、大词林上下位层级知识库《大词林》是一个开放域命名实体知识库自动构建系统,由哈尔滨工业大学信息检索实验室研发,系统从Web搜索结果、在线百科和命名实体字面等多个信息源挖掘命名实体的类别,借鉴《同义词词林(扩展版)》的顶层结构,并从Apriori关联项、后缀上位词、分类层次化和词汇分布表示等多个角度学习获取类别之间的层次关系,分成上位抽取和上位词层次化的工作。​1、大词林的由来开放域实体是当下知识图谱构建中的一个关键问题,尤其是在面临开放域的问答时,常常会涉及到开放实体的情况。与开放域信息抽取类似,开放域实体存在两个突出特点,一个类型众多并且形式不固定,例如阿司匹林、双黄连口服液等药品实体,20国集团伦敦峰会、中央经济工作会议等会议名实体,另一个是类别更细且存在一定的层次结构,例如机构实体又可以进一步分成企业类型、高校类型等。为了对开放域实体进行建模,解决实体类别以及实体类别体系的问题,哈尔滨工业大提出了《大词林》的工作。2、大词林的构建步骤大词林的整体构建步骤包括实体上位概念的获取、排序以及实体类型的组织两个重要步骤。3、候选上位词的获取在构建上,大词林首先从多个来源收集给定命名实体的类别候选,然后再进行类别候选排序。其中,针对一个给定的命名实体,为了确定该命名实体的所属上位词并且缩小比对空间,采用基于互联网web挖掘的方式来获取候选上位词。具体地从三个来源分别获取,最终进行合并,实现多源头信息聚合:1)借助搜索引擎搜索结果的候选上位词获取首先,将实体名称作为搜索关键词进行查询,借助百科或者搜狗搜索引擎搜索,得到相关网页搜索结果,其中,为了保证实体能够被完整的检索,采用了严格的匹配模式,在命名实体两侧添加引号,以保证只有包含完整命名实体的网页才会被检索到。其次,由于在返回结果中会出现很多命中纪录,因此,针对返回搜索结果中的标题和摘要进行处理,统计与给定实体名称共现词语的频率,并设置阈值,将频率最高的名词或名词短语作为候选上位词。2)借助在线百科类别标签的候选上位词获取与在前面所述多次的百科类词条中所述的一样,百科中针对某个特定词条都标记了其所属的开放分类标签。该工作也同样采用这种方法,通过使用百度百科和互动百科(现在更名为头条百科)进行爬取,通过html解析的方式,获取指定的标签集合。3)借助实体自身核心实体词的候选上位词获取实体自身的核心部分,也可能成为其潜在上位词,例如“北京语言大学”中的“大学”和“语言大学”都可以作为其上位词。一般,一个实体词的核心词通常是该实体的名词性结尾短语,可以根据这条规则获取候选上位词进行选择。4、候选上位词的排序通过挖掘互联网web后,针对某个特定的实体,可以召回多个上位集合,但这个概念集合当中存在着大量的噪声,需要进一步地进行筛选排序,将最准确的上位词排在前面。为此,该工作设计了一套用于排序的特征集合,八廓命名实体类别的先验概率(一个名词出现在百科类别标签中的次数越多,那么这个名词成为类别的概率就越大)、是否为百科类别标签、是否为核心词、候选的来源数、当前候选的同义词所占全部候选的比例、候选中汉字和实体最末一个字偏旁匹配的比例等。然后,在此基础上采用线性核函数、SVM等排序模型进行排序,得到最终的实体类别列表。5、基于候选上位词的类别层次化通过候选上位词排序,已经可以得到效果较好的上位词结果,针对一个实体名称,可以赋予其所对应的实体类型,但这个实体类型还是单层的,上位词之间还可能存在进一步的上下位关系。因此,该工作进一步提出类别层次化的工作,针对给定的实体及其上位词列表,给出上位词之间的层次关系。具体地,在实现上采用了一种基于词汇分布式表示的方法,利用一个映射矩阵来刻画上下位关系,即一个词汇的分布式表示乘以这个映射矩阵可约等于起上位词的分布式表示,并使用同义词词林中抽取的上下位词对作为训练数据。6、大词林的总结大词林针对开放域命名实体中存在的类别多、类别细、类别具有层次性的特点,融合多个信息来源进行上位词抽取,并利用分布式表示方法建构了实体类别之间的实体关系,是一个十分具有启发性的工作。由于《大词林》具有自动构建能力,其数据规模可以随着互联网中实体词的更新而扩大,很好地解决了以往的人工构建知识库对开放域实体的覆盖程度极为有限的问题。目前《大词林》2.0版已拥有实体三千万、上位词十八万、优质的实体上下位关系对一千五百万、属性-值对七千九百万对、关系(属性)数四十三万,可以用于实体抽象、实体路径层级抽象、事件抽象等典型任务当中。二、CN-Probase中文概念图谱CN-Probase是由复旦大学知识工场实验室研发并维护的大规模中文概念图谱,是目前规模最大的开放领域中文概念图谱和概念分类体系,严格按照实体进行组织,以百科词条义项和标签等信息作为上下位概念数据来源进行构建,有较高的准确率。1、CN-Probase的由来
2021年12月13日
其他

GNN下的NLP:文本序列的常用构图方法与代表案例剖析

传统的NLP任务中,通常将文本作为一个序列进行处理,而随着GNN图神经网络的兴起,将文本转换为图结构,并且使用GNN等模型进行建模的想法也逐渐被提出,并取得了一定的效果。例如,利用句法依存分析Dependency
2021年12月11日
其他

技术总结:KG融合预训练语言模型中的常见知识类型及代表工作浅析

本文主要围绕知识融合自然语言处理模型这一主题展开论述,尝试从这两个方面进行总结,先介绍语言模型可以融合的知识类型,然后分别以当前较为流行的THU-ERNIE以及BAIDU-ERNIE的知识增强方法进行解析。一、引言以自然语言文本作为输入,经过CNN、RNN、LSTM、Transformer等特征编码器进行特征提取,然后后接softmax等解码方式完成标签预测,这一过程是当前NLP处理的标准流程。而自从预训练语言模型推出以来,以BERT为代表的预训练语言模型正在引领NLP任务的新范式。但无论是标注流程还是BERT范式,其实际上建模的只是当前输入文本的信息,如词法信息、句法分析以及字符之间的上下文共现关系。汇总的来说,这些知识信息只是一个序列文本,涵盖的是字符与字符之间的共现、搭配信息,以及字符或词语自身的embedding信息。例如,从BERT的实现原理上,我们可以看到,BERT
2021年12月10日
其他

技术总结:DBpedia、Freebase百科图谱项目构建技术解析

当我们在百科网站中打开一个百科词条时,会发现每个词条页面都是按照特定格式是组织的,例如大多都包括了多义区(一个词往往会有多个义项:​如苹果一词有22个义项)、简介区(对该词条进行了摘要式总结)信息框(也称infobox,为半结构化数据,通过表格方式上进行属性键值对进行展示)正文区(关于该词条的详细介绍以及超链接)标签区(与该词条相关的标签和类型信息)参考来源区(该百科词条中引文信息的出处)。这些信息为结构化的知识提供了直接数据来源。例如,从多义区中可以获取词条的上位概念和相关概念信息,可以将简介区中抽取出剪短的句子作为该词条的描述,可以从信息框中得到丰富的属性信息,可以从正文区中获取标记词条与本词条之间的共现或相关信息,也可以从标签区中获取该词条的类型和标签关系。当然,也可以通过获取百科分类schema体系的方式来获取实体类别或者概念上下位信息。当前,基于百科知识图谱的构建方式大体上可以分成两种范式,一种是基于已有的百科知识平台,利用知识结构化的手段,进行抽取、转换,形成结构化知识图谱,另一种是直接设计知识图谱的众包构建平台,直接完成构建。本文以具有代表性的DBpedia、Freebase项目进行介绍,可以从中看到百科类图谱的两种重要构建方法。一、基于本体映射的DBpedia知识图谱DBpedia是较为早期的语义网项目,从字面意思上看来,为从wikipedia中抽取出来的一个链接数据集,该数据集采用一个包含人、地点、音乐、电影、组织机构、物种、疾病在内的严格本体,并遵从RDF的语义数据模型结构进行存储。1、DBpedia的由来维基百科是广受欢迎的百科类网站,也是使用最广泛的多语言百科全书,287种不同语言的官方版本,百科文章中的信息,既包括自由的文本,也包括不同类型的结构化数据,如信息框、表格、列表和分类数据。不过,维基百科并不能提供结构化的查询需求,而只向用户提供自由文本搜索功能。例如,使用维基百科搜索,很难找到所有流入莱茵河且长度超过100英里的河流,或者所有出生于18世纪的意大利作曲家,因此,为了能够满足这种需求,2012年,DBpedia项目提出通过从多种语言的维基百科版本中提取结构化数据,建立了一个大规模、多语言的知识库。2、DBpedia的实现维基百科的文章主要由自由文本组成,但也包括以维基标记形式的各种结构化信息。这些信息包括信息框模板、分类信息、图像、地理坐标、外部网页链接、消除歧义页面、页面之间的重定向以及不同语言版本的维基百科链接。1)Dbpedia的系统构成DBpedia提取框架从维基百科中提取这些结构化信息,包括摘要、内链、标签、类别等,并将其转化为一个丰富的知识库,该系统包括输入、解析、提取和输出5个步骤构成,如下图所示:首先,在输入阶段,从维基百科转储或者使用MediaWiki
2021年12月9日
其他

实战详解:基于半结构化百科的电影KG构建、查询与推理实践记录

"jdbc:mysql:///movie_kg?useUnicode=true&characterEncoding=utf8";5、启动执行sparql查询1)在根目录执行:./d2r-server
2021年11月29日
其他

技术总结:知识图谱推理中的常用方法、关键问题、评测指标与开放数据总结

知识推理,即根据已知知识来预测未知知识是知识图谱应用的一个典型场景,同时也是知识图谱构建过程中的一个重要技术,可进一步约定成根据已知的三元组来生成新的三元组信息或者进行图谱知识治理。例如,在知识抽取过程中经常会出现数据不完备的情况,如定义了一个人的身高属性,但实际上该属性值是缺失的,即一个三元组中存在着成分缺失;又如,在抽取过程中,会抽取得到许多错误的数据,如中国的首都是哈尔滨等。又如,在知识问答环节,如询问“王菲女儿的妹妹”这个问题时,由于知识图谱中没有现成的答案,需要间接地获取王菲的女儿,得到窦靖童,然后再查询窦靖童的妹妹获取窦家媛,这个间接查询的过程可以视为一个推理过程【粗浅的看法】。本文主要围绕知识图谱推理中的常用方法、关键问题、评测指标与开放数据进行介绍。一、知识图谱领域中的知识推理知识图谱中的推理知识推理是指根据知识图谱中已有的知识,采用某些方法,推理出新的知识(知识图谱补全)或识别知识图谱中错误的知识(知识图谱去噪),前者专注于扩充知识图谱,后者专注于知识图谱内部已有三元组正确性的判断。进一步的,知识图谱补全,是给定三元组中任意两个元素,试图推理出缺失的另外一个元素。包括连接预测、实体预测、关系预测、属性预测。其中:实体预测指给定头实体和关系(关系和尾实体),找出与之形成有效三元组的尾实体(头实体)。例如,已知(h,r)预测t,一种是在原KG中h存在r这条边,但在测试集的t不在(h,r)后(缺失答案实体)。关系预测指给定头实体和尾实体,找出与之形成有效三元组的关系。原KG中的h不存在r这条边(缺失边)。不过,无论实体预测还是关系预测,最后都转化为选择与给定元素形成的三元组更可能有效的实体/关系作为推理预测结果,这种有效性可以通过规则的方式推理或通过基于特定假设的得分函数计算。而知识图谱去噪,实际上是在判断三元组的正确与否。知识图谱补全任务模型主要有基于表示学习和基于规则两种。基于表示学习的方法先通过表示学习得到知识图谱中实体和关系的表示,然后利用得分函数对候选实体进行打分排序,选取得分最高的候选实体作为正确实体。二、符号化推理中的规则生成基于规则路径的方法对路径建模并进行路径查找补全图谱。前者有较强的特征表示能力,后者有较强的推理能力,其思想在于将推理的过程变成推理规则的应用过程,包括推理规则学习(推理规则库)和推理规则的执行(推理机)两个组成部分。如何将推理规则进行符号化和规模化,是推理规则库建设的核心工作,传统的归纳推理方法,根据部分对象所具有的性质来推出一类事物中所有对象都具备这类性质,从实例抽象到一般规律,就是其中的一个重要方法。例如,通过“金受热后体积膨胀”、“银受热后体积膨胀”、“铜受热后体积膨胀”、“铁受热后体积膨胀”等例子,得到“金属受热后体积膨胀”的规则,这种从大量实例中总结出推理规则是实现规则扩充的重要手段,既可以通过专业人员手工定义、编辑,也可以通过机器挖掘,如频繁子图挖掘的方法进行处理。1、基于手工定义的规则生成经典的Cyc项目是人工构造推理规则的一个经典案例,该项目最开始的目标是采用CycL(基于一阶关系的知识表示语言,采取谓词代数描述,语法上与Lisp程序设计语言类似),将上百万条知识编码成机器可用的形式,用以表示人类常识。Cyc知识库中表示的知识一般形如“每棵树都是植物”、“植物最终都会死亡”,当提出“树是否会死亡”的问题时,推理引擎可以得到正确的结论,并回答该问题。Cyc推理引擎支持一般的逻辑演绎推理,包括肯定前件假言推理、否定后件假言推理、全称量化、存在量化等,例如:(relationAllExists
2021年11月24日
其他

知识图谱入门:实体链接的实现流程、关键问题与开放数据集总结

零、引言在典型的知识图谱问答场景中,通常需要从用户的问句中识别出指定的实体,并将该实体准确地链接到知识图谱数据库当中实体链接是实现上述场景功能的重要方式,本文从领域实体链接关键技术出发,对实体链接任务的定义、候选实体提及的生成、候选实体块的匹配、候选实体的消歧等环节进行介绍,并对当前的实体链接评测数据集进行了介绍。1、实体链接任务的定义与中文词义消歧(WSD)的任务类似,实体链接的目的是将实体提及与知识库中对应实体进行链接,是知识图谱应用过程中的十分基础性的工作,在知识库中找到候选的正确实体描述之后,才能准确无误地提供后续的实体查询、实体推理等下游任务。实体链接,是指给定一篇文本中的实体指称(mention),确定这些指称在给定知识库中的目标实体(entity),本质上是一个匹配+筛选(消歧)的问题,其核心假设为
2021年11月21日
其他

知识图谱入门:实体关系识别与标准化对齐开源工具、常用方法、关键问题总结

这是知识图谱图谱入门系列的第五篇,也是最后一篇。在前面的文章中,我们分别对本体设计、文本处理、实体识别、图谱存储与应用等前、中、后三个流程进行了论述。现在,本文围绕着其中的一个重要模块实体关系识别与实体标准化展开论述正式完结知识图谱系列。一、实体关系识别技术实体关系识别,即针对给定的两个实体,利用上下文语境来判定两个实体之间的语义关联类型,实质上是一个分类问题。先前的关系抽取是基于给定的实体对来寻找关系,然而,在实际应用中,实体的位置往往是未知的,而且实体之间可能存在多种关系。忽略重叠关系的抽取会丢失很多相关的三元组,导致知识图谱不完整。1、关系识别任务中的常见问题1)关系重叠问题,
2021年11月16日
其他

知识图谱构建:以OpenIE为代表的开放信息抽取项目技术方案解读

零、前言开放信息抽取是开放知识图谱构建的一个重要组成部分,在这方面的工作中,OpenIE是一个典型代表。OpenIE是一个由华盛顿大学研发的开放信息抽取系统,面向开放文本,并提取大量的关系元组(Arg1,
2021年11月14日
其他

项目实操:KBQA常规实现流程与医疗知识图谱问答源码解读

"看了文章,不会的还是不会,还是直接实操、直白一点好"这其实是一种对当前碎片化阅读带来的知识获得感不足的直接表现。而且,这也确实是最直接的知识需求。因此,作为“理论与实践相结合”一贯理念的延续,更多实践,本文主要围绕《KG项目实操:KBQA标准实现流程与医疗知识图谱问答源码解读》,结合具体项目,讲讲知识图谱问答。与可视化落地一样,知识图谱问答虽然目前被称作"人工智障"的典型代表,目前也有大量的个人、团队、公司在做。而接触过知识图谱问答的朋友,可能了解过开源医疗知识图谱问答项目QASystemOnMedicalKG地址:https://github.com/liuhuanyong/QASystemOnMedicalKG这是当前老刘开源项目中的一个重要部分,思想很简单,很朴素,但也收获了不少开发者的关注。该项目目前收获3.5K个star、1.4K个fork,可以作为说明知识图谱问答的一个典型例子。借着这个项目,本文先介绍基于KBQA的解析式知识问答流程,然后再对该项目进行进一步的拆解和源码解读,希望给大家带来一定的启发和借鉴。一、基于KBQA的解析式知识问答流程KBQA(Knowledge
2021年11月12日