常识系统“学迹”回顾:典型的实时事理常识学习、搜索与推理系统构成总结与思考
“踏雪有痕,抓铁有印”,“来时须有影,去时更有踪”,万物皆有迹可循。语言是社会的镜子,每天产生的文本中蕴含了大量的事件知识,清晰地记录了社会发展中各个事物在人们脑海中的印象以及自身发展和演变的轨迹。
我们常想,“要是能够构建一个全面、精准、紧随社会发展的轨迹库(事理知识库),将社会对某个事物或事件不同的认识整理出来,将某个或每类事件发展和演化的逻辑轨迹梳理出来;并基于这种认识和演化逻辑,将互相关联的事物联系起来,做些有意义的未知推理,将是件多么美妙的事”。
有一个面向事理的实时学习和搜索系统Demo,取名叫“学迹,从上线到目前,已经有两年多的时间了。
回过头来,面向事理的第一个事件因果的常识性开放式系统,很具有前瞻性意义。
包括其中的思想,定位,当初设计时所寄托的愿景,仍然具有很强的借鉴性。
本文是对之前文章的汇总,来系统性的回顾下这个系统,供大家一起思考。
一、 “学迹”系统Demo的起源与定位自述
“学迹”与Magi从界面感官来看比较相似,这引起了大家对两者异同性的疑问。实际上,这两个系统除了“长得像”之外,存在着很大的差别",皮肤一样,但里面的东西完全不一样。
1、不做"实体系统",而聚焦于“事件系统”
考虑到事件比实体具有更进一步的聚焦性和信息聚合能力,与通用的实体搜索不同,我们设计了一套以“事件”为核心的知识学习和搜索数据流。我们避开了类型众多且不可控的“实体搜索”,而选择了更为聚焦的“事件搜索”,我们约定,一个事件应该包括具体的施事主体和关联动作,如“人民币贬值”、“美联储降息”,对应其中的实体信息,我们将以“概念描述”的方式对其实体进行解释展示。
我们关注事件本身(社会对这个事件的理解,概念的理解)、事件之间的逻辑关系(事理逻辑,即更关注事件演化)和在此此基础上进一步形成推理规则。
一方面,我们从零研发了一套互联网采集引擎,每天数以万计的网络开源文本源源不断地输入到我们的实时学习系统中,并变成新的结构化事理、概念、产业链知识,并设计了一套可靠的知识可信度评分算法。
另一方面,我们尝试了一种友好的方式来最大化地展示事理学习的动态过程,为了将事件与其他关联数据形成传导通路,以事件为连接中介,我们将概念、事件、产业、数据等进行关联,将事件相关的事物都有机地聚合起来。此外,我们尝试地做了一种基于推理可解释性的产业标的物预测,并试图基于这些知识试探性地往前走一步,做一些产业相关的推理和预测。
2、技术探索更垂直,围绕事件展开
"学迹"是一个实时的事理学习和搜索引擎(后面长期会保持这种形态),"事件"而非"实体"的定位,直接决定了其技术外延的不同,事件的知识挖掘和应用与实体的有很大的差异,这是点到面的差异。
"学迹"聚焦于事件识别、事件概念识别、事件逻辑关系抽取以及事件关联数据和融合等方面,在技术上也是截然不同的。
具体来说,事件相关的技术包括一下几个方面:
其一,立足于事件,需要解决事件的表示问题,确定事件的边界和形式化展现形式,这是事件挖掘中最不可回避的一个问题;
其二,事件的体系是维系事件运作的一个根本支撑,事件之间的关联关系、事件的领域性建模都是要具体探索的点。
其三,事件的识别、事件之间关系的抽取、事件的融合与链接、事件的抽象和拓展、事件属性的抽取等环节,是实现事件库构建的必方式。最后,事件知识与其他知识来源(如实体知识、图像、音频、视频等多模态数据)的关联和融合,基于此延伸出来的事件搜索、事件关联、事件演化汇总等推荐技术,也是需要垂直深入研究的。
3、不仅"知识库建设",更是"应用探索"
该系统通过将事件、概念、逻辑、实时学习、多类知识库实时更新相结合,沉淀出了千万级别的因果逻辑知识,千万级的事件概念知识以及数十万级的产业链知识,属于一种以“事件概念与逻辑”为核心的大规模常识知识库。在建库完成之后,基于事件概念、数据、实体产业链的关联,以此将事件之间进行互联,基于这种互联,“学迹”进一步地完成了事件及事件关联的终极目标的探索:模式推理和常识预测。
正如我们在页面中看到的,引入了关联数据、产业链推理,这相当于将事件和产业链知识图谱进行了结合,基于这些可行的显式推理因子,可以在可解释性上带来一定帮助。
二、 “学迹” 系统Demo的所能和用法
学迹避开了类型众多且不可控的“实体搜索”,选择了更为聚焦的“事件搜索”。我们约定,一个事件应该包括具体的施事主体和关联动作,如“人民币贬值”、“美联储降息”,对应其中的实体信息,我们将以“概念描述”的方式对其实体进行解释展示。
因此,在“学迹”里,所有的功能和内容都围绕“事件”展开,在使用的过程中输入一个事件,这样能够尽可能得到更满意的结果。在这里,可以:
1、 找到关心的事件
“学迹”以搜索框的形态出现,并限制在指定事件的搜索,在搜索的过程中,系统Demo会自动进行事件联想,您可以根据下拉的事件联想中选择,也可以自己输入。
2、 了解当下的热点事件
根据时下发布的资讯,识别出了当下的实时事件热点,并实时更新,您也可以直接点击查看。
3、 体验到知识的实时学习过程 在“学迹”的首页底部,我们与后台的实时学习系统Demo进行对接,动态地展示了这种学习过程。
4、 了解社会对该事件或关联概念的理解
通过不断学习出该事件自身或者事件关联实体的描述信息,从中我们可以得到对该事件本身的印象。
5、 看到知识学习过程中的实证来源过程
通过用连线的方式,为每条知识都提供可视化的学习实证,我们随机选取了几条结构化的知识放在页面的右侧。从线条的首末尾动态关联,可体验到其中的“取之有道”。
我们对每个结构化的知识都进行了可信度的表示,颜色的深浅以及结构化标签上的数值对其进行了清晰的区分。点开标签后出现的下拉信息框中,可以看到知识的生成者、知识的生成时间、生成知识的上下文,知识学习来源的评分。
6、 获取特定事件发生的前因后果
因果逻辑是事理逻辑中的一个重要组成部分,通过事件发生的前因后果,可以对事件的演化提供一定借鉴,通过对逻辑事件关联的聚合,可以看出不同可信度下特定事件发生的前因后果。
7、 查看特定事件关联的数据和经济产业
我们将事件与产业链实时知识库进行关联,从以事件的关联逻辑进一步延伸至产业链的关联逻辑。
我们将事件与后台数据指标进行关联,形成事件与具体量化数据指标的联通。
8、 基于可解释推理路径的经济标的物影响预测
根据演变的轨迹以及在概念、产业链以及数据关联路径,我们对标的物的利好利空情况进行了可能的判定,在给出标的物的同时,还给出推理路径,标的物的影响类型。
9、 跟踪特定事件的关联资讯
除了结构化的知识之外,系统Demo还给出了与事件相关的关联资讯。需要注意的是,对于暂时未能收录到我们的知识库中的事件时,这些相关关联资讯可以进一步发挥全文检索的功能。
三、“学迹”的应用可能性
关于“学迹”能做什么也是大家比较关心的问题,基于该系统的认识,我们认为,可以从以下几个方面来看:
1、基于“学迹”的写作及教育素材推荐
当前,AI写作是写作市场中的一个热们,如微软、腾讯、今日头条等都推出了相应的智能协作机器人,而针对更为广泛的领域来说,“人工编辑+机器推荐”的写作模式更具备可控性和落地性。对于“学迹”而言,其内部积累的各项事件关联结构化信息,决定了其作为“天然语料库”的特性。
情感类文章是我们常见的一种题材,而在实际的写作或者向他人进行知识传播的过程中,经常会因为苦于找不到“恰当的比喻”或者“深刻的认识”而陷入“素材荒”,“学迹”正好解决了这个问题。
以“爱情失败”为例,我们在“学迹”中找到了已学习到的“概念描述”和“因果逻辑”知识。当谈论起爱情时,“学迹”发现,人们对爱情的界定和描述千姿百态。爱情是“一物降一物”、是“对抗平凡日子的良药”、是“文学作品永恒”的主题、是“人类最美好、最圣洁的情感”等美好的形象,也是“一顿一顿吃出来”的平实,“一个光荣而又艰巨的任务”的现实,也是“诗和远方”。
而至于为什么会“爱情失败”时,“学迹”发现,是因为“触怒了丘比特”、“追不上汽车”,而当经历了“爱情失败”后,当事人将会很直接地出现“心理压力超越心理底线”的情况。因此,我们认为,尽管当前该知识库学习系统中所学习到的知识量并未能满足更大范围的搜索需求,但它能给出的这些结构化信息,
确实能够为写作或者教育带来灵感上的启发以及材料上的支持,随着学习来源的扩充以及学习知识的准确性不断提升,这种支持必将更加有力。
2、基于“学迹”的技术和系统私有化克隆
从技术构成上来说,“学迹”包括“实时学习系统”以及“学习展示和搜索交互系统”,这两个系统可以根据用户数据的具体情况进行领域适应或“就地克隆。
一方面,经过不断的抽取、学习、知识融合和更新,得到了当下的结构化知识库信息。后台积累的技术栈,包括领域事件表示,领域事件关系抽取、概念描述与对齐、产业链挖掘技术、知识置信度评估方案、实时学习与抽取方法,可以作为独立的技术模块抽离出来,形成一套领域事件学习系统工具。用户可以根据自有数据,引入这一学习系统并进行适配,从而对现有的私有数据进行抽取学习。
另一方面,“学迹”的页面和交互方式也可以作为一个工程化的“学习展示和搜索交互系统”抽离出来为用户提供数据适配。在整个搜索过程中所涉及到的Vue, Leader line、VisJS、highchart等实现动态数据关联、可视化图谱展示等功能的基础前端插件,与前端用户交互过程中所关联的问句解析、问句标准化、问句搜索与排序、关联推荐以及相关搜索等基础搜索组件,在实现对用户自有的数据进行接口适应,从而满足基于纯用户数据的展示和关联搜索的同时,也可以与“实时学习系统”一道,针对用户提供的非结构化数据源,提供一站式“采集-抽取-搜索”服务。
例如,“学迹”首页中的“正在学习”模块以及展示页面中的leadline线条等展示形式,均可以实现对用户自有数据的适用。
3、基于“学迹”的信息聚合和可解释性推理
“信息聚合”和“可解释性推理”是“学迹”在“结构化知识实时学习”外的其他两个重要特征,这也是我们后面在“知识库”上应用的尝试和未来计划。
一方面,该平台以“事件”为核心,将结构化信息(包括事件关联概念描述、事件前因后果)以及事件外部关联信息(包括关联产业链图谱、关联数据指标、关联资讯)等多种信息进行了聚合。用户可以在自己输入的特定事件之后,得到多项“外延信息”。通过将事件与实体概念以及与产业链实体进行链接之后,实现了从事件到实体层的信息跳跃,以及从事件因果逻辑网向产业链上下游节点的联通,进一步延伸了事理影响的范围;将事件与具体的数据指标进行关联,实现了从“定性知识”向“定量知识”的转变。这些信息之间的联通、跳跃以及转变,体现出了“学迹”对“信息聚合”的新思考。
另一方面,“学迹”中的事理逻辑(前序原因和后续结果)和产业链图谱信息,赋予了该系统“可解释性推理”的物质基础。该系统基于大规模可信文本来源抽取、抽象和积累形成了先后因果传导模式,关联了上下游节点(包括上下位节点、生产材料、生产关系、依存关系、主营产品、所属行业及板块)之间定向联动传播模式。两种模式,可以在相应专家推理规则的约束和组织下,在给出相应初步推理结果的同时,显示地给出推理路径。
这一推理路径的可解释性具有较高的意义,这也是现有知识图谱推理的一个典型特点,一方面,可解释性为用户提供了一个可以纠错的接口,针对给出的产业链推理路径,可以根据自己的判断进行纠偏,从而保证传导的准确性;另一方面,这种可解释的模式,也可以为后期更多的路径构成来源起了个好头,将事件更多关联信息(包括事件的同级信息、关联信息、以及上下位抽象关系路径等)进一步纳入进来,可以使得这种推理更具可靠性和鲁棒性。
四、“学迹”抽象知识的局限性与不足
“学迹”,是一个大规模事理常识知识库,其内部知识构成是对现实生活和社会发展过程中一些“显而易见的知识”或“专家系统”的高度抽象化总结,“高度抽象化”是该类知识库的一大特点,任何不必要的成分,如时间信息、计量信息、时态信息均被“隐去”,这是一个自下而上的总结概括过程。
“模式”是这一“高度抽象化”的直接结果,更具备通用性和覆盖度,大部分具体而微的事件和逻辑都是在这一条件下做的属性添加或者变更,换而言之,人们可以通过这类知识库,得到一个更宽泛的一个结果。
然而,这种过于抽象和结构化的知识库在具体而微的信息表达能力上显得比较薄弱,这也是当下各种常识知识库的一个通病。正如“学迹”所表达出来的感官效果一样,结构化知识的罗列以及抽象性结构化知识带来的外部信息缺失,使得它在“因时而异”、“因地而异”的表达上显得较为欠缺。
2020年3月3日,美联储突然宣布降低联邦基金利率50个基点至1%-1.25%,以应对新冠肺炎疫情给经济活动带来的风险,并打响了全球央行联手行动的第一枪,其他国家进行了相应的跟随行动。在目前的“学迹”知识库中,可以得到关于“美联储降息”在“抽象模式”下的事件汇总:
然而,时效性,细节性(主要突出地表现在5W1H)是事件挖掘以及事件系统中较为重要的两个重要因素,一般而言,一个事件应该包括自身的属性信息,如最根本的时间信息。
“美联储降息”这个事件在历史上发生过多次,而每次降息的背景都不同,虽然可以将降息背景大致归结为“危机”,但不同时刻下的“危机”具有很大的区别。
“学迹”针对这一事件所展示出来的结果,是一个全集,而将这些更为细节的信息保留下来,对不同时间、不同地点等更多方面的事件细节进行区别并显示,可以进一步增强该事件逻辑知识的特殊性和独立性。因此,将更具有“事例”和“体系”属性的事件关联知识建设,以及基于该知识库实现的应用探索,将是后期“学迹”要着手的工作。
关于我们
老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。
就职于360人工智能研究院、曾就职于中国科学院软件研究所。
老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
对于想加入更优质的知识图谱、事件图谱实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。