在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识森林中,系统梳理脉络,才能更好地把握趋势。为此,我们精选国内外优秀的综述文章,开辟“综述专栏”,敬请关注。
来源:https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.20211264摘要:知识图谱是一种用图结构建模事物及事物间联系的数据表示形式,是实现认知智能的重要基础,得到了学术界和工业界的广泛关注.知识图谱的研究内容主要包括知识表示、知识抽取、知识融合、知识推理4部分. 目前,知识图谱的研究还存在一些挑战.例如,知识抽取面临标注数据获取困难而远程监督训练样本存在噪声问题,知识推理的可解释性和可信赖性有待进一步提升,知识表示方法依赖人工定义的规则或先验知识,知识融合方法未能充分建模实体之间的相互依赖关系等问题.由环境驱动的强化学习算法适用于贯序决策问题.通过将知识图谱的研究问题建模成路径(序列)问题,应用强化学习方法,可解决知识图谱中的存在的上述相关问题,具有重要应用价值. 首先梳理了知识图谱和强化学习的基础知识.其次,对基于强化学习的知识图谱相关研究进行全面综述.再次,介绍基于强化学习的知识图谱方法如何应用于智能推荐、对话系统、游戏攻略、生物医药、金融、安全等实际领域.最后,对知识图谱与强化学习相结合的未来发展方向进行展望. 自谷歌在2012年推出“知识图谱”(knowledge graph,KG)后,知 识 图 谱 技 术 已 迅 速 成 为 数 据 挖 掘、数据库和人工智能等领域的研究热点.知识图谱 采用图 结 构 来 描 述 知 识 和 建 模 事 物 及 事 物 间 关 系[1].它将信息表达成更接近人类认知的形式,提供 了一种组织、管理和认知理解海量信息的能力[2].知 识图谱本质是一种大规模语义网络,既包含了丰富 的语义信息,又天然具有图的各种特征,其中,事物 或实体属性值表示为“节点”,事物之间的关系或属 性表示为“边”.目前,知识图谱相关的知识自动获 取、知 识 推 理、知 识 表 示、知 识 融 合已成为搜索问答、大数据分析[4]、智能推荐[6]和 数据集成[11]的强大资产,被广泛应用于多个行业 领域. 目前,大部分知识图谱的研究是基于监督学习 的方法.然而,为模型获得足够的标注数据成 本较高.为此部分学者提出使用远程监督的方法来 减少数据标注[15],远程监督指的是借助外部知识库 为数据提供标签[16].但远程监督获得的训练样本中 存在噪声.此外,现有方法还存在依赖人工预定义的 规则和先验知识或模型缺乏可解释性等问题.强化 学习(reinforcementlearning,RL)适用于贯序决策 问题,通过学习如何与环境交互,进而辅助人类决 策.它在进行策略选择时更关注环境状态,对行为的 选择进行更好地理解和解释.将知识图谱研究的问 题建模成路径或序列相关的问题,例如,将基于远程 监督的命名实体识别中干净样本的选择建模成序列 标注任务、将关系推理建模成路径查找问题等,应用 强化学习算法可以避免依赖人工预定义的规则或先 验知识,解决模型缺乏可解释性或仅提供事后可解 释性(postGhocexplanation)的问题,具有重要的研 究和应用价值. 近年来,学术界和工业界对知识图谱、强化学习 2个领域进行了深入研究,有不少分别聚焦知识图 谱和强化学习的综述性文章.文献分别围绕知识图谱的表示学习、知识获取、知 识推理、知识图谱构建与应用、多模态知识融合等进 行综述.文献分别对基于价值的和基于策略 的强化学习、深度强化学习算法、多智能体算法进行 综述.文献对强化学习在综合能源管理和金 融交易领域的研究进行阐述.然而,尽管已有诸多的 知识图谱、强化学习综述文献,但仍缺乏对知识图谱 和强化学习相结合的研究进行系统地梳理和总结的 工作.与现有的工作相比,本文工作的不同主要体现 在2个方面:1) 通过系统调研已发表的基于强化学 习的知识图谱相关研究的论文,全面总结了基于强 化学习的知识图谱研究,包括知识抽取、知识推理、 知识表示、知识融合等研究成果.2) 介绍了基于强化 学习的知识图谱如何应用于智能推荐、游戏攻略、生 物医药、金融、网络安全等实际领域.本文是第1篇 系统介绍该研究方向的综述论文.基于强化学习的知识图谱研究
目前,大多数知识图谱的相关方法基于监督学 习,但对数据进行标注费时费力.为了解决标注困难 的问题,有学者提出了远程监督的方法.远程监督减 少了数据 标 注 成 本,但 又 在 训 练 数 据 中 引 入 了 噪 声[15].虽然,目前知识图谱的研究方法在准确率、精 度、召回率等性能上取得了很好的效果,但这些方法 结果的透明性、可解释性、可信赖性等还有待进一步 研究.强化学习方法不同于一般的监督学习, 它把相关问题建模为序列决策问题,近年来在知识 图谱领域得到应用,可以帮助解决远程监督的噪音 问题、知识推理结果可解释性差[105]等问题.本节将 分别从命名实体识别、关系抽取、知识推理、知识表 示、知识融合等5个方面,详细介绍强化学习方法在 各类研究中的进展,如图3所示:命名实体识别旨在对序列进行命名实体标注, 判断输入句子中的词是否属于人名、地名、组织机构 名等.现有命名实体识别方法依赖人工标注数据,但 标 注 成 本 较 高.远 程 监 督 方 法 可 以 降 低 标 注 成 本[15],但远程监督获得的训练样本中又存在噪声. 强化学习方法可以通过自主学习选择高质量的训练 样本数据,解决上述问题.目前,基于强化学习的命 名实体识别方法思路主要有2类:1)使用深度强化 学习模型自动学习样本选择策略,过滤掉训练数据 中的噪声.2)将命名实体识别任务利用强化学习来 建模,即将序列标注任务转换为序列决策问题.通过 利用 Markov决策过程模型来进行序列标注,即为 序列中的每个元素分配一个标签.关系可以定义为实体之间或实体与属性之间的 某种联系,关系抽取就是自动识别实体(或实体与属 性)之间具有的某种语义关系.现有关系抽取方法大 多基于神经网络模型[46G54],通过监督学习或远程监 督学习来完成抽取任务.为了降低标注成本,学者们 提出使用远程监督的方法.远程监督方法虽然有效, 但在训练样本中引入了噪声[15].强化学习方法可以 通过知识引导来避免噪声数据带来的影响.基于强 化学习的关系抽取方法主要可以分为3类:1)使用 强化学习模型对抽取结果进行知识验证;2)利用强 化学习模型进行训练样本选择;3)将实体识别与关 系抽取2个任务联合建模,互为增强。知识图谱通常是不完整的.知识推理是指根据 知识图谱中已有的知识,采用某些方法,推理出新的 知识,包括实体预测和关系预测.传统的推理方法, 例如基于规则的推理[55G56]会引入一些人类先验知 识,专家依赖度过高.目前,大部分知识推理是基于 神经网络模型[58G64].神经网络模型通常更关注于推 理结果,模型可解释性、可信赖性有待进一步提升. 除基于规则、基于神经网络的推理方法外,知识 推理问题也可以建模成知识图谱中路径查找问题, 其中节点代表实体,关系代表边.强化学习智能体根 据当前环境(所在节点)通过策略学习或价值函数学 习,来决定下一步的行动(通常为关系或(关系,实 体)),从而完成推理任务.因此,基于强化学习的知 识图谱推理在学术界和工业界得到广泛研究.基于 强化学习的知识图谱推理方法依据智能体的个数可 以分为单智能体推理方法、多智能体推理方法.多智 能体推理方法指至少拥有2个智能体的基于强化学 习的知识推理方法.多智能体之间存在着一定的关 系,如合作、竞争或同时存在竞争与合作的关系.我 们将分别从单智能体推理、多智能体推理2个方面 进行详细介绍.知识图谱 在 表 示 结 构 化 数 据 方 面 非 常 有 效, 但这种三元组的基本符号性质使知识图谱难以操 作[135].为了解决这一问题,提出了知识表示学习[1]. 知识表示学习旨在将知识图谱丰富的结构和语义信 息嵌入到低维节点表示中.目前,常用的知识表示学 习方法[1]有基于翻译模型 Trans系列的方法[69G71]、基 于语义匹配的方法[68G69]、基于神经网络的方法[71G76].基于翻译模型的方法简单易于理解,但是基于翻译 模型的方法不能处理复杂关系,模型复杂度较高.基 于语义匹配的方法需要大量参数且复杂度较高,限 制了其在大规模稀疏知识图谱上的应用.基于神经 网络的方法虽然建模能力较强,但是结果缺乏一定 的可解释性.基于图的随机游走模型[136G138]也是用于 知识表示学习的一类方法.这类方法依赖于人工设 置元路径来捕获图的语义信息.然而,人工设置元路 径需要丰富的专家领域知识,对于大规模、复杂且语 义丰富的知识图谱来说,是一件充满挑战的任务.知识图谱中的知识来源广泛,具有多源、异构等 特点,需要构建统一的大规模知识库来支撑推理和理 解任务.知识融合研究如何将来自多个来源的关于 同一个实体或概念的描述信息融合起来[11],形成高质量统一的知识图谱的一类任务.通常,知识融合包 括本体匹配(ontologymatching)、本体对齐(ontology alignment)、实 体 链 接 (entitylinking)、实 体 消 歧 (entitydisambiguation)、实体对齐(entityalignment) 等.现有的知识融合方法还存在受噪声数据以及对 齐种子对数量的限制[141],或者未能充分建模实体 之间的相互依赖关系等问题.基于强化学习的知识图谱的应用
知识图谱可以为各领域提供丰富的信息和先验 知识,强化学习方法拥有强大的探索能力和自主学 习能力.基于强化学习的知识图谱相关技术能够降 低噪声数据的干扰、自动选择高质量的样本数据、更 好地理解环境和提供可信解释.因此,基于强化学习 的知识图谱在很多领域得到应用.强化学习与知识 图谱的结合,从结合方式上来看,可以分为2类.1) 将实际问题建模为包含多种节点类型和关系类型的 知识图谱,强化学习在知识图谱上进行探索学习策 略.2) 将知识图谱作为外部信息引入强化学习框架 中,用来指导强化学习的探索过程.我们将介绍如何 将知识图谱与强化学习结合解决实际应用中的问 题,包括智能推荐、对话系统、游戏攻略、生物医药、 金融、网络安全等.推荐系统常面临数据稀疏、可解释性等问题以及个性化定制、新型推荐任务等新的需求.知识图谱 可以向推荐系统中引入辅助信息,如商品内容、跨领 域信息等.与常用的推荐方法不同,基于强化学习的 知识图谱推荐是在知识图谱中探索图(路径查找)来 找到从用户到商品的有意义的路径.强化学习智能体在探索过程中进行决策,解决数据稀疏,提高推荐 可解释性,使得推荐结果更符合用户需求。自然语言处理领域的一个重要应用就是人机对 话系统,它是人机交互的核心功能之一.计算机想要 顺利无障碍地和人类交流,必须具备丰富的背景知 识以及强大的决策能力,结合背景知识去理解对话 内容,从外部知识库中找出相关的知识并进行推理, 从而生成合适的回答.知识图谱为对话系统提供了 丰富的背景知识,而强化学习可以从相关知识集合 中选出恰当的知识,并且可以利用用户的隐式负反 馈信息,确保对话效果持续稳步提升.文字类冒险游戏是一种玩家必须通过文本描述 来了解世界,通过相应的文本描述来声明下一步动 作的游戏.这类游戏中强化学习智能体根据接收到 的文本信息进行自动响应,以实现规定的游戏目标 或任务(例如拿装备、离开房间等).强化学习善于序 列决策,知识图谱善于建模文本的语义和结构信息. 因此,强化学习和知识图谱相结合在文字类冒险游 戏中得到了成功的应用.基于强化学习的知识图谱 方法在进行游戏策略学习时主要思路可分为2类: 1)将游戏状态构建成一张知识图,利用强化学习技 术进行游戏策略学习;2)将知识图谱作为外部知识 辅助强化学习智能体进行决策.在生物医药领域,药物合成、新材料发现、疾病 预测等在科技迅速发展的今天显得日益重要,给社会 发展和人们生活带来巨大变化.引入强化学习方法, 可以利用智能体在知识图谱中的自动探索做出最优 决策,同时找到的路径可以为反应物生成或者疾病 预测提供可解释性依据.目前,基于强化学习的知识 图谱技术已经被应用于发现新的药物或材料、化学 反应物预测以及药物组合预测、疾病预测等领域。未来发展方向
近几年来,针对知识图谱和强化学习的相关研 究已经成为人工智能领域的热点方向.知识图谱可 以同时建模数据的拓扑结构和语义信息,强化学习 是一种从试错过程中发现最优行为策略的技术[84], 适用于解决贯序决策问题.知识图谱与强化学习的 结合有利于提升训练样本质量,还有利于提高可解 释性和可信赖性.但是,强化学习方法在知识图谱领 域应用也存在一些不足,主要表现在2个方面:1)对 强化学习状态的表示,文献[134]提到目前强化学习 状态表示大多使用预训练得到的节点嵌入.然而,当 知识图谱中增加新三元组时,节点的嵌入也需要重 新训练,计算成本较大.文献[126]提到除了结构信 息以外,节点的文本描述信息、层次结构的类型信息 也十分重要.在知识图谱表示学习领域,文献[172] 和文献[173]分别将文本描述信息、关系路径等信 息,用于构建更加精准的知识表示.然而,这些方法 还未广泛应用于强化学习状态的表示中.2)强化学 习的奖励函数设计,与人工定义奖励函数相比,文献 [122]和文献[147]已经开始尝试利用知识图谱中的 信息结合抗性学习来生成自适应的奖励函数.如何 自动生成更合理的奖励函数还有待进一步研究. 目前围绕强化学习与知识图谱结合的研究还处 于起步阶段,有广阔的发展空间.未来值得关注5个 方向: 随着应用的深入,人们不仅关注实体关系三元 组这种简单的知识表示,还需要掌握包括逻辑规则、 决策过程在内的复杂知识.目前基于强化学习的知 识图谱研究主要围绕静态知识图谱.然而,知识随着 时间的推移往往是动态变化的.如何利用强化学习 在解决序列决策问题方面的优势,来建模知识图谱 的动态性,学习知识图谱的变化趋势,解决实际应用 中的复杂问题是一个值得研究的课题.Li等人[174]研 究了动态时序知识图谱的时序推理问题.受人类推 理方式的启发,CluSTeR(cluesearchingandtemporal reasoning)包含线索搜索和时序推理2部分.线索搜 索模块采用随机集束搜索算法,作为强化学习的动 作采样方法,从历史事件中推断多条线索.时序推理 模块使用基于 RGGCN 进行编码,并应用 GRU 进行 时序预测,实现从线索中推理答案.面对越来越复杂多样的用户诉求,单一知识图 谱已不能满足行业需求.多模态数据[11]可以提供更 丰富的信息表示,辅助用户决策,提升现有算法的性 能.目前,基于强化学习的知识图谱研究主要针对文 本数据.如何利用强化学习技术进行多模态知识图谱 的构建与分析仍是一个值得研究的方向.He等人[175] 将强化学习方法应用于视频定位(videogrounding) ,即给定一段文本描述将其与视频片段相匹配的任 务中.He等人将这个任务建模为一个顺序决策的问 题,利用 ActorGCritic算法学习一个 逐步 调节时间 定位边界的代理,完成视频与文本的匹配. 强化学习作为人工智能领域研究热点之一,其 研究进展与成果也引发了学者们的关注.强化学习 领域最近提出了一系列新的方法和理论成果,例如, 循环元强化学习[176]、基于 Transformer的 强 化 学 习[177]、逆强化学习[178]等相关的理论.如何将这些新 的理论方法应用在知识图谱的构建或研究应用中, 值得深入思考.Hou等人[179]在强化学习动作选择中 引入了知识图谱中隐含的规则来约束动作选择,进 一步精简了动作空间,提高了强化学习效率.Hua等 人[180]提出了一种元强化学习方法来进行少样本复 杂知识库问答,以减少对数据注释的依赖,并提高模 型对不同问题的准确性.基于强化学习的知识图谱方法具有一定的可解 释性和准确性.但强化学习不同于监督学习,样本数 据来源于智能体与环境的交互,会导致收集大量无 用且重复的数据,成本较高.一种解决思路是将迁移 学习应用到强化学习中,通过将源任务学习到的经 验应用到目标任务中,帮助强化学习更好地解决实 际问题.文献[164]、文献[170]将迁移学习和强化 学习结合起来,分别应用于同类游戏策略学习以及 动态金融知识图谱构建领域,并取得了不错的效果, 缓解了特定领域因训练数据不足所带来的挑战,提 高了模型举一反三和融会贯通的能力.因此,基于强 化迁移学习的知识图谱研究也是未来一个重要的研 究方向. 由于知识图谱能够提供实体间的语义和结构信 息,强化学习智能体的学习过程和人类认知世界的 过程比较相似,产生的解释更易于人类理解.因此, 一些研究者利用强化学习和知识图谱开展可解释性的研究.然而,这些研究工作可解释性的效果只能通 过实例分析来进行评测.目前,针对解释性还没有统 一或者公认的衡量标准[84],如何衡量模型的可解释 性是未来需要研究的问题之一.
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
“综述专栏”历史文章
更多综述专栏文章,
请点击文章底部“阅读原文”查看
分享、点赞、在看,给个三连击呗!