查看原文
其他

联想CTO芮勇团队 | 知识挖掘:跨领域的综述

MIR编辑部 机器智能研究MIR 2022-12-11

Machine Intelligence Research


知识挖掘是一项融合了自然语言处理、数据挖掘和机器学习等领域的热门研究方向。通过从数据源中提取知识,知识挖掘能够创建一种结构化的表示,帮助研究人员更好地理解此类数据,并在其基础之上进行操作和处理以构建各种应用。在涉及知识挖掘的各个领域中,学者们已经开展了大量的研究综述工作。


与之前的众多研究不同,联想集团首席技术官、高级副总裁、欧洲科学院外籍院士、Fellow of ACM, IEEE, IAPR, SPIE芮勇博士带领研究院团队首次进行了一次跨领域的研究综述,探索了知识挖掘在自然语言处理,数据挖掘和机器学习等三大领域中呈现出的不同特点,以激发更多的研究灵感和想法,进而在这些领域间搭建起沟通的桥梁。相关成果已发表于《机器智能研究》2022年第2期中,全文开放获取。



图片来自Springer


全文导读


从不同的数据源中自动提取知识是一项横跨不同领域、富有挑战性的任务。例如,在自然语言处理领域,从自然语言文本中提取结构化的知识库因应用广泛而备受关注,如可以从生物医学文本中,自动构建知识结构以理解药物间的相互作用。


在数据挖掘领域,很多研究集中在从结构化数据库中挖掘规则,以帮助人们发现不同项目或特征之间的新关联,进而助力商业或教育等场景中的决策制定。


此外,在机器学习领域,大量的研究聚焦于从机器学习系统的预测和参数中提取知识 ——主要是以逻辑规则的形式,来建立有助于解释系统决策的可解释性表示机制(即所谓的可解释性问题),比如医学场景就非常需要这种可解释性。


从数据中提取或挖掘知识,不管针对非结构化数据、结构化数据还是行为数据,都是开放性的问题,在不同的研究领域都会涉及。这种宽泛的研究场景不仅带来了知识构建的不同定义和不同方式(从而定义知识挖掘的任务),也催生了多样的研究视野,大家可以采用不同的方法来提取知识,并使用不同的衡量指标来评估所挖掘知识的一致性。


另一方面,在自然语言处理领域,知识库通常被表示为张量结构,其中每个条目对应着一个有信念概率的事实。


最后,在机器学习领域,知识挖掘问题之所以被关注,得益于机器学习系统理解和验证这一研究问题的推动,因为机器学习系统的复杂性使得其不容易进行手动检查。类似地,知识表示也需要以一种能被人类所理解的方式来进行,而在这一领域,最常见并且大家普遍接受的表示形式是逻辑规则。


从以上对跨领域知识挖掘的简要概述中,我们可以观察到知识挖掘目标和结构的多样性,以及我们在一开始所提到的宽泛场景,这就引出了这样一些问题:知识挖掘在不同领域中的特点是什么?不同领域提出了哪些研究方法、这些方法的共同特点是什么?我们如何整合这些方法?


我们注意到,虽然在每个领域的文献中都有若干深入的综述文章来阐述提取知识的方法和算法,但据我们所知,目前尚没有一项研究跨越了不同的研究领域来回答上述问题。


此外,知识挖掘的重要性已经渗透到不同的领域,并对产业界产生了影响。因此,我们认为,通过横向研究的方法,探索从数据中挖掘知识的各种可能性,撰写这样一篇跨领域的知识挖掘文献综述正当其时。


本文不是对这三个研究领域大量方法和已有研究工作的综述,而是对知识挖掘所采用的不同方法之间的细微差别及其特征进行审视。


因此,本文将对自然语言处理、数据挖掘和机器学习三大领域中的知识提取问题进行一个整合性的概述,以明晰其关键目标、研究方法和评估标准。学界之前的一些知识挖掘研究已经在这些领域之间建立起了联系,对此,本文也将进行介绍。


本文旨在激发不同领域研究人员的新灵感,推动研究进程,以便在本文所综述的领域之间建立新的桥梁,进一步推进关于知识挖掘任务的研究。在这种思路的指导下,我们避免简单地对知识和知识挖掘进行定义,而是展示这些概念在各个领域的发展情况。因此,我们是从不同领域的一个共同点出发。我们将知识表示的形式固定为不同领域经常采用的逻辑或类似逻辑的公式。


基于这样的知识表示形式,在第2至第4部分,我们以问题为导向,探讨了每个领域的不同目标和关键方法,以深入了解知识挖掘是如何体现的,以及我们在这些研究领域发现了哪些特征。


最后,在第5部分中,我们总结了这些研究方法及其共同特点,并举例指出以前这三个领域之间所建立起的联系,同时提出未来的研究方向。我们相信,本文将有助于启发未来更多关于知识挖掘任务的研究方向,链接起自然语言处理、数据挖掘和机器学习这三个迄今尚未链接的研究领域。


全文下载

Knowledge Mining: A Cross-disciplinary Survey

Yong Rui, Vicente Ivan Sanchez Carmona, Mohsen Pourvali, Yun Xing, Wei-Wen Yi, Hui-Bin Ruan, Yu Zhang

https://link.springer.com/article/10.1007/s11633-022-1323-6

https://www.mi-research.net/article/doi/10.1007/s11633-022-1323-6




关于Machine Intelligence Research


Machine Intelligence Research(简称MIR,原刊名International Journal of Automation and Computing)由中国科学院自动化研究所主办,于2022年正式出版。MIR立足国内、面向全球,着眼于服务国家战略需求,刊发机器智能领域最新原创研究性论文、综述、评论等,全面报道国际机器智能领域的基础理论和前沿创新研究成果,促进国际学术交流与学科发展,服务国家人工智能科技进步。期刊入选"中国科技期刊卓越行动计划",已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等数据库收录。



更多精彩·欢迎关注喜报 | MIR被 ESCI 收录!东南大学张敏灵团队 | 基于选择性特征增广的多维分类方法
北科大殷绪成团队 | 弱相关知识集成的小样本图像分类
华南理工詹志辉团队 | 综述: 面向昂贵优化的进化计算
喜报 | MIR 被 EI 与 Scopus 数据库收录主编谭铁牛院士领衔, MIR首届编委会国内编委会议圆满召开新春喜报!MIR入选“中国科技核心期刊”
MIR | AI 领域新刊启航,诚向广大科技工作者征稿啦主编谭铁牛院士寄语, MIR第一期正式出版!MIR专题征稿 | 类脑机器学习 (2022年4月10日截稿)


点击"阅读原文"免费下载第二期全文

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存