本期荐读 | 全文本文献计量分析学术沙龙综述
摘要
以“科学计量与科技评价的理论、方法与应用”为主题的“2018科学计量与科技评价天府论坛”于2018年9月19—21日在成都顺利召开,“全文本文献计量分析”沙龙作为此次论坛的一项重要学术活动,为与会学者们提供了一个开放探讨的平台。 本文通过对沙龙嘉宾的发言和讨论内容进行梳理与总结,将沙龙的主要内容归纳为引用位置与引用程度分析、引用行为与引用动机分析、引用情感分析与论文评价、全文本知识单元与实体抽取、数据开放、数据标注与评测、新兴研究话题发现与预测等六个主题,以期揭示全文本文献计量分析的研究现状和发展趋势。
关键词
全文本 文献计量分析 引文内容分析 引用行为 引用动机 引用情感
1
引 言
随着开放获取运动的兴起,学术论文全文本数据的获取变得更加方便,基于全文本的分析和计量成为了文献计量学的新趋势。以章节结构、引用信息、图表和致谢等为代表的结构化全文信息及以深度学习、自然语言处理、机器学习和可视化等为代表的文本挖掘技术,为文献计量学的研究提供了更加广阔的空间和可能。近年来,学术界在全文引用分析、引用动机分析、实体主题抽取等领域开展了一系列的探索和应用。
在此背景下,南京理工大学经济管理学院章成志教授与大连理工大学科学学与科技管理研究所胡志刚副教授共同发起并协助筹办“全文本文献计量分析”学术沙龙。该学术沙龙于2018年9月20日在成都举行, 作 为“2018年科学计量与科技评价天府论坛”中的一个交流研讨环节,由中国科学院成都文献情报中心主办。中科院成都文献情报中心科学计量与科技评价研究中心(SERC)执行主任陈云伟研究员主持,章成志教授、胡志刚副教授、同方知网办公室主任师庆辉经理和南京理工大学经济管理学院博士研究生卢超为沙龙嘉宾,来自全国各高校和科研机构的科研人员、教师和研究生共60余人参与了本次沙龙的现场讨论与交流。
通过对沙龙内容的梳理和总结,本文将从“引用位置与引用程度分析”、“引用行为与引用动机分析”、“引用情感分析与论文评价 ”、“全文本知识单元与实体抽取”、“数据开放、数据标注与评测”和“新兴研究话题与预测”等六个主题进行述评,揭示全文本文献计量分析的研究现状和发展趋势。
2
引用位置与引用程度分析
引用位置分析是语法层面的引用内容分析,主要对引用内容在施引文献中的位置分布情况进行统计分析。引用程度分析,也称引用强度分析,不同于传统的引文分析中对施引文献进行计数的办法,主要考察在施引文献的全文或不同篇章结构中引文被提及或标注的次数,其实质是定量层面的引用内容分析。引用程度分析与引用位置分析相结合,能对引用内容的语义信息进行更加细粒度的挖掘。
引用位置分析是全文引文分析的一个重要方面。胡志刚副教授指出,全文引文分析主要的研究对象包括引用位置、引用强度和引用语境(引文上下文),主要的研究内容是三个对象之间以及引文特征之间的相互关系,如高被引和低被引论文出现在论文的不同章节位置(主要包括引言、方法、结果和讨论等部分)的分布情况;发表年份不同的论文哪个更容易被引,更容易被论文的哪个位置引用,或者被提及多少次等问题。将引用位置和引用强度在学术论文全文本中的分布进行可视化呈现,可以帮助研究者更加全面直观地对引用行为进行解读。胡志刚副教授举例,在其对论文引用位置的研究中,用每个柱体代表一篇论文,柱体中不同颜色的小段代表正文的各个章节,小圆点代表引用在正文中出现的位置,以此构建引用位置可视化图谱,如图1所示。在此基础上,选取了三篇关于 h指数研究的经典论文,利用引用位置的可视化图谱绘制了这三篇引文的引用位置图示,发现发表较早的开创性论文的引用位置几乎全部出现在另外两篇文献的引用之前。此外,还可以研究线索词与引用位置的关系,比如通过第一人称和第三人称在论文正文中的位置分布,发现第三人称的引用多出现在第一、二章节,而第一人称的引用多出现在第三、四章节中;通过行为动词在不同位置的引用中的分布,体现不同位置中引用语境在功能上的特点;通过连接词在文章中的引用位置的分布,表示引用之间的补充、因果、转折关系等。
图1 论文引用位置分布
引用程度分析是对传统引用分析(引用频次简单统计)的扩展和延伸。传统的引用分析将所有引用的重要性都视为一样,而没有对引用进行分类,是简单提及还是作为理论或方法基础,是正面引用还是负面引用,也没有区分显式引用和隐式引用。实际上,不同引文在正文中的引用次数是不一样的,不同类别、不同位置的引文在引用分析中应加以区分并给予不同的权重,从而更加合理地衡量被引文献的重要程度。胡志刚副教授谈到,在其最新一篇关于多引现象的论文中,对于什么样的引文更容易被多次引用、什么样的施引文献更倾向于进行多引进行了比较系统的回答。一般来说,自引论文、新论文具有更高的引用强度,即更容易被多次引用;篇幅较长的施引论文更容易多引,但施引论文是否高被引则与多引倾向无关。
3
引用行为与引用动机分析
胡志刚副教授在谈到全文引文分析时,指出全文引文分析回答的其实是两个问题,一个是引用行为,一个是引用动机,也就是“how to cite”和 “why to cite”,其中 “how to cite”对 应“引用行为是怎样的?”,而 “why to cite” 对 应“引用动机是什么?”。引用行为是科研人员基本的学术行为,在学术论文中以引用内容的形式记录下来,是可测度的;引用动机是语义层面的引用内容分析,不可直接测度,是复杂的和不确定的。
北京师范大学吴金闪教授也提出更应该关注文章中的“真引用”,在进行引文分析的时候,研 究 者 需 要 去 关 注 哪 些 引 用 是 “真 引用”、哪些引用是 “假引用”。根据不同学者的观点,引用动机被分为不同的类别,例如,加菲尔德将引用动机归纳为15 类,包含对科学开创者表示敬意、对同行的尊重、方法和工具的鉴别、提供知识背景、对自己或他人之前研究的修正以及对早期著作的批评等。胡志刚副教授指出,当研究引用动机和引用行为的时候,数据的来源可以分为两类:第一类是基于引用内容的数据来源,例如,印第安纳大学的丁颖教授提出的 content-based citation analysis,主要关注文内引用(引文句)以及其引文上下文(引用语境)。目前,一些学术数据库可以给研究者直接提供文献中每篇引文的引文语境,比如NEC研究院在自动引文索引 (Autonomous Citation Indexing)机制基础上建设的一个学术数字图书馆 CiteSeerX。此外,加菲尔德在50年代创建科学引文索引 (SCI)的时候,其初衷并不是仅仅统计每篇文章的被引频次,而是还要提取相应的引文句,但是由于当时的条件限制,被他的一位物理学家朋友劝阻了。半个多世纪过去了,直到科学计量学界的这位巨擘仙逝,其意愿也没能实现。试想如果科学引文索引中,除了能看到文章的引用次数,还能看到其相应的引用句,那么科学计量学可能可以做更多事情。第二类是基于全文引文分析的数据来源,这类研究基于学术论文的全文文本。随着数据开放获取的发展,PubMed生物医学数据库、美国物理学会 APS数据集、计算机文献数据库 DBLP、开放获取出版物 PLoS、Frontier系列期刊数据库等免费向研究者开放了一部分或全部的高质量学术论文全文数据,这些结构化的论文全文,使得引用位置、引用强度、引用情感等引文内容分析成为可能。
在谈到引用行为与引用动机之间关系的时候,胡志刚指出,对引用行为的研究实际上是要揭示作者的引用动机,由于很难了解作者引用某篇文章的真实动机,所以假设是利用行为来猜测动机。但是利用引用行为真的可以推测引用动机吗? 古人云 “孝字论心不论事,论事千年无孝子;淫字论事不论心,论心万年无完人”,就是说有时候你想的 (动机)和你所做的事情(行为)是不一样的,因此,引用行为不一定能真实地反映引用动机。关于引用行为与引用动机的关系还有待更深入的研究。
4
引用情感分析与论文评价
除了前文提到的引用位置分析和引用动机分析外,基于文本的引文内容分析还可以进行引用内容主题分析的研究。引文上下文的内容包含了论文作者对被引文献自己的理解与思考,蕴含着大量与论文主题密切相关的语义信息,对传统的通过标题、关键词和摘要信息研究论文主题的方法是很好的补充。引文内容分析与传统引文分析的主要不同之处在于,传统的引文分析一般通过对论文的引证与被引证现象进行分析,揭示其中的数量特征和内在规律;而引文内容分析更多的是从引文内容本身出发进行分析与挖掘,研究引文内容中包含的情感、线索词、作者动机等问题,探索单篇论文新的评价方法和机制。随着引文内容分析与自然语言处理领域的不断融合,基于引文内容的论文主题自动分析成为可能,该领域也将引起更多学者的关注。
引用情感分析是引文内容分析研究中的一个重要分支,也是面向论文评价中的一个有益尝试。引用是论文作者的主观行为,作者对被引文献的描述也会包含一定的主观情感,这些情感可能是正面的、负面的或者中立的,作者的引用情感也值得进一步分析和挖掘。 在谈及引文内容的情感分析时,章成志教授首先肯定了引用情感分析的研究意义,指出引用情感分析能更准确地计算出有效引用,而引文数据的有效性则影响到整个文献计量学的科学性。研究者可以利用引用情感分析检测出负面引用而不记入有效引用中,让引文数据更加准确有效,从 而让文献计量学的根基更为牢固。章成志教授还指出目前在计算机领域已经有许多关于情感分析的研究,但大部分主要是针对新闻社交媒体以及电商评论进行挖掘,与学术文本引用情感分析有较大不同。一方面社交媒体或电商评论数据往往具有明显的极性甚至评分信息,而论文作者在撰写论文时经常避免使用直接的批评语句,有时通过暗示来隐晦地表达他们对引文的负面态度;另一方面,引文内容 中的负面引用所占的比例非常小,因此,他也呼吁学术界应该与论文全文服务提供商等单位联合起来,进行大规模数据集的标注,从而为学术研究提供支持。对于学术文本情感表达较为隐晦的问题,章成志教授指出可以通过人工标注来解决,但该方法费时费力,因而现在也有利用自然语言处理技术进行引用情感自动识别的研究。
5
全文本知识单元与实体抽取
在当今的信息环境下,用户对知识的需求已经不能满足于以整篇文献为粒度的知识组织方式,文献中所包含的细粒度知识单元抽取与分析成为文献计量、信息检索等领域的研究热点之一。目前对于知识单元的概念还没有形成统一认识,但是大部分学者认为知识单元是构成知识结构的基本单元。对于如何确定知识单元的概念和颗粒度的问题,章成志教授表示实体的形式是多种多样的,既可以用传统的本体中实例的概念,也可以用知识图谱中实体的概念,在科学计量学的研究与实践中,知识的最小表示单元可以理解为需要抽取的实体。
师庆辉经理也表示对于实体抽取应该关注其具体的用途及与应用场景的相关性。关于实体抽取的主要方法,师庆辉经理指出主要包括基于规则的抽取方法和基于统计的抽取方法以及基于混合策略的抽取方法。基于规则的抽取方法,规则包括正则表达式规则、产生式规则、关联规则等,单独使用基于规则的方法召回率不够高。基于统计的抽取方法主要包括频率统计、信息熵、互信息、似然度统计等方法,但利用统计学方法提取术语会存在无意义的组合、普通常用词语(非所需要的实体)等噪音,准确率不够高。因此,可以使用基于混合策略的抽取方法,交叉验证,以提高召回率和准确率。除此之外,还有基于机器学习的方法,根据训练集学习后抽取新的实体,经过交叉验证和消歧工作后扩展出普适性更强的知识图谱。师庆辉经理表示,全文本实体抽取研究意义重大,可以为信息检索提供更加丰富的元数据,极大地提高信息检索的效率等。
卢超博士在谈到全文本知识单元与实体抽取研究时,举了一个关于学术论文写作风格与作者母语之间关系研究的例子。他通过全文本分析的方式对英文文献进行探测,构建了一个语言学复杂度评估框架,通过对论文中名词、动词等知识单元的抽取和句子长度的计算,分别从词汇复杂性、句法复杂性的语法层面去分析英文母语者和非英文母语者在论文写作的时候存在哪些差异,研究发现英文母语者在撰写学术文献时倾向于使用更长的句子、更多的长短句结合以及更大比例的动词。在此基础上,他研究了语言学特征与学术影响力的关系,发现语言特征与被引量并没有显著关系,论文主要用来阐述学者研究工作的内容,因此,学术影响力更多地体现在文献的内容上,而不是语言学特征中。
6
数据开放、数据标注与评测
学术论文全文数据集是开展全文本文献计量分析的前提和基础。随着开放获取运动的兴起和信息技术的发展,越来越多的数据库提供学术论文全文数据集的开放下载,如世界三大科学期刊论文数据库 Springer、Elsevier和 Wiley开始提供全部或部分HTML格式的全文阅读和下载,尤其是2012年开放的 Elsevier ConSyn数据平台,提供 XML全文数据的检索和下载; 此外, 生物医 学数据 库 PubMed Central, 知名开放获取出版物 PLoS、PeerJ、Frontier等也支持XML 格式论文的全文下载。关于国内的数据开放现状,师庆辉经理谈到中国知网为用户提供了中文学术论文的检索和下载权限,为一些合作单位、研究机构开放了部分全文本数据,但对于普通用户的全文本数据集的开放权限目前还在讨论阶段,其中涉及到国内数千家学术出版机构的版权保护问题。章成志教授认为目前开放的中文学术论文全文数据集比较少,尤其是缺少 XML格式的中文论文集,这也是研究人员更倾向选择外文数据集而非中文数据集的原因之一。
数据标注是进行引用情感识别、引文动机分析等全文本文献计量分析任务的基础,一般通过人工的方式按照一定的规则对数据打上标签。章成志教授指出数据标注是一项很重要的工作,但同时这项工作又非常耗费时间和精力,因此,当前很多研究往往都是在特定任务下的小规模的标注数据集上进行,且标注质量难以得到控制。卢超博士也认为数据标注工作是一项很复杂、专业和系统的工作,从概念体系的制定到重复试验的进行,每一个步骤都需要小组人员不断讨论和改进,直到整个方法体系的完善,这个过程需要耗费较长的周期,而最擅长数据 标注工作的是社会学领域的研究人员。因此,他提出文献计量学的研究应该加强与其他领域研究人员的合作,这样才能发挥各学科的优势,促进科学研究的创新和发展。
评测也是目前全文本文献计量分析研究中的一个重要问题,主要体现在评测数据集和评测机制两个方面。章成志教授认为公开的评测数据集对文献计量和自然语言处理领域的研究非常重要,统一标准的评测数据集是进行相关研究和方法对比的基础。尽管目前公开的一些评测数据集较少并且领域局限性较大,但是很多评测会议和机构逐渐开放了评测数据集,对相关领域的研究起到很大的推动作用。师庆辉经理指出目前缺少对研究模型、研究结果进行评测的统一机制,例如在引用情感分析任务中,如何 对情感评价的标准进行评价;在一个领域中表现较好的模型在其他领域是否能获得同样的效果等,都是需要解决的问题。当有了标注数据集后,评测就是推动学术研究和行业发展的一个重要方面。
7
新兴研究话题发现与预测
对学科前沿发展态势的认识和探索以及对学科未来发展的预测一直是科学计量学领域关注的热点问题,尤其是随着学术文献全文本数据获取的便利,新兴研究话题的发现和基于全文本内容的预测也获得了更广阔的空间。卢超博士谈到目前学术界对新兴研究话题的定义尚未形成统一的标准,导致研究和评估方法多种多样。数据主要来自科技文献和技术专利,采用文本挖掘和计量分析的方法对新兴话题进行探测,但现有的方法更多停留在对研究话题的外部特征的描述上,而利用学术论文全文数据和其中的引文内容能够提供更早和更细节的影响力监测。因此,从学术论文全文本信息出发进行新兴研究话题发现是一个值得关注的研究趋势。
基于全文本的预测,师庆辉经理谈到了两个方面:一是基于文本内容的论文影响力的预测,目前他们在做的一项工作就是将文章的引用量分成了几个层级,从全文本计量的角度对文章质量进行预测,准确率能够达 到 80% 左右,这项工作将有助于早期发现有价值的文献,为科学决策和科技评价提供参考;二是对新兴学科发现的预测,通过对学术文本内容的挖掘,预测新兴学科特别是新兴交叉学科的产生和发展趋势,可以为学科指明新的研究方向,丰富学科研究领域。
8
总结
随着学术论文全文本数据集的开放和相关文本挖掘技术的发展,文献计量学的研究对象和理论方法也在不断扩展,尤其是与自然语言处理、机器学习、信息检索等领域的交叉研究不断深入。值此重要时机,“全文本文献计量分析”学术沙龙,围绕全文引用分析、知识实体抽取、新兴研究话题等主题,对全文本文献计量分析研究与应用实践的研究现状、前沿热点、发展趋势以及存在的瓶颈等展开了讨论,力求让更多的研究者了解并参与到全文本文献计量分析的研究中来。
总的来看,目前全文本文献计量的研究热点主要集中在引用位置与引用程度分析、引用行为与引用动机分析、引用情感分析与论文评价等基于全文本内容的引用分析相关研究中。存在的瓶颈主要包括开放的领域全文本数据集较少,数据标注工作耗时耗力,缺少统一的评测机制等。未来的一些研究趋势可以从基于全文本的新兴研究话题发现、新兴学科发现、交叉学科热点预测、论文影响力预测等方向展开。
*原文载于《信息资源管理学报》2018年第4期119-125页,欢迎个人转发,公众号转载请联系后台。
作者简介
王佳敏,博士研究生,研究方向为文本挖掘
李信,博士研究生,研究方向为学术文本挖掘、信息计量
刘齐进,博士研究生,研究方向为文本挖掘
-- END --
延伸阅读
相关往期推文