文章荐读 | 基于评审意见的科技论文要点识别与利用
文 章 荐 读
基于评审意见的科技论文要点识别与利用
陈翀1, 程子佳2, 王传清3, 李蕾1
1.北京师范大学政府管理学院,北京 100875
2.中国人民大学信息资源管理学院,北京 100872
3.中国科学院文献情报中心,北京 100190
摘要
科研用户查找文献往往瞄准特定任务,如寻找选题、方法、结论等,面对检索出的大量文献需要甄别要点,判断价值,这一过程既需要熟悉专业知识又耗时费力。论文评审意见中蕴含了同行专家的权威看法,包括对论文要点和参考价值的揭示,可以为满足上述需求提供有效帮助。本文以论文评审意见为对象,围绕科研活动中的典型要素定义评审意见中的要点类型,通过有监督学习方法提取评审意见所述的论文要点,不但为论文提供了结构化要点概括,还能用于辅助文献检索。本文采集《心理学报》期刊2014年年初至2020年年底发表的549篇论文及其对应的评审意见,将其中概括信息划分为概述、方法、结果和亮点4种要点类型,用SVM(support vector machine)、FastText、TextCNN(convolutional neural networks)及BiLSTM(bi-directional long short-term memory)4种方法训练分类模型并比较效果。研究结果表明,BiLSTM方法对要点识别效果最佳,在5次交叉检验中的平均识别准确率达到91%。要点中的亮点进一步分为选题、价值、方法和写作4种类型,采用SVM方法识别,F1值达到85%。作为对研究结果的应用,本文采用识别出的论文要点辅助对论文的理解,并按亮点做检索结果分类,改进了论文检索的组织与服务形式。本文创新之处在于:①提出了从评审意见中挖掘论文要点的研究问题,制定了要点类型的框架和层次;②将识别要点转化为分类问题,通过比较评价找到综合最优的识别方法;③实现了基于要点的检索结果分类组织,帮助用户理解论文并进行价值判断。
关键词
评审意见挖掘, 要点识别, 要点分类, 论文要点, 文献检索
引用格式:
陈翀, 程子佳, 王传清, 李蕾. 基于评审意见的科技论文要点识别与利用[J]. 情报学报, 2023, 42(5): 562-574.
👈长按识别文章二维码查看全文
0
引言
科研用户检索文献时经常是任务导向的,根据不同的任务关注文献特定部分的内容[1],如方法模型、实验设计等。已有研究表明,检索系统中加入词汇或文本段的语义信息,更能满足用户对特定内容的检索需求[2-3]。因而,对论文要素的细粒度挖掘,如提取论文的要点和价值,也会推动人们对文献的查找与利用。对相当一部分需要探索未知领域或对新问题的认识尚不清晰的搜索者来说,鉴别论文的要点和价值所需的专业知识较为缺乏。提供这些信息有助于用户高效地理解论文,减轻鉴别论文的负担,加速文献筛选过程。
对于检索者来说,论文同行评审意见中的专业性判断是一种宝贵的参考,这些判断使用户更易于解决如“某种方法被用于解决哪些问题”“在某个问题研究中,哪些论文的实验设计值得借鉴”等疑惑。评审意见中所提取的论文要点不同于摘要中的表述,评审人通常会根据其理解重新组织语言概括要点,目的是让编辑更容易理解该论文,以便认同其意见;而且评审意见中对论文亮点的洞察与评价是由具有领域视野的权威同行做出的,是论文自身所不具备的信息。因此,挖掘并利用评审意见具有重要研究意义。本文旨在从评审意见中找出论文要点,并探讨如何将其应用于检索。
评审意见一般包括概括性信息、修改意见和录用建议,示例如图1所示。其中,修改意见及录用建议具有时效性,意见中指出的问题在发表时基本上已被修改,因此,本文只选用评审意见中的概括性信息作为要点分析的数据来源。概括性信息中包括研究概述、结论、亮点等多种要点类型。
图1 论文评审意见示例
(1)图中给出的是期刊论文的评审示例;(2)大部分论文的评审人会在第一轮评审意见中给出较为完整的概括性信息;(3)期刊和会议的评审流程有差异,会议由于受投稿处理时间限制,论文评审人在第一轮评审中通常会直接给出录用倾向分数;期刊论文有多轮评审过程,录用意见一般在第一轮修改后根据修改情况给出。
本文的研究问题主要有三个:一是从文献利用的角度,评审意见可提供哪些类型的要点,层次结构是怎样的;二是哪些方法能有效地识别要点;三是怎样用这些要点帮助读者更好地理解和筛选论文。
本文与目前多数评审意见挖掘研究的不同,后者是关注评审意见对编辑或作者的价值。例如,探讨如何利用评审意见的情感倾向、观点来预测论文的录用可能性[4-9]等。本文立足于评审意见对读者的价值,发掘评审意见中的概括信息所蕴含的论文要点,使之能够在检索等应用中作为对论文摘要的补充,帮助人们更快速地理解论文的可借鉴之处,为评审意见挖掘及利用提供了新的思路方向。
本文结构如下:①引言,提出研究问题及其意义;②相关研究,分析评审意见挖掘现状及要点识别方法;③研究设计,定义基于评审意见的要点分析框架,确定要点的类型、层次和识别方法;④实验与分析,阐明数据处理过程,实现多种有监督学习的识别方法并评价效果;⑤要点在检索中的应用,通过摘要和评审意见中的要点分布比较,得出评审意见具有检索利用价值的认识,利用要点建立辅助文献检索的原型系统,体现在检索中利用评审意见信息的可行性;⑥总结与展望。
1
相关研究
1.1 论文评价内容的利用
在论文检索和推荐的应用驱动下,学界一直试图利用论文的评论信息来增强人们对论文的理解。专业、可信的论文评价内容主要有两种来源:一种是引用上下文,即论文中引用前人研究时,评述其优点或不足的文本段[10-11];另一种是论文的评审意见,即论文发表过程中,同行专家对论文的要点概括及价值判断[12]。
引用上下文指明了某篇论文对施引文献产生的影响,早期的研究通常是以引用上下文为线索,从原文中找到被引用的部分来生成摘要,体现原文对他人研究有影响之处[13]。有学者尝试利用这一思路自动生成对某个主题的综述[14]。上述研究的出发点非常有意义,能帮助读者更深入地理解一篇论文中有学术影响力的要点。但是由于自然语言表述的多样性、引用上下文在施引文献中出现的情况复杂、一段话中可能包括对多个前人工作的评论以及引用动机不相同等诸多原因,从引用上下文准确提取论文的评论信息并不容易[15]。相比而言,论文的评审意见是针对特定论文、来自同行专家的权威意见,评价角度丰富,立场相对客观,更容易帮助人们甄别一篇论文的要点和价值。
以往评审意见较难获得,但从20世纪90年代起,欧美学术出版界开始探索“开放评审”[16]和学术透明,在医学、心理学、生物学、计算机等学科,越来越多的期刊和会议开始公开评审意见[17],也出现了Publons、“中国科技论文在线”等开放同行评议的平台。评审意见的数据来源越来越多。目前,可获得的数据主要来源有:公开评审意见的会议或期刊,如ICLR(International Conference on Learning Representations)、NIPS(Conference and Workshop on Neural Information Processing Systems)、PLoSOne、F5000、《心理学报》[18]等;专门的评审意见数据集或网站,如PeerRead[4]、OpenReview[19]等。OpenReview是建于2013年的论文开放评审平台,目前已拥有ICLR、ICML(International Conference on Machine Learning)等人工智能、机器学习领域学术会议的评审意见集,并提供相应的API(application programming interface)接口方便获取数据。PeerRead数据集包括14000多份论文的原文及被会议录用情况,还包括由同行专家撰写的10000多篇评审意见文本。
2022年,Ghosal等[20]发布了一个可以服务于多种研究目的的评审意见数据集,该数据集基于2018年ICLR会议投稿论文的1199篇开放式评审意见构建而成,其中录用论文对应的评审意见是555份。该数据集在句子层面做标注,设置了4个层次的标注类型。第一种层级的类别是区分评审意见所对应的论文章节,如方法论部分、实验部分等;第二种层级聚焦评价的角度(aspect),如独创性/新颖性(originality/novelty)、经验/理论合理性(empirical & theoretical soundness)等;第三种层级是评审文本的功能,例如,是概述、建议、优点,还是属于不足、质疑等;第四种层级是评价的重要度,例如,是指出了重要的修改问题、普通的修改问题,还是不含有明显意向的叙述。该数据集对标注类型分为不同层级,使之具有支持论证结构挖掘、评审句语义功能识别、情感分析、终评决议生成等多种研究的可能。
1.2 论文评审意见挖掘
17世纪中叶,英国皇家学会提出在其刊物上发表文章需要提前登记,由理事会评阅以及表决是否可以发表[21],这是同行评议的雏形。随着学术环境的不断变化,同行评议的机制发展延续至今[22],成为通用学术评价方法。
目前,基于评审意见内容的研究主要包括情感极性分析[5-8]、录用情况预测[8-9]、论证结构分析[23-24]等任务,主要目的是确保人为评价的公平性,以及评分与表述的一致性。Kang等[4]构建了第一个用于研究的评审意见公开数据集PeerRead,并提出两个任务:一是分析情感极性判断论文的录用情况;二是预测评审意见中各个评价角度的得分。Wang等[5]利用评审内容的情感极性预测评审结果,发现评审意见内容中所蕴含的情感极性与评审结果之间具有一致性。其他研究还具体到对评审角度如原创性、重要性等的情感极性判断[6]。Ghosal等[8]提出DeepSentiPeer模型,根据评审意见内容和作者回复的句子情感,预测论文的推荐分数以及是否会被接收。
本文研究与Hua等[23]和Fromm等[24]的评审意见论证挖掘研究较为接近。论证挖掘是指自动识别和提取自然语言呈现的论点以及推理结构[25]。由于理解论证结构可以弄清评审专家的立场,并确定其为什么持有自己的观点,这有助于判断评审意见和录用建议是否一致。Hua等[23]采用机器学习和自然语言处理等领域的会议论文的评审意见14.2万份,抽取研究评价(evaluation)、修改要求(request)、事实陈述(fact)、引用参见(reference)、引述原文(quote)等类别的文本片段,进而建立上述几种论证类型的概率转移矩阵。该研究的主要贡献是提出了将评审意见内容结构化,定义了论证句的类型,对几个主要来源的评审意见数据集用不同的分类方法进行句子分类,并公开了数据集AMPERE。但该研究只是将评审意见中的句子进行了论证类型的自动识别,并未结合具体的应用场景,论证句类型中也未专门涉及要点的类型。Fromm等[24]的研究是为了给录用决策提供依据,为此识别出评审意见中描述优点(pros)和缺点(cons)的子句和整句,并判断评审意见的立场,但是其研究中并未明确识别优点及缺点的具体所指。
1.3 要点的类型与识别
考虑到本文挖掘评审意见的主要目的是服务于人们对文献的理解,因此,评审意见中的要点应当是对原文重要内容的概括,要点类型的定义可以借鉴科技论文摘要的语步类型研究。语步(move)是具有特定交际功能和目的的文本片段[26],由句子或句子片段构成。判断句子的语步类型就是判断句子的语义功能,即其表述了什么研究要素。密歇根大学的著名语言学家Swales[27]对学术论文摘要提出了“介绍-方法-结果-讨论”(introduction-method- result-discussion,IMRD)的语步类型。美国国家标准局制定的论文摘要包括目的(purpose)、方法(methods)、结果(results)和结论(conclusions)等语步类型[28]。dos Santos[29]则提出研究动机、研究目的及关注点、研究设计、研究发现、总结展望的五语步类型。
除了对摘要中语步类型的定义,还有研究对论文全文的功能结构提出了各种模型。考虑到论文以论证为目的,Toulmin[30]提出了基于论证模型本体(argument model ontology,AMO),将科技文献的论证结构分为说明、证据、理由、限定词、反驳和支撑共6种论证要素。Nwogu[31]针对介绍、方法、结果和讨论的IMRD医学论文结构化模式进行细分,提出了11种语步模式,包括背景陈述、结果解释、亮点产出等。除此之外,有学者提出了基于文献需求的SciAnnoDoc模型[1,32],将科技全文分为概念、元数据、修辞语言以及引用关系4个层次。Liakata等[33]提出核心科技概念CoreSC模型,旨在自动识别文章中科学研究的组成部分,分为多个层级,其中第一级包括假设、动机、背景、目标、结果等11个类别。
定义语步类型本质上是人们试图按照论文或摘要中内容的交际功能对其结构化,这是实现自动理解论文愿景的基础。近年来,语步自动识别受到了研究人员的广泛关注[34-35]。现有研究通常把语步识别看作分类问题,采用朴素贝叶斯模型[36]、支持向量机模型[37]、隐马尔可夫模型[38]、条件随机场模型[39]等方法构建语步自动识别模型。因此,本文借鉴现有语步类型定义和评审意见的内容特点进行论文要点类型的定义,意义在于帮助读者快速掌握科技论文的主要内容并揭示科技论文中蕴含的科学知识。
1.4 研究述评
以往研究通常关注的是如何利用评审意见辅助编辑做出录用决策,而本文关注的应用场景是帮助读者理解论文,因此,两者存在如下差异:一是在要点的类型定义上借鉴了论文摘要的语步类型,而不仅是多数评审数据集所标注的论证功能或评价角度;二是利用评审意见中的概括性信息进行标注和识别,而不是用特定评价角度如原创性、重要性对应的内容条目,因为不少评审文本在这些条目上只有是与否的判断,没有概括理由,或者只是质疑论文在这些角度上的不足而非概括。读者看到的是已发表的论文,此时,一些受质疑之处可能已不存在。论文的生命力在于其发表后长久地被用户检索并查阅,因此,不再出现的内容不是本文标注考虑的对象。
2
研究设计
目前,对于评审意见的研究有三个方面需要完善:①基于评审意见中提及的论文要点描述框架研究较少,相应的标注数据集有限;②评审意见的短文本中包含密集的观点,尚不清楚哪种文本挖掘算法在其概括信息中识别出要点的效果较好;③如何利用评审意见中包含的要点帮助用户检索和利用文献。因此,本文围绕这三个方面设计研究路线并展开实验。
2.1 评审意见的结构与要点类型
评审意见中的概括性信息是同行专家站在领域视野判断并概括论文的要点、评价其中的亮点。要点是评审人认为论文研究活动中值得强调的部分,包括一项研究做了什么、用什么研究方法、得出哪些主要结论。亮点是评审人认为论文中值得借鉴之处,涉及研究意义、创新之处、实验设计、结论或行文等方面。
在要点类型的数量上,由于评审意见的概括性信息长度有限,而且不同期刊、会议的评审报告内容要求也不同,如果要点类别定义过多,那么会缺乏通用性和可区分度。在要点类型的选择上,本文融合了对评审意见标注框架、IMRD摘要语步分类模式以及用户检索需求的研究结果。根据de Ribaupierre等[40]对科研人员的问卷调查发现,人们阅读文献时,对结果类信息的关注情况占75%,对方法类的关注占59.7%,所以这些要素应当被考虑。Qin等[41]统计了评审意见中提及的论文章节所对应的IMRD功能,发现大多数评审人重点关注论文的材料、方法和结果。Ghosal等[20]标注ICLR评审意见数据集时,从4个层次分类,并评估每一层次各个类别的占比,也发现第一层次中论文实验、方法(EXP/MET)类的句子最多,其次是结果(RES)。由于并非所有的论文都涉及材料、实验,而且论文中的实验思路概括一般可以归入方法,因此,本文首先选择方法和结论作为两类要点。Ghosal等[20]的第三种层次的类别分布中,论文的概述和讨论(SMY/DIS)占比最多,而通常的摘要语步类型也重视介绍(introduction)这一要素,因此,本文将选择概述作为一类要点。最后,评审意见中独有的是对论文的亮点评价,例如,Ghosal等[20]在第二种层次分类中所列举的实验合理性(EMP/CMP)、论文写作流畅度(CLA)、论文重要性或影响力(IMP)以及论文选题新颖度(NOV)。因此,本文将“亮点”列为要点,并把其进一步根据评价对象分为“选题”“设计”“写作”和“价值”4个子类。
图2显示了本文对评审意见的组成描述,以及其中包括的要点类型及层次的定义,左侧表明评审意见内容的一般组成,右侧对概括性信息中包含的要点进行划分。由于评审意见中揭示的论文亮点有不同类型,也对亮点进一步细分。
图2 论文评审意见的组成、要点类型及层次
表1列出了评审意见中的要点类型及其含义。其中,概述类的内容是从整体上描述论文研究内容,例如,论文开展了哪方面的研究,解决了什么问题,有何种理论和现实意义。方法类的内容包括研究所使用的方法、技术路线、研究过程等。结果类内容包括研究的结果与发现。亮点类内容是评审人特别指出的创新点或有借鉴意义之处,主要包括论文的选题、研究设计、写作和该研究的价值。
在调研中发现,现有评审意见公开数据集的标注类型及粒度并不能很好地服务于文献检索利用这一目的。例如,有的侧重于标注论文的优缺点,有的不加区分地将多种类型的评价统一标为“评价句”。因此,本文选择了国内较早公开评审意见的权威期刊《心理学报》来构建标注数据集,并在实际标注中验证了本文所提出的要点类型的适配能力。
2.2 要点识别研究设计
本文借助评审意见的概括性信息识别论文要点,具体思路如图3所示。
图3 研究设计
(1)数据收集与预处理。采集已发表论文的公开评审意见及摘要,将每篇论文的多份评审意见中的概括性信息整合成数据集,进行数据清理和句子切分。为了得到具有特定语义信息的最佳文本单位,本文借鉴Park等[42]对于分割论证内容的命题的做法,即从话语功能和主题入手,在句子或子句层面识别基本的议论话语单元。以句号为分隔符对评审意见和摘要进行基本分句处理,在亮点标注中对包含多个并列子句的长句进一步分割。切分后由两名标注者做类别标注,并比较评价一致性。
(2)要点类别标注框架。建立要点类型及层次框架,据此对评审意见中的概括性信息进行人工标注,作为后续模型训练、测试和评价的数据基础。考虑到检索应用的需要,对论文摘要按上述框架进行了标注。
(3)要点自动识别。将要点识别视为分类问题,根据数据集特征,如类别分布不均衡、句子为短文本等特点,选取适当的有监督学习方法,训练分类模型并评测,找出其中效果最好的识别方法。
(4)要点辅助检索。现有的文献检索系统依据全文匹配返回相关结果,用户根据标题摘要先初步判断与自身需求的吻合情况,再浏览全文进一步筛选。虽然相关度排序算法做过许多优化,但用户面对大量结果仍需要耗费大量时间去理解论文并鉴别其参考价值。本文在检索原型系统中除了提供摘要之外,还将结构化的、由评审人概括的论文要点进行对照展示,帮助于用户更快速地理解论文。此外,利用了识别出的亮点对检索结果进行分类,为任务导向型的查找提供针对性的判断依据。
3
实验与分析
3.1 数据集及预处理
本文选取《心理学报》作为标注数据源,该刊是我国心理学领域的权威期刊,涵盖的学科范围全,评审质量高,公开的审稿意见翔实完整,评价角度丰富。通过爬虫工具从期刊官网爬取了2014年年初至2020年年底发表的774篇论文的摘要以及对应的评审意见。经过数据预处理、去除缺失值,最终得到摘要和评审意见均齐全的论文共计549篇,每篇论文均包括2份或3份审稿人意见。
本文先由2名熟悉各个要点类型以及含义的标注者独立标注要点,再使用Python Sklearn库的cohen_kappa_score函数计算2次标注结果序列的Cohen's kappa信度为0.914,表明2次标注的结果一致性好。对于有分歧的数据,由第3名标注者再次审核,对标注结果投票判决,如果得到了不同于前两名标注者的第三类标注结果,那么把这一条数据归入“其他”类别,由此共得到评审意见标注数据2991条以及摘要标注数据2386条。评审意见中有概述718条、方法679条、结果415条、亮点1105条(共计2917条)不属于以上类型的条目,这些标为其他。
在要点自动识别阶段,将数据集按照0.7∶0.15∶0.15进行划分,因此,训练集数据2039条,验证集和测试集各包含数据439条。由于数据量有限,为防止过拟合,本文按照要点类型将数据集分层划分为20等份,进行了5次检验,每次随机抽取其中14份作为训练集,3份作为测试集,3份作为验证集。
3.2 要点识别方法
选取SVM(support vector machine)、FastText、TextCNN(convolutional neural networks)和BiLSTM(bi-directional long short-term memory)4种方法进行分类模型训练。本文选用计算效率较高的经典机器学习算法SVM作为基线方法,并在分类器构建过程中使用word2vec词嵌入以提升其在不平衡数据集上分类的表现[43]。FastText[44]是由Facebook提出的包括word2vec、文本分类等功能的开源工具,与其他深度学习框架相比,其具有速度快的优点。TextCNN方法[45]是将卷积神经网络应用于文本分类,对文本浅层特征抽取能力强,在短文本处理如搜索、对话等意图分类上应用效果好。BiLSTM在句子级情感分类等任务中也使用广泛。
3.2.1 SVM
首先,采用word2vec模型在训练集上构建词向量空间,主要参数设置如表2所示。其次,使用Python Sklearn库的SVM模型进行多分类训练,并用Grid Search进行参数调优,分别尝试线性核、高斯核和多项式核,并调整参数C为1或10,调整参数gamma为0.001、0.01、0.1和1。最终得到参数为高斯核函数rbf、C=1、gamma=0.001时,训练与测试数据集表现最优。
3.2.2 FastText
FastText由数据处理、模型输入、模型计算和结果输出4个模块组成。数据处理中,切词得到1-gram,并组合生成2-gram、3-gram。模型输入中传入批处理大小batch_size,每句话处理后的长度seq_len,词向量维度embed_size等参数。输入层的向量表示为随机初始化,在计算模块进行n-gram向量拼接(n=1,2,3),然后通过全连接和非线性激活进入隐藏层计算,输出层由隐藏层再经过一次非线性变换得到。FastText与TextCNN和BiLSTM方法均采用如下规则调整参数:调整迭代次数num_epochs为5的倍数,批处理大小batch_size和句长seq_len为32的倍数,最终得到模型主要参数及含义如表3所示。
3.2.3 TextCNN
TextCNN模型结构如图4所示,使用腾讯预训练词向量embedding_Tencent帮助模型计算。卷积层有长度分别为2、3、4的3个卷积器,数据通过卷积器后输出为3个特征图,相当于提取句子中的n-gram信息。池化层将这3个特征图做最大池化,以保留最重要的信息。再将3种卷积器拼接在一起,得到的词向量数目为batch_size与卷积核数目之积。经过全连接层得到预测的类别数,即num_class。结果通过归一化,再将num_class中最大值对应的类作为预测结果。本文使用反向随机梯度下降的方法训练模型参数,调整参数,尝试调整卷积核数量为64、128、256的倍数,主要参数及含义如表3所示。
图4 TextCNN模型结构
3.2.4 BiLSTM
BiLSTM方法[46]优点在于每一时刻的隐藏层的值都包含当前词语以及前后向词语的信息。模型加入了一层池化层筛选最有价值的特征信息,如图5所示。将所有句子处理成相同的长度seq_len,将预训练词向量embedding_Tencent载入词嵌入层,经过一层双向长短时记忆层分别得到当前词语左侧和右侧两个词语的词向量。左右词向量与该词本身的词向量结合生成一个三维的向量,并进行tanh非线性激活。将上一步的结果向量输入最大池化层提取特征信息,最后在输出层通过softmax计算得到结果。调整参数,并尝试lstm层数为1或2,主要参数及含义见表3。
图5 BiLSTM模型结构
3.3 要点识别评价
选用准确率(Acc)、查准率(Prec)、查全率(Rec)和F1值4个指标,计算不同模型对各个要点类型自动识别结果,如表4所示。表现最好的是BiLSTM,各项评价指标均超过90%;TextCNN和FastText算法接近,平均准确率在87%~88%;作为基线方法的SVM各项评价指标均为80%左右。
进一步验证BiLSTM模型的泛化能力。做法类似N折交叉检验,按照7∶1.5∶1.5随机抽取数据集作为训练集、验证集和测试集进行评价,重复上述操作5次。对以上5次实验的结果取平均值,得到的结果如表5所示。可以看出,与表4中BiLSTM的性能指标相比,5次检验后得到的总体平均值波动幅度不超过0.04,且高于其他3种模型在表4的结果,可以说明该模型在本文所选方法中综合最优且具有泛化能力。
表6对比了不同模型在4种要点类型上的F1值。其中,概述和亮点两类的自动识别结果在各种模型中都相对较高,在BiLSTM模型中达到了92%,说明这两类要点的内容与其他内容相比,有区分度较高的特征。方法类要点的识别效果达到90%以上;结果类要点的识别效果较差,最高仅有85%,可能是特征区分度不明显而造成了一定的识别难度。
3.4 论文亮点识别评价
“亮点”是评审意见与摘要相比最具有特色的内容,具有较大的应用价值。本文进一步归纳亮点中包括的类型并自动分类。将1105条亮点所对应的文本以逗号为分隔符进行拆分,共得到1529条数据,包括选题244条、设计659条、写作241条、价值385条。由于数据量较小,深度学习方法效果较差,本文采用基线方法SVM对其进行识别,调优效果最好的参数为线性核,当C=1时,得到亮点语步的识别结果如表7所示,可以看出整体识别效果较好,F1值达到85%。
4
要点在检索中的应用
4.1 评审意见和摘要中的要点分布差异
本节尝试用评审意见概括信息和摘要的简单对比来说明其具有检索利用价值。将已标注的评审意见数据和摘要数据按照要点类型统计分布,两者对比如表8所示。可以看出,两者所包含的要点类型在分布上存在较大差异。评审意见中,数量最多的要点类型是亮点类,占比为36.94%;在摘要中,亮点类条目仅约4%,是占比最少的要点类型。摘要中包含最多的类型是“结果”,占比超过40%;而评审意见中的“结果”则占比不足14%。
可以看出,概述和亮点两个类型在评审意见中的占比高于在摘要中的占比,说明对论文的概括和评价信息丰富,可以给用户提供很好的参考,特别是亮点,其在摘要中很少能被提供。在方法类和结果类的要点上,虽然数量较少,但比较其句子长度发现,评审意见中的表述比摘要中同类表述更短:方法类评审意见平均句长为13.68,而摘要为23.16;结果类评审意见平均句长为17.86,而摘要为60.54。这意味着其将更容易被阅读和理解,有助于用户更快捕捉到论文所使用的方法以及得出的主要结论。
本文还计算了摘要和评审意见的概述类要点的字面相异度,两者Jaccard相似度和Rouge-N相似度均低于0.5,说明评审人按自己的理解概括了论文的要点,而不是直接从作者摘要中摘出,这意味着评审意见中的概述可能会有摘要中未包括的新信息。
4.2 原型检索系统
本节利用评审意见中挖掘的要点辅助论文的检索,在结果呈现上,要点用在两个方面:一是对检索结果的分类组织,帮助人们发现具有特定借鉴意义的论文;二是对论文要点的揭示,使人们更容易判断一篇论文是否与自己特定的搜寻目的有关。在排序上,对查询结果排序按照评审意见和摘要在概述类要点的内容文本相异度进行调整,这是因为评审人概括的要点与作者的概括之间差异大则意味着用户可看到的新信息多,对论文的理解也会更深。因此,可以相异度调节传统的相关度排序。
本文使用关键词与标题匹配的简单检索方法模拟了科技论文检索系统,用Python的Flask框架搭建了检索系统的前端页面,在腾讯租用云服务器进行部署,用于演示评审意见语步信息在用户查询论文及判断论文价值时的帮助,包括“要点分类”和“要点详情”两种检索界面。
4.2.1 要点分类
要点分类是指对检索出的论文按亮点的类别进行组织。如图6所示,用户在搜索框中输入任意一个查询词q,系统会匹配标题中含有q的论文。将每一篇论文按亮点所对应的子类细分。亮点中关于研究问题的论文归入“选题”子类,虽然其实际表述有可能是“研究问题具有创新性”“选题有意义”等,但本文将这一子类注释概括为“选题有特色”以便给读者更清晰、明确的指示。同样地,其他有关研究设计的亮点表述均归入“设计”子类,注释为“研究设计合理”;与研究价值有关的亮点表述均归入“价值”子类,注释为“研究有意义”;与论文撰写有关亮点表述均归入“写作”子类,注释为“写作清晰流畅”。最后的检索结果还显示论文的题目、摘要以及亮点的原始表述,使分类具有更好的可解释性。
图6 科技论文检索系统“要点分类”页面
4.2.2 要点详情
要点详情是指通过提供评审人对论文要点的结构化概括来补充论文摘要,以便为用户理解论文、做出进一步检索决策提供更多信息。如图7所示,当在搜索框中输入任意一个查询词q后,系统返回标题中含有q的论文的结构化摘要和评审意见,均用方括号标记要点类别。根据4.1节所述摘要和评审意见的概述类要点的字面相异度结果,评审人概括论文要点时通常会用自己的方式表述,而且其表述更加凝练简短,从而提升了学术性内容的可理解性。因此,将摘要和评审意见的概括性信息做要点的结构化对照,能够极大地提升用户的理解效率。
图7 科技论文检索系统“要点详情”页面
5
总结与展望
近年来,论文评审意见的相关研究越来越多,反映了人们对其蕴含价值的重视。本文的贡献在于:面向文献检索与筛选的需要,利用评审意见中蕴含的论文概括性信息提出论文要点挖掘问题;建立要点分析框架,定义类型及层次;比较多种有监督学习方法,找到一种综合性能最优的识别方法;同时,还建立了一个基于要点辅助论文检索的原型系统,为探讨要点的检索利用价值提供了基础。
本文所提出的要点描述体系包括概述、方法、结果和亮点4个类别。其中,亮点进一步分为选题、设计、价值和写作4个方面。构建了评审意见标注数据集,采用有监督学习方法将论文要点识别转换为分类问题。使用了4种在短文本分类中被认为性能较优的方法,即SVM、FastText、TextCNN和BiLSTM构建评审意见要点识别模型,并在5次交叉检验中找到最优的方法,发现BiLSTM模型对各类要点的平均识别准确率最好。对亮点的识别使用了SVM方法,总的F1值达到85%。
目前,针对评审意见的研究一般旨在衡量评审的公平性,加速评审过程,主要服务于编辑和作者。事实上,评审意见还可以广泛服务于读者群,改进对文献有针对性目的的检索、阅读和筛选。现有的论文检索系统通常是利用论文集合自身的信息,如摘要、正文等内容文本进行结果筛选和排序,而且摘要只是作者视角下对论文内容及价值的概括。相比之下,评审意见是同行专家的视角,在概括论文内容及价值上发挥了重要的补充作用。本文搭建了科技论文检索原型系统,从检索结果组织、论文要点揭示、排序方式改进等方面展示了如何利用论文的要点辅助检索。本文拓宽了评审意见挖掘的应用前景;更重要的是,利用评审意见帮助人们筛选论文,使读者不需要有较高的学术鉴别能力及问题认识水平,也能够发现真正解决其需求的论文。
需要说明的是,本文与其他评审意见研究所用数据有所区别,本文选取已发表论文的概括性评审意见,这些意见在论文发表后仍对他人鉴别论文具有指导意义,且具有权威性,可以在评审过程之外的其他应用中继续发挥作用。
本文尚存在以下值得深入探索之处:一是扩大数据集规模,不限于一种期刊和一个语种的论文评审意见,可以使用公开的英文评审意见进行实验,在不同语言环境及评审意见表述方式上,训练更有适应性的要点类型识别模型;二是开展细致的检索评价,测量引入要点信息对检索效果的改进;三是丰富评审意见要点识别结果的应用,在更多场景上,进一步开展评审意见对检索和文献组织的研究。
参考文献
[1] de Ribaupierre H, Falquet G. Extracting discourse elements and annotating scientific documents using the SciAnnotDoc model: a use case in gender documents[J]. International Journal on Digital Libraries, 2018, 19(2): 271-286.
[2] 李信, 程齐凯, 刘兴帮 . 基于词汇功能识别的科研文献分析系统设计与实现[J]. 图书情报工作, 2017, 61(1): 109-116.
[3] 黄永, 陆伟, 程齐凯, 等. 学术文本的结构功能识别——在学术搜索中的应用[J]. 情报学报, 2016, 35(4): 425-431.
[4] Kang D, Ammar W, Dalvi B, et al. A dataset of peer reviews (PeerRead): collection, insights and NLP applications[C]// Pro‐ceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Lan‐guage Technologies. Stroudsburg: Association for Computational Linguistics, 2018: 1647-1661.
[5] Wang K, Wan X J. Sentiment analysis of peer review texts for scholarly papers[C]// Proceedings of the 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. New York: ACM Press, 2018: 175-184.
[6] Chakraborty S, Goyal P, Mukherjee A. Aspect-based sentiment analysis of scientific reviews[C]// Proceedings of the ACM/IEEE Joint Conference on Digital Libraries in 2020. New York: ACM Press, 2020: 207-216.
[7] Thelwall M, Papas E R, Nyakoojo Z, et al. Automatically detect‐ing open academic review praise and criticism[J]. Online Infor‐mation Review, 2020, 44(5): 1057-1076.
[8] Ghosal T, Verma R, Ekbal A, et al. DeepSentiPeer: harnessing sentiment in review texts to recommend peer review decisions[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg: Association for Com‐putational Linguistics, 2019: 1120-1130.
[9] Fernandes G L, Vaz-de-Melo P O S. Between acceptance and re‐jection: challenges for an automatic peer review process[C]// Pro‐ceedings of the 22nd ACM/IEEE Joint Conference on Digital Li‐braries. New York: ACM Press, 2022: Article No.32.
[10] Nakov P I, Schwartz A S, Hearst M A. Citances: citation sentenc‐es for semantic analysis of bioscience text[C]// Proceedings of the SIGIR Workshop on Search and Discovery in Bioinformatics,2004: 81-88.
[11] Elkiss A, Shen S W, Fader A, et al. Blind men and elephants:what do citation summaries tell us about a research article? [J].Journal of the American Society for Information Science and Technology, 2008, 59(1): 51-62.
[12] Chen C, Zhang J Y, Chu X Y, et al. Study on the difference be‐tween summary peer reviews and abstracts of scientific papers[C]// Proceedings of the Workshop on Extraction and Evaluation of Knowledge Entities from Scientific Documents. CERU-WS.org, 2020: 83-85.
[13] Qazvinian V, Radev D R. Scientific paper summarization using citation summary networks[C]// Proceedings of the 22nd Interna‐tional Conference on Computational Linguistics. Stroudsburg: As‐sociation for Computational Linguistics, 2008: 689-696.
[14] Mohammad S, Dorr B, Egan M, et al. Using citations to generate surveys of scientific paradigms[C]// Proceedings of Human Lan‐guage Technologies: the 2009 Annual Conference of the North American Chapter of the Association for Computational Linguis‐tics. Stroudsburg: Association for Computational Linguistics,2009: 584-592.
[15] 雷声伟, 陈海华, 黄永, 等. 学术文献引文上下文自动识别研究[J]. 图书情报工作, 2016, 60(17): 78-87.
[16] Fitzpatrick K. Peer-to-peer review and the future of scholarly au‐thority[J]. Social Epistemology, 2010, 24(3): 161-179.
[17] Wang P L, Tahamtan I. The state-of-the-art of open peer review:early adopters[J]. Proceedings of the Association for Information Science and Technology, 2017, 54(1): 819-820.
[18] 李金珍, 庄景春, 邱炳武 .《心理学报》开放性同行评审方式探索及初步成效[J]. 中国科技期刊研究, 2015, 26(2): 139-142.
[19] Soergel D, Saunders A, McCallum A. Open scholarship and peer review: a time for experimentation[C]// Proceedings of the 30th International Conference on Machine Learning, Atlanta, Georgia,USA, 2013. JMLR: W&CP volume 28.
[20] Ghosal T, Kumar S, Bharti P K, et al. Peer review analyze: a nov‐el benchmark resource for computational analysis of peer reviews[J]. PLoS One, 2022, 17(1): e0259238.
[21] Moxham N. Authors, editors and newsmongers: form and genre in the philosophical transactions under Henry Oldenburg[M]// News Networks in Early Modern Europe. Leiden: Brill Academic Publishers, 2016: 465-492.
[22] Zuckerman H, Merton R K. Patterns of evaluation in science: in‐stitutionalisation, structure and functions of the referee system[J].Minerva, 1971, 9(1): 66-100.
[23] Hua X Y, Nikolov M, Badugu N, et al. Argument mining for un‐derstanding peer reviews[C]// Proceedings of the 2019 Confer‐ence of the North American Chapter of the Association for Com‐putational Linguistics. Stroudsburg: Association for Computation‐al Linguistics, 2019: 2131-2137.
[24] Fromm M, Faerman E, Berrendorf M, et al. Argument mining driven analysis of peer-reviews[C]// Proceedings of the 35th AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2021: 4758-4766.
[25] Lawrence J, Reed C. Argument mining: a survey[J]. Computa‐tional Linguistics, 2020, 45(4): 765-818.
[26] Swales J M. Aspects of article introductions[M]. Ann Arbor: Uni‐versity of Michigan Press, 2011.
[27] Swales J M. Genre analysis: English in academic and research set‐tings[M]. Cambridge: Cambridge University Press, 1990: 127-174.
[28] American National Standards Institute (ANSI Z39.14-1979).American national standard for writing abstracts[S]. New York:American National Standards Institute, 1979.
[29] dos Santos M B. The textual organization of research paper ab‐stracts in applied linguistics[J]. Text, 1996, 16(4): 481-499.
[30] Toulmin S E. The uses of argument[M]. Cambridge: Cambridge University Press, 2003.
[31] Nwogu K N. The medical research paper: structure and functions[J]. English for Specific Purposes, 1997, 16(2): 119-138.
[32] de Ribaupierre H. Precise information retrieval in semantic scien‐tific digital libraries[D]. Geneva: University of Geneva, 2014.
[33] Liakata M, Teufel S, Siddharthan A, et al. Corpora for the concep‐tualisation and zoning of scientific papers[C]// Proceedings of the 7th International Conference on Language Resources and Evalua‐tion. Paris: European Language Resources Association, 2010:2054-2061.
[34] 陈果, 许天祥 . 基于主动学习的科技论文句子功能识别研究[J]. 数据分析与知识发现, 2019, 3(8): 53-61.
[35] 张智雄, 刘欢, 丁良萍, 等. 不同深度学习模型的科技论文摘要语步识别效果对比研究[J]. 数据分析与知识发现, 2019, 3(12): 1-9.
[36] Teufel S, Carletta J, Moens M. An annotation scheme for dis‐course-level argumentation in research articles[C]// Proceedings of the Ninth Conference on European Chapter of the Association for Computational Linguistics. Stroudsburg: Association for Com‐putational Linguistics, 1999: 110-117.
[37] McKnight L, Srinivasan P. Categorization of sentence types in medical abstracts[J]. AMIA Annual Symposium Proceedings,2003, 2003: 440-444.
[38] Wu J C, Chang Y C, Liou H C, et al. Computational analysis of move structures in academic abstracts[C]// Proceedings of the COLING/ACL on Interactive Presentation Sessions. Stroudsburg:Association for Computational Linguistics, 2006: 41-44.
[39] Hirohata K, Okazaki N, Ananiadou S, et al. Identifying sections in scientific abstracts using conditional random fields[C]// Pro‐ceedings of the 3rd International Joint Conference on Natural Language Processing, 2008: 381-388.
[40] de Ribaupierre H, Falquet G. New trends for reading scientific documents[C]// Proceedings of the 4th ACM Workshop on On‐line Books, Complementary Social Media and Crowdsourcing.New York: ACM Press, 2011: 19-24.
[41] Qin C L, Zhang C Z. Exploring the distribution of referees’ com‐ments in IMRaD structure of academic articles[C]// Proceedings of the 18th International Conference on Scientometrics and Infor‐metrics. KU Leuven: International Society for Scientometrics and Informetrics, 2021: 1527-1528.
[42] Park J, Cardie C. A corpus of eRulemaking user comments for measuring evaluability of arguments[C]// Proceedings of the Eleventh International Conference on Language Resources and Evaluation. Paris: European Language Resources Association,2018: 1623-1628.
[43] 李艳霞, 柴毅, 胡友强, 等 . 不平衡数据分类方法综述[J]. 控制与决策, 2019, 34(4): 673-688.
[44] Joulin A, Grave E, Bojanowski P, et al. Bag of tricks for efficient text classification[C]// Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguis‐tics. Stroudsburg: Association for Computational Linguistics,2017: 427-431.
[45] Kim Y. Convolutional neural networks for sentence classification[C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing. Stroudsburg: Association for Com‐putational Linguistics, 2014: 1746-1751.
[46] Lai S W, Xu L H, Liu K, et al. Recurrent convolutional neural net‐works for text classification[C]// Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence. Palo Alto:AAAI Press, 2015: 2267-2273.
制版编辑 | 李 静
审核 | 王海燕
国家自然科学基金管理学部A类期刊
全国中文核心期刊
CSSCI来源期刊
《中国人民大学复印报刊资料》重要转载来源期刊
CSTPCD(中国科技论文与引文数据库)收录期刊
NSSD (国家哲学社会科学学术期刊数据库)
长按扫描二维码 | 关注我们
情报学报官网:qbxb.istic.ac.cn
邮箱:qbxb@istic.ac.cn
电话:010-68598273
欢迎投稿!
【免责声明】本公众号主要发布《情报学报》期刊的录用文章,或转载其他媒体与网站的图文资讯。文章仅代表作者本人观点,本公众号对文中陈述、观点判断保持中立。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。抄袭本文至其他渠道者引发的一切纠纷与本公众号平台无关。