智库观点 | 人工智能时代科技期刊应对学术不端问题的研究进展
编者按
科技高速发展,人工智能(AI)为代表的新技术正在不断为出版行业带来新的变革:智能选题、智能协作的内容生产、增强出版、智能化精准推送、多元数据链接共享,以及OSID开放科学计划等等。AI与出版行业融合发展是未来的方向。《关于深化改革 培育世界一流科技期刊的意见》中也提到,在大数据、人工智能……等新兴领域,探索多种协同办刊形式,催生科技期刊发展新业态,创新中国特色科技期刊发展模式。重庆医科大学期刊社编辑曾玲围绕“人工智能时代科技期刊应对学术不端问题的研究进展”进行了深入研究,相关成果发表在《中国科技期刊研究》2020年第3期,并获得2020年中国高校科技期刊研究会优秀论著“金笔奖”。在此,曾玲对上述研究的成果和观点进行了提炼并与读者分享。
作者:曾玲
作者简介:曾玲,硕士,重庆医科大学期刊社编辑,获2020年中国高校科技期刊研究会优秀论著“金笔奖”,中国科学技术期刊编辑学会“新时代中国期刊编辑大赛”一等奖、“首届科技期刊青年编辑业务大赛”二等奖,重庆市“十佳青年编辑”。
信息获取的便捷将全球的科研与学术界无限拉近,促进了学术交流与进步,也让很多学术不端行为暴露在阳光下。AI与出版行业融合发展是未来的方向,科技期刊需要在智能时代运用更多智能工具,从而在学术不端行为的预防和控制方面作出更多贡献。
一、大数据智能检索应对学术不端问题
对于文字表述、数据剽窃,很多编辑部已经用智能工具进行检索,包括中国知网的学术不端文献检测系统、万方的论文相似性检测服务、维普的论文检测系统和CrossCheck等。但还存在检索不全、智能化不完善的情况,需要编辑对内容进一步审查。
未来可以建立一个大数据平台,平台之间共享资源,开发超越Google学术等搜索网站的基于AI的学术搜索引擎[1],并将其链接到期刊投审稿系统,形成大数据智能检索数据库。这个数据库同时涵盖已公开但未在正式刊物上发表的信息,以及社交媒体上的评论观点。对于这类活动,首先,需要确认其学术性质,如CrossRef旗下的Event Data就为这些活动提供了原始数据记录服务,并与DataCite合作,将为Twitter、Facebook、Wikipedia、Research Blogging和Reddit等收集的内容分配DOI[2]。其次,将这些数据纳入智能检索数据库,利用AI技术进行检索与判断。
为了预防图像的剽窃、篡改,很多编辑部采用人工检查的方式,如要求作者提交未经编辑处理的原始图像。而认定图像涉嫌剽窃、篡改等问题,大多是通过出版后同行评议网站如PubPeer、Retraction Watch爆料,才呈现在公众面前。目前,iPlagiarism软件系统、美国科研诚信办公室(ORI)的Droplets系统[3]等正在尝试对篡改图像进行检测。通过系统检测,能发现图像的可疑操作痕迹,但也有局限性。Daniel Acuna团队使用算法从760000篇文章中提取超过260万张图像,研发了一个自动检测工具来检测重复图像[4]。但是很难在大范围应用该工具,因为缺乏收集重复或非重复图像的第三方大数据库。
未来可以在Daniel Acuna团队的实践基础上,创建一个基于大数据、跨平台、多学科、共享所有已发布图像的数据库,图片大小目前可能会影响检测速度,但是随着5G时代的到来,基础设施和各项软硬件的提升将会加快网速,可以使用算法来处理成千上万的论文,以提取每个图像的特征数字“指纹(Fingerprint)”,通过AI技术检索重复、篡改的图像。
二、AI辅助同行评审检测学术不端行为
中国知网等采用基于语义分析的自适应多阶指纹分析技术对比相似文字、表格、公式,从而进行定量分析,但对于剽窃论文语义的大幅度修改的检测还存在局限性。目前,中国知网也在努力改进抄袭检测定性分析技术,未来不仅可以检测文字重复,还可以对文章内容结构进行分析,自动识别文章的研究对象、方法、结论等,实现对篇名、关键词等短文本的相似性分析。基于语义分析的全文对比技术,可实现内容创新性检测。
未来利用大数据分析论文的创新性,在同行评审时引入智能分析筛选论文的潜在同行评审专家,组建同行评审小组,基于AI学术搜索给出内容创新性检测的建议及智能软件对学术不端行为的检测,辅助编辑和审稿人决策才是最佳的实践。
学术不端检测软件暂时无法识别作者是否存在伪造研究数据、研究方法使用错误等行为。而编辑部为了避免数据造假,通常情况下要求作者提供原始数据和图像[5],对于研究数据是否存在伪造、篡改,主要还是依靠同行专家的评审。
未来可以利用区块链技术创建一个统一、透明的数据库,跟踪科学过程的每个阶段[6]。区块链的时间戳、分布式技术(去中心化)、不可篡改、匿名性等特点在对所有者确权的同时也会使伪造数据变得更加困难。如果将区块链技术运用到实验数据记录过程中,能确保研究者完整地记录整个过程,避免选择性地报告阳性结果;将区块链技术应用到作者投稿、编辑部收稿、同行评审过程中,每个区块链节点存储信息都带有时间戳,可无限向前追溯并值得信赖,就可以解决评审过程不可追溯的问题[7],将其应用到出版整个过程中,可以建立可信体系。关于区块链与同行评审相关的应用,可以关注Decentralized Science、Orvium、Pluto Network、Katalysis等平台[7]。
三、智能身份识别应对作者、审稿人身份问题
目前,没有特别好的检测方式对作者身份 (如代写、代投)进行识别,主要通过技术手段,如人工筛查注册及投稿时间、采编系统登录密码、作者注册信息、登录次数等特征信息[8-9]进行甄别。对于审稿人身份如虚假同行评审,很多时候也是出版后被同行披露出来的(如PubPeer)。
未来,在投稿时可以要求提供投稿人及每位作者的身份代码,建议参与审稿的同行专家也提供身份代码,如ORCID、ResearchID等,也可以借助Publons审查审稿人身份信息。ORCID方面也建议专家在进行同行评审时使用ORCID[10]。目前,CrossRef正在与ORCID和DataCite合作开发一款鉴定研究人员与其隶属机构的标识符,该标识符类似文章的DOI或研究人员的ORCID[2]。这有利于作者通过该标识符,标注其隶属机构;也有利于学术机构与研究人员撰写的文章相匹配;同时还有助于对作者身份的识别。
在大数据时代背景下,将用户的每个具体信息抽象成标签,利用这些标签将用户形象具体化,从而为用户提供有针对性的服务。用户画像最初在电商领域得到应用,字节跳动公司将其运用得淋漓尽致,其产品从最初的今日头条,到现在的抖音、火山视频、西瓜视频、TikTok。在出版界,用户画像开始尝试应用,如中国知网的学者画像、学科画像、期刊画像、机构画像、论文画像、基金画像等。OSID在标签化运营中运用了关键词画像建立用户画像,进行精准推送。
未来针对可疑的作者投稿行为、虚假的同行评审人等情况,可以使用“用户画像”功能,通过大数据识别所有投稿人/审稿人信息,用不同的细分标签对用户进行分类,如短时间内大量投稿、所有投稿学科跨度太大,审稿意见过于简单且评价过好、审稿人与作者隶属同一机构等。将这些内容整合在一起,形成疑似学术不端行为的作者/审稿人“用户画像”。编辑部在收到其来稿或审稿意见时,“用户画像”就能辅助判断。
为避免同行评审偏见及虚假同行评审问题,还可采用开放性同行评审、先出版后同行评审、第三方同行评议平台如Peerage of Science和Rubriq等,使同行评审过程更加透明、公正。在2017年的国际同行评审周(Peer Review Week),有人提出同行评审意见应有DOI[11]。这一举措除了可以肯定审稿人的智慧成果,也可以促进同行评审更加公正。为避免虚假同行评审,也可以开发审稿人识别和认证系统。由Elsevier开发的Find Reviewers工具,会自动筛选学术背景与论文作者研究领域吻合的独立审稿人[12]。中国国家自然科学基金委员会(NSFC)正在建立一个系统,利用自然语言处理技术搜集在线科学文献数据库和科学家的个人网页,以收集有关潜在审稿人的出版物或研究项目的详细信息,希望能够减少审稿人的评审偏见[13]。
目前对于未发表论文一稿多投的问题,主要依靠同一投审稿平台数据共享进行检测。预印本是在论文未经同行评审于正式出版前发布的,最早的arXiv起源于1991年,生命科学领域的bioRxiv于2013年诞生,医学预印本平台medRxiv也于2019年上线。预印本的最大优势是使作者能够立即与科学界分享其最新研究成果。我国也于2016年搭建了首个科技论文预印本平台——中国科学院科技论文预发布平台。预印本的出现和未来的普及可以提升学术交流的时效性,也可以在一定程度上避免一稿多投。
图1 AI时代学术期刊应对科研诚信问题的对策
四、结语
作为科研成果展示平台,科技期刊在学术不端行为的预防和控制方面有着重要的责任。本文很多观点是基于学术研究,具体的实施过程还需要科技研发公司与出版行业共同努力,开发适用于出版行业的AI工具。随着AI时代的到来,科技期刊转型升级将迎来新的发展机遇,但不能过于依赖智能程序对编辑和审稿人等人类智慧的替代,只有两者协调、互补融合应用,才能实现科技期刊的智能革新。总而言之,在智能时代,要善于利用智能工具、大数据自动挖掘技术、人工智能分析技术,对存在的和可能发生的学术不端问题采取相应的应对策略。
参考文献:
[1]刘银娣.学术出版领域的人工智能应用: 现状、挑战与应对[J].科技与出版,2019(1):64-68.
[2]Chang JH.Crossref LIVE17 annual meeting in Singapore[J].Science Editing,2018,5(1):82-84.
[3]叶青,林汉枫,张月红.图片中学术不端的类型与防范措施[J].编辑学报,2019,31(1):45-50.
[4]Butler D.Researchers have finally created a tool to spot duplicated images across thousands of papers[J].Nature,2018,555(7694):18.
[5]徐婷婷,曹雅坤,曾礼娜,等.关于防范科技论文中“隐性”学术不端行为的建议[J].编辑学报,2018,30(1):58-60.
[6] Matthews D.Blockchain ‘could help combat mistrust in scientific process’
[EB/OL].(2018-01-19)[2019-08-18].https://www.timeshighereducation.com/news/blockchain-could-help-combat-mistrust-scientific-process.
[7]治丹丹.区块链技术破解同行评议难题的全程多元应用——以Decentralized Science、Orvium、Pluto Network、Katalysis平台为例[J]. 中国科技期刊研究, 2020, 31(8): 851-858.
[8]王雁,苟莉,刘丹,等.代写代投来稿的甄别及防范措施[J].编辑学报,2018,30(2):171-173.
[9]余菁,邬加佳,徐杰.由采编系统登录密码辨别代写代投学术不端行为[J].科技与出版,2018(9):157-160.
[10]季媛媛,刘冰.国际期刊科学出版理念的更迭——第8届国际同行评议和科学出版大会综述[J].编辑学报,2019,31(1):113-116.
[11]Hendricks G,Lin J.Making peer reviews citable,discoverable,and creditable[EB/OL].(2017-09-11)[2019-10-30].https://www.crossref.org/blog/making-peer-reviews-citable-discoverable-and-creditable/.
[12]彭芳,金建华,董燕萍.同行评议造假原因分析及防范措施[J].编辑学报,2018,30(3):240-243.
[13]Cyranoski D.Artificial intelligence is selecting grant reviewers in China[J].Nature,2019,569(7756):316-317.
来源 | 科技期刊项目服务处供稿
往期热文回顾:
● 智库观点 | 一流科技期刊建设背景下的中文科技期刊内容生产能力提升策略
本文由丨学会服务365 xhfw_365丨精编发布
欢迎留言、分享、点赞
转载、投稿、咨询
邮箱:xhfwzx_wx@163.com
小福团微信:xft20200115
———— 猜你喜欢————
(点击蓝字跳转)
版权保护声明:
本公众号选发有优质传播价值的内容,可能会对内容做部分删节修改。我们极其尊重优质原创内容的版权,如本号所选内容未能联系到原文作者本人,请作者和小福团联系。
我知道你在看哟