深圳市中级法院爆发大规模群体上访事件

留学生在伦敦街头刷中国核心价值观遭再涂鸦,这事怎样看

中纪委重拳出击!贱卖给日本的中医药企业被收回,紫光董事长被查

最伟大的作品!一幅东伦敦涂鸦竟然让殖人集体癫痫?

烈日下的花

生成图片,分享到微信朋友圈

自由微信安卓APP发布,立即下载! | 提交文章网址
查看原文

国自然NSFC相似性查重系统进阶讨论

火行研究员 火行 2020-01-31


万人订阅,千人群聊,真科研人

公益交流资讯平台

星标 ★ 置顶火行公众号是不错过的最佳方式 



昨天的分享,已经预告,那么今天,针对国自然相似性查重的重大改进,火行做一些解读,仅供参考。


首先国自然的相似性查重系统叫什么;大家是否还记得?


这个“神器”的官方名字叫做:“项目相似度检测系统”,用一句话概况这个系统:讲点专业性的术语:基于数据挖掘、自然语言处理、机器学习、概率统计等方法,建立申请书大数据库,以“特征提取、文本聚类、相似性计算”为核心,检测出基金项目申请书的抄袭、多次申报和多头申报等情况的辅助决策系统。


一般情况下50%以上重复定义为疑似重复,会被相关监督委员会调查后判定(防抄袭火行:firegotech)。80%以上,直接认定为重复,学术不端。


2010年,国家自然科学基金委开发了项目相似度检查系统并启用以来,目前已到了第十个年头,那么与大家分享,这个系统之前查重的主体方式是全文查重,但是,请注意,它已经加入了新的功能:除了全文的文本比对外,重磅的加入:图像比对及引文比对功能!


好,功能知道了,再讲讲细节点,当然火行无法讲很多,所以挑几个重点分享。


1:文本上的高效改进,应对拆分句子重组的行为:


句子组合式检测:为了应对抄袭者抄袭行为的千变万化,对于抄袭者从原文中摘取句子进行变形、拆分、融合的情况,一方面通过升级索引存储机制,不仅存储文章原句,还需将句子拆分多种组合,无死角搜索重复句子,能够有效地检测拆分融合式的抄袭行为。


所以幻想“打乱句子重组还魂”的朋友可能要注意了,技术的先进就是让这种心思“死翘翘”。


2.多语言的检索:


长久以来,由于科研中相关的报道,英文,德文文献的可获得性,有部分人利用这部分的语言差进行重复,这部分也要注意了,针对文献中的非中文语言表述,增加多语言检索,用来实现对文件中的中文、英文、德语、日语等内容实现关键字检索。


3.综合利用数据,进行全面接口覆盖查重:


利用申请人简历中成果引文等信息,实现要素实体化,整合接口进行高质量的识别、比对,对于引文中作者姓名篡改、作者顺序篡改、期刊名称篡改、出版年度篡改等信息甄别。


4.已经利用信息技术获取到ESI 论文库,建立NSFC金申请人引文库。


这部分与第三点联系起来看看,你就懂了,所以成果一定如实填写,篡改将无处逃生。


5.避免多头申报,已经开始筹备酝酿与其他部委同步比对。


这部分还未开始,但绝不是说说,国家对于多头申报已经开始,基金委也将会通过云计算等技术,提供跨部门、跨站点数据联盟式相似性检测。简单来说提供外部结口,能与其他部委的项目信息进行比对,所以出名要趁早,老话可以在此放一句。


6.还想了解更多?


加入火行科研大家庭,你我一路同行!



欢迎批评指正!同时受制于被抄袭及其他原因,如有其他的有相关的疑惑,欢迎交流讨论,非诚勿扰!



郑重声明:

申请转载\授权火行文章,请在公众号后台留言。

未经授权,不得转载,违者将追究法律责任!

本公众号由北京市盈科律师事务所 胡瀚文律师 提供法律支持。

欢迎转发朋友圈,留下“在看”支持火行!


读书学习,推荐分享共进步:



- END -


点击图片即可阅读

交流我们是认真的

NSFC交流群,后台回复“基金加群”获取加群通道,目前群1、2满员,群3开启热聊中。

你在看不

    文章有问题?点此查看未经处理的缓存