科技项目申报书查重方法研究
科情智库
科技项目申报书是科研团队为获得各级科技管理部门对拟申报项目的研究经费许可、按照标准格式填写的项目申报文档,它对拟申报项目从进度安排、研究内容、预期效益、组织实施等部分进行综合论述。就科技项目申报书进行查重,对于避免科技项目重复立项有着至关重要的作用。因此,本文针对科技项目申报书提出了一种基于DSSM架构的相似度检测算法模型,并在此基础上实现了一套查重系统,希望能够在科技项目查重方面发挥积极作用。
工作流程
本查重系统的工作流程,分为数据预处理、查重算法执行、查重报告生成三个主要步骤。
数据预处理模块是一个前置任务层,主要用来处理巨大的申报书数据信息。查重算法模块是查重系统的核心技术模块,该模块将需要查重的申报书视为多个段落,通过分布式任务模块,将每一个段落与查重数据库中的其他申报书进行查重。在对申报书进行的查重任务完成之后,便可以使用查重过程中关键性信息生成的结构化数据来构成最后的查重报告。
查重算法研究
查重算法文本模型结构上是先通过最大字符串匹配的方式找到高相似度的段落,然后根据深度学习算法模型来判断两个段落的语义相似度作为最终依据。这样设计结合了最大字符串匹配的快速查找与深度学习模型判断重复的高准确率。本文在已有项目申请书语料之上,实现与改进语义相似度算法,最终经过实验对比,选择了DSSM(Deep Structured Semantic Model)架构作为主体框架,使用Transformer替换DSSM表现层的算法模型。本文主要研究在表示层上结合最新语义提取表示模型如Transformer模型,来得到较好的算法效果。同时本文将研究注意力机制在该架构上的使用,通过在匹配层加入全局注意力机制,使模型能关注到语句中最重要的语义信息。
实验与分析
对于上文提出的基于DSSM架构的查重算法,本文使用python语言实现了单独的算法模型,使用中文文本相似度计指标来运用在模型的测试中,通过实验来进行效果评估。
为了验证本文查重模型的效果,在实验中与一组成熟的语义相似度计算方法开展对比实验,主要包括CBOW、DSSM、ARC-I模型。在相同的输入数据基础上开展计算,这些模型对比实验结果。通过实验对比,证明了本文提出模型的准确率高于其他语义相似度计算方法,在科技项目申报书相似度分析上具有更好的效果。
挑战及展望
本文所提出的科技项目申报书查重系统主要面对如下三个方面的挑战:
(1)原始申报书存在格式错乱等问题。在查重过程中可以发现,许多申报人所提交的申报书存在各种各样的格式错误,例如标题序号错乱或遗漏、图片、表格、公式等内容显示异常等,这些问题会不同程度地影响查重结果的准确率。
(2)科技项目信息共享程度有待提高。目前,不同地区、不同层级的科技管理部门都有各自的项目计划,并且彼此之间缺乏有效的信息共享机制,这就导致查重范围局限在各自部门内部,查重结果的可信度可能也会打折扣。
(3)查重系统的智能化水平尚有很大的进步空间。申报书的重复比例只能作为参考,不能简单地认为重复比例高就意味着项目属于重复立项或者涉及学术不端。一个主要原因就是申报书中难免包含一些极易重复但影响不大的文字,如项目国内外研究现状等。因此,未来可以更多地引入人工智能等技术,让系统能够“理解”出申报书的核心内容,再去判断重复与否。
作者:王东,王飘,江俊鹏,李青,徐晨阳
(中国科学技术信息研究所,北京 100038)
来源:此文为缩减版,全文请见《中国科技资源导刊》2022 (5): 30-40
推荐阅读 >