查看原文
其他

论文越长重复率越低?——本科毕设论文客观指标关联性分析

学位论文写作 学位与写作 2022-07-15

摘要本文采用清华大学某工科院系2018届本科毕业生的88份本科毕设论文作为样本,探讨查重重复率、论文页码数、论文图表数目、论文公式数目和论文引文数目等五项客观指标之间是否存在关联。提出了一种关联性直观分析方法,与相关系数法结合,进行关联性分析。 结果发现,论文重复率与论文页码数之间存在负相关,即论文越长,重复率反而呈降低趋势。论文页码数与图表数目和公式数目存在比较明显的关联性,但也存在一些异常现象。

关键词:关联性分析,直观分析方法,相关系数法


1.关联性分析方式

在“88份本科毕业设计论文客观数据展示”一文中,我们了解到了查重重复率、论文页码数、论文图表数目、论文公式数目和论文引文数目等五项客观指标各自的分布规律,得出了如下结论:

  • 论文查重率、公式数目和引文数目存在翘首现象,即这些数据分布曲线在极大值的端点远高于平均值。

  • 图表数目和论文页码数目由高到低接近线性递减,其它曲线远偏离线性递减规律。

  • 没有一条分布曲线是连续光滑的。

  • 各项指标最大值和最小值相差巨大,最大值和最小值之比分别约为:论文查重∞,论文页码数4.26,论文图表数目9.1,论文公式数目129:0,论文引文数目24.8。

这里讨论这些客观指标之间是否存在一定的关联性。我们依然采用了清华大学某工科院系2018届毕业生的88份本科毕业设计作为有效样本进行数据分析。

客观指标之间的关联性由以下两种方法相结合进行分析。


直观分析方法

卡尔·皮尔逊相关系数法


直观分析方法是将两个指标的分布放在一起对比,其中一个指标采用由高到低的排序,第二个指标采用第一个指标由高到低的学生所对应的序号。

相关系数法(correlation coefficient method)给出两个指标之间的线性相关程度,用字母 r 表示。只考虑最简单的相关性系数,即两个指标的协方差除以两个指标各自的方差的乘积得到的值。

2.论文重复率与论文其它指标关联性

图1给出论文查重重复率由高到低的分布,横坐标采用查重重复率由高到低的学生所对应的序号。该项指标分布已经在“88份本科毕业设计论文客观数据展示”一文讨论。 

图1 查重重复率分布

为了用直观分析法探讨其它指标是否与查重重复率存在关联性,其它指标的横坐标也采用查重重复率由高到低的学生所对应的序号。

图2给出了论文页码数分布。对比图1,可以看出:


对于查重重复率超过5%的学生(前七名),论文页码数明显偏低。

当查重重复率低于5%后,论文页码数与查重重复率之间没有明显的关联性。


两项指标的卡尔·皮尔逊相关系数为r=-0.388,即负相关。也就是说,论文页码数越多,查重重复率越低,虽然这种负相关程度不是很高。 

图2论文页码数分布(横坐标与图1同)

论文图表数目见图3。在查重重复率前50名同学中,可以粗略看出,有重复率越高图表数目越少的趋势。两项指标的卡尔·皮尔逊相关系数为r=-0.366,即负相关。也就是说,如同论文页码数,论文图表数越多,查重重复率越低,虽然这种负相关程度不是很高。

图3论文图表数分布(横坐标与图1同)

论文引文数目见图4。两项指标的卡尔·皮尔逊相关系数为r=-0.198,即负相关程度比较低。论文公式数目与查重重复率之间相关性不明显。但由图5可知, 在查重重复率接近1%的区域,引文数目出现峰值。

图4论文引文数目分布(横坐标与图1同)

论文公式数目见图5。可见,论文公式数目与查重重复率之间相关性最不明显。两项指标的卡尔·皮尔逊相关系数为r=-0.187,即负相关程度最低。

图5论文公式数目分布(横坐标与图1同)

3.其它指标之间的关联性

表1给出了各项指标之间的相关系数。 可见,图表数目与论文页码数相关程度最高,相关系数为r=0.845。这表明,论文长度更多得益于图表数目的增加。另外,论文长度与公式数目和引文数目也有一定的相关性,与公式数目的相关系数为r=0.553,与引文数目的相关系数为r=0.279。图表数目与公式数目之间,公式数目与引文数目之间,图表数目与引文数目之间的相关性很低。

表1 各项指标之间的相关系数r

为了从直观分析法理解论文长度与图表数目关联性,图6给出了论文页码数由高到低的分布,横坐标采用论文页码数由高到低的学生所对应的序号。图7给出了图表数分布,其横坐标依然采用页码数由高到低的学生所对应的序号。  

图6论文页码数由高到低分布

可见,论文页码数约前20位的同学,其图表数目整体趋势上差异不大。但页码数排在20名以后的同学中,图表数目随页码数降低而明显降低。因此,对于前20名的同学,他们之间论文长度的增加并不是来源于图表数目的增加。公式数目也呈现同样的趋势,即论文页码数约前20位的同学,其公式数目整体趋势上差异不大。

图7 论文图表数分布(横坐标与图6同)

4.总结与展望

提出了一种将直观分析法(即采用相同横坐标的两个指标曲线对比)和相关系数法结合的本科毕设客观指标(查重重复率、论文页码数、图表数目、公式数目和引文数目)之间的关联性分析方法。

依据关联性分析,得出了论文重复率与论文页码数等其它参数负相关、且论文页码数与图表数目相关程度最高等结论,尤其发现存在前N名数据异常现象:


论文重复率前七名,论文页码数最少。

论文页码数约前20位的同学,其图表数目整体趋势上差异不大,其公式数目也是如此。 因此,对于前20名的同学,他们之间的论文长度的差异(增加)并不是来源于图表数目和公式数目的增加。 


这些关联性分析只是基于88份本科毕设,样本数偏低可能是出现一些数据异常现象的原因。我们期待有更多的样本供相似分析,尤其分析答辩成绩与客观指标之间的关联程度。



致谢:倪博士曾参与原始数据搜集与整理

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存