查看原文
其他

原本区块链:《甘柴劣火》文章相似度比对,我们采取了这样的方法

李磊 传媒茶话会 2019-09-03


1月13日,公众号“小强传播”发文称,利用相关数据相似性检测系统对“呦呦鹿鸣”公号文章《甘柴劣火》进行了比对检测。


“小强传播”得出结论认为,“用部分比对源做检测后,可以初步认定“甘柴劣火”存在涉嫌抄袭的行为。”


这种检测方法是否科学?“小强传播”得出的结论是否有说服力?


带着这样的疑问,《传媒茶话会》对话了中国财经媒体版权保护联盟技术支持方——原本区块链CTO甘露,听他“科普”如何通过算法来进行相似度比对。



引入源越多,相似度下降可能越多,越无法准确地对相似度进行评估


从文本相似度检测的角度而言,《甘柴劣火》由于原文引用来源较多,给文章的相似度分析带来了一些困难。公众号“小强传播”采用的技术是将被检测文章与被引用的财新文章进行比对,结论是总相似比为0.1119。


原本区块链CTO甘露告诉《传媒茶话会》,“这种分析方法的弊端在于文章对于信源内容一般都是少量引用,当引入源较多时,相似度下降可能越多,因此,无法准确对相似度进行评估。”


甘露说,“我们采用了杰卡德指数来表示相似度,这个是目前比较普遍的判断相似度的算法,杰卡德算法也被应用到过滤相似度很高的新闻,或者网页去重的场景中。杰卡德指数的计算方式为:样本交集个数和样本并集个数的比值,用J(A,B)表示。当杰卡德指数大于0.34时 ,意味着A和B的相似度超过50%。”


算法通过对原文段落划分的动态调整可保证最为准确的相似度


在《甘柴劣火》文章刷屏被质疑涉嫌抄袭后,很多机构都从比对的角度对该文进行了相似性检测。原本区块链也利用技术手段对《甘柴劣火》与其他文章的相似性进行了检测。


甘露说,“我们通过自然语言处理和机器学习算法,对原文进行了句子级的拆分,通过全网检测构建出信源集,然后用一个文本搜索的模型,找到了信源集中与原文段落“语义相似”的全部段落,组成集合,再和原文段落进行相似度对比,并计算出杰卡德指数。”


甘露对《传媒茶话会》解释说,简单来讲,在分析结果中他们发现原文多个段落都对应着至少一个相似度较高的引用源。因此分别将每个段落与被引用文章的相似段落之间做对比,并把结果汇总呈现。


甘露举例告诉《传媒茶话会》,比如原文第三个段落和财新文章《甘肃武威原“火爆”书记被查 曾导演构陷记者|特稿精选》中的内容高度相似。对原文第三段落和财新相似段落进行语义相似度对比,杰卡德指数为0.4792。


甘露认为,算法通过对原文段落划分的动态调整保证了最后相似度计算最为准确。


《甘柴劣火》内容与被引用文章之间的段均杰卡德指数达到0.3763


原本区块链通过技术手段将《甘柴劣火》文章八个自然段中的每一段内容都与被引用文章中的内容进行了相似度比对分析。除《甘柴劣火》中第二段被引用内容已经无法找到,已经无法进行合理比对、第七段作者引用自己文章,报告中剔除相似度分析、第八段作为全文总结以上三种情况外,未找到高度相似内容。原本区块链发现,《甘柴劣火》剩下的五个自然段与被引用文章之间的杰卡德指数达到0.3763。


甘露给《传媒茶话会》提供了详细的比对分析报告,结果如下:


段落一:从《拘留通知书》开始至段落结束1297字和兰州晨报《记者被抓 兰州晨报社首发公开信直指要害》相关段落1249字的杰卡德指数为0.3428。


段落二:部分被引用内容已无法找到,无法进行合理比对。


段落三:段落中789字和财新《甘肃武威原“火爆”书记被查 曾导演构陷记者|特稿精选》相关段落726字的杰卡德指数为0.4792。


段落四:段落中1056字和财新《一个省报记者站站长的亿元传奇|要案回顾》相关段落830字的杰卡德指数为0.3548。


段落五:段落中1431字和央视电视专题片《巡视利剑》第三集《震慑常在》以及人民日报公众号侠客岛文章《【解局】被中央通报批评,甘肃犯了什么事?》相关解说段落785字的杰卡德指数为0.3436。


段落六:段落中1143字和作家十年砍柴的《为什么又是甘肃》相关段落1242字的杰卡德指数为0.3609。


段落七:作者引用自己文章,报告中剔除相似度分析。


段落八:全文总结,未找到高度相似内容。



关于《甘柴劣火》一文杰卡德指数比对的结果



结论:通常在做内容的相似度分析时,会对两篇或者多篇内容直接做相似度分析,当内容篇幅较大时,很难通过直观的方式做出定性判断。本文使用了自然语言处理领域对于文本内容的处理方法,对相似内容片段进行定量的对比分析,可能会给行业带来一些新的思路。


补充说明:


本文仅提供了一种对内容相似度进行分析的技术思路,并不涉及侵权判定。在实际的侵权判断中,涉及到比较多的条件和维度,相似度仅作为其中一种判断方法。


由于未能获得被引用文章版权授权,因此报告详情无法公开展示,报告结果将保存于中国财经媒体版权保护联盟,相关媒体方可联系联盟确认分析数据公正性。


联系电话:010-64969878

电子邮箱:zour@fmcpa.org


编辑 | 刘娟

欢迎媒体人和新闻爱好者进群交流!!



通过扫码无法进群的粉丝请扫码添加小编微信,小编将邀请您进群~~


  书犹药也,善读之可以医愚。


我们将综合留言走心程度和获点赞数(不低于15个),从每日留言中选出一位茶粉,送上一本精美书籍。每日获奖名单将在次日推文文末公布,请大家及时关注。


昨日获奖读者:白术,请联系小编茶茶(cmchh2)领取奖品。

欢迎转发朋友圈

投稿和垂询邮箱:cmchh1@126.com


近期热门文章


1.《甘柴劣火》是洗稿还是原创?别争!解决方案来了!

2.现代快报诉赢今日头条,传统媒体版权保护获得哪些启示?

3.原创视频新闻约占新闻总产量1/3!新京报的变与不变

4.北京晨报原总编辑:晨报终结,是时代原因还是行业问题?

5.中国第一个登陆月球背面!只有这些央媒省报头版报了!



《传媒茶话会》向社会长期征集原创稿件(未公开发表过),稿件写作主题围绕媒体采编、经营、融合、版权等方面进行,一经采用,稿费最低300元,上不封顶。同时欢迎提供选题和线索,一经采用,定当奖励。稿件及选题线索可投邮箱:cmchh1@126.com或后台直接留言。


本文经「原本」原创认证,作者传媒茶话会,点击“阅读原文”或访问yuanben.io查询【3NLKWOQY】获取授权

Modified on

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存