海量文献的文本挖掘表明：全文比摘要更具价值

Paris 知社学术圈 2019-03-29

海归学者发起的公益学术平台

分享信息，整合资源

交流学术，偶尔风月

学术界每年可以出产百万级的科研论文，想时刻保持与最新研究同步，几乎是不可能的。这也是为什么越来越多的学者利用计算机工具来搜索论文的原始数据和文本。现在，通过一次最大规模的数据和文本挖掘实践，研究人员已经确定了此类搜索的最佳方法。这可以帮助改善内容搜索，无论要找的是药物标靶还是基因。

一直以来都有这样一个争论：在进行数据挖掘的时候，到底应该着眼于整篇论文，还是只关注研究的总结或摘要，对全文的关注是否值得？虽然完整的论文显然会提供更多的结果，但一些人认为，这其中包含着太多多余的信息，摘要就已经足够了。另外获取完整论文也需要一些额外的工作，所以他们会选择只看摘要。

来自丹麦技术大学的生物信息学者Søren Brunak和同事对1823年到2016年中出版的超过1500万份学术论文进行了分析。他们创建了两个数据库，一个包含论文全文，一个只包含摘要，以进行挖掘对比。全文内容来自出版商Elsevier和Springer，以及PubMed Central的开放获取内容。而这些文章的摘要则来自美国国立医学图书馆 (MEDLINE)。

研究人员目前已将分析报告上传至预印本网站bioRxiv，他们指出，对研究论文全文进行文本挖掘的结果总是好于对摘要的挖掘。比如在测试中，全文挖掘相比摘要挖掘显示出了大量基因和多种疾病之间的关联，可以说这无形中构建了一个未来研究方向的宝藏。

宾夕法尼亚大学生物信息学者Daniel Himmelstein并未参与此项研究，他表示：这篇论文“令人信服地展示了理想的数据挖掘应该采用全文文本。”

目前，很多学者都只对摘要进行搜索。这种总结性内容通常让人更容易把握全文，使用其内容的限制也更少。对于计算机来说，摘要的简单格式也更为方便。

鉴于这些优点，人们短时间内可能不会改变这总习惯。另外一个障碍在于，出版商一般对于全文内容都有限制。研究人员不允许分享他们下载并用于文本挖掘的论文数据库，这使其他人很难去重复他们的研究。

Brunak表示，和出版商协商这些许可的过程非常不易，这花费了他们几个月的时间。不过，最为耗时也最为艰巨的任务还是将出版商提供的全文PDF文档转换为机器易读的文本格式。

“这也是为什么以前没有人去做这样大规模全文本挖掘的原因之一”，共同作者，哥本哈根大学的Lars Juhl Jensen说，“我们大概把更多的计算资源放在了PDF文档的转换上，甚至超过了实际的文本挖掘工作。”他还表示，如果学者们并不熟悉这一过程，在转换文件的时候可能会冒出很多错误。

一个解决方法就是，出版商能够提供易于进行挖掘的全文文本，这需要学术界都采用一个“通用的格式”，而不是每个期刊都使用自己的特有格式。比如，PubMed Central所采用的XML文件格式就是个很好的范例。

原文链接

http://www.sciencemag.org/news/2017/07/want-analyze-millions-scientific-papers-all-once-here-s-best-way-do-it

学术发表的认知度调研

如果您是一位已经或将要在国际学术期刊上发表论文的学者，我们郑重地邀请您参与我们的作者调查。这将帮助西方出版行业了解中国学者的在出版过程中遇到的问题和诉求。请点击“阅读原文”，进入调查问卷。

活动结束后，为感谢您的支持，我们将抽取幸运参与者予以奖励。奖品包括第74届雨果奖得主郝景芳的签名小说！

扩展阅读

哈佛神级教授Whitesides的论文写作之“道”

资深教授论文高产的秘诀：每天1小时工作法

论文抄袭新伎俩：释义工具

媒体转载或者合作请看下方↓↓↓

投稿、授权、合作事宜请联系

service@scholarset.com 或微信ID: scholarset

回复“目录”或“分类”，浏览知社更多精华。长按二维码识别，可以关注/进入公众号进行回复。

中美友好合作故事——十万名中国弃婴长大了

看个病要排队两年，癌症都被拖成晚期

不仅要看已抓谁，还须一直抓到没

话费充值活动来了：95元充值100元电话费！

2024的最后一天，给大家的跨年推荐！