查看原文
其他

数字新基建:用AI帮助人们整理海量的论文

知社 知社学术圈 2022-05-03

海归学者发起的公益学术平台

分享信息,整合资源

交流学术,偶尔风月

有研究显示,科学家经常需要花费占四分之一甚至更多的工作时间来搜索和阅读相关的科学文献,以了解其中的研究方法和结果,从而对自己下一步的研究计划进行有效的修正。在学术论文数量飞速增长的当下,寻找与研究领域相关的研究论文并提取相关信息是一个不小的挑战。


卡内基梅隆大学软件研究所的投资者,企业家、兼职教授Ganesh Mani和艾伦AI研究所的博士后研究员汤姆·霍普(Tom Hope)认为,科学界论文数量井喷,仅仅依靠研究者本身的精力很难完全跟上相关领域的发展,需要有新方法来帮助人们对这些信息进行筛选,潜在的解决方案包括将人类专业知识与AI相结合的一种方法,以与不断扩大的知识库保持同步。例如,人工智能可以用来总结和收集关于某个主题的研究,而人类则可以用来整理研究结果。

病毒的大流行带来的紧迫的研究压力

一个现实的例证是有关新冠病毒的研究。他们的统计表明,与疾病传播、治疗方案、临床试验和经济影响相关的同行评审出版物的预印本数量呈指数增长且评审周期缩短。到5月初,(医学,生物,化学)arXivs中有4000多个预印本,到8月中旬已增长到8000多个,其中包含“ COVID-19”或“ SARS-CoV-2”字样,而在14个病毒学期刊上,同行评审和发表期刊文章的平均时间从117天缩短至60天。有关病毒大流行带来的附带影响的研究,例如由于检疫引起的抑郁增加或来自减少排放的气候变化数据,也增加了手稿的数量。


面对如此之多的研究成果,科学家想要从中找出与自己的研究领域相关的前沿信息或者是有启发性的其他学科的成果,可能已经不是多花点时间能解决的了。


面对信息洪流,人类显得渺小


科学家通常通过学术搜索引擎中的文章列表来搜索文献。搜索引擎擅长快速查找与特定目标查询相关的文档。但是如果潜在的有效信息研究人员根本不知道呢?以前有关冠状病毒的研究工作以及更广泛的生物学和医学研究工作可能包含有价值的知识,可以将过去的知识与新的研究联系起来。如此丰富的信息既代表着巨大的机遇,也带来了新的挑战。

艾伦人工智能研究所和语言学者创建了一个有关COVID-19的开放研究数据集(CORD-19),这是一种有关新冠病毒的不断增长的论文集(目前有13万篇摘要以及供多个研究小组使用的全文论文)。

艾伦人工智能研究所与华盛顿大学合作,使用这些数据发布了一个名为SciSight的工具,这是一种由AI驱动的图形可视化工具,可实现快速直观的探索生物医学实体(例如蛋白质,基因,细胞,药物,疾病和患者特征)之间的关联以及在该领域工作的不同研究小组之间的关联。它有助于促进协作和发现,并减少冗余。例如,在SciSight中,在图1的左侧显示了与“氯喹”有关的疾病和化学物质的网络。用户还可以通过搜索主题,从属关系或作者来找到新的组及其工作方向,如右图1所示。

图1. 在SciSight中的关联探索

在这个数据集中,尽管某些概念(例如基因序列,化学结构,植物分类法)具有标准化的通用术语,但围绕大量科学概念制定标准仍需进行大量工作,尤其是考虑到新材料,新工艺和新方法的不断出现。同时,作者认为还应该鼓励采用标准化的双轨制手稿提交框架:1.便于人类理解的,语言活泼的一般介绍论文;2.使用标准化术语、概念的论文的机器可读版本,以及结构,尤其是表格,图形,方法和结果说明。这将大大提高人工智能获取有效信息的效率,将其有机的与已有的论文数据进行链接

同时作者认为需要对整个论文出版框架进行重构,在每个环节都进行一定的改进和革新,以帮助研究人员应对整个社会对于科学界的迫切期待。

阶段

建议

出版前

根据标准化术语(和字典)提取元数据

鼓励提交两个版本的稿件:人类可读和机器可读(不仅限于代码)

确定最佳同行评议者并提供现有技术搜索(由编辑完成)

出版物

在其他文献的背景下将新论文链接化,以便与相关工作进行“比较和对比”

认定为新颖或支持现有工作(增强对可复制性的信心)

突出显示负面结果(提示同行不要再进入盲区)

出版后

促进发布后同行评论

对注释进行解释,并链接到较新的(相关)论文


作者认为要实现上述愿景,需要一整套经过精心设计的基础制度安排,以及供人类科学家和人工智能进行协作的软件环境,建立这样的基础设施将有助于全世界应对下一个需要全人类共同面对的战略机遇或重大挑战。

参考文献:

1.https://phys.org/news/2020-09-pandemic-spawns-infodemic-scientific-literature.html

2.doi:10.1016/j.patter.2020.100101


点击下方知社人才广场,查看最新学术招聘

扩展阅读

 

不创新,毋宁死,那论文可重复性呢?

Nature开放获取副总裁谈开放获取如何解决“可重复性”问题

实验员要下岗?一天能做500个实验的人工化学家问世

新冠疫情,变成了AI应用的时代契机

本文系网易新闻·网易号“各有态度”特色内容

媒体转载联系授权请看下方

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存