站在巨人的肩膀上思考丨Cell Press新刊Patterns主编采访
数据越来越容易产生,但是在对数据的使用方式上我们遇到了很多问题。无论科研人员们的研究领域是什么,大家所谈论的问题始终是相同的:如何共享数据?在发布数据时应当遵循什么规则?如何将数据可视化?也就是说,如何使数据变得可使用、可找到、可获取、可共同操作以及可重复使用(FAIR)?
Cell Press细胞出版社全新推出的金色开放获取数据科学期刊Patterns集百家之长,为跨多个研究领域的数据相关问题提供了解决方案。Patterns发表多种类型的文章,例如,意见、观点文章和综述并且也发表descriptor articles,这使得研究人员有机会发布他们的软件、数据集、工作流程甚至可以发布硬件和基础架构。
Cell Press微信公众号特别邀请Patterns的主编Sarah Callaghan博士进行了专访,请她为大家进一步解读Patterns推出的意义和影响。
Sarah Callaghan博士从事了20年的科研数据创建、管理和分析的工作。她的研究始于无线电传播工程和气象模型的结合,然后转向环境科学的数据引用和发表、可视化、元数据和数据管理。在加入Cell Press之前她曾担任Data Science Journal主编,发表论文100余篇。
Cell Press:您为什么想担任Patterns的主编?
Sarah Callaghan博士:我从事数据引用和发表方面的工作已经超过十年了。在我仍是青年研究者时,我的点子被“窃取”了。我与另一个研究团队分享了我的数据集。我与他们坐下来深入交流,解释了关于它的所有细节,它是怎么产生的。然后,拿到我所提供的数据集的研究者开始了他们的初步分析,并用这些数据发表了第一篇论文,但我没有被列入作者列表。也许他们在致谢的部分提到了。。。
不过,这已经是15年前的事了,所以我已经释怀了。但是15年前,数据引用和发表根本无人关注。有人曾经为之争辩,但实际上研究人员根本没把这当回事。
最近,当我在自然环境研究委员会工作时,我参与并管理了许多有关数据引用和发表的项目,因为我想确保生产数据的人得到了真正的帮助。他们在创造、分析和详细记录数据集方面功不可没,因为他们,这些数据才能更广泛地被各界使用。
对于当今的数据科学期刊来说最棒的是,您可以写一篇文章,说“数据在这里,这是它们彼此联系的方式,这是它们的用途。” 不必进行分析,也不必赘述从该分析得出的结论。只需要说“这是数据集,这里是永久链接标识符,这是数据的存储位置。” 数据是开放的,可获取的,但是数据集的创建者获得了学术荣誉。同一个用于发布数据集的系统也可以用于发布其他研究的产出,例如软件代码、方法、基础架构等。
因此,当我即将要成为Patterns的主编时,我很高兴可以接受这份工作。我喜欢不断学习。我喜欢和人们谈论他们的研究。我喜欢与人们合作,帮助传播他们的研究,我也喜欢自己写文章,因此,有机会的话,我期待能写一些社论。
Cell Press:Patterns与其他数据科学期刊的区别在哪?
Sarah Callaghan博士:数据科学期刊倾向于专注于一个特定主题,这有一些狭隘了,但是Patterns包含的范围非常非常广泛。无论是研究机构、学术界还是行业内的研究人员都可以尝试投稿。医疗卫生、生物科学、物理科学、社会科学、数字科学和人文学科都在本刊的范围之内。重要的是,我们分享的这些解决方案能跨多个领域解决每个人都面临的与数据相关的问题。Patterns的多学科性质意味着,您将接触到自己所在领域以外的人。各行各业的人们可能都会看到您的研究并发现十分受益。
Patterns具有很高的影响力和可获取性。我希望本刊能成为所有对数据感兴趣的人的首选,人们能通过Patterns了解新的研究,以及如何将其用于自己的特定问题和目的。
Cell Press:您希望在Patterns中看到怎样激动人心的讨论?
Sarah Callaghan博士:当前的一个关键问题是数据科学的伦理。我们正在创建数据,正在使用数据,正在开发一些非常实用的新工具,这些工具可以分享大量的信息,告诉我们很多世界上正在发生的事情,但我们必须在如何应用这些结果上持谨慎态度。
举一个典型的例子,机器学习算法,该算法经过训练可以预测有关人群的信息。但是回过头来,我们发现这些算法的结果存在偏差,这是因为创建算法所需的数据本身就存在偏差,这绝对值得特别注意。
我也很高兴看到数据科学领域正在开展的所有新研究,特别是我目前无法预料的事情。具有颠覆性的新技术有着改变世界的潜力——让世界变得更好。
Cell Press:Patterns为何采取开放获取模式?
Sarah Callaghan博士:我认为开放获取极为重要,因为开放获取使科学家们更容易了解彼此的工作,彼此协作和交流。最有趣的科学发生在不同科学领域互相衔接的地方,我认为我们将来看到的最大科学进步就会出现于此。而且,如果像Patterns这样的开放获取期刊可以促进科研人员之间的交流,使我们实现那一目标,会令人十分兴奋。
开放存取还可以减少浪费的精力。如果其他人创建了一个数据集,我知道它可以用于我正在进行的实验,那就意味着我不必花费很多时间和金钱来重新创建一个已经存在的数据集。
从根本上说,出版的意义在于分享和交流。而且,如果研究和数据公开了,那么其他人就可以参与进来并继续进行已完成的工作。正如那句古老的名言所说的那样,站在巨人的肩膀上思考。
中国学者关心的问题解答
Cell Press:有一种说法是,中国作者的研究通常伴随着“海量”数据,您对此趋势有何看法?
Sarah Callaghan博士:这种说法暗示着太多数据是一件坏事,我不同意。我认为没有“太多数据”,但绝对有“管理不当的数据”。我们有存储大量数据的技术,但必须以增进理解的方式进行储存且拿出来重新利用,注重数据带来的社会和道德影响。数据是已发表研究中提出结果和结论的基础,我非常赞成共享这些数据,而且数据最好可以被其他人(在可能的情况下)重新利用。
因此,我鼓励所有作者将他们的数据集视为发表的重要组成部分,并让数据集可找到、可获取、可共同操作、可重复使用(FAIR)。采用社区数据标准(如果可能的话)并彻底地记录数据,因为这将增加数据集的使用和影响。
Cell Press:中国是一个充满活力的地方,数据科学和人工智能正在中国蓬勃发展。您对未来来自中国研究者的论文有何期待?主要集中在什么领域?
Sarah Callaghan博士:中国的研究人员在数据科学和人工智能领域所做的工作着实令人惊叹,他们的的确确推动了科学的发展。我期待在未来看到中国研究机构发表许多高质量的文章,以及有趣的代码和算法的新发展,使我们能够利用现有的数据做更多的事情。支持数据科学的硬件也是不容忽视的重要组成部分。
数据科学是很多研究领域的基础,所以我很难猜测哪个特定的领域将会大有前景,但是我可以猜测,大数据、深度学习、预测分析和计算机视觉将会是众多领域中的其中几个。在这些领域里,中国将会对我们开展数据科学研究的方式产生真正的影响。
Cell Press:您会采取哪些数据驱动的策略让Patterns蓬勃发展?
Sarah Callaghan博士:Patterns创刊的意义就在于分享,因此将其作为开放访问期刊将促使我们的读者群更加广泛、更加多样化。将来,如果我们有了可以努力的方向,我期待会看到新的数据驱动工具和服务,了解如何将其应用于Patterns的内容,还有我们可以从中学习到什么。在本刊的早期阶段,我非常鼓励引用数据和代码,也欢迎各位分享作为研究基础部分的基础研究对象。
未来,我非常热衷于将文章转换为“可执行文件”的想法,其中的代码和数据集可以集成到文章的主体中,用于多种用途,例如重绘图形以满足读者的好奇心等等。目前有很多关于电子实验室笔记本的研究,利用这一成果,数据和代码就能集成到一个文档中,我想为文章进一步开发这个功能。
我还希望Patterns能够以尽我们所能的方式支持更广泛的数据科学界。也许将来我们可以赞助一些黑客马拉松或者数据竞赛。
Patterns现已开始征稿,并将于2020年5月出版第一期,点击“阅读原文”,访问Patterns期刊主页查看征稿范围。
您也可留下邮箱,接收Patterns第一期的相关内容。
点击“阅读原文”,
访问Patterns期刊主页