学术活动 | 林墨·科学家与科学数据研究趋势——2018科学计量与科技评价天府论坛学术沙龙纪要
录音整理:李斯(武汉大学信息管理学院)
1
引 言
科学计量与科技评价一直是图书情报等领域的重要研究内容。近年来,随着社会化媒体、移动互联网等通信技术的不断发展,大数据分析技术与分析工具的不断创新,科学计量与科技评价在研究对象、研究内容、研究方法和研究环境等方面都发生了不同程度的变化,表现为研究者可以在线获取大量和多源的开放数据集,新兴的科技评价指标不断涌现,以及可视化技术可以更直观反映知识和技术的演化和发展趋势等。
为了让研究人员更好地了解和把握科学计量学与科技评价的国际研究进展和研究前沿,推动科学计量学与科技评价领域的学术交流、合作研究和应用工作,2018年9月19日至21日,由中国科学院成都文献情报中心主办,全国科学计量与信息计量学专业委员会、四川大学科学技术发展研究院、武汉大学中国科学评价研究中心、大连理工大学WISE实验室等单位协办的“2018科学计量与科技评价天府论坛”(Tianfu Forum 2018)在成都召开。本次论坛邀请了国内外20余位专家学者,发表了本领域最新研究成果和前沿发展动向的学术报告,来自国内60余家高校和科研机构的240余名科研人员、师生参与了本次论坛。
9月20日晚,学术沙龙邀请了公益学术新媒体“林墨”团队就“科学家与科学数据研究趋势”进行了分享交流。沙龙由中国科学院成都文献情报中心科学计量与科技评价研究中心执行主任陈云伟研究员主持。与会发言的嘉宾有(以发言先后为序):大连理工大学胡志刚副教授、大连理工大学王贤文教授、武汉大学张琳教授、南京大学李江教授、山西医科大学于琦副教授、湖南大学黄颖副教授。
2
专家共同探讨科学家和科学数据研究趋势
大连理工大学胡志刚副教授:
我介绍一下我最近和王贤文老师做的一个研究,关于ESI的高被引论文(Highly Cited Paper),也就是我们所俗称的小金杯论文。这些论文会在Web of Science数据库里面被标上一个小金杯,代表这篇论文的引用次数进入了所在学科所在年份的前1%。
这个指标很重要,今天好像也有老师提到,说ESI的这个指标可能是最好的一个指标。我们知道,SCI曾经一度是我们国内评价用得最多的一个指标,但是在2010年之后,我国SCI论文数量已经排在第二了。此后,我们国家开始从拼论文的数量,转而来拼论文的质量。而高被引论文就是论文质量一个很重要的体现,所以ESI就成了一个升级版的SCI的评价指标。这几年,每次ESI发布新的数据,朋友圈就会“刷屏”。而且,其他指标都是每年“刷屏”一次,ESI是每两个月就“刷屏”一次。
ESI这个指标被认为越来越重要,但它真的很可靠吗?所以我们就做了一个实证研究,下载了去年7月份发布的总共13万篇高被引论文,发现ESI高被引论文里面有4个陷阱是大家需要注意的。第一,ESI高被引论文是按照年份进行比较的,比如,2016的1月份和12月份发表的论文是放在一起比较的,但二者的引用时间窗口差了接近一年,对后者很不公平。实际上我们的结果也是这样,2016年1月份的论文占到了2016年全部高被引论文的差不多四分之一,而12月份发表的只有0.6%左右。第二是在线优先发表(Online First),在今天这个数字出版时代,被引时间窗口的起点其实是在线发表时间,而不再是ESI中所基于的出版时间。有一些期刊的在线发表时间可能比出版时间早半年甚至一年,这就为这些期刊中的论文赢得了引用抢跑的时间,获得更高的成为高被引论文的机会。第三是学科的划分,比如有一本期刊叫Bioinformatics,原来是被划在信息学领域,但它其实偏生物,引用次数非常高,导致它的论文在信息学里高被引最多,但后来它被调整到了生物领域,高被引论文就立即少了。第四点是综述的高被引情况非常突出,有四分之一高被引论文的都是综述论文,而实际上综述类的论文只占全部论文的5%左右。高被引论文是用来识别前沿的,而综述是总结别人的研究,那么它还代表着前沿吗?这就是我们最近的一个研究。
大连理工大学王贤文教授:
我这几年做的研究是偏新兴的科学计量学,主要是补充计量学(Altmetrics)。最近正在做的工作大概有三个,第一是研究补充计量学(Altmetrics)指标的价值在哪?很多学术期刊、科学家会在社交媒体上推广他们最新发表的论文,那么究竟有多少人去点击阅读它?我们对它的推广效果进行了研究。
第二个研究是我们最近对Publons的审稿人数据进行了分析,从3、4月份开始研究各个国家审稿人审稿质量的影响因素。
第三就是研究开放获取(Open Access)政策,在最近9月份的时候,欧盟刚出来一个“S计划”,要求在欧盟受到基金资助的论文都必须在完全开放获取的期刊上发表。我们觉得这个计划可能会对全世界的学术出版有一个比较大的影响,所以想做关于这个政策的研究。从各个角度,包括从经济学的角度、学术影响力等各种角度来进行评估。
武汉大学张琳教授:
我最近做的研究相对比较聚焦。第一个方向是交叉科学的量化研究,包括交叉科学不同测度方法的比较、交叉科学的合作模式、交叉与创新的关系,以及相关的理论与实证研究等。
第二个是多源数据在计量学领域的融合研究。希望能够把计量学传统的核心数据库,如引文数据库,结合更丰富的多源数据信息进行研究,例如科学家的个人信息和职业发展数据,基金的投入产出数据、人文社科领域的其他类型成果数据、科学的社会影响数据等等。这样会形成更立体多维的分析,并且能揭示一些和科技政策高度相关的问题,这也是我最近比较关注的兴趣点。
我今年开始有幸为Scientometrics期刊工作,我有一点感触。我们中国学者的很多研究其实很有特色,因而大家没有必要都盲目地去追踪“国际前沿”,不一定是国际学者他们做什么,我们就跟着做什么。虽然整体而言,在我们领域,国内学者还处于不是非常领先的地位,但我觉得我们的学者如果能讲好中国学者视角的故事,反而更容易走向世界。像王贤文老师、李江老师的研究都很有特色,在国际上也有很好的显示度。如果我们不是一味追求“前沿”,而是能坚持自己的特色做研究,也许不一定很快能出成果,但是真的持续做下去后,我相信最终会做出真正属于自己的标志性研究。在座的各位老师成果都非常丰硕,我觉得他们都是在自己感兴趣的方向长期坚持深入地挖掘,最后形成自己有特色和有代表性的成果。
南京大学李江教授:
我现在主要的工作重心在开放科学数据上。开放科学数据是指我们可以收集到的、可免费下载的科学数据。这样的科学数据有多少呢?比如说微软学术,1.7亿篇文章全部开放;DBLP大概200多万篇计算机领域的论文全部开放;Pubmed的2800万篇论文全部开放了;APS(美国物理学会)精选了全球最好的12个物理学期刊的论文,大概有60万篇全部开放;ORCID的全球280万份科学家的简历全部开放,类似的还有很多。
我们现在做的工作是把所有这些开放的数据收集起来,然后用两个工具把这些数据打通,第一个工具是DOI,就是论文身份证号。所有出现在不同数据集里面的论文都可以通过DOI连接。第二个是科学家的ORCID号,类似于科学家的身份号,在不同的数据库里面都会出现,所以我们用它把所有这些数据库里的科学家连通,这在很大程度上可以帮我们解决重名问题。我觉得这可能是一个不错的方向,因为我到一个新的单位规划自己的职业生涯的时候,想着未来20年要做好一件事情的话,我应该做什么?做开放数据可能是一个不错的选择。
另外跟大家分享两点我的体会。第一个,我记得我们有一位老师说过,什么是前沿呢?就是当你正在琢磨或是正在研究某一个问题的时候,突然发现你的同行已经把论文发表出来了,那你就已经站在前沿了。我不知道这样会不会算自吹自擂,但是我跟其他几位老师经常会遇到类似的事情,比如说张琳老师做跨学科性的测度做得非常好,事实上我的自然科学基金面上项目做的就是跨学科性测度。但是我觉得我没有张琳做得好,于是我改做其他的。
另外一个是像王贤文老师提到了,他在做Publons的数据,我们正好也在做。我觉得这是未来很重要的一个趋势。过去几百年来,对于学术贡献的认可都依赖于论文。全球第一本学术期刊《哲学汇刊》是1665创刊的,自从第一本学术期刊创刊以来,我们对学术贡献的认可基本上是依赖论文。但是我告诉大家,现在有另外一个新生事物出来了,叫公开同行评议。学术服务商、学术期刊已经开始了尝试,有科睿唯安旗下的Publons,还有Elsevier一个产品叫RRP(Reviewer Recognition Platform)等,就是公开了同行评议人的一些信息。现在公开到什么程度呢?像Publons公开到了审稿人的信息,比如说这个审稿人是谁?他的ORCID号是多少?他的专长是什么?它在2017年全年给全世界的哪些期刊审过稿?大概就这样一些信息。但是这些信息作为我们来认可论文审稿人的学术贡献就已经够了。
认可论文审稿人的学术贡献对解决同行评议危机具有重要意义。在过去几百年来,我们对于审稿人的学术贡献一直忽略,前一段时间科睿唯安发布的一个报告的数据显示,亚洲的尤其是中国学者参与审稿工作非常少。那大家都想得明白吧,因为审稿不是学术贡献的认可方式,如果有精力,学者们当然花在写论文上,而不是放在审论文上。所以导致现在同行评议出现了危机,这是第一个原因。第二个原因是全世界的论文数量在大幅度增长,但是审稿人的数量没有大幅增长,所以导致少数审稿人审了绝大多数的稿子。我觉得解决同行评议危机的最好方案就是认可审稿人的贡献,这可能是未来若干年非常重要的一个趋势,我希望这一天到来得越早越好。
第二点,我跟大家分享一下我在做“林墨”这两年多时间以来的一些感受。我们其实是在做一些公益的科普,希望更多的人了解科学计量、科学学,了解这个学科的人在做一些有意义和有价值的研究,于是我们把全世界关于这个主题研究的最新的论文,讲一个中文故事给国内的同行们。说实话,做这个工作其实是一件很辛苦的事情,而且是不盈利的。但是我觉得最大的收获是我认识了一帮跟我志同道合的人,这对于我做学问来讲是一件极为幸福的事情,是我选择这个职业最大的收获。所以我想建议大家不妨不把更多的精力放在发文章、申报课题和申报奖项之类的事情上,或许别有一番洞天。
山西医科大学于琦副教授:
我想说两点感触,刚才张琳老师说了一点,叫多源化,李江老师说了一点叫前沿。关于这个前沿这个话题,我也有感触。因为我在医学院,所以我一直在想我在医学院这样一个院校,怎么能把科学计量的方法跟医学结合得更紧密一点。实际上我的第一个国家自然科学基金做的就是生物医学研究领域的科研合著现象分析,这只是科学计量学方法在生物医学领域的应用尝试,其实并没有接触到医学研究的本质。所以在申请第二个课题的时候,我选择了生物实体的挖掘评价研究,这个跟章成志老师目前的研究比较像。生物技术领域有很多独特的数据,比如我今天下午作报告时,讲到了一个Clinicaltrials数据库,这是生物学领域特有的数据,刚刚发现这个数据时,我就安排团队的老师,看看可不可以用传统的计量方法,对这个数据库进行特征描述性分析,结果我们团队的老师经过文献回顾后告诉我,这个研究已经有人做了。
回到张琳老师的这个话题,就是多源数据。我发现现在如果想发很好的论文,需要有很好的数据,这个很难。我一直关注用计量方法去分析医学领域的问题,看到有一些发表在很好期刊(比如JAMA、Cell等)上的论文,很多实际上做的分析很简单,但他的数据很有特点,观点很棒,而这些文章的数据源往往不只是论文,可能还包含FDA、Clinicaltrials、WHO上的一些统计数据等,用多源数据去解决问题,是一个很好的方向。
我一直跟美国印第安纳大学的丁颖老师合作,最近我们想把糖尿病领域的论文、专利、Clinicaltrials,甚至是电子病历、门诊病历等数据规范化,然后从里面去挖掘一些东西。
湖南大学黄颖副教授:
我先前做的一些研究主要偏重于专利计量,后来慢慢也开始涉及文献计量。我目前关注的研究主要包括三个部分。第一个部分是基于专利文献探究新兴技术前沿。现在无论是国家职能部门还是基金管理机构,他们都很想知道未来的工业和技术趋势是什么,资金和项目应该投入在哪里,以及如何支持这些新兴前沿技术的发展。第二个部分是和张琳老师一直在合作的交叉科学研究,包括交叉科学的测度及其影响力的探究,同时也尝试把交叉科学的理念和方法体系借鉴到专利文献上来分析技术会聚的现象。第三部分是通过科技文献,包括基金、专利和论文等多源数据,研究全领域、跨时段的知识与技术、学科与领域的演变、融合及扩散现象。
另外对于应该撰写怎样的文章谈一点自己的感受,我觉得我们要去写那种自己听起来都会觉得兴奋和激动的主题。只有这样的文章,才能够让我们自己饱含激情地去撰写。如果一些文章我们自己都觉得主题平平淡淡、结果不痛不痒,那这样的文章最好不要轻易动笔。如果我们自己都没有激发起研究兴趣的话,撰写起来就没有足够的激情,评审人和读者也就没有阅读的欲望。我觉得一篇好的文章是要基于有趣的研究问题,用相对清晰明了且易于重复的方法呈现出精致有趣的结果,语言叙述像一个娓娓道来的故事情节,最后附加一个提纲挈领的结论和神来之笔的讨论。
本文照片均来自:“林墨”公众号文章“那晚,成都,有林墨”(2018-09-22)
*本文版权归《图书情报知识》所有,欢迎转发到朋友圈,转载请联系后台。
-- END --