语义学者: 通过人工智能解析科研元素的学术搜索引擎
海归学者发起的公益学术平台
分享信息,整合资源
交流学术,偶尔风月
随着科学家们的辛勤工作,纷繁庞杂的研究成果也随之积累起来。在犹如浩瀚星海的科学太空之中,是否有一些存在着内在关联,能够照耀彼此,迸发出惊人能量的星星呢?从已有的资料出发,仅凭人力想必无法胜任这样的探索任务,但是人工智能也许能够帮助我们完成这份工作。最为重要的是,它能够读懂科学的语言,从而帮助解决各种科研挑战。未来,我们需要的将是基于AI的科学搜索引擎。目前,人们已经在做此类开发。
Google Scholar的挑战者来了,以后还需要翻墙么?
2015年秋季,由西雅图艾伦人工智能研究所 (AI2) 研发的系统Semantic Scholar (语义学者) 上线。该系统通过机器学习、自然语言处理等智能化手段从语义学角度对科学文献进行解析。起初,它收集了200万份计算机科学领域的论文数据,进行分析与理解。随后文献数据增加到400万,并于2016年4月推出了计算机领域学者和机构的影响力排名。麻省理工学院毫无疑问当属第一机构。不过凭借分析成果,人们认识了计算机界的“迈克尔·乔丹”——来自加州大学伯克利分校的人工智能先驱。正是他的工作得以将统计学和机器学习两者的交叉部分推向了大众关注的视野,其在论文的高影响力引用排名上也名列第一。
Prof. Michael I Jordan, UC Berkeley
现在,Semantic Scholar系统的语料库已经增加到千万级,除计算机领域外,其中25%为神经科学类论文。明年,研发人员还计划囊括全部生物医学类文献,届时论文数量将超过2000万。
以“乔丹”为例,该系统除了给出其高影响引用数、引用速度、引用加速度等数据外,还直观地呈现了对这名学者产生影响最多,以及受这名学者影响最多的其他学者。
Semantic Scholar系统学者介绍页面
其中,引用速度代表学者的发文引用在过去三年中的加权平均水平,加速度代表变化水平。其巨大的样本量,相比Google Scholar引用数据来说,置信区间约为90%。当然,Google的数据本身也会因作者歧义、文献收集合法性等问题而不尽准确。
根据Semantic Scholar最新推出的神经科学研究影响力指标来看,伦敦大学学院 (UCL) 可谓首屈一指。通过对250万篇相关论文的解析,每一位作者的数据都得以呈现。在前10位科学家中,共有三人来自UCL,分别是第一位的Karl Friston,第二位的Raymond Dolan和第七位的Chris Frith。这成功背后的秘密是什么?用Frith的话说:“我们进入人脑功能成像领域很早。”起步早使他们能够成为很多重要内容的首批研究者。
前10位脑科学专家,Science
当我们查询具体研究内容时,除了诸如出版时间、作者单位等传统的书目文献资料外,系统还会提供实验所用细胞、研究方法和研究有机载体等统计分析。
作为项目团队CEO,Oren Etzioni表示他们的目标是能够让系统实现回答用户的英语提问,“可以将其视作科学领域的Siri,但愿会更好。”
Semantic Scholar负责人Oren Etzioni, AI2 CEO, Nautre
Semantic Scholar系统解析目录 (部分)
来自哈佛大学的计算神经学家Sam Gershman在尝试过Semantic Scholar系统喜出望外:”这工具简直太酷了,它比Google Scholar有一些优势......能够对文章进行更好地梳理和排序,能够展示文章的参考文献和一些图表。“ 不过他也很快发现了令所有搜索引擎都头疼的问题:无效数据。要知道,学者们在其所有的论文上,并不是署名始终如一的。这个问题也同样困扰着Semantic Scholar。同时,文章的原数据也存在错误:Gershman某篇文章居然是他2岁时发表的。
当然,最值得关注的还是文章的高影响力评分系统。他还表示:”查看‘most influential publications’有时会得到些奇怪的结果。比如加州伯克利大学心理学家Thomas Griffiths最具影响力的论文,居然没有进入其最多引用文章的前五位。“
对于一个刚刚起步的系统,存在问题是可以理解的。Etzioni也强调,目前Semantic Scholar还会有错误,他们仍在完善。
尽管如此,《Science》杂志已经禁不住诱惑,报道了上述十位脑科学专家。排在第二位的Raymond Dolan表示:”我们都是从1980年代一起在医学研究委员会工作的,1993年同时迁入UCL,仍在同一个部门公事。“
有趣的是,Chris Frith指出,系统很正确地分析出:其夫人兼UCL同时Uta Frith是他职业生涯中最具影响力的人之一。
排名第一的Karl Friston得到这一消息后也保持着幽默态度:”我的第一反应是,这事我可以臭美着跟谁念叨呢?随后我意识到,大概愿意听听的只能是我的孩子。“
参考资料
http://www.sciencemag.org/news/2016/11/computer-program-just-ranked-most-influential-brain-scientists-modern-era
http://www.sciencemag.org/news/2016/04/who-s-michael-jordan-computer-science-new-tool-ranks-researchers-influence
https://www.semanticscholar.org/
知社编译,媒体转载请联系授权
service@scholarset.com 或微信ID: scholarset
回复“目录”或“分类”,浏览知社更多精华。长按二维码识别,可以关注/进入公众号进行回复。