送给科研党最好的七夕预热礼物
丹棱君有话说:科研党们,你们在检索论文时,是否也经常遇到这样的情况——不同的作者姓名却一模一样,不同论文竟然用的是相同的题目?据统计,2016 年中国重名最多的 30 个姓名中,每个姓名重名人次达到 20 万以上。如何才能更快速、全面、准确地找到需要的论文?不妨试试微软清华最近联合发布的学术图谱 Open Academic Graph (OAG)。OAG 不仅包含了 MAG 中 1.66 亿学术论文和 AMiner 中 1.55 亿论文的海量元数据信息,还能提供精准和丰富的作者和论文的“画像”,包括论文的元数据、概念网络、研究领域、全文等和作者的基本信息(如:职位、单位、联系信息、国别、性别等)、研究兴趣以及论文列表,让论文检索更智能。搞科研的小伙伴们,快来试试吧~
微软清华最近联合发布了学术图谱 Open Academic Graph (OAG)。这个亿级图谱集成了目前最具规模与影响力的微软学术图谱(Microsoft Academic Graph,MAG)和清华大学的 AMiner 学术图谱。具体来说包含了 MAG 中 1.66 亿学术论文和 AMiner 中 1.55 亿论文的元数据信息。经过集成这些数据信息,生成了两个学术图谱之间近 6500 万链接(匹配)关系。
构建亿级开放学术图谱是一项极具挑战的研究工作,因为学术数据在不同图谱中呈现分布异构的特点,同名异义和异名同义问题严重,实现数据的精准匹配是一个重要挑战。下面举例说明这几个问题的难点所在。
数据异构。由于数据分布在不同数据源,可能面临数据异构的问题。比如论文作者可能存在不同的格式,如 “Quoc Le” 和 “Le, Quoc” 。又如,论文所发表的期刊或会议有全称或缩写等多种形式。
同名消歧问题。同一名字可以表示多个实体,这也给图谱连接带来了很大困难。比如常见姓名通常是匹配的难点。在 2016 年,中国重名最多的 30 个姓名中,每个姓名重名人次达到 20 万以上。对于论文来说,不同论文也可能有相同的题目,如:“Data”,“data everywhere” 在数据库中可对应多篇文章。
此外,要实现亿级数据集成,如何进行高效计算是另一个重要挑战。以 AMiner 为例,已经公布的论文数据就有 1.55 亿,而微软学术图谱的公开数据也达 1.6 亿,计算两个图谱匹配关系的算法复杂度一般来说是 O(n2),这需要大量计算。我们设计了一个折衷方法,在既考虑精度的情况下,也利用哈希算法提高算法效率,将算法复杂度降低到 O(nlogn) 到 O(n2) 之间,目前每天能够完成约 2000 万篇论文的匹配,基本完成了合计 3 亿篇论文的自动匹配,并保证了高匹配精度。
开放学术图谱是开放学术组织(Open Academic Society)的一个重要项目。开放学术组织是微软、清华、艾伦人工智能研究所、亚利桑那大学、华盛顿大学、加州洛杉矶大学、澳洲国立大学等 20 个全球机构一起联合成立的学术组织,旨在推广学术数据的开放共享、加强学术交流与合作。开放学术图谱以集成全球不同学术知识图谱、公开共享学术图谱数据、提供相关学术搜索与挖掘服务为目标。具体包括:
集成丰富的学术知识数据。目前开放学术图谱的核心数据来自微软学术图谱(MAG)和 AMiner 学术图谱,下一步将集成更多其他学术图谱数据,包括扩充不同类型实体(如作者、论文等)的语义数据。通过数据集成和数据挖掘算法,将链接更多实体更精准和丰富的“画像”数据,包括论文的元数据、概念网络、研究领域、全文等和作者的基本信息(如:职位、单位、联系信息、国别、性别等)、研究兴趣以及论文列表等。
数据共享。通过共享不同的学术知识图谱,以及它们的链接关系,我们希望能够造福学术界对知识图谱、学者合作关系、学术主题挖掘以及大规模学术图谱连接等领域的研究。同时,欢迎更多来自学术社区的贡献来进一步增强开放学术图谱。
服务共享。我们希望设计更加智能的学术图谱连接系统,并提供相关的服务(如 API),以方便更多人使用服务以及加入开放学术社区。
未来,我们将研究如何集成大规模异构学术图谱中不同类型的实体(如作者、会议等),公布更多学术图谱连接数据(如作者连接数据),设计更加智能的学术图谱连接系统并提供相应的服务。
点击“阅读原文”,即可了解更多公开学术图谱的信息。
本文转自微信公众号:微软学生俱乐部
了解更多:
后台入驻微软小冰
如果你很萌,请跟她一决高下!