查看原文
其他

上交大 Acemap 团队发布学术知识图谱 AceKG,涵盖 1 亿多个学术实体

2018-03-16 思颖 AI研习社

日前,上海交通大学王新兵教授和张伟楠教授指导的 Acemap 团队知识图谱小组发布了学术知识图谱 AceKG。从官网可以看到,Acemap 知识图谱(AceKG)描述了超过 1 亿个学术实体、22 亿条三元组信息,包含六千多万篇论文、五千多万位学者、五万多个研究领域、将近两万个学术研究机构等,数据集将近 100G。

知识图谱(Knowledge Graph)是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构,揭示知识领域的动态发展规律,为研究和决策提供切实的、有价值的参考。

目前,随着机器学习和自然语言处理技术的不断发展,在大数据的推动下,知识图谱受到学界和业界的广泛关注。但目前它的发展还存在着不少阻碍,例如从数据中挖掘出高质量的知识需要大量的数据处理工作,构建垂直领域知识图谱的代价很大,很多研究工作都不具备实用性等等。 

而 AceKG 究竟有何优势?据发布团队介绍,与现有学术知识图谱相比,AceKG 主要有如下三个特点:

  • AceKG 提供学术异构图谱,包含多样的学术实体与相应的属性,可以支持多样的学术大数据挖掘课题,例如现阶段异构网络向量化的诸多课题。

  • AceKG 从更高的角度统览整个学术圈,提供了近 100G 大小的数据集,包括论文、作者、领域、机构、期刊、会议、联盟,支持权威和实用的学术研究。

  • AceKG 以结构化的 Turtle 文件格式给出(具体格式见下表),致力于减少数据预处理的不便,同时更易于机器处理,支持全部 Apache Jena API。

下图是 AceKG 的结构框架。可以看到,AceKG 为每个实体提供了丰富的属性信息,在网络拓扑结构的基础上加上语义信息,可以为众多学术大数据挖掘项目提供全面支持。

以下是一些示例文件,大家可以点击如下链接 http://acemap.sjtu.edu.cn/app/Datasets/KG/example.zip ,来了解和使用该知识图谱。

此外,AceKG 使用 Apache Jena 框架驱动。Apache Jena(http://jena.apache.org )使用 TDB 数据库存储数据,并且提供 SPARQL 引擎进行数据查询。它还为 Web 客户端提供 FusekiHTTP 服务,并提供完整的 Java API 查询数据。架构如下图:

值得一提的是,AceKG 并不是 AI 研习社报道的第一个学术知识图谱。此前,清华大学教授、Arnetminer 创始人唐杰博士公开亿级学术图谱——Open Academic Graph。此图谱集成了两个最大的公开学术图谱:微软学术图谱(MAG)和 AMiner 学术图谱。开发团队通过集成 MAG 中 1.66 亿学术论文和 AMiner 中 1.55 亿学术论文的元数据信息,生成了这两个学术图谱之间近 6500 万对链接(匹配)关系。

据唐杰教授介绍,公开 Open Academic Graph 目的如下:一是集成丰富的学术知识数据,二是数据共享,三是服务共享。简言之,他们希望能够造福学术界对知识图谱、学者合作关系、学术主题挖掘等领域的研究,设计更加智能的学术图谱连接系统,以方便更多人使用服务以及加入开放学术社区。

在雷锋网 AI 研习社看来,这些学术知识图谱的发布,不管对学界还是对业界来说都有极大的意义。一方面能助力大家当前的研究,另一方面也能吸引更多人来进行学术知识图谱相关的研究。相信随着越来越多学术知识图谱的公开,将促进学术大数据挖掘项目的持续发展。

AceKG 详细信息,参见:http://acemap.sjtu.edu.cn/app/AceKG/index.html 

限时拼团

3 大模块,30 个课时

高校数学系教授带班

100% 学员好评

与 100 + 同学一起夯实数学基础,走稳机器学习入门第一步!

▼▼▼





新人福利



关注 AI 研习社(okweiwu),回复  1  领取

【超过 1000G 神经网络 / AI / 大数据,教程,论文】



AMiner 发布计算机领域知识图谱,包括 20 多万条专家信息、50 多万篇出版论文

▼▼▼

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存