查看原文
其他

基于论文内部结构化数据的图搜索引擎

红桃K 749局 2019-07-30

1


   

Semion学术搜索引擎

科学出版的快速发展迫切需要新的改进工具以快速简便的搜索不断增长的科学论文。然而,传统的搜索引擎中并未有效把科学文献结构化,从而丢弃了大量关于文献不同部分如何相互关联的结构化信息。

semion.io的建立就是基于文献内部结构化信息的关系,即利用这种关系可以极大地改善学术文献搜索。每份文献丰富的内部结构可以为给定的搜索查询提取关键图和描述段落,同时适当地对结果进行语境化处理。


semion .io是一个研究项目,它利用科学文献错综复杂的内部结构,直接搜索关键图表,方程式和段落,并进行语境化处理。



2


   

工作原理

semion.io将每个文献分解成组成部分(段落,表格,图表,章节,方程式...),并确定链接,互连和引用。

例如,一个段落可能描述一个特定的统计图,其标题可能反过来引用一个方程式或引用另一篇论文。或者,一个图形的标题引用一个表格。在搜索过程中,这种关系对于确定相关的搜索结果和上下文相关的信息至关重要。例如,搜索排名不是只关注原始引用计数,而是根据引用论文的相应部分与搜索查询的相关程度来强调引用关系。

3


   

图结构

semion搜索引擎内部构建了arXiv上所有预印本中包含的组合信息的单一有向图 - 论文图。每个节点代表一个图形,段落,方程式或其他组成部分及其相关描述。图形边缘对每个原始文档内部或是跨越论文边界的相互连接进行编码。因此,学术文献搜索实际上是建立在基于大规模论文图形搜索问题上。semion.io为每个搜索请求确定论文图的相关分区,然后遍历子图,并在适当的上下文中计算被认为最相关节点的排名。

4


   

使用价值

利用semion搜索引擎搜索1,556,121个预印本科技文献,7,546,100个统计图,98,941,368个段落,73,620,871个方程式。

你可以根据搜索内容选择要阅读的论文并一目了然地看到关键统计图,段落,表格和方程式。并可无缝导航到文献引用部分和相关链接。利用semion还可跟踪最新的预印本提交,接收相关论文的每日提醒,及时跟踪到与你研究方向最相关的科学文献。

https://www.semion.io

----------华丽的分割线----------

推荐阅读

1.NIST数学函数数字图书馆
2.台湾大学开放式教学资源共享平台
3.一个免费的全球植物数据库API
4.你绝没用过的一款高逼格空间可视化工具
5.一个免费开放的编程竞赛知识整合站
6.一个免费开放的世界食品数据库
7.复旦大学教授开源神经网络与深度学习电子书,配备代码和章节练习
8.推荐一个用于电路板设计的在线电子元件库


专注推荐精品内容,为你精选全球优质创意产品,或分享一些好玩的新闻之列满足你的好奇心。




 别忘了右下角给点一个"在看"   

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存