查看原文
其他

ACL2017 | 耶拿大学:SEMEDICO-一个生命科学领域的综合语义搜索引擎

热爱学习的 读芯术 2019-05-05

你和“懂AI”之间,只差了一篇论文


很多读者给芯君后台留言,说看多了相对简单的AI科普和AI方法论,想看点有深度、有厚度、有眼界……以及重口味的专业论文。


为此,在多位AI领域的专家学者的帮助下,我们解读翻译了一组顶会论文。每一篇论文翻译校对完成,芯君和编辑部的老师们都会一起笑到崩溃,当然有的论文我们看得抱头痛哭。


同学们现在看不看得懂没关系,但芯君敢保证,你终有一天会因此爱上一个AI的新世界。


读芯术读者论文交流群,请加小编微信号:zhizhizhuji。等你。

这是读芯术解读的第14篇论文



ACL 2017 System Demonstrations

SEMEDICO:一个生命科学领域的综合语义搜索引擎

SEMEDICO: A Comprehensive Semantic Search Engine for the Life Sciences

耶拿大学

Jena University


【摘要】SEMEDICO是一种语义搜索引擎,旨在通过融合搜索过程的各个阶段——从查询处理到结果呈现的领域语义,从而支持生命科学领域的文献检索。SEMEDICO使用了一种特殊的搜索方式,直接反映了实体的信息密度和它们(事件)之间关系的相关性,通过确定性信息来排列交互事件,以反映所遇到事件的真实性。


1 引言


在过去十年中,科学出版物在生命科学领域的指数增长(Lu, 2011)激发了信息检索服务热潮(简要介绍见第2节)。简单的基于术语的检索技术,包括基于频率的方法如基于TF-IDF得分,由于生命科学领域中的亚语言的巨大复杂性,迅速地受到限制,这不仅是因为词汇量大(数百万个专门术语)),而且还由于诸如过度歧义,复杂短语的非规范性,广泛的特征释义等因素。


在PUBMED(Lu, 2011)中为标准查询返回的超长命中列表是生命科学家最著名的文献枢纽,使重点搜索策略成为主要需求。当前的搜索机制无法区分语义紧密的信息单元,如实体之间的语义关系(事件)(例如蛋白质-蛋白质的相互作用),以及实体之间更为松散的关系,例如同一段落或整个文档内检索项的共现频率。


因此,为了改进文献检索,检索系统应该将受监督领域的领域知识纳入考虑范围,以有意义的方式将其与文献集合中出版物的内容联系起来,决定哪些信息片段优先呈现,并以易于理解的方式将其显示给用户。然而,现有的搜索引擎仅部分满足这些要求。


作为替代,我们在这里介绍语义搜索引擎SEMEDICO。它构建一个交互消歧的前端,查询概念与其他概念共享一个通用名称,包括从文档中自动提取的缩写。由于纳入了几个生命科学本体(见第3节),所有附属搜索词都包含在搜索中。这种语义丰富性不仅在检索相关文档(隐含地,所有下属都是OR-ed)中起着重要作用,而且还支持搜索者的充分查询,因为它使概念邻域清晰,从而缓解查询构建。


在后端,基因交互根据文件中事实被明确表达的程度进行评分(“we have evidence for the interaction of X and Y”比“X might potentially interact with Y”的语气陈述更为强烈,因此排名高于第二个陈述;见第5节)。对于排名,我们还考虑了精确定义的文档部分中搜索词的出现次数的接近程度。我们认为,通过多个查询术语填充的短文本段落,比宽泛的分散术语对研究者帮助更大。从这个角度来说,信息量最大的单元是组合实体在句法上相关的紧密连接的语义关系。这意味着SEMEDICO更适用于短段落匹配,并相应的对文档进行打分。在最终命中列表中,匹配的实体和关系被高亮化,以便将读者立即定向到相关文本部分(由查询定义)。


2 相关语义搜索引擎


为满足研究人员的需求,开发了几种生命科学搜索引擎(参考Lu(2011))。 这些系统的共同特征是根据领域特定的术语、词典和本体论,设计融入了底层领域的语义。GOPUBMED(Doms and Schroeder,2005)整合了医学标题(MESH)基因组(GO)和UNIPROT。它允许浏览由MESH和GO分类学构建的PUBMED引文。搜索结果还包括搜索概念在分类学中的命中结果,SEMEDICO也是如此。 然而,GOPUBMED不会集成任何关系信息(如蛋白质- 白质交互关系)或事实检测,并且只对PUBMED摘要进行操作。


FACTA +(Tsuruoka et al.,2011)认识到MEDLINE摘要中生物医学实体类型(基因/蛋白质,疾病,症状,药物,酶和化合物)的一系列范围,并分析生物医学事件触发器的文献(Kim et al.,2008 )。FACTA +提供多种搜索模式。查找关联概念模式启发于Swanson未被发现的公共知识概念(Swanson,1986),发现实体之间的间接关联,因此不是这个比较的重点。查看文档模式是系统的信息检索部分,并列出了突出显示的MEDLINE标题和摘要。此模式可以在不使用概念知识的情况下检索基于关键字的结果。FACTA +检测事件触发器和基因关系,但它不包括事件模型中的基因参数。因此,不能具体地搜索例如基因BRCA1。另一方面,SEMEDICO利用其对概念同义词的本体资源,识别事件触发器-参数结构,并将其作为可搜索项存储在索引中。


QUETZAL(Coppernoll-Blach, 2011)存储与查询词匹配的数亿(2.5亿,2011年)主-动-宾关系,以产生集中的句子级检索结果。在这方面,QUETZAL分享了SEMEDICO的基本思想,即查询词之间的语义关系比以一种松散方式关联的长文本段落中的查询词更为相关。 QUETZAL包括各种各样的任意关系,而不是像SEMEDICO这样的特定领域类型的关系。这种方法的优点是更高的领域覆盖度。缺点是,QUETZAL没有考虑到使用名词表达的大量交互,例如“mTOR规定”。 据我们所知,QUETZAL并没有融入事实信息。


FERRET(Srinivasan et al., 2015)的重点在于探讨MEDLINE引文中句子级别的以基因为中心的关系。该系统可以进行基因名称消歧,并允许通过同源基因进行查询扩展。检索句子包含基因-基因或基因-关键字对的调查结果。相比之下,SEMEDICO灵活地搜索了各种文本中的基因。


POLYSEARCH2(Liu et al., 2015)发现广泛实体类型之间的关联。给定一个特定实体类的查询,用户可能会询问其与另一个实体类的关系。 POLYSEARCH2搜索广泛资源的关联,包括PUBMED,PUBMED CENTRAL,维基百科和与生命科学相关的数据库。与SEMEDICO相反,它不支持自由文本查询,不为实体或关系使用专用的识别工具,并且始终在句子级别上运行。


GENEVIEW(Thomas et al.,2012)采用多种命名实体识别工具自动注释MEDLINE和PUBMED CENTRAL中的不同实体类,包括SNPs,物种,化学物质,组蛋白修饰,基因,蛋白质-蛋白质相互作用(PPIs)和更多。文档评分包括字段长度归一化,使得标题中的术语匹配比整个部分的可比匹配度高得多。以这种方式,GENEVIEW实现了这样的想法:具有实体匹配的短文本部分比与SEMEDICO类似的长文本更相关,但限于正式的标题,摘要和全文部分。与分子事件中自动搜索基因名称查询术语的SEMEDICO不同,GENEVIEW需要确切的数据库标识符(例如,使用NCBI GENE ID来搜索基因或者PPI:以搜索包括给定基因ID的PPI)。没有可能根据事实的程度对PPI进行排名。


HYPOTHESISFINDER(Malhotra et al.,2013)是除SEMEDICO之外的少数生命科学搜索引擎之一,它采用了真实性陈述。因此,它向用户提供了MEDLINE匹配关键词查询的推测性句子。其目标是明确提供投机言论以找出科学假设,但在SEMEDICO意义上既没有对事实的排名,也没有使用复杂的实体或事件提取方法。


3 SEMEDICO所使用的资源


SEMEDICO的文献输入来自两个来源,即来自MEDLINE / PUBMED的超过2700万个生命科学摘要以及来自PUBMED CENTRAL开放接入子集的大约150万条生命科学全文。它们存储在POSTGRESQL数据库中。


生命科学的领域知识是从几个术语和本体资源中获得的。来自MEDLINE的每个文件都被医学主题标题(MESH)索引,MESH是一个分层组织的词典,其顶部有相当概括的条目(例如“解剖学”),以及层次结构的叶子上的相当具体的条目(例如“踝关节”)。 SEMEDICO利用原始XML文件编码的MESH标题,同时还通过其命名实体识别器识别文档文本中的MESH条目。


另一个广泛使用的资源是NCBI基因数据库。我们的基因识别和标准化引擎(见4节)提到的文本中的基因实体映射到唯一的NCBI数据库条目,来处理基因名称的同义和歧义问题。此外,SEMEDICO整合GENE ONTOLOGY和GENE REGULATION ONTOLOGY(GRO)对不同类型的基因事件的语义描述。


所有的资源都存储在一个直接访问他们的层次结构NEO4J图数据库。所有的术语、本体和数据库转换成一个共同的JSON格式。这种格式使用一个自定义的NEO4J服务器插件导入NEO4J。


4 文本分析


所有MEDLINE / PUBMED摘要和PMC全文(大约2.85亿个文件)的完整文件集在SEMEDICO的索引中表示。 在索引之前,每个文档都经过全面的文本分析,如图1所示。目标是识别涉及基因/蛋白质关系,MESH标题,本体概念,基因相互作用事件和相关事实标记的文本单位。


图1 SEMEDICO的文本分析管道


形态句法分析包括首字母缩略词的分辨率(Schwartz和Hearst,2003)。这一步对于SEMEDICO的互动消歧功能至关重要。对于大多数这些任务,我们使用了JCORE(Hahn et al., 2016),我们的UIMA(非结构化信息管理架构)组件存储库。


语义分析包括LINNAEUS标签(Gerner et al.,2010),使用GENO(Wermter et al., 2009)标记和标准化的基因实体对,基于BIOSEM(Bui et al., 2013)的基因/蛋白质事件识别和使用Hahn和Engelmann确定的事实评级方法来确定事件置信度(2014年)。对于BIOSEM,我们使用在BIONLP SHARED TASK 2011(Kim et al.,2011)上训练数据的模型,包括摘要和全文。 MESH、GO和GRO概念由字典组件标记。然后,我们将注释结果与原始文档一起存储在文档数据库。


在最后一步中,将分析结果发送到ELASTICSEARCH集群进行索引。我们使用自定义的ELASTICSEARCH插件来使ELAS-TICSEARCH接受允许在ELASTIC-SEARCH索引中精确指定索引项的术语格式。这样,确切的语言分析结果就可以被引导到索引中。


5 文本索引和打分


所有概念,即物种、MESH标题、GO或GRO概念等实体都被编入索引,包括他们的分类学优势,使得对痴呆症的搜索也包括阿尔茨海默病或亨廷顿舞蹈病的文本。


作为基本文件评分算法, ELASTICSEARCH使用TF-IDF评分函数。除了以概念为中心的评分策略,SEMEDICO将MEDLINE引文和PMC全文分成标题、句子、摘要、段落、全文、表格、图形标题以及完整的文档。以技术上相似的方式,从文档中直接提取基因/蛋白质之间的关系,并作为可搜索项目存储在ELASTICSEARCH索引中作为嵌套文档,仍然连接到原始文档。关系存储有关于在基因/蛋白质相互作用(例如,结合、磷酸化、阳性/阴性调节等)中起作用的事件类型和涉及的实际基因/蛋白质参数的信息。


此外,指数中的每个关系项都被分配一个序数值,表示作者通过使用认知模态的显式语言信号(如“可以”,“可能”,“我们相信”等)表达的关系事实性状态。基于Hahn和Engelmann(2014)中描述的实验,用于表达真实性的每个词汇指标都被分配一个凭经验确定的“似然性”值,随后将其转移到携带这种认识标签的每个关系中。最低似然值是在遇到否定时发出的,因为作者表示坚信这样的陈述是虚假的。如果句子中没有发现认知模式,我们将分配最高的可能性。


SEMEDICO使用这种事实信息来根据其确定性对基因相互作用关系进行排序,默认情况下优先级高于较低级别的事实性评估。结果列表排序的最终文档得分是根据文档所具有的单个文本部分和关系分数得出的,该分数根据搜索词共同出现的文本部分的空间邻近度由ELASTICSEARCH字段长度归一化加权。这样一来,SEMEDICO在短文本查询匹配上比长文本更加有效。


6 Web应用


SEMEDICO被实现为一个APACHE TAPESTRY 5 web应用程序。它的起始页面显示了一个用于查询输入的输入字段。 一旦用户点击输入字段(见图2),用户就可以输入查询条件,并促进从NEO4J概念数据库(见第3节)中的术语推荐。


图2 SEMEDICO在概念数据库中的查询推荐


我们使用适配版本的JQUERY TOKEN PLUGIN将查询分割成“词块”,以说明所搜索的内容。 词块可以由多个单词组成,并且数据库概念或关键词不能(或由用户决定的,不应该)被解析为概念名称。


如果用户没有选择任何建议,SEMEDICO会自动识别查询中的概念。对于可以映射到多个概念的查询部分,SEMEDICO在搜索过程之后为查询词分配特定的图形样式,并在游标悬停在词块上时显示消歧选项(见图3)。所有消歧选项都是数据库中的概念,并将其同义词作为工具提示来帮助用户进行消歧。


SEMEDICO广泛使用突出显示了为什么文档匹配乍看时被认为是相关的。由于SEMEDICO不仅搜索准确的查询概念,而且针对其分类下属,也会突出显示从属匹配。例如,图3显示,酶的搜索也导致匹配,如E3泛素连接酶,其是MESH中Enzymes标题的分类后代。同样,对于用户而言,短文本片段中的匹配预计比在较大文本部分中更有价值,因此以更高的偏好显示给用户。在左侧,SEMEDICO显示了在文档结果列表中出现的概念,按频率或使用ELASTICSEARCH“重要术语汇总”进行排序。这些概念将该选项添加到当前的细化查询中。


图3 SEMEDICO突出显示文档片段中的查询概念匹配,并明确排除概念名称


点击文章标题打开一个新页面,显示搜索概念匹配的摘要,对于PMC命中的,列出了高亮的全文匹配列表,显示排名最高的查询匹配,而不需要进一步搜索一个可能很长的文件。使用PUBMED、PMC和发行商的全文源链接可以轻松访问原始出版物。


7 结论


我们提出了SEMEDICO,一种用于PUBMED和PUBMED CENTRAL的语义搜索引擎,通过概念建议,识别和互动消歧来帮助用户查询。 SEMEDICO涵盖多层次的语义,从简单的缩写分辨率到实体识别到基因交互事件的关系提取。 句子被标记为不同程度的事实性,并按照这些程度进行排名。语义单元进一步通过文本接近优先级进行打分,寻找明确表达的基因关系,句子、段落甚至更大的文本块中的查询概念的共现。所有证据来源被转化为查询概念之间语义紧密度的度量。此外,排名反映了在更接近的文本语境中将查询词组合在一起的方式效果更好,而对于共现率较低、文本较分散的则呈现较低的排名。

 

论文下载链接:

 http://www.aclweb.org/anthology/P/P17/P17-4016.pdf


留言 点赞 发个朋友圈

我们一起探讨AI落地的最后一公里


长按识别二维码可添加关注

读芯君爱你


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存