Sci China Life Sci :上科大赵素文团队构建脊索动物嗅觉受体数据库
The following article is from 中国科学杂志社 Author 中国科学生命科学
嗅觉是脊索动物最重要的感觉之一,在寻找食物、交配、躲避危险、识别个体、标记领域等方面扮演者至关重要的角色。嗅觉的实现依赖于嗅觉受体基因的表达。对于脊索动物来说,大部分的嗅觉受体基因在嗅觉组织或者器官内表达,用于识别环境中气味分子;也有部分在许多非嗅觉组织或器官中表达即异位表达,并被证明与多种疾病密切相关。近几年,越来越多的证据表明有些嗅觉受体基因在多种组织中异常表达。这也意味着嗅觉受体不仅可以作为嗅觉功能的执行者,还可以作为潜在的药物靶点。然而,嗅觉受体对于绝大多数的脊索动物来说嗅觉受体的注释严重不足,注释的质量也较差。
该团队开发了一个基于隐马尔科夫模型(HMM)的嗅觉受体基因注释工具Genome2OR (https://github.com/ToHanwei/Genome2OR.git),主要包含nhmmer.py,FindOR.py,IdentifyFunc.py,Batch.py和Iteration.py等五个主要的模块。nhmmer.py模块使用预定义的DNA隐马尔科夫谱(profile HMM)文件,从给定的基因组中搜索嗅觉受体基因并生成一个命中列表。FindOR.py模块根据命中列表,从基因组中获取假定的嗅觉受体编码序列,并尝试将其翻译成蛋白序列。IdentifyFunc.py模块确定上文中假定的嗅觉受体编码基因是功能性基因还是假基因。Batch.py模块可以对多个基因组进行批量注释。Iteration.py模块使用上一轮鉴定出的嗅觉受体基因来更新DNA profile HMM文件,从而提供迭代注释的功能。Iteration.py模块对于准确地鉴定非哺乳类脊索动物中嗅觉受体基因十分有用。
图1 Genome2OR五个主要模块
完成嗅觉受体基因组注释工具Genome2OR的开发之后,该团队使用它处理了截至2021年1月NCBI Assembly数据库中的1,695个已测序的脊索动物基因组,总获得了765,248个嗅觉受体基因,其中404,426个功能性基因和360,822个假基因,相比于UniProt和NCBI中的嗅觉受体数量增加了4倍。基于标注数据,该团队还建立了一个数据库,名为Chordata Olfactory Receptor database (CORD,https://cord.ihuman.shanghaitech.edu.cn),用于数据的归档、分析和传播。除了原始数据,CORD还提供衍生信息,包括物种图片、公共数据库的交叉链接、蛋白结构模型和序列相似性网络等。
图2 “受体”菜单有四层
此外,基于高质量的嗅觉受体数据,该团队对嗅觉受体家族的序列和结构模型进行分析,从嗅觉受体家族特征、激活机制、脱敏机制和嗅觉受体社群的演化等几个方面进行了较为深入探讨。嗅觉受体家族的数量特征分析表明,嗅觉受体在物种间数量上的差异比之前认为的还要大得多。另外,该团队发现腕鳍鱼类具有堪比大部分哺乳类动物的嗅觉受体数量,且假基因比例很低,这可能意味着腕鳍鱼类的嗅觉可能是鱼类中的佼佼者。社群演化分析发现,嗅觉受体社群伴随着物种的演化过程不断有新的社群出现也有社群消失,这可能是脊索动物的嗅觉为了适应环境而发生的改变。该团队还分析了嗅觉受体家族的激活与脱敏过程的特点,提出了新的理解。与A类G蛋白偶联受体(GPCR)的共同激活通路做比较性研究后发现,嗅觉受体拥有着与A类GPCR相似的疏水锁和微开关残基Tyr7.53,这暗示了嗅觉受体的信号放大机制可能与A类GPCR类似。嗅觉受体在胞内侧部分比A类GPCR保守得多,尤其是位于G蛋白结合口袋的残基,这意味着整个嗅觉受体家族的下游信号传导可能采用十分相似的方式进行。该团队对嗅觉受体家族的序列分析和磷酸化位点预测后发现嗅觉受体家族的绝大多数成员的C端都非常短且缺乏磷酸化位点,不具有招募阻遏蛋白(arrestin)的序列条件,这暗示了嗅觉受体在分子层面的脱敏机制可能不同于非嗅觉A类GPCR。
上海科技大学iHuman研究所和生命学院的韩伟为该文的第一作者,同机构的吴屹然和曾丽婷为该文的共同作者,赵素文研究员为该文的通讯作者。
Han, W., Wu, Y., Zeng, L., and Zhao, S. (2022). Building the Chordata Olfactory Receptor Database using more than 400,000 receptors annotated by Genome2OR. Sci China Life Sci 65, https://doi.org/10.1007/s11427-021-2081-6