基于扩增子测序的功能基因研究技术（四）——目标捕获的抗性基因测序

Original 红皇后学术红皇后学术 2022-06-07

收录于合集 #测序研究新技术 4个

ResCap数据库

ResCap数据库是一个抗性基因特异性探针数据库，的参考数据来自ARG-ANNOT、CARD、RED-DB、ResFinder、BacMet和ConjDB。

首先应用CD-HIT对所有数据库中的数据进行去冗余，之后应用MUSCLE构建蛋白质家族，利用HMMER3建立蛋白质家族HMMs，将HMMs与UniProtDB比对，发现与构建蛋白质家族同源的序列，ResCap数据库共包含78600条非冗余序列。

ResCap利用基于SeqCapEZ (NimbleGene) 的靶标捕获平台进行捕获探针设计，目前包含8667个典型抗性基因 (7963条抗生素抗性基因、704条农药和重金属抗性基因)、2517个relaxase基因和78600个抗生素抗性、农药和重金属抗性基因同源序列的探针。

基于ResCap捕获抗性基因进行研究的步骤包括3步：

全宏基因组鸟枪文库构建：应用FastPrep工具参照MetaHIT标准方法进行DNA提取，Kapa Library Preparation Kit构建650-750bp文库；
杂交和捕获：应用ResCap进行靶标序列的杂交和捕获；
捕获DNA测序：使用Illumina平台应用NimbleGene标准方法进行测序。

应用Bowtie2将测序得到的Reads与ARG-ANNOT、BacMet和ConjDB数据库进行mapping。

对Bowtie2得到的SAM格式结果文件进行统计，统计结果包括：

除了与参考数据库比对计算已知抗性基因的丰度，ResCap的测序结果还可以用于发现新型的抗性基因，具体步骤如下：

首先，应用MegaHIT对reads进行拼接，采用Prodigal识别ORF，Quast对拼接序列进行定量。

应用BLASTN将ORF与ResCap数据库进行比对，注释阈值：E-value为1E-100，一致性大于95%，比对长度大于80%。

将未匹配的ORF应用BLASTP与UniProtKB数据库比对，注释阈值：E-value为1E-100，一致性大于95%，比对长度大于80%。

比对之后剩余的未得到任何匹配的ORF未新型抗性基因。