基于扩增子测序的功能基因研究技术(四)——目标捕获的抗性基因测序
ResCap数据库
ResCap数据库是一个抗性基因特异性探针数据库,的参考数据来自ARG-ANNOT、CARD、RED-DB、ResFinder、BacMet和ConjDB。
首先应用CD-HIT对所有数据库中的数据进行去冗余,之后应用MUSCLE构建蛋白质家族,利用HMMER3建立蛋白质家族HMMs,将HMMs与UniProtDB比对,发现与构建蛋白质家族同源的序列,ResCap数据库共包含78600条非冗余序列。
ResCap利用基于SeqCapEZ (NimbleGene) 的靶标捕获平台进行捕获探针设计,目前包含8667个典型抗性基因 (7963条抗生素抗性基因、704条农药和重金属抗性基因)、2517个relaxase基因和78600个抗生素抗性、农药和重金属抗性基因同源序列的探针。
ResCap的技术路线
基于ResCap捕获抗性基因进行研究的步骤包括3步:
全宏基因组鸟枪文库构建:应用FastPrep工具参照MetaHIT标准方法进行DNA提取,Kapa Library Preparation Kit构建650-750bp文库;
杂交和捕获:应用ResCap进行靶标序列的杂交和捕获;
捕获DNA测序:使用Illumina平台应用NimbleGene标准方法进行测序。
分析流程
应用Bowtie2将测序得到的Reads与ARG-ANNOT、BacMet和ConjDB数据库进行mapping。
对Bowtie2得到的SAM格式结果文件进行统计,统计结果包括:
每个基因匹配的reads数目;
每kb基因匹配的reads数目;
只匹配一个参考基因的reads数目;
每个基因匹配序列的覆盖度;
每个基因在样品中的丰度。
新型抗性基因发现
除了与参考数据库比对计算已知抗性基因的丰度,ResCap的测序结果还可以用于发现新型的抗性基因,具体步骤如下:
首先,应用MegaHIT对reads进行拼接,采用Prodigal识别ORF,Quast对拼接序列进行定量。
应用BLASTN将ORF与ResCap数据库进行比对,注释阈值:E-value为1E-100,一致性大于95%,比对长度大于80%。
将未匹配的ORF应用BLASTP与UniProtKB数据库比对,注释阈值:E-value为1E-100,一致性大于95%,比对长度大于80%。
比对之后剩余的未得到任何匹配的ORF未新型抗性基因。