基于扩增子测序的功能基因研究技术(二)——药物合成基因挖掘
背景原理
微生物可以合成各种各样的物质,从微生物中鉴定与有价值的产物合成相关的基因是微生物研究和生物技术的重要方向。
虽然宏基因组的快速发展和广泛使用为从微生物中鉴定有价值的产物合成基因提供了巨大的帮助,但是由于宏基因组数据量较大,加之拼接和注释中存在的一些客观原因,直接从宏基因组数据中挖掘参与合成特定物质的功能基因依然具有很大的难度。
实际上,与生物合成相关的基因大都属于少数几类基因簇,只是由于基因间非保守区域的差异导致其合成产物不同。
技术路线
Nonribosomal peptide (NRP) 和polyketide (PK) 的生物合成在细菌合成重要的医用分子的过程中起重要作用,NRP和PK均具有3个保守的结构域。
应用针对NRP的AD结构域和PK的KS结构域的特异性兼并引物,对样品DNA进行PCR扩增。
A3F:5′-GCSTACSYSATSTACACSTCSGG A7R:5′-SASGTCVCCSGTSCGGTA degKS2F:5′-GCNATGGAYCCNCARCARMGNVT degKS2R:5′-GTNCCNGTNCCRTGNSCYTCNAC
扩增产物按照扩增子测序技术流程进行纯化和建库,最后使用Illumina Miseq PE300进行测序。
数据分析
应用paired-end-debarcoder根据barcode区分样品序列;
seqtk对数据进行质控;
UPASRE应用97%相似性进行OTU聚类,去除signletons;
剩余的OTU再应用Usearch以95%相似性进行聚类;
Phyloseq用于生成OTU表格以及生态排序分析;
使用eSNaPD将测序得到的序列与已知的生物合成基因簇进行比对。
eSNaPD
eSNaPD是一款在线的生物信息学和数据整合平台,能够辅助从宏基因组数据中挖掘有药用价值的化合物合成的基因簇。
eSNaPD的分析原理如下:
eSNaPD的分析结果如下:
(A) 从列表中选择一个特定的分子家族,其可以根据样品或生物合成系统对数据进行过滤;
(B) 展示选择的参考基因簇;
(C) 样品中鉴定到基因的系统发育树;
(D) 测序数据中鉴定到基因簇的序列数目。