查看原文
其他

预习 | 动植物基因组高阶生信培训班精彩提前看(二):基因组专题

王 璐 诺禾致源科服 2023-02-13

6月,动植物基因组团队携十年研究项目经验高阶生信培训班为你而来。我们在浩如烟海的文献、多种多样的分析、复杂晦涩的代码中吸取精华,汇集经典文章方案、分析思路、实用操作、投稿经验,“十全大补”提高你的学习和工作效率,或许你还能在这里结识同道伙伴。本期我们来预习主题课程之:基因组专题。


三代测序平台原理及优势


目前常用的三代测序仪器生产商有两家:Pacific Biosciences of California(NASDAQ: PACB,简称PacBio)和Oxford Nanopore Technologies(简称Nanopore)。PacBio测序平台基于其独特的单分子实时测序技术(Single Molecule Real Time,SMRT),通过其超长读长、均一的覆盖度、高度的一致性及准确性提供的遗传信息深度解析。该平台能够帮助研究人员获得超越碎片化的基因组草图,得到的从头组装结果,为研究人员打造高质量和高完整度的基因组从头组装结果,使许多富有挑战性的基因组学研究成为可能。Nanopore 测序平台是利用镶嵌有纳米孔通道蛋白的聚合物膜来对核酸进行测序。该平台的主要优势在于超长读长,理论上该平台没有读长限制,能够完整读出整条核酸的序列信息。得益于读长优势,利用 Nanopore 平台可以跨越基因组重复区域进行测序,减少组装错误,提升组装连续性,协助破译复杂基因组信息。同时该平台也能够检测大型结构变异,帮助研究人员解决棘手的生物学问题。除了三代数据,Hi-C、BioNano 光学图谱、遗传图谱等也是基因组组装的常用辅助数据。


基因组组装常用工具与方法


组装前,可以先使用二代数据进行k-mer分析,以预估基因组大小、杂合、重复等情况,以确定测序数据量、组装难度、污染情况等。目前,广泛使用的基因组组装算法有两种:OLC算法(Overlap-Layout-Consensus)和DBG算法(De-Bruijn-Graph)。通俗地说,OLC适用于reads读长较长的数据(三代测序),是在测序reads之间找overlap和连接路径;DBG适用于reads读长较短的数据(二代数据),是对测序reads取kmer,在kmer之间找overlap和连接路径。常用的组装软件有Hifiasm、Canu/HiCanu、Falcon、wtdbg2、NextDenovo等。Hifiasm 是专门针对 PacBio HiFi 数据进行基因组组装的工具。Canu 是老牌的基因组组装软件之一,HiCanu 是其针对 PacBio HiFi 数据进行优化后的组装工具。Canu 的组装准确度高、参数完备,相应地,对污染和混样敏感,资源消耗较多。Falcon 也是较为经典的组装工具,流程化程度较高,可以支持单套组装(Falcon-phase/Falcon-unzip),但目前尚有I/O瓶颈。wtdbg2 是一个快速高效的组装工具,对哺乳动物等简单基因组极其友好。NextDenovo 更加适用于 Nanopore 数据,但占用存储较多,且目前仅对3.5G以下基因组免费开放。对组装好的基因组,可以采用 N50 / NG50、序列一致性、BUSCO / CEGMA、EST / BAC序列、LAI 等对组装结果 3C(Contiguity / Completeness / Correctness,连续性/完整性/准确性)进行评估。


基因组注释常用工具与方法


对基因组的注释,主要包括重复序列注释、基因结构注释、基因功能注释和ncRNA注释。

根据基因组中的分布情况,重复序列可分为串联重复序列和散在重复序列。串联重复序列以特定的单元首尾相接排列在基因组上,主要有微卫星序列、小卫星序列等。散在重复序列即转座子(Transposable Element or transponson ),以特定的单元散在地分布在基因组上,主要有DNA转座子(转座方式为剪切-粘贴)和反转录转座子(转座方式为复制-粘贴)等。反转录转座子又包括LTR(植物多见)、LINE(动物多见)、SINE等。重复序列的保守性差,难以识别,可以通过同源序列比对和从头预测方法进行注释。常用软件或数据库有RepeatMasker、RepeatModeler、RepBase、LTR_FINDER、TRF等。对基因组进行重复序列屏蔽,有利于后期的基因结构预测。

基因结构包括编码区、前导区、尾部区、调控区等。原核生物的基因结构预测方法较为成熟,而真核生物由于位点复杂、可变剪切等原因,预测难度更大。可以通过从头预测、同源预测或其他证据如转录组数据支持对基因结构进行预测。常用软件有PASA、Augustus、EVM 等。基因功能注释是将基因结构注释得到的基因集利用比对软件与已知数据库进行比对后得到的,常用数据库包括 SwissProt、InterPro、KEGG、NR 等。ncRNA 包括 rRNA、tRNA、snRNA、snoRNA、microRNA 等已知功能和未知功能的非编码 RNA。rRNA 保守性强,可通过利用模式生物的 rRNA 数据集同源比对进行预测。根据tRNA的结构模式,可以利用软件 tRNAscan-Se 软件寻找基因组中 tRNA 序列。采用 cmsearch 软件,利用 Rfam 数据库给出的 miRNA 和 snRNA 的 CM 模型,搜索目标基因组序列获得 miRNA 和 snRNA 信息。


比较基因组学分析原理和内容


比较基因组学分析包括基因家族聚类分析、系统发育树构建、分歧时间估算、基因家族扩张收缩、正选择(适应性进化)、全基因组复制(WGD,分析植物)、基因共线性、大片段复制(分析动物)、功能基因比较等。

由于比较基因组分析内容较为庞杂且涉及到部分较为个性化的分析内容,在此我们就不一一列举。我们期待能在培训班的课堂上见到大家。

本期《动植物基因组高阶生信班》预习就到这里,我们下期再会。


心动不如行动,扫描下方二维码即可报名。

详情可咨询pag-pm@novogene.com,期待与您在智慧的海洋中相会。


  

动植物基因组高阶生信班级课程目录



好课并不贵,会员更实惠



号外:动植物基因组数据库上新了!




产品研发部    王 璐 | 文案图片来源于网络,侵删

往期精彩推荐




 


点击“阅读原文” 查看更多产品与服务

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存