查看原文
其他

【三代纳米孔专题】之科普篇—基于三代测序ONT平台的肿瘤结构变异检测

Magdalena 元码医学 2022-04-23

二代测序技术(Next-Generation Sequencing,NGS)经历了快速发展,已经进入到包括遗传疾病、实体肿瘤、感染性疾病及产前筛查等检测的临床应用阶段,为人类的健康和疾病提供了前所未有的视角和解决方案。但其短读长(150-300bp)的特性导致了在基因组组装、检测结构变异(structural variatants,SVs)和重复区域等方面的限制性。

近年来,以Pacific Biosciences(Pacbio)和Oxford Nanopore Technology(ONT)为代表的三代检测技术(Third-Generation Sequencing, TGS)的出现,其长读长(测序序列最长可达2M)优势为解决这些问题提供了新的思路[1-3]。

下面小编就以这篇利用ONT平台的数据成功检测肿瘤基因组中结构变异(structural variatants,SVs)的文章为例,为大家详细介绍一番。

01

 背景介绍

什么是基因组结构变异(SVs)

结构变异(SVs)广泛存在人类基因组内[4],它区别于单核苷酸变异(single nucleotide variants,SNVs),长度集中在50bp-50Kb,主要包括缺失(deletions, DEL)、插入(insertions, INS)、重复(duplications, TD)、移位(translocation, TLC)等。科学家发现,每个人类基因组存在大约20000个结构变异(SVs),等同于1000万个碱基对,是单核苷酸变异(SNV)所影响的碱基数的2倍。结构变异(SVs)的存在不仅能够导致巨人症、Potocki-Lupski 综合征和Smith-Magenis综合征等孟德尔遗传疾病(Mendelian disease),而且还会造成孤独症、癌症、阿尔茨海默症等复杂的疾病 (图1)。

人口基因组学研究还发现,结构变异(SVs)影响人类的多种表型特征,从而增加了人类的多样性,并使我们每个人都是独特的。例如,结构变异和身高、生育能力、淀粉消化效率和个体药物反应都有相关性。因此,利用可靠的技术检测个体基因组的罕见结构变异以及全面分析群体基因组常见结构变异都十分重要。


图1. 造成孟德尔遗传疾病及复杂疾病的已知结构变异类型

(STRUCTURAL VARIATION IN THE HUMAN GENOME,WHITEPAPER,PACBIO)

02

 主要研究成果

来自美国杰克逊基因组医学实验室(JAX GM)的Chia-Lin Wei教授课题组基于nanopore 平台的长读长序列开发了一款Picky (https://github.com/TheJacksonLaboratory/Picky)的分析软件,成功检测了乳腺癌模型的多种结构变异(SVs)类型。

1

利用Pipky对nanopore测序结果进行SV分析

研究人员首先提取人乳腺导管癌细胞HCC1187的基因组DNA利用ONT测序,共得到796029 条2D数据。使用Picky的方法对这些数据分三步进行分析,分别是:1、和人基因组比对,2、合并、筛选最佳比对结果,3、对SVs分类,来检测结构变异(SVs)(图2)。结果检测到共7种,34100个SVs和相近的66660个断点(Breakpoint),其中包括220个倒置(inversions,INV), 1911个移位(translocations,TLC), 3567 个串联重复(tandem duplications,TD)和 28402个 插入(insertions,INS), 缺失(deletions,DEL) 和 插入/缺失(INDEL)。之后,为了证实Picky结果的准确性,研究人员通过PCR和多重PCR的方式验证了超过200多个SVs位点,验证率分别为79%和100%。

图2. 基于长序列的一条定制的SV分析路线

2

picky和其他软件的比较结果

为了比较Picky和另外两个基于长序列分析SVs的软件(NanoSV和Sniffles)的准确性和敏感性,研究人员以Pacbio数据已证实的NA12878人类基因组中的INS和DEL作为参考数据,然后分别用Picky、NanoSV和Sniffles三种分析软件分析已测序的ONT数据,结果显示检测到的DEL分别是5246(66%)、5102(65%)和5251(66%),并且这些DEL是高度重叠的(图3)。

有趣的是, HCC1187人基因组的SVs显示出20bp~100Mb的大范围跨度(图4)。Picky可以利用长读长序列跨越整个变异区域检测到短的SVs。峰值集中在300bp左右的INSs、DELs和完全串联重复序列(complete tandem duplication resided within a read segment,TDCs)是HCC1187基因组内的主要SVs,并且主要是重复序列区域的拷贝数变异。

图3. Picky在检测SV方面的敏感性

图4. 长序列发现SVs丰富重复区及SV连接处的微小插入

3

SVs在基因组调控系统中的富集对基因表达的影响

最后,研究人员还研究了不同类型SVs相关断点在基因间、编码区(CDS)、启动子区(TSS上游2.5kb)、非翻译区(UTRs)和内含子的分布(图5)。

结果发现SVs主要富集在启动子区和非翻译区,主要类型是TD和TLC。启动区或调控区的SVs可选择的使导致原癌基因的激活或抑癌基因的失活,这可能是恶性肿瘤所特有的。

图5. 基因组中断点及其影响的基因的分布

为了验证这个假说,他们从来自113个三阴性乳腺癌(TNBC)和851个非三阴性乳腺癌(non-TNBC)组织的1260个编码基因和711个非编码基因中搜集了537 个DEL,2383个 INDEL 和 188 个重复连接(a duplication junction spanned across a read segment,TDJ)。如图5e显示,1260个编码基因利用DEL、INDEL和TDJ有效的区分了TNBC和non-TNBC,这不仅表明了SVs的功能特性,还将有助于肿瘤的分子分型

03

 展望

长读长测序有很多独特的特性,从而提高了SVs的目前检测状态。过去一年,nanopore测序的产量和准确性也得到显著提高。考虑到优越的序列比对特异性,我们期望单分子长读长具有更高的分辨率和更广泛的用途,对全基因组上特殊单倍体结构的分析在测序方法上产生典型的转变,这将揭示人类基因组变异的多样性和复杂性及其产生肿瘤的机制。


精彩预告:

想知道三代测序在结构变异检测里如何大展拳脚吗?

想知道肺癌ALK融合基因检测的最新成果吗?

关注元码医学,下期为您精彩放送!

参考文献

1. Rhoads A, Au K F. PacBio Sequencing and Its Applications[J]. Genomics Proteomics & Bioinformatics, 2015, 13(5):278-289.

2. Lu H , Giordano F , Ning Z . Oxford Nanopore MinION Sequencing and Genome Assembly[J]. Genomics Proteomics & Bioinformatics, 2016, 14(5):265-279.

3. Payne, A., Holmes, N., Rakyan, V. and Loose, M. BulkVis: A graphical viewer for Oxford Nanopore bulk fast5 fles.  Bioinformatics, bty841 (2018).

4. Scouarnec S L, Gribble S M. Characterising chromosome rearrangements: recent technical advances in molecular cytogenetics[J]. Heredity, 2012, 108(1):75.

5. Gong L , Wong C H , Cheng W C , et al. Picky comprehensively detects high-resolution structural variants in nanopore long reads[J]. Nature Methods, 2018.DOI: 10.1038/s41592-018-0002-6

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存