Genome Biology | 基于长读长转录组测序检测融合基因的新方法——JAFFAL,单细胞测序也适用!
基因组重排是癌症研究中的一项重要遗传信息。当不同基因中出现断裂点时,这些断裂点可以被转录成新的杂交转录本,产生融合基因。融合可通过激活致癌基因或灭活肿瘤抑制因子来驱动癌症。因此,融合基因是重要的诊断标志物和靶点,融合基因检测可以为癌症治疗提供信息。在过去的十年中,大规模并行短读长转录组测序极大地扩展了我们对跨癌症融合基因的了解,并越来越多地用于临床诊断,当前已开发出许多可用的生物信息学工具用于发现融合基因。
Oxford Nanopore Technologies(ONT)和Pacific Biosciences(PacBio)专注的第三代或长读测序技术可以为融合及其在癌症中的作用提供新的见解。长读长转录组测序通过对单个mRNA分子的全长进行测序,可以获得关于融合基因转录本结构和序列的远程信息(例如剪接、SNPs或附加的结构变体),发现具有全长异构体结构的融合基因。然而,基于长读长转录组测序进行融合基因检测的计算方法较少,且由于较高的测序错误率,专为短读长测序设计的融合基因识别算法并不适用。
为解决上述挑战,澳大利亚Peter MacCallum(PMC)癌症中心Alicia Oshlack研究团队开发了新方法JAFFAL,通过使用比对方法和过滤启发式算法,克服了长读长转录组数据的高错误率限制,可从长读长转录组测序数据中识别融合基因。研究团队使用模拟数据、细胞系和来自ONT和PacBio的患者数据对JAFFAL进行了验证,并将JAFFAL应用到单细胞数据中,发现了跨越三个基因的融合,展示了从复杂重排中检测到的转录本。该研究成果已发表在Genome Biology上,文章题为“JAFFAL: detecting fusion genes with long-read transcriptome sequencing”。
文章发表在Genome Biology上
目前,只有三种融合基因检测方法可用于长读长转录组测序数据:JAFFA、Aeron、LongGF。JAFFA虽然可以处理任何长度的转录组测序数据,但测序错误率较高时,其灵敏度很低;Aeron是基于参考转录组将长序列片段比对图形上来检测融合基因。LongGF可分析基因组长读长测序数据,并通过识别与多个基因比对的reads来检测融合。
为了利用新的长读长测序技术进行融合基因发现和表征,研究团队基于此前开发的JAFFA研发了新的融合基因检测工具JAFFAL。JAFFAL是一种用 bpipe 编写的新多级计算框架(图1),其设计来源于JAFFA 的Direct模式,该框架由以下步骤组成:(1)通过使用耐噪声的长读长比对工具minimap2将长reads与参考转录组比对来检测融合基因;(2) 选择与融合基因一致的reads进行进一步分析;(3) 随后使用minimap2与参考基因组hg38进行比对。这种与参考转录组和基因组的双重比对可最大限度地减少误报并减少计算时间。接下来,JAFFAL利用参考基因组比对的末端位置来确定融合断点,为克服长读长测序中的高错误率,JAFFAL采用了一种将转录本断点锚定到外显子边界的策略,在RNA中断裂点位于外显子的末端或开始处产生融合转录本。最后,将断点分成“高置信度”、“低置信度”和“潜在反式剪接”三类,在每个类别中,断点按照reads的数量进行排序,在最终列表中搜索具有两个或更多断点的reads来识别罕见的多基因融合事件,即包含三个或更多基因的序列。
研究人员利用模拟数据以及ONT和PacBio的癌症和健康细胞系数据对JAFFAL进行了验证。通过比较ONT转录组测序方案,发现在cDNA文库制备过程中产生了大量的嵌合分子,而RNA直接测序中不存在这些嵌合分子。此外,基于发生在外显子边界处的断点的过滤可以被移除,而断点发生在外显子内的罕见情况可以检测到。因此,JAFFAL可以通过精确定位相对于外显子边界的断点位置,有效过滤不相关事件,且模拟和非肿瘤细胞系数据表明,被JAFFAL归类为高置信度的假阳性率很低。
随后,研究团队利用JAFFAL在有背景噪声的长读长测序数据中检测模拟融合基因,将模拟的ONT reads与来自NA12878的2500万个cDNA reads相结合。结果显示,JAFFAL在三个数据集(无背景的ONT模拟数据、无背景的PacBio模拟数据和有背景的ONT模拟数据)中具有相似的融合基因识别灵敏度,当reads同一性为90%及以上且覆盖率为10或更大时,JAFFAL可检测到98%的模拟融合基因(图2A)。当数据仅包含融合reads时,JAFFAL对模拟数据的敏感度与LongGF的相一致,而存在NA12878的背景reads时,JAFFAL 的灵敏度高于LongGF(图2B)。此外,JAFFAL具有优于LongGF的断点分辨率,对于JAFFAL检测到的96%的融合基因,均报告了确切的断点,LongGF仅报告2%。因此,JAFFAL是一个精确的融合基因识别工具,可用于噪音较大的长读长测序数据,且允许在长读长测序数据中以与短读长测序相似的精度检测融合基因。
图2. 基于有噪音背景的模拟ONT数据的融合基因识别灵敏性。来源:Genome Biology
进一步地,研究团队将JAFFAL应用于六个癌细胞系的长读长转录组测序以证实JAFFAL的准确性。结果显示,与LongGF相比,JAFFAL报告了所有数据集的相同或更多已验证的融合基因(图3)。将JAFFAL应用于两个白血病患者的ONT测序样本,以评估其在真实环境中检测融合基因的能力。其中一名患者患有RUNX1-RUNX1T1融合的急性髓性白血病(AML),另一名患者患有BCR-ABL1和IGH-CRLF2融合的急性B淋巴细胞白血病,采用JAFFAL可检测到临床相关的融合(RUNX1-RUNX1T1,BCR-ABL1),与模拟数据及细胞系数据结果一致。对于IGH-CRLF2,由于断点发生在CRLF2上游约2kbp处,JAFFAL无法检测涉及基因间区域的融合,这是一个重要限制,也是大多数融合基因检测方法共有的缺陷。
图3. JAFFAL和LongGF在癌细胞系测序上的比较。来源:Genome Biology
最后,研究团队将JAFFAL应用于5种癌细胞系的长读长单细胞测序,展示了其在单细胞水平上发现融合基因的能力。根据来自短读长测序数据的基因表达,JAFFAL鉴定了15个融合基因。此外,通过利用长读长测序数据中的全长转录组信息,研究人员在H838非小细胞肺癌细胞系的单个细胞中鉴定了BMPR2-TYW5-ALS2CR11(由三个基因组成的融合体),展示了JAFFAL从复杂重排中检测单细胞融合基因的能力(图4)。
图4. 五种细胞系单细胞ONT测序中的融合基因检测。来源:Genome Biology
长读长测序的应用越来越广泛,其中一个重要应用是从转录组中检测科导致基因融合的结构重排。但很少有方法能够从长读长转录组测序数据中发现融合基因。研究团队开发了第一个长读长转录组融合基因检测工具JAFFAL。研究结果证明,JAFFAL对模拟数据的检测具有高灵敏度,且在癌细胞系和真实患者样本中均可检测到已知的融合基因。
长读长测序有许多优势,且能够与单细胞RNA测序相结合,从而对单个细胞的完整转录组进行测序。该研究证明融合基因可以在这些数据中检测到,为单细胞分析增加了新的研究方式,为肿瘤的异质性研究提供了新思路,有助于更好地理解肿瘤的驱动机制。
JAFFAL可从https://github.com/Oshlack/JAFFA/wiki获得。
参考文献:
Davidson NM, Chen Y, Sadras T, Ryland GL, Blombery P, Ekert PG, Göke J, Oshlack A. JAFFAL: detecting fusion genes with long-read transcriptome sequencing. Genome Biol. 2022 Jan 6;23(1):10. doi: 10.1186/s13059-021-02588-5. PMID: 34991664; PMCID: PMC8739696.
· END ·
热文推荐