基因组中是否存在未被DNA测序覆盖的区域（学徒翻译）

Original 生信技能树生信技能树 2022-06-06

原文链接：https://medium.com/musings-of-scientist/how-well-do-we-know-our-reference-genome-6a72ab4aa76e

如果基因组是一幅风景，你可以通过NGS创建该景观的地图，那么这幅地图肯定会有一些白色区域。换言之：一些基因组区域不能很好地被NGS技术测序的DNA所覆盖。在此，我们将解释这一点的重要原因。

重复DNA序列

重复DNA序列（例如串联重复序列）在许多物种中广泛存在。大约50％的人类基因组由重复序列组成（1）。重复是序列比对和组装程序的挑战，因为它们导致非常相似的短读取。它可以比作一个大拼图，其中一些拼图块可以放在几个地方。因此，重复会在比对和组装中造成歧义，反过来，它也会在解释结果时产生偏差和错误（1）。

G/C偏差

四种碱基（ACTG）在基因组中通常分布不均匀。具有高和低GC含量的DNA区域难以扩增，因为与具有混合碱基含量的DNA区域相比具有更高的稳定性。在这些情况下，DNA聚合酶易产生伪影。这些影响扰乱了大多数协议所需的扩增步骤。因此，来自具有高/低GC含量的区域的片段的表现不足，导致读取覆盖率低且不均衡（图1）。

一个常见的例子是恶性疟原虫，一种疟疾病原体。其基因组的一些编码区具有70％的AT含量。因此，直到最近，才有可能对寄生虫的基因组进行测序。目前的项目试图通过使PCR（扩增）产生的假象最小化或放弃扩增步骤（2）来改善这些区域的测序。

图1：在各种扩增条件下的全基因组碱基组成偏差曲线，线性尺度。图片来自（3）。

碎片偏差

如该文（https://www.ecseq.com/support/ngs/is-there-a-bias-after-dna-fragmentation）所述，DNA片段化是一个非随机的过程，特别是对于机械剪切方法。这导致各种基因组区域的不均匀覆盖，并且可导致欠/未覆盖区域。

总结

这些实例表明，使用NGS进行准确的DNA测序还存在许多技术难题需要解决。有时可以通过调整样品制备（例如DNA片段化）或测序过程本身（如恶性疟原虫所述）来减少问题。此外，为项目考虑不同的测序技术总是一个好主意。

之前发布了学徒招募，广受关注，得到了各路好友的大力宣传，大家对我是如何带学徒的细节比较感兴趣，所以简单介绍一些。

生信技能树超级VIP入场券发放(人民币一万起)（点击自助报名）

高三女生醉酒后被强奸致死？检方回应

常德悲剧：让谴责无差别杀戮之声更加响亮一点

2024【公共营养师】培训报名通道已开启，不限学历，23岁及以上可报！还能领2000补贴

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时

女人最偏爱的十种男人

基因组中是否存在未被DNA测序覆盖的区域（学徒翻译）

重复DNA序列

G/C偏差

碎片偏差

总结

您可能也对以下帖子感兴趣

高三女生醉酒后被强奸致死？检方回应

常德悲剧：让谴责无差别杀戮之声更加响亮一点

2024【公共营养师】培训报名通道已开启，不限学历，23岁及以上可报！还能领2000补贴

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋 华人崩溃大哭 连空姐都吐了; 客机颠簸盘旋3小时

女人最偏爱的十种男人

生成图片，分享到微信朋友圈

基因组中是否存在未被DNA测序覆盖的区域（学徒翻译）

重复DNA序列

G/C偏差

碎片偏差

总结

您可能也对以下帖子感兴趣

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时