玩转14000年前古基因组 | BGISEQ-500 WGS版盗墓笔记
近期BGISEQ-500平台屡创佳绩,有了Freestyle之后 ,又有了新文章。
这一次,不是寻常的样本,而是从
考古材料、古生物化石、生物遗体、遗迹、及沉积物中
取得的古代生物DNA分子。
今日,请走进BGISEQ-500 WGS版盗墓笔记!
随着测序成本的下降和测序准确度的提高,对于古基因组的探索比之前有了空前的发展。从构建古人基因组,到构建类人动物、其它动植物,甚至真菌的基因组。不仅如此,还开展了群体基因组、宏基因组研究,甚至有些研究已经开始延伸到转录组和表观遗传领域了。
尽管已经取得了如此多的进展,但有1个关键限制因素始终存在——成本!虽然二代测序的成本已经以超过摩尔定律的速度在下降了,但是,由于大多数的古DNA是从复杂的富含外源DNA污染的环境中提取出来的。这些困难也就意味着——想要得到同样多的数据量,需要的测序深度要比现代DNA样本高得多。
近期华大基因联合丹麦哥本哈根大学、丹麦技术大学等开展了在BGISEQ-500和HiSeq 2500两个测序平台上进行古基因组的研究的比较,结果发表于2017年6月26日发表在GIGA Science上。
本研究中,分别采用BGISEQ-500和Illumina HiSeq 2500平台,对91-14000年前的8个古老大型犬科动物的DNA 样本进行测序(表1),并对测序性能和数据质量进行比较。研究结果表明,数据表现在两个测序平台上基本相当(表2)。BGISEQ-500是可用于古基因组测序的有效并有价值的潜在替代平台,值得用此平台进一步探索降解DNA。
表1: 8个历史古老的狗和狼样本信息
表2: 数据统计总结
* δD:双(Double)链损伤率,即双链胞嘧啶脱氢比率,(C->T);
δS:单(Single)链损伤率,即单链胞嘧啶脱氢比率,(C->T);
θ:考虑DNA损伤后参考序列和样本之间差异的背景率;
Clonality:克隆率,在去DUP之后保留的reads数与去adapter和trim后的reads的比率;
内源DNA水平
决定古基因组测序成本最大的因素就是内源核DNA的含量,以及内源核DNA平均序列长度。毫无疑问,这两个指标都是越高越好。而这两个对于测序成本最重要的指标在两个平台间并没有显著差异(表3)。而有意思的是,在距今14,000年前的三个样本(FRC、L、M1)中,竟然有一个(编号M1)的内源DNA含量与距今最近的样本含量相当。
测序准确性
文章用双链和单链的胞嘧啶脱氢率(即C变成T)来计算DNA的损伤率。两个平台的双链DNA损伤率(δD)没有显著差异,但BGISEQ-500平台的单链DNA损伤率(δS)却略低。而与参考基因组差异的背景值θ,又是BGISEQ-500平台略高。
再进一步来看文库的复杂度。低复杂度的文库,会导致很多测序reads会来自相同的文库分子。从而导致当测序深度增加时,没有带来有效数据增加,反而是增加了更多的冗余数据或者是引入了偏向性。因此,测序时会更倾向于追求复杂度更高的文库。在本研究中,BGISEQ-500平台产生的8个文库中,竟然有7个的文库复杂度都显著的高于HiSeq平台(图1)。而其中差异最大的,正是距今14,000年前的最古老样本之一。如此看来,BGISEQ-500平台在古DNA的测序准确性上似乎略胜一筹。当然,这点还需要更多的研究,更多的数据来证明。
表3: 数据统计分析结果
* Significant at P<0.05
图1 实线是在Illumina HiSeq 2500平台上文库复杂性的估计,
虚线是对BGISEQ-500平台测序的文库复杂性的估计,
8个样本中的每一个由不同的颜色表示。
基因组覆盖均一性
为了讨论测序在基因组上的覆盖区域是否有平台的特异性,研究人员使用了k-mer频率和GC含量这两个参数。多数样品的两个平台测序方法之间的k-mer模式是一致的,样品配对聚集在一起。 只有2个样本(P83和1921)的差异略微明显(图2)。其中的样本1921,正是唯一一个BGISEQ-500比HiSeq 2500具有更低文库复杂性的文库,但具体其中的联系却很难解释。
图2 文库间k-mer计数的热图
研究发现平均GC含量没有统计学差异(表2,表3),进一步分析中,相同窗口的片段数在BGISEQ-500和Illumina之间有很好的相关性(图3,图4)。
图3 上图:每100Kb窗口的中值归一化片段数(normalised fragment count,NFC),
实线表示Illumina数据,虚线表示BGISEQ-500数据。
下图:与上图相同的窗口中计算GC的百分比。
图4:100Kb的窗口的Illumina vs BGISEQ-500的中值归一化片段计数(NFC)。
每个点的颜色对应于窗口的GC含量。对于高质量样本(1921,214,FRC,M1),
可以观察到两个平台之间的NFC有非常好的相关性, 片段数似乎与GC含量相关。
CNV
最后,文章还评估了CNV水平。虽然文库不均匀降解、片段化、克隆和数据低覆盖度使得CNV评估非常具有挑战性,但还是对两平台的CNV进行比较。 通过质控的相关系数r2值的范围为在0.35-0.96之间(表5)。结果说明了两种测序平台对于高质量CNV calls都是可行的,但很难说明CNV calls差异是由于测序平台上的还是文库性质的不同造成的。
表5:平台之间的相同基因组窗口中拷贝数的相关系数
a质量控制通过;b 质控结果良; c 至少有一个平台的质控失败
总结来说,虽然本研究仅基于8个标本,但无论其内源DNA含量(<1-75%)和标准化平均内源性DNA序列长度(约42-76bp)都是其他许多古代样品的典型值。研究结果除了错误率有非常细微的差异高之外,BGISEQ-500的性能在准确性、基因组覆盖均一性、CNV calling上都是可比的。值得一提的是,本次比较的对象HiSeq 2500平台,是目前公认的HiSeq系列平台中测序质量最高的平台。它的测序质量要显著高于目前使用更广泛的HiSeq 4000和Hiseq XTen。更何况,BGISEQ-500最低40元/G的价格,使得其在古基因组研究上更有优势。
★阅读原文请点击原文链接
这样看来,要玩转古基因组,BGISEQ-500是个不二选择!
华大科技
您的首选科研合作伙伴
详情请咨询4007066615或当地销售代表
参考文献
1. Poinar HN (1999) DNA from fossils : The past and the future. Acta Paediatrica 88 :133-140.
2. Wandeler P, Smith S, Morin PA, Pettifor RA, Funk SM (2003) Patterns of nuclear DNA Degeneration over time-a case study in historic teeth samples. Mol Ecol 12:1087-1093.
3. Pääbo S, Higuchi RG, Wilson AC (1989) Aneient DNA and the polymerase chain reaction. The emerging field of molecular archaeology. J Biol Chem 264:9709-9712.
4. Greer S, Zamenhof S (1962) Studies on depurination of DNA by heat. J Mol Biol 4:123-141.
5. Poinar HN (2002) The genetic secrets some fossils hold. Acc Chem Res 35:676-684.
撰稿:蔡悦 郑小乐
编辑:市场部
猜你喜欢
我有Freestyle | 40元/G WGS测序数据的任性风
又一篇!BGISEQ-500平台文章见刊,这次是Small RNA!
近期热文
Label free升级版 vs iTRAQ | 到底谁才是最强蛋白组定量分析方案?
请继续关注“华大科技BGITech”公众号,
科技君将一如既往地为您提供精彩内容!
如有相关问题,欢迎后台留言~~
▼
关注华大科技,尽享精彩科研!