查看原文
其他

玩转14000年前古基因组 | BGISEQ-500 WGS版盗墓笔记

2017-07-10 蔡悦、郑小乐 华大科技BGITech



近期BGISEQ-500平台屡创佳绩,有了Freestyle之后 ,又有了新文章。

这一次,不是寻常的样本,而是从

考古材料、古生物化石、生物遗体、遗迹、及沉积物中

取得的古代生物DNA分子。

今日,请走进BGISEQ-500 WGS版盗墓笔记!


导读

古DNA是指从考古遗迹和古生物化石标本中获取的古生物的遗传物质[1]。古DNA由于在漫长年代中长时间的水解作用、氧化作用及环境微生物降解作用等而严重降解[2],核DNA片段一般不超过150bp[3]。而残存的片段内部还广泛存在单链缺口、碱基转换和碱基脱落等各种问题[4][5],为古DNA的研究带来了巨大的挑战。


随着测序成本的下降和测序准确度的提高,对于古基因组的探索比之前有了空前的发展。从构建古人基因组,到构建类人动物、其它动植物,甚至真菌的基因组。不仅如此,还开展了群体基因组、宏基因组研究,甚至有些研究已经开始延伸到转录组和表观遗传领域了。


尽管已经取得了如此多的进展,但有1个关键限制因素始终存在——成本!虽然二代测序的成本已经以超过摩尔定律的速度在下降了,但是,由于大多数的古DNA是从复杂的富含外源DNA污染的环境中提取出来的。这些困难也就意味着——想要得到同样多的数据量,需要的测序深度要比现代DNA样本高得多。


近期华大基因联合丹麦哥本哈根大学、丹麦技术大学等开展了在BGISEQ-500和HiSeq 2500两个测序平台上进行古基因组的研究的比较,结果发表于2017年6月26日发表在GIGA Science上。



本研究中,分别采用BGISEQ-500和Illumina HiSeq 2500平台,对91-14000年前的8个古老大型犬科动物的DNA 样本进行测序(表1),并对测序性能和数据质量进行比较。研究结果表明,数据表现在两个测序平台上基本相当(表2)。BGISEQ-500是可用于古基因组测序的有效并有价值的潜在替代平台,值得用此平台进一步探索降解DNA。


表1: 8个历史古老的狗和狼样本信息


表2: 数据统计总结

* δD:双(Double)链损伤率,即双链胞嘧啶脱氢比率,(C->T);

 δS:单(Single)链损伤率,即单链胞嘧啶脱氢比率,(C->T);

 θ:考虑DNA损伤后参考序列和样本之间差异的背景率;

 Clonality:克隆率,在去DUP之后保留的reads数与去adapter和trim后的reads的比率;


内源DNA水平


决定古基因组测序成本最大的因素就是内源核DNA的含量,以及内源核DNA平均序列长度。毫无疑问,这两个指标都是越高越好。而这两个对于测序成本最重要的指标在两个平台间并没有显著差异(表3)。而有意思的是,在距今14,000年前的三个样本(FRC、L、M1)中,竟然有一个(编号M1)的内源DNA含量与距今最近的样本含量相当。


测序准确性


文章用双链和单链的胞嘧啶脱氢率(即C变成T)来计算DNA的损伤率。两个平台的双链DNA损伤率(δD)没有显著差异,但BGISEQ-500平台的单链DNA损伤率(δS)却略低。而与参考基因组差异的背景值θ,又是BGISEQ-500平台略高。


再进一步来看文库的复杂度。低复杂度的文库,会导致很多测序reads会来自相同的文库分子。从而导致当测序深度增加时,没有带来有效数据增加,反而是增加了更多的冗余数据或者是引入了偏向性。因此,测序时会更倾向于追求复杂度更高的文库。在本研究中,BGISEQ-500平台产生的8个文库中,竟然有7个的文库复杂度都显著的高于HiSeq平台(图1)。而其中差异最大的,正是距今14,000年前的最古老样本之一。如此看来,BGISEQ-500平台在古DNA的测序准确性上似乎略胜一筹。当然,这点还需要更多的研究,更多的数据来证明。


表3: 数据统计分析结果

* Significant at P<0.05 


图1 实线是在Illumina HiSeq 2500平台上文库复杂性的估计,

虚线是对BGISEQ-500平台测序的文库复杂性的估计,

8个样本中的每一个由不同的颜色表示。


基因组覆盖均一性


为了讨论测序在基因组上的覆盖区域是否有平台的特异性,研究人员使用了k-mer频率和GC含量这两个参数。多数样品的两个平台测序方法之间的k-mer模式是一致的,样品配对聚集在一起。 只有2个样本(P83和1921)的差异略微明显(图2)。其中的样本1921,正是唯一一个BGISEQ-500比HiSeq 2500具有更低文库复杂性的文库,但具体其中的联系却很难解释。


图2  文库间k-mer计数的热图


研究发现平均GC含量没有统计学差异(表2,表3),进一步分析中,相同窗口的片段数在BGISEQ-500和Illumina之间有很好的相关性(图3,图4)。


图3  上图:每100Kb窗口的中值归一化片段数(normalised fragment count,NFC),

实线表示Illumina数据,虚线表示BGISEQ-500数据。 

下图:与上图相同的窗口中计算GC的百分比。


图4:100Kb的窗口的Illumina vs BGISEQ-500的中值归一化片段计数(NFC)。

每个点的颜色对应于窗口的GC含量。对于高质量样本(1921,214,FRC,M1),

可以观察到两个平台之间的NFC有非常好的相关性, 片段数似乎与GC含量相关。


CNV


最后,文章还评估了CNV水平。虽然文库不均匀降解、片段化、克隆和数据低覆盖度使得CNV评估非常具有挑战性,但还是对两平台的CNV进行比较。 通过质控的相关系数r2值的范围为在0.35-0.96之间(表5)。结果说明了两种测序平台对于高质量CNV calls都是可行的,但很难说明CNV calls差异是由于测序平台上的还是文库性质的不同造成的。


表5:平台之间的相同基因组窗口中拷贝数的相关系数

a质量控制通过;b 质控结果良; c 至少有一个平台的质控失败


总结来说,虽然本研究仅基于8个标本,但无论其内源DNA含量(<1-75%)和标准化平均内源性DNA序列长度(约42-76bp)都是其他许多古代样品的典型值。研究结果除了错误率有非常细微的差异高之外,BGISEQ-500的性能在准确性、基因组覆盖均一性、CNV calling上都是可比的。值得一提的是,本次比较的对象HiSeq 2500平台,是目前公认的HiSeq系列平台中测序质量最高的平台。它的测序质量要显著高于目前使用更广泛的HiSeq 4000和Hiseq XTen。更何况,BGISEQ-500最低40元/G的价格,使得其在古基因组研究上更有优势。

★阅读原文请点击原文链接


这样看来,要玩转古基因组,BGISEQ-500是个不二选择!


华大科技

您的首选科研合作伙伴

详情请咨询4007066615或当地销售代表


参考文献

1. Poinar HN (1999) DNA from fossils : The past and the future. Acta Paediatrica 88 :133-140.

2. Wandeler P, Smith S, Morin PA, Pettifor RA, Funk SM (2003) Patterns of nuclear DNA Degeneration over time-a case study in historic teeth samples. Mol Ecol 12:1087-1093.

3. Pääbo S, Higuchi RG, Wilson AC (1989) Aneient DNA and the polymerase chain reaction. The emerging field of molecular archaeology. J Biol Chem 264:9709-9712.

4. Greer S, Zamenhof S (1962) Studies on depurination of DNA by heat. J Mol Biol 4:123-141.

5. Poinar HN (2002) The genetic secrets some fossils hold. Acc Chem Res 35:676-684.



撰稿:蔡悦  郑小乐

编辑:市场部



猜你喜欢

我有Freestyle | 40元/G WGS测序数据的任性风

买5送1,40元/G数据!WGS第二波特惠来袭!

又一篇!BGISEQ-500平台文章见刊,这次是Small RNA!

喜报!WGS首篇,BGISEQ-500平台第三篇文章发表!

BGISEQ-500转录组新年送大礼



近期热文

第二届基因组云计算技术开发者大会在深圳顺利召开

Label free升级版 vs iTRAQ | 到底谁才是最强蛋白组定量分析方案?

高考出分,科技君也很紧张!

新研究 | 外泌体比你想象的更强大

加班也要学会的新技能 | 多倍体重测序

未解之谜 | 人类的起源

新研究 | 这样可以狂吃不胖!



请继续关注“华大科技BGITech”公众号,

科技君将一如既往地为您提供精彩内容!

如有相关问题,欢迎后台留言~~

关注华大科技,尽享精彩科研!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存