【直播】我的基因组(三):抽血送样测序
欢迎收看第三期直播:抽血送样测序。我们从以下几个问题进行本次直播?如果你有什么问题或者不同看法可在微信中留言与作者进行讨论!
什么是全基因组测序?
为什么选择二代测序不选择三代测序呢?
为什么要取血液样品测序?
采血过程有什么注意事项?
全基因组测序应该达到何种要求?
因为不了解观看直播的受众知识背景如何,但肯定不会都是生物信息学工程师,所以我还是先把我自己对全基因组测序的了解用通俗的语言描述一下。
大家都知道,通常正常人都有22对常染色体加上X,Y这两条性染色体。基因组是指生物体所携带的一套完整的单倍体序列,包括全套基因和间隔序列,也就是说我们所描述人类全基因组的时候指的一般是22条常染色体加上X或X、Y的性染色体,它们都是由A、T、C、G碱基组成,总共长度大约是30亿个碱基。全基因组测序,就是检测出全部30亿个碱基对是如何排列的,从第一个到第30亿个,一个都不落下。
我们可以直接在NCBI或者其它网站下载人类的参考基因组序列,因为基因组的探索是持续不断的进化过程,到目前为止,用的是hg38版本的参考基因组。如果你下载了hg38.fa这样的参考基因组记录文件,用文本编辑器打开,就会发现就是ATCG这样的字符。而如果我们想测自己的全基因组,就必须先了解人类的参考全基因组是如何得到的(自行搜索即可)。
到目前为止,主流测序技术仍然是illumina公司的二代测序技术,成本低廉,虽然测序长度就150~250个碱基,对A、T、C、G含量不平衡区域几乎无解,但足以应对大部分的常规分析。我们的全基因组测序一般就用二代测序技术即可,取几百万的细胞破碎后,把所有的染色体随机打断成小片段,一个个的测序,测上亿个片段得到的数据量就很可观了。不过做测序的仪器会比较昂贵,现在最经济,通量最大的是illumina的X10,国内有这个仪器的公司不多!
而三代测序是单分子测序,可以不用进行PCR,就直接对每一条DNA分子的单独测序,但在市场应用中并不是特别成熟,长度可以达到10,000~50,000 nt,但准确度比较低,其次成本也很高。因为读长长,三代测序在组装方面有着很大的优势。
相信大家很多都听说过只需要吐一口唾沫就可以进行基因检测,取一个毛发就可以进行亲子鉴定,但是我们要做的是全基因组测序,所以抽静脉外周血是最好的选择。我这里简单的说说我自己的理解,为什么选择血液而不选择唾沫和毛发做全基因组检测。
唾液,从唾液中提取DNA肯定是没有问题的,不少科研小组都在改进相应的实验操作方法,也很容易搜索到各种论文及新闻报道。然而提取得到的DNA中必然会有口腔微生物的DNA混杂,虽然我们可以把它们一起测序,然后通过比对到人类的参考基因组的手段来去除这些污染,但是我们的测序数据量是有限的,哪怕是口腔微生物的DNA测了序也是需要付费的,大致会有3成的数据被浪费掉。
毛发,从毛发里面提取DNA的技术本身就不成熟,而且提取效率低,再说了也同样有微生物的污染问题。
所以只有血液样品,可以完全避免微生物污染的问题,除非受试者正患有菌血症,否则血液里面是不会有微生物的,而且从血液里面分离白细胞然后提取DNA的技术是非常成熟的,具体实验操作守则见文末。
既然已经确定血液作为样品进行全基因组测序,那么我们就只需要搞定这一个步骤——抽血。每年一次的体检,还有其它时候做过的血常规,我们都有抽过血,很简单,用橡皮筋把胳膊系住,暴露出静脉,然后插入针头,连接采血管,血压自然把学挤到针管尽头的采血管即可(其实我也只是嘴上说说,我自己肯定做不了,也不可能找朋友帮忙,这必须是技术活呀
本来想着医院护士做起来那么简单,就直接去医院挂号好了。但连跑了3家医院都被告知不合规,要我们断了这个念头,医院所抽血液属于医疗用品,个人是无权带走的,更别提送去测序公司测序了,当然除非去那种不合规的私人小门诊。当时30斤的干冰都运到了医院,就准备抽完血直接把采血管放到干冰中直接顺丰送到公司测序的,这个壁碰的可真疼!幸运的是,后来在朋友的帮助下找到了主治医师直接安排了一个护士给我用采血管抽血了,整个过程耗时不到5分钟(再次向帮助我的朋友们表达真挚的感激之情)。
如果有也想自己测全基因组的朋友看到本文,请尤其注意采血送样这个步骤,不是想象中的那么简单,一定要先跟测序公司咨询好流程。而且采血管的种类还不是一般的多,这里需要的是EDTA抗凝管紫色头盖,适用于一般的血液学检验,当然也包括提取DNA来进行测序咯。
那么全基因组重测序应该达到什么样的数据要求,搜索一下就可以看到大部分公司宣传的全基因组测序都是30X,就是平均下来能把我们的30亿个碱基每个都测到30次,因为测序是随机的,必然有一些测序深度高一点,有些低一点。至于为什么选择30X这个标准呢,应该是有一篇文章做过梯度模拟,看看5~60X直接,对遗传变异的发现能力的增长情况如何,就是所谓的饱和度分析,而我们全基因组重测序的分析要点,就是挖掘跟参考基因组不一样的地方,而测序深度的增长伴随的就是成本的增长,根据文献(Sequencing depth and coverage: key considerations in genomic analyses - Nature Reviews (2014))及illumina的解释(Sequencing Coverage Calculation Methods for Human Whole-Genome Sequencing;Calling Sequencing SNPs)表明“平均深度达到30X的时候,可以覆盖基因组的95%”、“ This will lead to confident SNP scores and tolerates areas with somewhat lower coverage ”(有兴趣请回复“文献”查看全文)。所以,对我们来说,30X是最佳的选择,可以以最优的成本来挖掘到足够的遗传变异。但是测序仪产出的数据是有质量好坏的,所以还需要跟测序公司约定测序数据里面质量标准,一般用Q20,Q30的百分比这样的指标来表示。而且一般成熟的测序公司都会有相应的数据分析工程师,有成型的数据处理流程,根据支付费用的多少可以选择不同的服务。
附:外周血白细胞基因组的DNA的提取
文:Jimmy、吃瓜群众
图文编辑:吃瓜群众