二代测序的Barcode选择
1 混合样本测序
现代测序仪的生产能力正在经历突飞猛进的提高,数据量远远大于单个样本测序所需,因此在很多情况下,需要把多个样本混合在一起测序,以充分发挥仪器的能力,节约测序成本。像外显子组测序、转录组测序、小RNA (miRNA)测序、lncRNA测序、ChIP测序等应用,每个样本所需的数据量通常都比较少,样本混合是普遍作法。以外显子组为例,捕获区域大约64 M,如果测序深度为200x的话,就是13 G数据,而HiSeq 2000一条通道(lane)的数据量为44 G左右,可以混合3个样本;以转录组为例,一个样本测序20 M片段(reads)可满足绝大多数研究所需,而HiSeq 2000一条通道的数据产量是220 M片段以上(paired-end测序。如果双端分别计算,则为440M),可以混合10个样本。
为了测序完成后能够区分混合样本中每个样本各自的测序数据(de-multiplexing),在构建文库(library)的时候就需要用不同的标签序列(index, 也叫barcode)对来自不同样本的文库分别进行标记。只有在文库上作了记号,测序数据才能相互区分。
Barcode组合的选择是一门技术活,有很多细节需要考虑。如果barcode组合不佳,会导致标签序列的测序质量下降,部分或者全部标签序列不能进行准确的碱基识别,从而导致部分数据无法归属到任何一个样本,成为所谓的undetermined数据,造成浪费。
2 如何判断barcode组合好不好
2.1 碱基平衡。好的barcode组合必须是“4种碱基达到平衡”的,或者说碱基复杂度高。碱基平衡的具体内容是指:a. 在一组barcode的每一个位置,同时存在A、G、C、T四种碱基,不缺少任何一种碱基;b. 这4种碱基的比例接近,最好各1/4,分别为25%左右,没有任何一种碱基特别多或者特别少。
2.2 激光平衡。受客观条件限制,主要是a.试剂盒提供的barcode种类有限,b.有些barcode已经被其他样本占用,导致可选的余地受限制,这就导致barcode组合经常无法达到理想的碱基平衡要求。退而求其次,要力保“红绿激光达到平衡”。在所有型号的Illumina测序仪中,A和C两种碱基共用一种激光,由波长660nm的红激光激发;G和T共用一种激光,由波长532 nm的绿激光激发。对于一组barcode的每一个位置,如果A+C的总数与G+T的总数相接近,可以在一定程度上弥补碱基不平衡的负面作用。
2.3 需要注意的是,激光平衡是次优选择,乃不得已而为之。激光平衡虽然可以在一定程度上提高barcode的测序质量,减少de-multiplexing出故障的可能性,但是并不是说,只要激光平衡了,测序数据的分离就一定不受影响。
2.4 如果barcode组合的碱基也不平衡,激光也不平衡,那就不能使用,de-multiplexing出问题的风险非常高。
3 Barcode组合举例
3.1 好的barcode组合
Illumina推荐的12重barcode组合详列如下。我们以它为例,具体分析什么叫碱基平衡。
编号 标签序列
01 ATCACG
02 CGATGT
03 TTAGGC
04 TGACCA
05 ACAGTG
06 GCCAAT
07 CAGATC
08 ACTTGA
09 GATCAG
10 TAGCTT
11 GGCTAC
12 CTTGTA
以其中的第一个位置为例(纵列),A:G:C:T=3:3:3:3=1:1:1:1。实际上,该barcode组合每个位置的碱基比例都接近1:1(具体见下表),碱基平衡度接近完美。
位置 | 1st | 2nd | 3rd | 4th | 5th | 6th |
A | 3 | 3 | 4 | 3 | 3 | 3 |
T | 3 | 3 | 3 | 3 | 4 | 3 |
C | 3 | 3 | 3 | 3 | 2 | 3 |
G | 3 | 3 | 2 | 3 | 3 | 3 |
3.2 不好的barcode组合
下面这个barcode组合有一定缺陷。举例而言,第1个位置只有A和C两种碱基,A、C属于红激光,这会导致绿激光完全没有信号,碱基和激光都不平衡。
AGTTCC
ACTGAT
ACGAGC
ACTCCT
CAAAAG
CAACCA
CACCAG
4 Barcode碱基不平衡的后果
4.1 如果barcode组合的碱基组成不平衡,会导致测序进行到这些碱基时,软件对测序信号的处理出现障碍,不能准确地识别这些碱基(base-calling),表现为QV值降低,%Q30曲线波动。
4.2 在这种情况下,运用生物信息软件对测序数据进行数据分离(de-multiplexing)出现困难,部分数据不能准确分离,成为无法识别的(undetermined)数据的一部分,造成undetermined数据增多,可分离的数据减少。
4.3 如果测序数据的总量很多,远大于全部样本数据量期望值的总和,则问题有可能不那么严重,全部或者大部分样本仍然可能分离到足够的数据量。
4.4 万一样本性质特殊,反应效率低;或者混合样本之间竞争和抑制严重,导致测序数据总量在期望值附近,余量很少;或者其中个别样本数据量特别少,这时如果undetermined数据比例过高,就会导致部分或者全部样本的数据量不够用。
4.5 混合样本补数据是一个非常麻烦的问题,成本极高。如果一组样本中只有个别样本需要补数据,由于文库是混合在一起的,其他样本也不得不跟着重测一次。这是困难之一。困难之二,如果数据缺口比较小,本来可以与其他样本混合,搭个便车,可是,进行第二次混合的时候,经常会遇到barcode冲突或者碱基不平衡,拼lane非常困难,往往要等很长时间,才有合适的机会。顺风车不好搭。
5 实验证明de-multiplexing成功,该barcode组合是否今后一定好用?
如果一个barcode组合碱基平衡,则无论样本怎么改变,该组合一定好用。
如果barcode组合的碱基组不平衡,即使以前的实验证明它好用,不等于今后一定好用。下一次测序效果可能好,也可能不好。
这是由于不同的项目,样本发生了变化,是不一样的,有可能导致两种后果:a. 数据总量在期望值附近,余地不够多,de-multiplexing后部分样本数据量不够;b. 如果新的样本本身也碱基不平衡,read 1测序质量很差,会影响到barcode和read 2的测序质量。当然,情况b的责任不在barcode,即使barcode好,数据还是不好。
6 补救措施
如果满足以下两个条件:
a. 混合样本的数据总量足够,只是由于barcode质量不好,导致de-multiplexing后部分或全部样本数据量不够;
b. 排除QV值低的barcode碱基后,其余质量好的barcode碱基仍然足够用来区分全部样本;
那么,可以通过改变de-multiplexing算法来为每个样本获得尽量多的数据。比如去掉信号识别模糊的碱基,或者增加mismatch碱基的数目,重新运行de-multiplexing程序。
7 样本少于4种,不可能碱基平衡,怎么办?
如果样本数少于4种,则barcode每一个位置的碱基最多只有3种,不可能做到碱基平衡,怎么办呢?这时一定要保证激光平衡。
Illumina提供了这种情况的解决方案,他们推荐的low-level pooling的barcode组合有3种,序列如下:
2重组合:
#6 GCCAAT
#12 CTTGTA
3重组合:
#4 TGACCA
#6 GCCAAT
#12 CTTGTA
6重组合:
#2 CGATGT
#4 TGACCA
#5 ACAGTG
#6 GCCAAT
#7 CAGATC
#12 CTTGTA
可以看出,这3种barcode组合包含有一个共同的内核:6号barcode和12号barcode。6号和12号组合是百分百激光平衡的,其每一个位置(纵列,即GC、CT、CT、AG、AT和TA)都分别属于不同的激光。
这等于告诉给我们:只要barcode组合中包含6号和12号,就能满足最基本的de-multiplexing要求,不至于颗粒无收。6号和12号是barcode组合的核心,在选择barcode时不可或缺。
附记:
对于碱基不平衡问题,难以获得官方资料。我们以上有关碱基不平衡对测序数据质量的影响的理解,符合该平台的二代测序原理,而且在大量测序实践中观察到这种现象是普遍存在的,我们所提出的对策是行之有效的。