其他
将 UMI 添加到 read 名称里并去除 UMI 序列
在离这很远的地方,有一片海滩
1引言
UMI (Unique Molecular Identifiers)
通常加在插入片段的 两端, 主要用来区分 同一样本里的不同片段。常见的是来 区分片段的 PCR 重复。它是一个随机序列,通常在 10nt 左右。
如何区分是否为 PCR 扩增产生的重复?
为了区分是否两个或者多个片段是否是同一个片段由于 PCR 扩增产生的,那么这些片段应该具有某些特征:
1.UMI 序列相同。 2.序列 碱基 相同。
由于测序存在一定错误率,加入我们得到比对的 sam/bam 文件后,所以两个 PCR duplicates 可能序列不完全相同,我们可以假定某几个 read 的 UMI 序列相同
,比对的染色体相同
,同时比对的位置也相同
,那么我们可以认为是 PCR duplicates, 那么我们后续分析保留一条就行了。
今天这篇文献 (GSE157519) 的构库则是在插入片段里加入了 UMI 序列:
可以知道 read 的结构组成为:
3nt 随机序列
+3nt barcode
+插入片段
+3nt 随机序列
但是作者对 3'end 去除了 4nt 的碱基。
拥有相同的随机序列被认为是 PCR 重复序列:
今天我们要做的是就是去除两端的随机序列(包括 barcode),然后将随机序列添加到 read 名称里去。
2测试
微信扫一扫付费阅读本文
可试读34%
微信扫一扫付费阅读本文