查看原文
其他

将 UMI 添加到 read 名称里并去除 UMI 序列

JunJunLab 老俊俊的生信笔记 2022-08-17


在离这很远的地方,有一片海滩

1引言

UMI (Unique Molecular Identifiers) 通常加在插入片段的 两端, 主要用来区分 同一样本里的不同片段。常见的是来 区分片段的 PCR 重复。它是一个随机序列,通常在 10nt 左右。

如何区分是否为 PCR 扩增产生的重复?

为了区分是否两个或者多个片段是否是同一个片段由于 PCR 扩增产生的,那么这些片段应该具有某些特征:

  • 1.UMI 序列相同。
  • 2.序列 碱基 相同。

由于测序存在一定错误率,加入我们得到比对的 sam/bam 文件后,所以两个 PCR duplicates 可能序列不完全相同,我们可以假定某几个 read 的 UMI 序列相同,比对的染色体相同,同时比对的位置也相同,那么我们可以认为是 PCR duplicates, 那么我们后续分析保留一条就行了。


今天这篇文献 (GSE157519) 的构库则是在插入片段里加入了 UMI 序列:

可以知道 read 的结构组成为:

3nt 随机序列+3nt barcode+插入片段+3nt 随机序列

但是作者对 3'end 去除了 4nt 的碱基。

拥有相同的随机序列被认为是 PCR 重复序列:

今天我们要做的是就是去除两端的随机序列(包括 barcode),然后将随机序列添加到 read 名称里去

2测试

微信扫一扫付费阅读本文

可试读34%

微信扫一扫付费阅读本文

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存