将 UMI 添加到 read 名称里并去除 UMI 序列

Original JunJunLab 老俊俊的生信笔记 2022-08-17

收录于合集 #Ribo-seq 39个

在离这很远的地方,有一片海滩

1引言

UMI (Unique Molecular Identifiers) 通常加在插入片段的两端, 主要用来区分 同一样本里的不同片段。常见的是来 区分片段的 PCR 重复。它是一个随机序列,通常在 10nt 左右。

如何区分是否为 PCR 扩增产生的重复?

为了区分是否两个或者多个片段是否是同一个片段由于 PCR 扩增产生的,那么这些片段应该具有某些特征:

1.UMI 序列相同。
2.序列碱基相同。

由于测序存在一定错误率,加入我们得到比对的 sam/bam 文件后,所以两个 PCR duplicates 可能序列不完全相同,我们可以假定某几个 read 的 UMI 序列相同,比对的染色体相同,同时比对的位置也相同,那么我们可以认为是 PCR duplicates, 那么我们后续分析保留一条就行了。

今天这篇文献 (GSE157519) 的构库则是在插入片段里加入了 UMI 序列:

可以知道 read 的结构组成为:

3nt 随机序列+3nt barcode+插入片段+3nt 随机序列

但是作者对 3'end 去除了 4nt 的碱基。

拥有相同的随机序列被认为是 PCR 重复序列:

今天我们要做的是就是去除两端的随机序列(包括 barcode),然后将随机序列添加到 read 名称里去。

2测试

微信扫一扫付费阅读本文

可试读34%

微信扫一扫付费阅读本文

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

从地方目标看全国！今年经济增长还是有很高要求

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

将 UMI 添加到 read 名称里并去除 UMI 序列

1引言

2测试

您可能也对以下帖子感兴趣

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

从地方目标看全国！今年经济增长还是有很高要求

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

生成图片，分享到微信朋友圈

将 UMI 添加到 read 名称里并去除 UMI 序列

1引言

2测试

您可能也对以下帖子感兴趣