为什么要做绝对定量测序-数据分析2
绝对定量测序热度持高,但是,为什么要做绝对定量测序呢?上期为大家解读了绝对定量测序的数据分析(点此查看),今日小编为大家友情解读第二篇绝对定量测序的数据分析,话不多说,进入正题:
上篇软文我们提到,不管是转录组测序还是miRNA测序,当使用常规去除PCR Duplication(mapping coordinates)方法,由不同cDNA(同一条转录本的多个表达拷贝)产生的相同reads会被错误的当成PCR Duplication,使得阳性数据被丢弃掉,造成PCR Duplication,或者说转录本表达量低估:
转录组测序中使用mapping coordinates法,16.4–44.5%的reads被认定为PCR Duplication,而UMI方法只有1.89–10.67%被认为是PCR Duplication,高估率达到几百上千倍。而在miRNA测序中,mapping coordinates法认定的PCR Duplication数据比例达到了56.0–76.8%,而使用UMI方法分析得到的PCR Duplication比率只有1.05–13.6%,二者相比最低相差也达到千倍。
通过上面数据对比可以看出,不管转录组测序还是miRNA测序,大部分序列一致的reads并不是PCR Duplication产生,而是真实的转录产物,联想到miRNA由基因组的很小部分区域转录,数据比对时多条miRNA同时mapping到相同的位点,因此使用mapping coordinates时更容易被错误的认定为更容易去除PCR Duplications。此外,随着测序成本下降,无论转录组测序还是miRNA测序,测序数据量都在提高,不同cDNA产生相同reads的概率也会提高,也说明数据量不是越高越好(RNA测序中增加数据真的那么重要吗)。
下图展示了常规mapping coordinates法和UMI法去PCR Duplications对不同转录本的影响,可以明显看到,119个转录本明显长度更短(median length = 602 nt)、表达量更高(median abundance = 200 FPKM),而其他转录本的median length和median abundance分别是1620和13.2,常规方式使得119个转录本过多reads被认为成PCR Duplications,表达量被低估例 1.25倍。
从这两篇数据分析角度的软文我们可知,虽然常规转录组和miRNA测序也有去PCR Duplication的操作,但是其采用的mapping coordinates的方法容易将真实表达的数据错误的归为PCR Duplications(miRNA测序中情况尤为严重),导致最终分析得到的转录本表达量被低估(更容易影响高表达和长度短的转录本)。
相关阅读推荐
为什么要做绝对定量测序-实验原因和实验解决策略(miRNA篇)