之前给大家介绍了CellRanger具体使用方法(一文轻松玩转10X单细胞转录组官方分析软件CellRanger | 单细胞专题),感兴趣的老师可能已经做过了尝试,软件使用是不是超级简单,一句指令就可以自动运行输出全部结果。对于这种高度集中化的软件,具体内部分析是什么样的呢,如何一步完成结果输出呢?别着急,马上给您介绍CellRanger核心部分count的具体分析步骤及算法基本原理。
1细胞barcode,UMI提取先简单回顾下之前提到的10x单细胞标记原理和文库结构(下图),提取R1端的10x Barcode(16bp,用于区分细胞)和UMI序列(12bp,用于基因定量),以及R2端的插入片段序列(用于基因比对,R2端序列官方推荐长度:v3试剂91bp,v2试剂98bp)。
2比对使用STAR (Spliced Transcripts Alignment to a Reference)软件将reads(上步提取的91bp的R2插入片段)比对到参考基因组上,使用基因组GTF注释文件进行校正,区分出外显子区、内含子区、基因间区。具体的区分规则为:至少50%比对到外显子区的reads记为外显子区,比对到非外显子区且与内含子区有交集的reads记为内含子区,其他的均为基因间区。3barcode校正将测序获得的Barcode序列信息与数据库中已知Barcode序列进行比对,与数据库中已知Barcode完全一致的barcode序列(测得的序列)为真实的序列。如果比对时有一个碱基发生错配且该位置碱基质量值比较低时会按照已知的序列进行校正,其余情况的barcode为无效的,后续分析时直接舍弃。4UMI过滤和校正测序得到的UMI序列并不是简单的直接用于后续的分析,还需要对不合格的reads进行过滤及校正。具体过滤及校正方法如下:UMI需满足以下条件:必须不能是同聚物,比如AAAAAAAAAA必须不能含有N碱基必须不能包含质量值小于10的碱基UMI校正:具有相同barcode的UMI,如果只相差一个碱基的mismatch,会按照数目多的UMI碱基序列进行矫正。如下图C被校正为G。5UMI计数对所有的有效barcode进行计数(注意:只有包含有效的barcode和UMI且可靠比对的read才能用于计数),获得未进行过滤的原始细胞基因表达矩阵。6call cells细胞捕获时,一次捕获可产生近百万的GEMs(GEMs如下图最左侧),这些GEMs可能存在以下几种情况:A.一小部分GEM包含一个cell(下图红色示例图)B.很少部分GEM会包含多个cells(下图绿色示例图)C.很大部分GEM是空的,不包含任何细胞,但含有背景RNA,这些细胞被称为背景barcode(下图黄色示例图)因此,需要区分包含细胞的barcode和背景barcode,才能提取出正式的单细胞数据,用于下游分析。另外,cellranger3还引入了一种新的细胞计数算法,能够更好的识别RNA含量低的细胞,避免出现将此类细胞归为背景干扰的可能。该算法基本原理如下图:
Step1:识别第一模式的高RNA含量的细胞。(注意:cellranger2只识别该部分细胞)
Cell Ranger将期望捕获的细胞数量N作为输入,然后将barcodes按照各自的UMI总数由高到低进行排序,取前N个UMI数值的99%分位数为最大估算UMI总数(m),将UMI数目超过m/10的barcodes标记的细胞视为真实细胞。Step2:根据RNA图谱找到更多的细胞选择一组具有低UMI计数的barcode,这些barcode可能表示空的GEMs,构建RNA背景图谱。使用Empty Drops算法(参考文献:https://www.biorxiv.org/content/10.1101/234872v1),将第一步未记为细胞的图谱与背景RNA图谱进行比较,进而区分cell和non-cell。7二次分析(降维,聚类,差异等分析)基于第6步得到的细胞基因表达谱,通过降维(pca),聚类(Graph-based& K-Means)以及可视化(t-SNE)得到常见的细胞聚类结果,输出的结果可以用配套的Loupe Cell Browser软件进一步细致的研究。通过此文,您是否发现单细胞转录组测序分析实际非常简单。当然,这只是单细胞转录组测序的标准分析流程,拿到的只是基础分析结果。单细胞测序更多还是要做深入的数据挖掘和多样的个性化分析,才能更好地解释生物学问题,后续我们还会继续为您分享单细胞文章常见的个性化分析及实现手段,敬请期待~
相关阅读
单细胞测序,明明可以捕获1W细胞,为什么高分文章只捕获2-3千个细胞?| 单细胞专题
同样是做单细胞测序,您选择的基因为什么标记不到细胞?| 单细胞专题
一文轻松玩转10X单细胞转录组官方分析软件CellRanger | 单细胞专题