查看原文
其他

单细胞测序,明明可以捕获1W细胞,为什么高分文章只捕获2-3千个细胞? | 单细胞专题

市场部-LYR 联川生物 2022-05-21

之前的文献稿里,小编为您提取整理了100余篇2019年发表的10X单细胞转录组测序文章的信息(联川福利 | 2019年度170篇单细胞文章免费送啦),发现了一个有趣的现象,就是在这100余篇文章中,单个样本的平均只捕获3338个细胞,从研究方向看,所有文章可分为Cell Atlas、Developmental Biology、Cell Biology、cancer、Immunology和Neuroscience 6大类,其中Cell Atlas类别的文章,每个样本平均细胞捕获数最大,但是捕获数也只有4226个细胞(表1)。

表1:不同单细胞文章类别信息

更有意思的一个现象是,随着文章IF增加到超过15,样本平均细胞捕获数明显低于所有文章的样本平均细胞捕获数(表2)。

表2:不同IF区间文章信息

为什么10X官方提到,单个样本建议的捕获细胞数范围是500-10000细胞,这些文章的细胞捕获数还这么少呢?

单个样本捕获的细胞那么少,就需要提高样本数,这得多花多少实验经费啊!

其实小编以为,虽然这些文章中单个样本捕获细胞数少了,实验总投入增加,但是确保证了实验数据质量。至于原因是什么,小编列了以下几个可能的原因:

1



不同的细胞浓度下,想要获得不同的目标细胞捕获数,需要上机不同体积的细胞悬液(图1)
图1:目标细胞捕获数-细胞浓度-细胞悬液体积对应图
在上机细胞悬液浓度固定时,如果目标细胞捕获数增加到8000甚至10000,上样细胞悬液体积势必增加,在细胞悬液质量不是很理想(细胞活性<90%、碎片率>5%、结团率均>5%)的情况下,引入的背景信号会增加,分析结果不理想的直接体现包括:cell、non-cell无法有效区分(图2左,一文让您搞懂单细胞转录组分析原理)和Fraction reads in cells偏低。当cell和non-cell无法有效区分时,会使得数据出现假阳性和假阴性结果!
图2:单细胞测序Rank Plot图
注:绿色(cell)和灰色(non-cell),左图绿色和灰色连线平滑表示cell和non-cell无法有效区分,右图表示cell和non-cell可以有效区分

2



当目标细胞捕获数很大时,多细胞率会增加(图3),最终数据分析时,此部分“cell”表现为基因检测数和UMI检测数是正常cell的N倍(N是一个GEM包裹的细胞数),导致所有细胞的统计数据(单个细胞基因检测中位数、单个细胞UMI检测中位数)虚高。此部分“cell”虽然可以通过设置数据分析阈值进行过滤,但是容易会有此类数据的残留和正常高基因检测细胞的人为去除!
  
 
图3:正常GEM和多细胞GEM示意图

3

第三个原因,也是最重要的原因,单细胞测序所有的分析都是基于细胞聚类进行,而细胞聚类是在区分cell和non-cell后,获得细胞基因表达谱,通过降维(pca),聚类(Graph-based& K-Means)以及可视化(t-SNE)得到的。进行细胞聚类时需要考虑到每个细胞的基因表达模式因此即使是相同的数据,在剔除几个细胞的情况下前后获得的聚类图也会出现明显不同。而当细胞捕获数过多时,无论是第一种情况出现的假阴性和假阳性数据,还是第二种情况引入的多细胞数据,都会对正常细胞聚类产生影响,造成聚类结果失真。这也是很多文章,特别是很多高分文章,为什么单个样本捕获细胞数在2000-3000的原因了。
以上是小编结合百篇文章的信息和近千例样本的项目经验总结出的几点说明,对各位老师的实验设计具有一定的参考价值。总结来说,在科研经费允许的情况下,建议单细胞测序项目每个样本捕获细胞数控制在3000左右,如果要考虑数据质量和科研经费间的平衡,建议每个样本捕获细胞数控制在5000左右,如果细胞质量非常理想,每个样本捕获细胞数可以到8000左右乃至10000。


相关阅读
同样是做单细胞测序,您选择的基因为什么标记不到细胞?| 单细胞专题
一文轻松玩转10X单细胞转录组官方分析软件CellRanger | 单细胞专题
104篇最新10X单细胞文章信息大提取:解决单细胞项目设计中样本数与细胞捕获数问题 |单细胞专题
scATAC技术的应用 | 单细胞专题
单细胞RNA-seq分析揭示人类骨关节炎进展
胃癌前病变和早期胃癌的单细胞转录组网络分析 | 单细胞专题
what?这么多单细胞分析软件我该怎么选 | 单细胞专题
Nature:单细胞RNA-seq重建人类早期母胎界面 | 单细胞专题
单细胞RNA-seq解析成人卵巢中卵泡重构过程 | 单细胞专题
KIT:肾脏单细胞在线分析数据库 | 单细胞专题


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存