单细胞数据预处理原理问题集锦 | 单细胞专题
经常有老师问到:你们的书怎么买,在哪买,今天,我们将所有的购买链接进行了汇总,找到你想要的书,然后买!买!买!
之前我们进行了单细胞前期数据预处理原理与简介的线上培训课程,课程内容已上传B站;
需要观看回放的老师,在bilibili上搜索“联川生物”就可找到相应的视频。
后续B站还有很多主题的直播培训,关注我们就可以看到我们的课程动态啦!
扫描下方二维码即可回看往期课程
1、单细胞比较常用的降维及聚类方法
回复:单细胞测序获得的表达谱数据信息庞大,为了有效地对单细胞测序数据进行处理尤其是对细胞亚型的鉴定,通常需要先对单细胞测序数据进行降维。降维方法通常是把高维数据通过优化保留原始数据中的关键特征后投射到低维空间,从而可以通过二维或者三维的形式把数据展示出来。
常见的降维方法有:
1)PCA(Principle Component Analysis),主成分分析,是一种线性的降维方法;
2)t-SNE(T-distributed stochastic neighbor embedding),是一种非线性的降维方法;
3)UMAP (uniform manifold approximation and projection);
常见的聚类方法有:
1)监督的方法,比如基于特定的细胞亚型已知的marker基因进行聚类分析;
2)非监督的方法,可细分为:k-means,hierarchical clustering,density-based clustering,graph-based clustering;
2、能讲一下cellranger aggr分析吗?
回复:cellranger aggr用于整合多个GEM Wells,具体的使用方法可以参考10x genomics官方资料:https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/using/aggregate,该分析需要用到单个样本cellranger cout分析结果中的molecule_info.h5文件,整理成下面表格中的形式就可以进行分析了。
分析完成后,获得样本整合后的细胞基因表达谱矩阵,可作为第三方分析软件的输入文件。对于来自不同的样本细胞barcode使用-1,-2,-3……进行区分,便于后续对不同样本间的细胞进行挖掘分析。
3、多细胞率跟上机细胞数量的关系?
回复:在每个10x单细胞3’或VDJ文库中,最多可以靶向10000个细胞,不建议超过10000个细胞,一方面会增加样本堵塞芯片中微流体通道的可能性,另一个重要的因素是多细胞率,多细胞率(即每个GEM有多个细胞)随着目标捕获细胞数量线性增加。具体的多细胞率与细胞load数量关系如下图:
4、细胞分群有好办法去找marker基因吗?
回复:目前有一些细胞marker基因的数据库,如CellMarker数据库收录了158种组织/亚组织的467种人细胞类型, 81种组织/亚组织的389种鼠细胞类型(该数据的使用方法,请参考:CellMarker:单细胞转录组测序定义细胞群体之利器 | 单细胞转录组专题)。对于其他的物种类型,建议从文献中搜集相关的marker基因。
5、如何细胞注释肿瘤细胞?
回复:根据不同组织肿瘤细胞特异性标的marker基因就可以对肿瘤细胞进行注释,如Phenotype molding of stromal cells in the lung tumor microenvironment文章中使用marker基因对Cancer细胞进行注释。
6、请问现在测单细胞,每个细胞测多少reads?
回复:每个细胞最少测序reads量根据试剂的不同要求也有所不同,具体的测序reads量可以参考官方说明:https://support.10xgenomics.com/single-cell-gene-expression/sequencing/doc/specifications-sequencing-requirements-for-single-cell-3
1)Single Cell 3' v3/v3.1 Gene Expression,平均每个细胞不少于20,000reads
2)Single Cell 3' v2,平均每个细胞不少于50,000reads
7、肿瘤样品现在可以解离么
回复:不同的组织解离条件不太一样,您可以将您的组织类型通过微信后台或者联系我们的项目经理,我们会给您推荐合适的解离条件。
8、细胞注释人工如何注释?根据MARKER吗?目前有推荐的R包进行自动化细胞注释吗?
回复:
1)基于Marker基因的人工注释方法,您可以参考:手把手教你用Marker基因定义细胞亚群 | 学习专栏
2)自动化注释的方法,您可以参考:有了它,细胞鉴定也没想象的那么难嘛!| 单细胞专题
9、tSNE聚类15类,那细胞鉴定就是15类细胞?
回复:聚类结果中获得15个cluster,并非在后续细胞鉴定时一定要鉴定到15类细胞,根据各细胞marker基因鉴定情况,进行细胞定义,如下左图中的cluster1,4,5,7,9,13都鉴定为细胞cDC1(下图右),待所有cluster鉴定完成后,可根据实际鉴定细胞重新进行细胞着色标记。
回复:一般情况下在单细胞数据分析时,并不直接过滤线粒体基因,而是过滤一些高表达线粒体基因的细胞,线粒体基因高表达可能是由于细胞状态不好(如凋亡的细胞)也有可能是该细胞代谢比较旺盛(如肾脏组织)。不同组织的类型不同,线粒体基因表达的高低也会有所不同,一般文章中常见的线粒体过滤条件为10%,25%。对于肾脏这种代谢比较旺盛的组织,线粒体过滤阈值会有所增高,比如70%(如下图)。
11、WGCNA之类的分析可以做吗?
回复:单细胞转录组是可以进行WGCNA分析的,除了这部分分析内容之外,还有拟时序分析,细胞周期分析等个性化分析内容,具体的个性化分析内容您可以咨询您所在地区的项目经理。
不看后悔!GEO数据库10X单细胞测序原始测序测序数据(fastq)下载指南来啦
一文告诉您如何选择合适的解离酶制备高质量细胞悬液 | 单细胞专题
人皮肤单细胞转录组分析鉴定特应性皮炎中新型成纤维细胞亚群及免疫亚群的富集 | 单细胞专题
人皮肤单细胞转录组分析鉴定特应性皮炎中新型成纤维细胞亚群及免疫亚群的富集 | 单细胞专题