人脑基因表达反卷积方法的综合评价
转录组反卷积的目的是根据基因表达数据估计RNA样本的细胞组成,反过来可以用来校正不同样本的组成差异。文章对人脑转录组数据的反卷积方法进行了评估,结果显示了驱动大脑数据反卷积准确性的主要因素,并强调了影响细胞类型特征的生物因素的重要性。
反卷积方法主要分为两大类:部分反卷积(包括富集方法)和完全反卷积,对于任何组织和任何类型的分子数据(转录组、甲基组、蛋白质组等)在概念上都是相似的。
为了对脑转录组数据的反卷积方法进行基准测试,对于部分反卷积,文章选择了:CIBERSORT (CIB)进行反卷积,这是一种被广泛使用的方法,最初针对免疫细胞类型进行了优化;DeconRNASeq (DRS),它实现了PsychENCODE采用的非负最小二乘法;MuSiC (MUS),这是一种基于单细胞的反卷积方法,可解释特征和dtangle (DTA) 中的个体和细胞特异性表达变异性。对于富集方法,文章选择了GTEx最近应用的xCell和专门为脑衍生数据开发的BrainInABlender。
跨方法评估反卷积精度
为了评估准确性,文章使用三个成人人脑数据集模拟了具有已知细胞类型比例的数据。文章首先使用CIBERSORT、DeconRNASeq、dtangle和MuSiC评估了这些混合物中的细胞类型比例,并使用xCell和BrainInABlender评估了6种主要的脑细胞类型:神经元、星形胶质细胞、少突胶质细胞、少突胶质细胞前体细胞(OPCs)、小胶质细胞和内皮细胞。聚焦于从最大数据集(VL)生成的混合数据,文章发现:bersort (cell-types的平均r = 0.87)、MuSiC(0.82)和dtangle(0.87)的反卷积精度非常高,但DeconRNASeq(0.50)的反卷积精度较低(图1B,左)。对于两种富集算法,BrainInABlender的准确性较高,但在不同细胞类型之间不一致,而xCell估计的细胞类型丰度较差(神经元和星形胶质细胞分别为r =−0.06和0.02)。这表明:(1)大部分脑细胞类型的反卷积在部分反卷积算法中是准确的;(2)富集方法的精度低于部分反卷积方法,其中xCell的精度尤其低。
接下来,文章探讨了包含细胞亚型对反卷积精度的影响。文章使用了兴奋性和抑制性神经元(图1B,中),反卷积精度很高(r >0.8),其中CIBERSORT表现最好(兴奋性和抑制性的r分别为0.94和0.95)。其他细胞类型的准确性基本不受神经元亚分类的影响(图1B,中)。
文章发现,当缺失丰富的细胞类型(神经元,平均丰度为87.4%)时,反卷积的精度显著降低(平均r从0.85降低到0.41,归一化平均绝对误差从0.33增加到10.3)。
细胞型特征数据的生物学特性对反卷积有很大影响
为了研究特征数据的属性如何影响反卷积结果,文章使用几个数据集的细胞型特征数据对人脑snRNA-seq混合物(VL)进行反卷积:人脑snRNA-seq (CA, NG, LK);人(DM)或小鼠(TS)大脑的scRNA-seq;来自人类(IP)或小鼠大脑(MM)的免疫筛选细胞RNA测序;或者从培养的人类脑细胞中提取CAGE-seq (F5)。
文章发现细胞类型特征数据的选择非常影响反卷积的精度。使用培养脑细胞的数据(F5)的准确性显著降低(图2A,B)。使用来自小鼠大脑(TS, MM)的特征数据的反卷积精度也降低 (图2A, B)。
相对于部分反卷积方法,无参考的完全反卷积方法处理脑基因表达数据的效果较差
Linseed是一种完整的反卷积算法,它通过将每个基因的表达载体表示为N维空间中的一个点(其中N为样本数量)来识别细胞类型特异性基因。在细胞类型数量确定的情况下,Linseed方法与其他部分反卷积方法相比,准确度较低,VL和CA的两种细胞类型的r>0.8 (图3A)。在RNA混合物上,Linseed表现得非常准确。由于Linseed依赖于检测由k-1维单纯形中具有“极端”位置的点所代表的基因,对于随机的混合样本,Coex的精确度明显低于部分反卷积方法(图3B)。
这些数据表明,对于脑细胞类型,完全反卷积方法不如部分反卷积方法有效,这是因为算法的性能与数据集的细胞组成的方差有关,而这是未知的。
细胞类型组成和差异基因(DE)表达分析之间相互作用的评估
接下来研究细胞组成如何影响DE分析:(1)两组大脑样本之间的细胞类型组成应该有多大的差异,才能导致DE分析中的假阳性结果;(2)什么是纠正DE分析中细胞类型组成差异的最佳方法?
文章使用CA dataset生成两组DE分析的模拟数据。每个数据集包含两组50个样本(A组和B组)。模拟B组中某一细胞类型(兴奋性神经元)的比例比A组高0-40%(图4)。然后,文章对B组和A组进行DE比较,使用DESeq2中实现的线性模型(LM),并对细胞组成校正或不校正。由细胞组成驱动的假阳性被定义为假发现率(FDR) < 0.05时基因差异表达。
如果不进行校正,样本组间的细胞组成差异<5%会导致不到10个假阳性DE基因。然而,超过5%的假阳性基因数量随着细胞组成的差异急剧增加,细胞组成差异达到20%时假阳性基因数量达到>10,000(图4A)。在LM中加入兴奋性神经元比例作为协变量有效地消除了假的阳性基因(图4A)。在实验组中,当这种细胞类型的比例降低时,兴奋性神经元标记物在下调基因中富集,比例增加时,兴奋性神经元标记物在上调基因中富集(图4B)。
结论
总体而言,对于脑转录组数据的反卷积,文章提出以下几点建议: (1) CIBERSORT和dtangle或MuSiC是很好的选择;(2) 细胞类型特征数据应与大量样本较好匹配;(3)只有不在snRNA-seq的低丰度特征的情况下,细胞亚型才应包含在反卷积中,应考虑从特征中去除核特异性基因;(4)如果已知大容量数据集具有广泛的细胞类型组成,则仅尝试使用无参考反卷积方法。
参考文献
[1]. Avila Cobos, F., Vandesompele, J., Mestdagh, P. & De Preter, K. Computational deconvolution of transcriptomics data from mixed cell populations. Bioinformatics 34, 1969-1979 (2018).
[2]. Mohammadi, S., Zuckerman, N. S., Goldsmith, A. & Grama, A. A critical survey of deconvolution methods for separating cell types in complex tissues. Proc. IEEE 105, 340-366 (2017).
[3]. Frishberg, A. et al. Cell composition analysis of bulk genomics using single-cell data. Nat. Methods 16, 327-332 (2019).
- THE END -