人脑基因表达反卷积方法的综合评价

跨方法评估反卷积精度

为了评估准确性，文章使用三个成人人脑数据集模拟了具有已知细胞类型比例的数据。文章首先使用CIBERSORT、DeconRNASeq、dtangle和MuSiC评估了这些混合物中的细胞类型比例，并使用xCell和BrainInABlender评估了6种主要的脑细胞类型：神经元、星形胶质细胞、少突胶质细胞、少突胶质细胞前体细胞(OPCs)、小胶质细胞和内皮细胞。聚焦于从最大数据集(VL)生成的混合数据，文章发现：bersort (cell-types的平均r = 0.87)、MuSiC(0.82)和dtangle(0.87)的反卷积精度非常高，但DeconRNASeq(0.50)的反卷积精度较低(图1B，左)。对于两种富集算法，BrainInABlender的准确性较高，但在不同细胞类型之间不一致，而xCell估计的细胞类型丰度较差(神经元和星形胶质细胞分别为r =−0.06和0.02)。这表明：（1）大部分脑细胞类型的反卷积在部分反卷积算法中是准确的；（2）富集方法的精度低于部分反卷积方法，其中xCell的精度尤其低。

接下来，文章探讨了包含细胞亚型对反卷积精度的影响。文章使用了兴奋性和抑制性神经元(图1B，中)，反卷积精度很高(r >0.8)，其中CIBERSORT表现最好(兴奋性和抑制性的r分别为0.94和0.95)。其他细胞类型的准确性基本不受神经元亚分类的影响(图1B，中)。

文章发现，当缺失丰富的细胞类型(神经元，平均丰度为87.4%)时，反卷积的精度显著降低(平均r从0.85降低到0.41，归一化平均绝对误差从0.33增加到10.3)。

细胞型特征数据的生物学特性对反卷积有很大影响

为了研究特征数据的属性如何影响反卷积结果，文章使用几个数据集的细胞型特征数据对人脑snRNA-seq混合物(VL)进行反卷积：人脑snRNA-seq (CA, NG, LK)；人(DM)或小鼠(TS)大脑的scRNA-seq；来自人类(IP)或小鼠大脑(MM)的免疫筛选细胞RNA测序；或者从培养的人类脑细胞中提取CAGE-seq (F5)。

文章发现细胞类型特征数据的选择非常影响反卷积的精度。使用培养脑细胞的数据(F5)的准确性显著降低(图2A，B)。使用来自小鼠大脑(TS, MM)的特征数据的反卷积精度也降低 (图2A, B)。

相对于部分反卷积方法，无参考的完全反卷积方法处理脑基因表达数据的效果较差

Linseed是一种完整的反卷积算法，它通过将每个基因的表达载体表示为N维空间中的一个点(其中N为样本数量)来识别细胞类型特异性基因。在细胞类型数量确定的情况下，Linseed方法与其他部分反卷积方法相比，准确度较低，VL和CA的两种细胞类型的r>0.8 (图3A)。在RNA混合物上，Linseed表现得非常准确。由于Linseed依赖于检测由k-1维单纯形中具有“极端”位置的点所代表的基因，对于随机的混合样本，Coex的精确度明显低于部分反卷积方法(图3B)。

这些数据表明，对于脑细胞类型，完全反卷积方法不如部分反卷积方法有效，这是因为算法的性能与数据集的细胞组成的方差有关，而这是未知的。

细胞类型组成和差异基因(DE)表达分析之间相互作用的评估

接下来研究细胞组成如何影响DE分析：（1）两组大脑样本之间的细胞类型组成应该有多大的差异，才能导致DE分析中的假阳性结果；（2）什么是纠正DE分析中细胞类型组成差异的最佳方法？

文章使用CA dataset生成两组DE分析的模拟数据。每个数据集包含两组50个样本(A组和B组)。模拟B组中某一细胞类型(兴奋性神经元)的比例比A组高0-40%(图4)。然后，文章对B组和A组进行DE比较，使用DESeq2中实现的线性模型(LM)，并对细胞组成校正或不校正。由细胞组成驱动的假阳性被定义为假发现率(FDR) < 0.05时基因差异表达。

如果不进行校正，样本组间的细胞组成差异<5%会导致不到10个假阳性DE基因。然而，超过5%的假阳性基因数量随着细胞组成的差异急剧增加，细胞组成差异达到20%时假阳性基因数量达到>10,000(图4A)。在LM中加入兴奋性神经元比例作为协变量有效地消除了假的阳性基因(图4A)。在实验组中，当这种细胞类型的比例降低时，兴奋性神经元标记物在下调基因中富集，比例增加时，兴奋性神经元标记物在上调基因中富集(图4B)。

结论

总体而言，对于脑转录组数据的反卷积，文章提出以下几点建议： (1) CIBERSORT和dtangle或MuSiC是很好的选择；(2) 细胞类型特征数据应与大量样本较好匹配；（3）只有不在snRNA-seq的低丰度特征的情况下，细胞亚型才应包含在反卷积中，应考虑从特征中去除核特异性基因；（4）如果已知大容量数据集具有广泛的细胞类型组成，则仅尝试使用无参考反卷积方法。

参考文献

[1]. Avila Cobos, F., Vandesompele, J., Mestdagh, P. & De Preter, K. Computational deconvolution of transcriptomics data from mixed cell populations. Bioinformatics 34, 1969-1979 (2018).

[2]. Mohammadi, S., Zuckerman, N. S., Goldsmith, A. & Grama, A. A critical survey of deconvolution methods for separating cell types in complex tissues. Proc. IEEE 105, 340-366 (2017).

[3]. Frishberg, A. et al. Cell composition analysis of bulk genomics using single-cell data. Nat. Methods 16, 327-332 (2019).

- THE END -

往期推荐

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！

人脑基因表达反卷积方法的综合评价

您可能也对以下帖子感兴趣

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！

生成图片，分享到微信朋友圈

人脑基因表达反卷积方法的综合评价

您可能也对以下帖子感兴趣