查看原文
其他

cNMF:一种单细胞转录组数据基因功能集合分析方法

背景介绍


细胞的基因表达谱决定了细胞的功能和细胞的状态。基因集合按其表达特性和细胞特性可以分为以下四种:广泛稳定表达基因 (UCG),广泛诱导表达基因(UIG), 细胞特异稳定表达基因(SCG)和细胞特异诱导表达基因(SIG)。UCG主要由管家基因组成,其表达控制着细胞基本功能。UIG是指在接收到信号后迅速响应表达的一类基因,比如一些压力诱导和炎症诱导的基因以及控制细胞稳态的基因。SCG是一些与细胞特性相关的基因,仅在特定细胞中高表达,通过细胞聚类得到的细胞标志基因多为SCG。SIG则是经诱导仅在特定细胞中表达的一类基因,这类基因通常需要通过染色质重构来激活。通过研究基因功能集合,可以更好更深入地了解细胞的功能以及疾病中的细胞功能异常是由什么机制引发的。


单细胞测序保留了细胞独立的转录组信息,因此可以通过对单细胞数据进行基因功能集合分析来研究特定类型的细胞的基因表达特性。



方法介绍


cNMF是一款用非负矩阵分解(NMF)方法寻找基因功能集合的软件,通过比较基因在各个细胞中的表达谱,将相关性高的基因归为一个基因功能集合,该过程进行多次迭代后可得到稳定的基因功能集合。值得一说的是,NMF方法无法通过无监督的方法确定基因功能集合的数量(K),而cNMF可以通过评估不同K值的集合稳定性和错误率,帮助选择最佳的K值进行后续分析。另外还可以根据KNN聚类的结果过滤掉集合内相关性较低的基因。


在选择了最合适的K值和KNN阈值之后,cNMF将输出每个基因功能集合的Top100基因以及每个集合的细胞贡献分布。


NMF输出的基因功能集合结果可以用于各种功能分析。例如杰拉德相似性分析,比较基因功能集合与细胞类型的相似性,应用于癌症数据中可以帮助判断癌细胞的细胞来源以及研究癌细胞的异质性。另外,将功能基因集合进行富集分析(如GO和GEVA)可以更好地解读基因功能集合所对应的功能,对后期寻找疾病相关的标志基因提供更多的可能性。


方法应用


NMF得到的基因功能集合不仅包含了细胞类型特异性(Cell Identity)的集合,还包含了一些与细胞活动(Cell Activity)相关的基因集合。下图得到的功能集合中,包含了细胞周期相关的集合和与缺氧相关的功能集合,为研究细胞在缺氧状态下的应激机制提供了更好地视野。


下图文章运用NMF对肾上腺神经母细胞瘤的肿瘤细胞进行了基因功能集合分析,找到了9个基因功能集合。研究人员将基因功能集合与正常细胞做了杰拉德相似性分析,发现肿瘤细胞的基因功能集合与嗜铬细胞的相似性最高。而各个功能集合中,与嗜铬细胞表型和嗜铬细胞分化相关的基因功能集合的相似性最高,因此可以推断肾上腺神经母细胞瘤的来源为嗜铬细胞。



参考文献

1.Pope, Scott D., and Ruslan Medzhitov. "Emerging principles of gene expression programs and their regulation." Molecular cell 71.3 (2018): 389-397.

2.Kotliar, Dylan, et al. "Identifying gene expression programs of cell-type identity and cellular activity with single-cell RNA-Seq." Elife 8 (2019): e43803.

3.Dong, Rui, et al. "Single-Cell Characterization of Malignant Phenotypes and Developmental Trajectories of Adrenal Neuroblastoma." Cancer Cell (2020).



— END —



新格元秉持“格物致知,识微通元”的创新性理念,致力于发展简便可靠的单细胞组学技术,使之成为新一代细胞病理及血液检测手段,让单细胞组学以传统方法无法比拟的精确度、灵敏度和分辨率服务于精准医疗和健康管理等领域。

格物致知,识微通元

公司电话:0512-67215102

技术联系电话:18151629767

合作邮箱:marketing@singleronbio.com

官网:www.singleronbio.com

地址:南京市江北新区药谷大道11号加速器二期6栋4-5

地址:苏州市工业园区星湖街218号生物纳米园B4楼401

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存