查看原文
其他

关于ICA不得不说的秘密(一)

2017-06-01 Edison 生信草堂

随着二代测序技术的高速发展,人们得到了大量的表达数据和甲基化数据。但是,如何合理的运用技术对数据降维,去除冗余信息变成了一个急需要解决的问题。针对这一问题,人们利用主要成分分析(Principle Component Analysis,PCA)和独立成分分析(Independent Component Analysis,ICA)两种方法去除内部噪音,帮助我们更好的在大数据中解读生物体潜在的功能机制。

ICA属于盲源信号分离的一种方法,是从观测到的若干混合信号中检测到无法直接观测的各个原始信号的过程,可以抽提或者分离原始数据特征信号。而PCA是通过线性变换将原始数据变换为一组各维度线性无关的表示,用于提取数据的主要特征分。PCA和ICA哪一种方法更加适合我们的分析呢? 此时,我们就要对我们的数据特有的结构进行分析了。相比于PCA,ICA更加适合于非高斯分布的数据,尤其是重尾分布。现如今,ICA分析已经被广泛应用于生物医学工程、核磁共振成像技术以及脑电图分析等方面。

Journee和Teschendroff使用4种ICA分析方法(JADE, RADICAL, Kernel-ICA, FastICA)和PCA方法,对同一个的乳腺癌表达数据集进行分析。其结果表明,与PCA相比,ICA得到的癌症易感位点以及癌症通路的结果更加准确;并且发现一些新的位点以及通路。Saidi使用子宫内膜癌样本的表达数据,对PCA和ICA两种方法的准确性进行了比较(图1),ICA的结果明显将良性患者(B1-11)和恶性患者(M1-20)分开(图1 A),而PCA准确性较低(图1 B)。


          图1 ICA(B)、PCA(A)分析聚类结果


ICA公式:

该公式可以被简写成矩阵格式:X=AS。


实例解析:

我们已经知道了公式,但是它是如何应用于大数据的分析当中呢?这里我们为大家准备了一个很好的例子,来帮助大家理解。在最近的一篇发表在Nature Communications杂志上的文章“A peripheral epigenetic signature of immune system genes is linked to neocortical thickness and memory”中,Freytag等人使用了ICA的方法对533个体的甲基化芯片结果进行了降维分析。如图2所示:

图2:ICA分析流程简介


图2展示了ICA的分析流程。其矩阵X的组成:n=533个体×397,947个CpG位点­­。将该矩阵数据降维,得到126个独立成分,矩阵S代表了CpG的Loading,而矩阵A则代表个体的Weight.但是,由于111个主要成分中个体贡献的变量大于总变量的10%,因此被认为这个主要成分不能在后期分析中使用。利用15个独立成分,作者成功发现ICA2与表型显著相关,并在都独立样本中验证了这一发现。


在下一期,我们将会着重讲解FastICA的使用方法,谢谢大家对生信草堂的关注和支持!



参考文献:

[1] Journée, M.; Teschendorff, AE.; Absil, P-A.; Tavaré, S.; Sepulchre, R. Geometric optimization methods for the analysis of gene expression data. In: Gorban, AN.; Kégl, B.; Wunsch, DC.; Zinovyev, A., editors. Principal Manifolds for Data Visualization and Dimension Reduction.Springer; New York, NY: 2006. p. 6-27.

[2] Saidi SA, Holland CM, Kreil DP, MacKay D, Charnock-Jones DS. Independent component analysis of microarray data in the study of endometrial cancer. Oncogene 2004;23:6677–6683.

[3Freytag VCarrillo-Roa TMilnik ASämann PGVukojevic VCoynel DDemougin PEgli TGschwind LJessen FLoos EMaier WRiedel-Heller SGScherer MVogler CWagner MBinder EBde Quervain DJPapassotiropoulos A. A peripheral epigenetic signature of immune system genes is linked to neocortical thickness and memory. Nature Communications 2017 Apr 26;8:15193.







您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存