查看原文
其他

基因芯片数据挖掘的核心思想:论宫保鸡丁和处女座的沙拉

2015-12-15 右哉 实验万事屋

温馨提示:请点击标题下方蓝色“实验万事屋”,或者点击下面的指纹,添加关注后,发“”可以查看我们之前的文章。


我叫骨头,是万事屋的新晋NPC,也是个菜鸟。一直看师兄师姐们分析基因芯片啥的分析得很欢乐的样子,但是我就是不知道他们是咋分析的?完全没有头绪样的……


杀姐姐:你还小,不知道很正常。基因芯片,我们就用表达的基因芯片来给你举个例子,告诉你基因芯片的数据挖掘的核心思想。好了,首先我们来看这两张图:



能看出是什么吗?


骨头:杀姐姐,我读书少,但是我也知道,左边的是宫保鸡丁,右边的是我们食堂的宫保鸡丁(其实是宫保胡萝卜黄瓜丁)。


杀姐姐:好了,你明白了第一个芯片分析的思想——“差异”。我们也能看到外面饭店和食堂的宫保鸡丁有什么不同。在宫保鸡丁上,就是原料、配料、调味的不同了。知道这些差异就能告诉我们,为啥食堂的宫保鸡丁这么便宜,但又这么难吃。


基因芯片主要分析的是两组样本间的差异,从表型上就比如是病患和健康人的差异,癌和癌旁的差异。而在内部,也就是在基因层面上两组样本也会有很大的不同,芯片所要分析的,就是在基因层面上的差异。知道有什么样的差异,就和知道宫保鸡丁的原料、配料和调味一样,能了解为什么会造成样本间的表型差异了。


一般会有这样几种差异表示图,一种是热图,就是下面这个,和股票一样,红涨绿跌:



另一种叫火山图,是这样的:



火山图的X轴显示表达倍数差异(用log2表示),Y轴显示的是这个表达差异的显著性(-log10表示的)。火山图和热图都是为了描述表达差异而存在的,研究不同样本间的表达差异,可能就能为我们揭示出两组样本表型差异的本质。接下去,给你解释一下第二种芯片分析的核心思想,先看看下面这个图:



骨头:师兄,这个我懂的,这个是处女座吃的沙拉。


杀姐姐:这就是第二种芯片数据挖掘的核心思想,这个核心思想叫做——“聚类分析”。首先,我们找到了这些表达差异的基因,这些表达差异的基因是乱七八糟地堆在一起的,那我们要把他们分分类,才能知道都有哪些东西产生了变化。


常用的聚类分析,其实就是GO分析和Pathway分析,这两种分析方式就是按照既有的标准进行分类的。也就是把这些差异表达的基因,按照不同的已知信号通路,不同的生物学功能进行分类,就像是把沙拉里的食物按照颜色分类一样。这样,两组有差异表型的样本中,具体是哪些信号通路,或者哪些生物学过程出现了变化,就一目了然了。



另一种聚类分析方法,是共表达分析,这是基于基因的表达差异程度而分析的。比如:



基因A和基因B的关系,粗略讲就有这样四种:不相关,负相关,正相关,表达一致。通过聚类就形成了表达相关的网络图型:



如果这两个基因有基因表达的相关性,而且表达相关性非常显著,那就给我们这样一个提示:有可能两者在表达上有同样的或者完全相反的Pattern,也就是表达模式,有可能这两个基因会有相互的作用,或者位于相关的信号通路中。这就是共表达的聚类分析的原理。


…华丽丽的分割线…


李莫愁博士:差异表达也好,聚类分析也好,其根本目的,就是为了调查产生样本间表型差异的基因层面的根本原因。这就是基因芯片分析的核心思想。但要注意的是,所有的基因分析或者数据挖掘,仅仅是给我们一个提示。因为表象下,有着无数的可能性,有了这样的提示,我们再继续完整地完成实验,才能证明这数据挖掘所得到的结果的真实性。


万事屋出售的课程及服务(点击下方飘黄部分即可查看)


分子生物学技术培训班 12月24-27日(客服阿可微信号:zz76770309, 联系电话李老师:18217651683)


《一分钟meta学习教程》(还有个meta讨论的群,点进去找阿可拉大家吧,优惠码也是问客服阿可:zz76770309)


万事屋文献合集(28元包邮,子里有购买流程,如果需要帮助请联系客服阿可,微信号:zz76770309)



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存