什么是热图?零基础怎么画
在许多生信相关文章中,我们常常可以看到以上这样红绿相间且色彩变化丰富的图,它叫热图(Heatmap),是数据挖掘类文章基本配置。
热图的作用主要是2个:1是对实验数据进行质制和差异数据的展现。例如上图,每个小方格表示每个基因,其颜色表示该基因表达量大小,表达量越大颜色越深(红色为上调,绿色为下调)。每行表示每个基因在不同样本中的表达量情况,每列表示每个样品中所有基因的表达量情况。上方树形图表示对来自不同实验分组的不同样品的聚类分析结果,左侧树状图表示对来自不同样本的不同基因的聚类分析结果:
在文章中,热图通常有两大作用:数据质量控制和直观展示重点研究对象的差异变化情况。首先,我们来说说热图在数据质量控制(质控)过程中的应用。如下图,通过观察上方树形图(对列的聚类分析)大家可以明显的看到,两个实验分组中的Experiment组,其基因的总体表达模式与作为对照的control组存在很大的差异:在对照组中,多数基因都呈现极大下调的表达模式(绿色条带),而实验组则正好相反,多数基因为上调模式。属于对照组的三个样本(C1、C4和C5)的表达模式相似,属于实验组的三个样本(E1、E4和E5)的表达模式相似。这证明无论是对照组还是实验组,各自的样本重复性都是很好的,至少可以证明其在实验处理上是不存在大的失误的,得出的数据也是可信的、可靠的、符合逻辑的。而一旦出现同一组的某一个或某几个样本的表达模式与本组内其他样本表达模式迥异的情况,则需要小心调查前期实验是否存在问题了。
热图在文章中的另一大作用就是直观展示重点研究对象的表达量数据差异变化情况。通过上文的介绍,大家可能已经发现了一个问题,那就是一次实验中检测到的基因或蛋白往往成千上万,导致一副全局性的热图的行数(基因或蛋白数)也相应地十分庞大,使得在一副图片大小的篇幅内,代表单个基因或蛋白的每一个小方格的信息(如基因名和表达量等)几乎不可能被肉眼所识别。所以类似的用整个数据集画出的热图往往只能用于数据的整体质控。而要能够向读者清晰展示自己所研究的某一批基因或蛋白的数据分布与变化情况,热图就很好的解决了这个问题。
那么对于零基础的小白,也不会R语言,怎么来做热图呢?今天给大家介绍MeV,MeV可以应用于芯片数据及NGS数据分析,零基础小白都可以快速制作出热图。
其单机版下载地址:https://sourceforge.net/projects/mev-tm4/
同时他也具有在线版本供大家使用:http://www.tm4.org/#/welcome
下面小编说一下单机版画热图过程
(1)选择数据格式:数据格式可以为为txt格式,具体内容如下图。就是一个基因在不同样本中的表达值了。
(2)软件运行。下载完毕解压后,点击下面的最后一个文件TEMV.bat文件,打开程序。
结果出现如下程序中间运行界面
最终主程序打开了
(2)数据导入:选择“File—>Load Data”,弹出“Expression File Loader”窗口。如下:
点击“Browse”按钮,打开你的表达量数据文件(问公司拿),出现如下界面:
(3)点击load后就出现下面热图了
(4)设置聚类参数:单击MeV主界面“Clustering”按钮,选择层次聚类(Hierarchical Clustering)。出现下面界面,选择相应参数(可以默认),单击“OK”按钮。
(5)展开窗口左侧的“HCL(1)”结点,点击层次聚类树(HCL tree)可查看不同基因表达谱及其聚类的信息。
聚类结果
(5)此外此软件还可以做差异表达分析,具体功能在Statistics中。
更多知识,可以点击“阅读原文”到生信人论坛和大家一起讨论成长。
生信人团队是国内最早专注生信技术的先驱,其具有丰富的数据挖掘能力和个性化定制经验;同时其“降低生信学习门槛”的理念让人赞赏,生信人将自行开发免编程的可视化软件,以软件操作为实例,结合线上、线下,为广大生信小白提供一系列免费、且更实用、实操性的医学临床、科研中的生信技能运用技能。
往期更多?戳戳↓↓
FS科研软件库,集合60+医学科研必备神器,现在统统打包分享,点这里
致敬Scihub|Freescience、生信人要一起做些很Cool的事儿
科学自由共享
投稿请扔至:freescience@zju.edu.cn
未经许可 不得转载
长按二维码关注