不懂R,如何进行GEO数据库表达谱的差异分析、富集分析、蛋白互作、可视化?
The following article is from an unnamed Official Account. Author 提笔风雅
点击蓝字关注我们 (授权转载自百味科研芝士)
上次为大家介绍了分析GEO数据库基因表达谱差异基因的R版本(典型医学设计实验GEO数据分析 (step-by-step) - 数据获取到标准化, 典型医学设计实验GEO数据分析 (step-by-step) - Limma差异分析、火山图、功能富集),可能很多小伙伴还是不太熟悉R,不过没关系(再调整代码),今天我将为大家解决“不懂R,如何分析GEO数据库基因表达谱的差异基因?”这个问题。
不过上面两篇文章对于理解芯片数据处理的原理和过程是很有帮助的,建议仔细阅读,而且提供了高颜值可定制在线绘图工具-第三版可以进行后续分析结果绘图。
开始部分的处理和R版的是相同的。首先,进入GEO的首页,两种方法,大家可以回忆一下。进入主页搜索框后输入“cervical cancer”,点击search。
跳转界面看注释,寻找感兴趣的基因表达芯片。
本帖选择了宫颈癌的基因表达芯片“GSE89657”来分析。
点击芯片标题,查看注释信息。
下拉页面至最底端!直接点击GEO2R选项,GEO2R是GEO数据库自带的在线分析工具,本帖将介绍使用GEO2R分析差异基因。
点击GEO2R后弹出如下界面,这步最重要的是定义分组。
首先需要对样本芯片进行分组,下拉Define groups,分别创建两个分组T(肿瘤组),C(对照组),分别点击回车键完成分组
对样本进行分组:选择各样本后点击T或C,就可完成分组
下拉页面,有“TOP250选项”和“Save all results”两个选项,前者是保存前250个基因(按P-Value大小排序),后者则是这张芯片的全部基因。
点击“Save all results”选项,跳转页面。
新建一个GEO2R.txt文件,将以上结果粘贴在txt文档里面,用EXCEL打开(打开之前,一定要看 Excel改变了你的基因名,30% 相关Nature文章受影响,NCBI也受波及),筛选logFC>1或logFC<-1,adjP<0.05的为差异基因。
最终,通过整理(本帖中删除了没有基因名字的行,所以和原文差异基因数量有差别),共筛选出2317个差异基因,其中上调的基因915个,下调的基因1402个。
GEO2R计算出来的差异基因没有基因的表达矩阵,因此我们需要下载矩阵文件,并且需要将矩阵文件里面的基因探针ID与刚刚求出的差异基因的gene symbol进行匹配。我们用excel打开下载好的矩阵文件GSE89657_series_matrix,在列T,U粘贴差异基因的ID和genesymbol两列,列V开始将芯片中的样本按顺序复制。
我们需要用到EXCEL中的VLOOKUP匹配函数,它的表达式书写是VLOOKUP(查
找值,数据的范围,列序号,匹配条件)。首先我们在表格V2书写“=VLOOKUP(T2,
$A$2:$S$33298,2,FALSE)”,它的意思是在$A$2:$S$33298这个范围(图中粉色区域)中的查找与T2匹配的数据,将与T2匹配后的第2列那个数据写入V2(V2的样本与第2列样本名相同)。
返回一个数据后,如图出现绿色外框,点击右下角的十字符号,下来至差异基因最后一行。
同样,在W2书写函数表达式“=VLOOKUP(T2,$A$2:$S$33298,3,FALSE)”,下拉匹配,依次对18个样本进行匹配。
最后,通过匹配,我们就能得到一个关于genesymbol的表达矩阵了,可以用于制作热图及其他分析。
另外,GEO2R分析中,也提供了芯片质量控制的箱线图。点击value distribution,查看箱线图。
此外,GEO2R工具也是基于R语言的分析工具,我们可以点击R script查看R代码,这些代码可以修改后供以后分析使用。
后续各种绘图都可以使用高颜值在线绘图工具 ImageGP
接下来,进行GO和KEGG分析,使用最简单的DAVID网站分析(GO可以在DAVID做,KEGG数据库就老了,下面的帖子才是正确的处理方式)。
点击chart查看差异基因参与的生物学过程、分子构成、分子功能,也就是对基因进行的注释工作。
例如点击CC,查看分子的构成,弹出如下页面,右上角有下载选项。同样,也可以查看BP、MF。一般选择基因数富集最多的5个放在文章里。
点击Pathways,分析基因参与的通路。
最后来一张蛋白互作网络图(PPI),使用STRING网站在线制作(该网站最多只支持2000个基因在线制作),选择其中部分的基因,点击search。
点击continue,直至出现下图所示的PPI网络图,点击下载保存。
或者String数据导出,利用Cytoscaep再绘制。
Cytoscape网络图
读了本帖,我相信小伙伴们再也不用担心R报错了。当然,里面也涉及了不少软件的操作,比如EXCEL的匹配函数、www.ehbio.com/ImageGP。今天的文章到这里也该总结了,其实对于GEO数据库基因表达芯片的分析,说到底需要两个东西:差异基因的各项参数(genesymbol、logFC、P.value等)、差异基因的gene symbol表达矩阵。只要有了这两项,图形的制作也会易如反掌(即使不会R)。哈哈,小编也在学习生信的路上漫漫探索,希望把心得分享给大家,一起细细咀嚼生信!
GEO是当今最大、最全的公共基因数据资源库,包括基因的表达、突变、修饰等信息,涵盖几乎所有的疾病,且单个实验检测样品数目较多。TCGA数据库包含11,000
个病人的33
种肿瘤的7
个不同层面的基因数据 (包括基因表达、CNV,SNP,DNA甲基化,miRNA,外显子组等)和临床数据,意在解析癌症发生的分子机制、肿瘤的亚型和治疗靶点等。
这两个来源的数据都是对外公开的,是学习、研究和应用的一个资源宝库。从2006年TCGA计划启动以来,基于TCGA数据发表的文章呈指数增加,一大部分来源于对TCGA数据的再次挖掘。因此学习利用生物信息技术挖掘GEO/TCGA公共数据中疾病的分子特征、合适的检测指标具有重要的临床和科研价值。本课程将从GEO/TCGA的表达、突变数据入手,探索公共数据挖掘的基本套路,分享数据分析和可视化的思路和代码,以便应用于自己的研究。
课程涉及主要内容如下:
每节课1小时一个主题,理论结合实战,学懂原理,实战实操,全是老司机多年经验和代码的无私分享。利用自己电脑,轻松实现整套分析。如果有基础,可以多理解代码内容,做更多定制。如果基础弱一些,只需修改几个备注的变量,即可完成全部分析。下面是课程安排,如11代表第一天第一节课,26代表第二天第六节课,(实际上课会有调整,理论和实战穿插调和),41为两周后的线上集中视频答疑。
编号 | 主题 | 简介 | |
---|---|---|---|
11 | GEO挖掘案例介绍和结果解读 | 学习套路和宏观把控 | |
12 | R语言基础知识介绍 | 基础变量和数据操作 | |
13 | ggplot2绘图基础 | 热图、火山图等常见图绘制 | |
14 | GEO数据库使用介绍 | 数据查找、下载、清洗、批次校正、可视化 | |
15 | 芯片全套分析 | 差异基因、GO GSEA(时间序列)富集分析、可视化 | |
16 | WGCNA共表达网络 | KEGG/Reactome通路可视化 | |
21 | 实战重现2018 纯公共数据Science文章 | 文章整体解读和亮点分析 | |
22 | 实战重现2018 纯公共数据Science文章 | 表达模式评估,样品差异分析 | |
23 | 实战重现2018 纯公共数据Science文章 | 不同来源数据校正和比较的原理和操作 | |
24 | 实战重现2018 纯公共数据Science文章 | WGCNA共表达模块分析、网络可视化、模块性状关联 | |
25 | 实战重现2018 纯公共数据Science文章 | 基因表达和突变数据关联 | |
26 | 常见图快速绘制、解读和排版 | 见图 | |
31 | TCGA数据 | 案例介绍和结果解读 | |
32 | 实战重现2018 JAMA文章 | TCGA数据下载和整理 | |
33 | 实战重现2018 JAMA文章 | TCGA数据表达分析全套 | |
34 | 实战重现2018 JAMA文章 | 突变模式, 突变负荷和生存分析 | |
35 | 实战重现2018 JAMA文章 | 突变与临床因素相关性分析以森林图展示 | |
36 | 考试、圆桌论坛 | 自评学习效果、知识点回顾 | |
41 | 答疑-线上 | 答疑、考试内容串讲 |
R基础知识和图形绘制
GEO数据分析
GEO数据库使用介绍, 数据查找、下载、清洗、批次校正、可视化
芯片全套分析, 差异基因、GO GSEA(时间序列)富集分析、可视化
实战重现纯公共数据Science文章, 整体解读, 亮点分析, 结果重现
TCGA数据分析
TCGA数据,案例介绍和结果解读
TCGA数据下载和整理,临床数据获取和整理
TCGA数据表达分析全套,差异基因富集分析等
实战重现2018 JAMA文章, 突变模式, 突变负荷和生存分析, 突变与临床因素相关性分析以森林图展示, 新队列数据验证结果
希望大家报名时,给出自己想重复的文章或结果,我们综合评估,优先照顾,定制专属课程。如果当时不能满足的,也会在后续讨论群提供解决方案,毕竟我们为所有线下学员提供免费绘图。
(如果基础薄弱,报名付款成功后,可免费领取基础程序课,做好准备工作, 让程序成为我们的得力工具而不是学习新知识的绊脚石。)
往期精彩回顾
主讲教师
陈同,博士,2015毕业于中科院遗传与发育生物学研究所,生物信息专业博士,在Cell Stem Cell(IF=23.2,第一作者兼封面文章),Nucleic Acids Research,Stem Cells and Development等高水平杂志以第一作者或主要作者发表文章,运营有数万人关注的《生信宝典》微信公众号,给你不一样的学习生信体验。
刘永鑫,博士。2008年毕业于东北农大微生物学专业。2014年中科院遗传发育所获生物信息学博士学位,2016年博士后出站留所工作,任宏基因组学实验室工程师,目前主要研究方向为宏基因组学数据分析与可重复计算。发表论文10余篇,SCI收录7篇。2017年7月创办“宏基因组”公众号,目前分享宏基因组、扩增子原创文章185篇,关注人数2.3万人,累计阅读近300万次。
授课模式
本课程以讲解流程和实际操作为主,采用独创四段式教学,封装好的代码全部分享,随处可用:
第一阶段 3天集中授课;
第二阶段 自行练习2周;
第三阶段 在线直播答疑;
第四阶段 培训视频继续学习;
实现教-练-答-用四个环节的统一协调。
培训时间
2019-04-19 到 2019-04-21 (线下讲解实战)
每天早9点到晚6点,半封闭式教学 (最后1小时为集中讨论时间,最后一天会稍微提前一些,多留出时间讨论,也方便老师乘车返回)
报到时间:培训当天
授课地点
北京市西城区鼓楼附近 (具体开课前一周通知)
课程价格
截止 2019-04-12前 4500 元/人
名额有限,每次课程报名满40人后自动关闭报名通道
提供易汉博基因科技实习机会或工作机会
课程连报有优惠,具体见报名网站
课程福利
座位按报名并缴费或预付款成功顺序从前到后龙摆尾式排序
赠送程序基础课一份 (http://bioinfo.ke.qq.com)
多人 (N,10>N>1) 组团报名并同时缴费,每人还可减免N-1百元 (最高500)
赠送金士顿U盘一个(32G含培训数据和脚本)
附推荐语分享对应的招生信息到朋友圈,截图发到train@ehbio.com 可获得200元生信宝典腾讯课堂课程优惠券(可拆分供多个课程使用)
注意事项 *
需自备笔记本电脑,推荐使用win10系统,4G以上内存 (推荐8G)。课程实践根据需要会提供云计算平台
培训班所有数据,文档为内部资料,仅供参阅,未经允许不得翻印外传登刊
上课期间禁止录音,录像
成功付款的学员,若临时有紧急事情不能到来的,可申请延期,更换后续培训班;也可申请退款
若开课2周 (含) 前申请退款可退还85%费用;开课3个工作日 (含) 前申请退款退还70%的费用 (若已开发票需承担相应手续费)
不可先延期再退款
更多课程的详细介绍,请扫描下方二维码。
复制以下链接http://www.ehbio.com/Training/ 或 点击阅读原文跳转报名页,成为实验中不可或缺的人,赶快报名吧!
关注公众号
长按扫码关注我们
易生信系列培训课程,扫码获取免费资料
更多阅读
后台回复“生信宝典福利第一波”获取教程合集
听说分享到朋友圈的朋友会在公众号周年庆时中奖 (大家还记得去年的大放送吧,不记得查查历史