让天下没有难处理的表达量芯片
The following article is from 生信技能树 Author 生信技能树
GEO数据库里面的表达量芯片数据处理,主要的难点是表达量矩阵获取和探针的基因名字转换,搞定后只需要一定的生物学背景对数据进行合理的分组后就是标准的差异分析,富集分析。主要是参考我八年前的笔记:
解读GEO数据存放规律及下载,一文就够 解读SRA数据库规律一文就够 从GEO数据库下载得到表达矩阵 一文就够 GSEA分析一文就够(单机版+R语言版) 根据分组信息做差异分析- 这个一文不够的 差异分析得到的结果注释一文就够
因为都是标准的代码,所以每次有学徒和实习生我都会让大家两次十几个数据集,凑成为了一个合辑:《1000个基因芯片表达量矩阵数据处理》:
11.TNBC数据分析-GSE27447-GPL6244 10.TNBC数据分析-GSE76275-GPL570 9.mmu-macrophages-GSE69607-GPL1261 8.HNSCC数据分析-GSE6631-HG_U95Av2-GPL8300 7.HNSCC数据分析-GSE13399-GPL7540 6.HNSCC数据分析-GSE33205- GPL5175 5.HNSCC数据分析-GSE107591-GPL6244 4.HNSCC数据分析-GSE2379-GPL830-GPL91 3.ccRCC数据分析-GSE53757-GPL570 2.ccRCC数据分析-GSE14672-GPL4866 1.ccRCC数据分析-GSE66270-GPL570
因为这些年学徒和实习生积累的素材实在是太多了,全部发公众号不现实,本身代码倒是很简单,大量的图表排版反而是工作量不小了。
所以,我们有必要组建一个表达量芯片数据处理交流群,我们会分享一套万能代码,它理论上可以支持GEO数据库的至少5万个表达量芯片数据集,从下载表达量矩阵到后续差异分富集分析一条龙,而且输出大量图表和一个网页报告!
但是它并不是傻瓜式的,仍然需要你会R语言,需要生物学背景去修改分组形式,需要人为判断芯片的探针对应基因的关系,其它的图表,比如火山图,热图,GO和KEGG数据库富集图,GSEA图就是自动化的啦。已经是目前我们能想到的最小化干预了。
以GSE16515为例
GEO链接:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE16515 芯片平台:GPL570 [HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array 平台链接:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL570 样品信息:16个正常样本与36个胰腺导管腺癌(PDAC)样本 文章标题及链接:FKBP51 Affects Cancer Cell Response to Chemotherapy by Negatively Regulating,Akt.Cancer Cell. 2009 Sep 8; 16(3) https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2755578/
分组后查看是否合理:
简单的差异分析:
简单的数据库注释:
每一个图表都有背后的统计学原理,也有各自美化的代码,但是都不在我们的万能代码里面哦。
入群方式
因为我们在b站已经是有足够的视频课程在方方面面详细讲解了表达量矩阵的质量控制,差异分析及其可视化,超几何分布检验以及gsea分析,多种数据库资源的介绍。所以这次交流群并没有公开课,就是一个简单的微信交流群哦!群聊组建费用18.8元,一个简单的门槛隔绝那些不怀好意的广告营销号! 前200名可以直接扫描(仍然需要18.8)群聊二维码进群,满200人后我们会统一收款!(每个人都是18.8 元,如果你不同意这个象征性收费,请不要进群哈!)
已经满员了,所以二维码无法进群,需要我们生信技能树的官方拉群小助手帮忙拉群哦!!!(名额有限,先到先得!!!)
这个时候请直接付款28元给小助手,就可以进群,或者你转发此推文到朋友圈然后截图给小助手,就可以仍然以18.8元进群!
一个简单的门槛,隔绝那些营销号!我们也会在群里分享万能代码和部分数据集处理全过程,仅此而已,考虑清楚哦!
长按识别二维码
烦请备注姓名学校单位信息
在微信群等大家哦,同时还有一个小小的福利,进群的小伙伴都可以填表提交一个公共数据集链接,我们针对其提供的表达量矩阵给大家进行标准分析,出图并且打包给大家哈。其实如果你学会了我们的万能代码,也是可以自行处理。