干扰一个基因然后分析全局基因表达其实是无法定位该基因完整功能(春节免费数据分析活动继续)
我多次提到过,表达矩阵最常见的两个分组形式就是处理组与对照组,其中处理可以是加药物,也可以过表达或者敲低某个基因。
一个科研故事
最近看到芝加哥大学化学系何川教授实验室的研究生付晔分享其关于第一个RNA去甲基化酶FTO活性的科研探索经历,提到了通过过表达和敲低FTO蛋白并使用DNA微阵列芯片分析基因表达的变化,发现近千种基因的mRNA水平发生了变化。但是这样其实仍然是无法讲一个完整的生物学故事,所以跟合作者又做了很多实验,比如通过蛋白免疫共沉淀,酵母双杂交技术,蛋白-蛋白作用阵列等多种手段寻找可能与FTO有相互作用的蛋白。
一个引领时代潮流的文章
简单搜索了一下是2011年贾桂芳博士和付晔博士的Nature Chemical Biology文章,文章短小精悍,就4页的PDF。她们在何川教授实验室最先确定了FTO的作用底物是mRNA上的m6A,而这也是第一个被发现的可逆RNA修饰,RNA表观遗传学/表观转录组学的研究由此肇始。所以这篇文章的引用挺好的,如下:
很奇怪呀,我的确没有看到这篇文章里面有提到通过,过表达和敲低FTO蛋白并使用DNA微阵列芯片分析基因表达的变化,不过不影响我们GEO数据库搜索。
我们这次的学徒作业是GEO数据集的搜索,关键词就是过表达和敲低FTO蛋白并使用DNA微阵列芯片分析基因表达的变化,作业发到我的邮箱 jmzeng1314@163.com
数据集E-MTAB-2331
发表在 May 19, 2014https://doi.org/10.1371/journal.pone.0097162 的文章,标题是Changes in Gene Expression Associated with FTO Overexpression in Mice 有干扰FTO基因后看全局表达量的数据集。
数据分析是:
Microarray data was PLIER normalised independently for each tissue using GeneSpring GX11.0 (Agilent).
Differentially expressed genes were identified using the Bioconductor limma package within GeneSpring.
The R script used limma to fit a linear model and compute moderated t-statistics for all the genes; p-values were calculated using empirical computation from 10,000 permutations. Subsequently a Benjamini and Hochberg multiple testing correction was applied with a p value cut off of ≤0.05. All p values were <0.0001.
Finally a 1.5 fold change difference between wild-type and FTO-4 was applied.
GO-Elite was employed to assess significantly regulated gene ontology (GO) terms in the data sets described above. At least 3 genes and ≥10% genes in a GO term needed to be changing with a permuted P value of ≤0.05 to be included.
其实就是走标准分析流程,火山图,热图,GO/KEGG数据库注释等等。这些流程的视频教程都在B站和GitHub了,目录如下:
第一讲:GEO,表达芯片与R
第二讲:从GEO下载数据得到表达量矩阵
第三讲:对表达量矩阵用GSEA软件做分析
第四讲:根据分组信息做差异分析
第五讲:对差异基因结果做GO/KEGG超几何分布检验富集分析
第六讲:指定基因分组boxplot指定基因list画热图
感兴趣可以细读表达芯片的公共数据库挖掘系列推文 ;
这次免费分析就是你指定感兴趣的数据集
看干扰某基因与对照组的表达水平,甲基化水平变化均可,我帮你做上面提到的标准分析!所以,只能是两个分组,样本量也很小,请不要拿一下很可怕的项目来找我,免费分析并不是送你一个生信工程师,只是提供对我而言的举手之劳,希望可以帮助到四处碰壁的你!
我们推文里面提到的各种各样的数据分析环节都是我非常有经验的,比如我在lncRNA的一些基础知识 ,和lncRNA芯片的一般分析流程 介绍过的那些图表,以及下面的目录的分析内容 对我来说是举手之劳,希望可以帮助到你!
转录组数据分析的4个维度认识(数据分析继续免费哦) RNA-seq数据的2个分组差异分析,热图,PCA图,火山图等等
根据感兴趣基因看肝癌免疫微环境的T细胞亚群差异 条形图或者箱线图
查看感兴趣基因的甲基化水平和RNA表达水平(数据分析免费做)相关性 散点图或者箱线图
关于Fat Mass and Obesity-associated (FTO) protein
属于 AlkB family of non-heme Fe (II)/dioxygenases
希望你最好是可以介绍一些生物学背景知识让我也学习一下,我学到了知识,为你提供免费数据分析就更起劲!
发送数据分析要求,以及简短的项目描述到我的邮箱 jmzeng1314@163.com
邮件正文最好是加上你是啥时候认识生信技能树的哦,或者其它一些寒暄的话,自我介绍也行。主要是考虑到可能想免费分析数据的朋友很多,所以会根据你的来信,我主观判定一个优先级哦。目前我有20多个愿意长期在我的指导下进行数据探索的学徒,等我的团队扩大到200人,我们应该是可以做到数据分析全部免费,敬请期待哈!