生信宝典之傻瓜式 (三) 我的基因在哪里发光 - 如何查找基因在发表研究中的表达
还在为不会分析大数据发愁吗?
还在为无法查询和比较发表文章中感兴趣基因表达值抱怨吗?
使用genevestigator,高效利用已经有研究结果,轻松与同行研究结果比较!!!
GENEVESTIGATOR
“基因研究员”,帮助研究者对已经发表的公共数据进行查询、比较和可视化呈现。
主页: https://genevestigator.com/
先在线注册一个帐号,注册时会选择Data Preference: 分 biomedical 生物医学偏动物和医学或plant biology植物,我主做植物选择了plant biology,一定要使用学校和科研单位学术邮箱可以免费使用基础版,每次查询4个基因;否则需 要付费才可以使用。注册完成需要进邮箱点激活链接才能使用。
先下载软件,安装,运行,需要使用刚才申请的帐号和密码才能进入软件主界面。
使用实例
最简单的例子-查找拟南芥基因At3g29430在发表研究中的表达
在左侧上部Quick Search栏输入’At3g29430’,点击Search按扭,瞬间返回了10615个查询结果,单击可散点图呈现。软件界面、操作顺序和结果展示如下图:
从选择的实验或样品中查看指定基因表达
本示例以查询拟南芥中At3g29430 At3g32040基因是否在低氮、低磷胁迫条件下上调表达,来提高设计表型筛选条件的成功可能性。
点击左上 “Get start” 使用向导按扭,弹出窗口左侧单击 “View expression across samples from a choose study”
出发点:对某一研究感觉兴趣;
目标:查看样品中的基因表达;
操作方法:
选择1个或多个感兴趣的实验:点击右侧 “Experiments”蓝色链接,新窗口中有所有收集实验的列表,可在上方Filter后面文本框查找关键字过滤,如搜索”nitrogen”,会自动过滤相关研究;此时我们再单击下方的“Filter by platform”可以按物种和测序平台两次筛选,这里我们选择Arabidopsis(可以进一步展开拟南芥来选择其中不同的数据类型,如affymetrix, mRNA-seq),结果只有5个实验符合条件,点击样品上方的复选框全选所有实验,或单独选择感觉兴趣的实验,点击下方”OK”即开始向服务器查询相关84个样品的表达数据;点Close关闭之前的使用向导窗口;
输入基因ID查询:在左下方 “Gene Selection” 区域选择”new”,添加需要查询的基因,每个ID一行,本示例以查询拟南芥中At3g29430 换行 At3g3204,点OK,弹出查找基因列表再点OK,即返回查询结果;
查看表达值:主界面右侧上部”Samples”工具,我们看到了两个目标基因在84个样品中的表达值。如下图所示:
结果说明:结果默认按散点图展示表达,不同基因用不同颜色显示;
图左侧为样品名称,一般包括简单实验条件描述;
图上部为表达量刻度,将表达分为LOW MEDIUM(IQR)和HIGH三类,MEDIUM(IQR)中是指处于整体中间50%基因的表达范围,高和低分别两端各25%基因表达范围;
窗口上部为工具栏,可调显示样式,如Display可选散点图Scatterplot或热图heatmap呈现基因表达值;基因表达值默认为标准化的RPM进行log2对数变换,也可选择不做变换的原始值linear;想关注实验中高或低表达的状态,可以选择sort signal values对样品组中表达值进行排序,多基因时,可以点选基因的图例来选择按哪个基因排序;Copy按钮可以在点选单个样品时,复制基因的表达值,粘贴结果为
AT3G29430 6.692795 AT3G32040 8.85259
;点new会对当前查询结果在程序中复制一次?(可能为进一步筛选或添加基因做备份);右端的文本框中可以输入关键字进一步筛选样品,匹配部分会高亮显示,可用左右箭头来控制浏览上一个或下一个匹配结果。想读原版帮助的小伙伴点击最右侧的Help吧。样品信息:鼠标悬停在样本上,会弹出样本相关信息描述,按F2可将弹窗固定观看,想进一步了解样品信息或文章原文,也可点击GEO和PMID链接。如下图:
结果解读:我计划找nitrogen处理下是否存在差异表达,结果显示没有差异;我接下来又尝试了drought, salt, phosphate等多种实验条件,终于找到了符合预期的结果,筛选到的条件作为实验条件,相比盲目设计多组实验极大的减少了工作量,实验的小伙伴们敢快用起来吧。
添加更多相关基因展示:在左下角基因选择栏目,点击Add,可以添加更多的基因ID,如我继续添加了
At3g29410 At3g29400 At3g32030
,可以呈现最多10个基因表达同时显示;散点图会有重叠,个人建议超过三个以上基因用热图呈现更容易解读。跨物种研究:在左下角基因选择窗口Gene Selection,对正在分析的项目点右键,选择Create Orthologs,可以寻找多种植物中的同源基因,这里我们选择Oryza Sative水稻,点确定找到9个同源基因;再点左上方数据选择窗口Data Selection中New,默认即可以搜索水稻数据库,可进一步手动选择实验或直接OK(默认选择所有样本)即可,返回水稻中相关研究中这些基因的表达;如下图所示展示原始表达值的热图(linear heatmap):
这个软件功能非常强大,还可进行以下方面的分析,操作简单,按照引导或帮助很容易上手,我就不再一一描述了。
其它主要功能
在指定的两种条件下查询差异表达基因 Find genes differentially expressed between two chosen conditions
出发点:发现了某个发表的实验很有趣,想找其中差异表达基因;
目标:鉴定差异表达基因,典型的比较为处理:末处理;突变体:野生型;
查找某基因在哪种组织中特异表达 Find in which tissues a gene is expressed
查找调节某基因表达的条件 Find conditions regulating a gene of interest
查找组织特异表达的基因 Find genes specifically expressed in chosen tissues
自己数据与公共数据进行比较 Compare your results with curated public studies
跨物种研究同源基因表达模式 Find orthologs having the most likely conserved function
为RT-PCR实验找参考基因 Find suitable reference genes for RT-qPCR
找某种特定处理条件下的生物标记物 Find biomarker for a specific treatment