在《表达谱数据的整理与差异分析》一文中,已经为大家介绍过如何对表达谱数据做差异分析了。而得到差异基因(DEGs,differentially expressed genes)后,最常见的分析思路就是对这些差异基因进行功能富集分析(比如GO/KEGG pathway enrichment analysis)和蛋白相互作用分析(Protein-protein interaction, PPI)。而蛋白互作网络的构建常用STRING数据库,如下图,下面就一起看下如何使用STRING数据库构建蛋白互作网络吧!
STRING数据库,全称为Search Tool for Recurring Instances of Neighbouring Genes,目标是整合所有已知和预测的蛋白互作关系,包括直接关系(physical interactions)和间接关系(functional associations)。当前最新版本为11.5,共收集了来自14094 个物种(organisms)67592464个 proteins的互作关系。https://www.string-db.org/这些互作关系的来源主要有以下几个方面:ⅰ. 对文献的文本挖掘;ⅱ. 实验证据;ⅲ. 已有注释的数据库;ⅳ. 共表达关系和基因组位置关系;ⅴ. 物种间同源蛋白的相互作用等。
使用STRING数据库构建蛋白互作网络主要有两种方式。第一种,通过输入单个蛋白的名称或序列构建互作网络。例如,这里选择Protein by name,就以抑癌基因TP53为例,构建它的互作网络。Protein Name这里输入TP53,物种(Organism)选人类,然后点SEARCH按钮。点击continue,很快就得到结果,这样就很容易就得到了与TP53基因相关的互作网络,如下图。第二种,通过输入多个蛋白的名称或序列构建互作网络。而我们通过差异分析得到的差异基因(DEGs),想要得到这些基因(蛋白)之间的相互作用关系,可以选择Multiple proteins进行下一步分析。这里选择STRING自带的5个范例蛋白#2进行演示,如下图,物种选择酿酒酵母(Saccharomyces cerevisiae),点SEARCH按钮进行互作网络构建。互作网络默认以Network视图(Viewers)进行展示,彩色的“玻璃珠”(也称为节点,Node)表示我们上传的5个蛋白,“玻璃珠” 之间的不同颜色的连线(称为边,edge)表示不同的互作关系来源。点击“玻璃球”可以查看蛋白的相关信息,点击连线可以查看相互作用信息。在Experiment模式下,我们可以查看判定不同蛋白之间存在相互作用的实验证据,如下图。比如,点击以上表格中的第1条记录,可以发现VAN1、HOC1和ANP1之间的互作关系是通过免疫共沉淀实验(coimmunoprecipitation assay)证实的,同时也给出了参考文献和并将这些蛋白在文章的摘要中标出来。在Database模式下,也可以查看与这些蛋白相关的数据库记录,比如查看包含这些蛋白的KEGG通路。在Textmining模式下,我们可以查看当前物种(Saccharomyces cerevisiae)下,提到这些蛋白的文献。同样,也可以查看其他物种与这些蛋白相关的文献,如下图。在Cooccurrence模式下,我们可以查看不同物种中的同源蛋白。在Coexpression模式下,点击相关性热图中的小方块,可以查看这些蛋白在当前物种(Saccharomyces cerevisiae)中的共表达情况,也可以查看其他物种中相关同源蛋白的共表达情况。点击Legend按钮,可以查看网络图中各种颜色、样式的图形元件所表示的含义,有颜色的“玻璃球”表示我们先前提交的蛋白,白色的“玻璃球”可视作新添加的起桥梁作用的“中间”蛋白,空的“玻璃球”表示该蛋白暂无3D结构;不同颜色的连线表示不同来源的互作关系,如青色的表示源自databases,粉红的表示实验证实的互作关系。点击Setting按钮,我们可以对网络图进行重新设置。比如,这里只展示来源于数据库或已被实验证实的互作关系,2nd Shell这里设置最多5个中间interactors。点击蓝色的UPDATE按钮对网络图的样式进行更新,效果如下。在Analysis列表,除了给出互作网络的相关信息,如节点和边的数量,还给出了相应的GO和KEGG富集分析结果,如下图。此外,还有Pfam、InterPro等数据库的蛋白结构域(Domains)富集信息,如下。我们可以将分析结果全部(也可以选择感兴趣的部分)下载下来,如下图。
点击Exports按钮,可以导出PNG和SVG格式的图片,也可以下载该网络图相关的节点和边表格。比如我们可以下载TSV格式的 “...as short tabular text output” 文件(下图第4个),之后可以导入到Cytoscape软件中对互作网络进行分析和自定义绘制。此外,还可以点击Clusters按钮对网络图进行聚类,距离较近的节点(Cluster)会被赋予相同的颜色。而More和Less按钮,可分别在原来节点的基础上继续增加(如下图)和减少新的关联节点。如果不喜欢“玻璃球”样式,也可以使用Cytoscape软件进行重新绘制,效果如下。最后,STRING数据库全部蛋白的互作关系数据都可以下载,当然,也可以只下载某一物种的全部数据,比如这里只下载酿酒酵母的数据。将下载好的数据解压之后,使用常用文本编辑器就可以查看这些制表符分隔的文本文件,比如打开这里酿酒酵母的所有蛋白互作关系文件(4932.protein.Links.v11.5.txt)。此外,也可以下载所有蛋白的序列文件,如下图,便于提取目标蛋白的序列进行序列分析。还可以下载所有蛋白的信息文件,如下图,信息文件包含STRING蛋白id、蛋白名称、序列长度(protein size)和注释信息。可能有小伙伴问啦,STRING蛋白id中前面的数字编号“4932”代表啥呀?其实呢,这个编号是物种分类编号(id),只要我们在NCBI的Taxonomy数据库中检索一下“4932”就明白了。以下为检索结果,可以看到“4932”是酿酒酵母(Saccharomyces cerevisiae)的物种分类id(Taxonomy ID)。同样,我们也可以查到人的Taxonomy ID为“9096”。好啦,本次就分享到这里,STRING数据库你会用了吗?▼参考文献▼Li M X, Jin L T, Wang T J, et al. Identification of potential core genes in triple negative breast cancer using bioinformatics analysis[J]. OncoTargets and therapy, 2018, 11: 4105.科研狗,科研魂,生物信息必入门,不会编程真愁人……大量科研人员并非专业做生信,但在科研中不可避免需运用生物信息学进行分析。那么一定要学R、Perl、Python等编程语言才能处理自己的数据么?当然不是,这样时间成本太高啦!你只需一个拥有强大分析功能的线上网站!那就是OmicShare生信云工具平台,让对代码一窍不通的你仍能够自主挖掘数据,轻松绘制出亮眼的图表!OmicShare云工具平台拥有160+工具全面覆盖各类生信分析,超过1800+文章引用让您使用无忧,超强可交互式自定义让您的图表亮眼夺目。https://www.omicshare.com/tools/用咱们的动态热图工具画雪容融可还行?我们源于科研,但远不止于此,更多乐趣期待你的发掘!
想用热图get同款雪容融(或是别的)?相关教程欢迎关注基迪奥旗下绘图公众号SCIPainter!
基迪奥生物|专业定制测序服务
联系方式:020-39341079;service@genedenovo.com扫码关注