查看原文
其他

转录组测序文章中的高频图形介绍 | 转录调控专题

运营部-LH 联川生物 2024-03-27


转录组研究能够从整体水平研究基因功能与基因结构,揭示生物学过程、疾病发生发展过程中的分子机理,已广泛应用于基础研究、临床诊断和药物研发等领域。转录组测序可以获得物种或者组织的基因或转录本序列与丰度信息,可以优化基因结构,可以发现新的基因座、可变剪切、基因融合与RNA变异。随着RNA-seq的价格逐渐走低,在缺乏明确研究方向与目标的情况下,RNA-seq已逐渐成为筛选后续研究方向最为省时省力、经济的手段,用于推进项目的进展。另外,传统的基因功能研究中的rescue实验也可以结合RNA-seq,从更广泛的RNA分子水平分析挽救的程度。

开展RNA-seq后,我们可能会面临着使用哪些图形去展示测序结果或主要分析内容的问题。下面介绍几种转录组测序文章中的高频图形。


1.热图(heatmap)

热图可以用颜色变化来反映二维矩阵的数据信息,直观地将数据值的大小以定义的颜色深浅表示出来。根据需要将数据进行样本或基因间丰度相似性聚集,通过颜色梯度及相似程度来反映多个样本的相关信息。由于很直观,热图在数据表现的准确性并不能保证。

通常的热图是基于归一化的表达量绘制的,比如转录组测序中基因或转录本的FPKM、TPM、RPKM、SRPBM值。基因间的表达量可能差距比较大,因此为了更好的体现每个基因的趋势,往往需要对表达量进行降维,比如取log2、log10。对于设置有生物学重复的组间比较,可以对表达量取Z值,以使得所有基因的Z值都位于一定范围内,然后进行赋色。对于取Z值进行绘图的热图,关注的是基因在不同样本中的相对表达水平,而无法比较不同基因的水平。热图广泛用于几乎所有组学,其有两种常见形式:

(1)全部差异基因热图

一般使用全部差异基因热图展示比较组全部差异基因的表达量变化趋势(对基因进行聚类),同时可以对样本进行聚类,以期通过全部差异基因(或筛选基因)体现样本间基因表达模式的相似性。

 


如果差异基因数目较多,一般不显示基因信息(如基因名),只展示整体差异趋势。当差异基因总数较少时(比如100左右),则可以显示基因名,以展示具体的基因信息。


(2)自定义基因集热图

自定义基因集热图用于展示感兴趣差异基因或感兴趣生物学过程中的差异基因的表达变化情况,在图中可以使用箭头、特殊颜色等突出核心关切基因(如下图STAT5A)。或者基于基因的功能注释,将感兴趣的基因按照特定顺序排列,最后同时体现基因表达量信息和功能注释信息(如下右图)。

此外也可以基于特定规则筛选基因,比如显著差异的Top50或Top100,上调最显著的Top或下调最显著的Top基因等,总之包含自己想重点体现的基因即可。

 


虽然热图通常用于表示基因表达水平的变化,但是作为一个基于数值赋予颜色以直观比较或展示的方式,还有很多延伸用途,比如用热图体现不同比较组富集分析结果(比如下图使用KEGG富集分析中的p值或FDR值进行绘图展示,p值或FDR值范围在0-1,且p值或FDR值越小,富集越显著,颜色越深),更直观地体现不同时期、不同处理或比较组中的通路富集异同,辅助于通路筛选。



2.火山图(Volcano)

火山图因为形似火山喷发而得名,是散点图的一种。火山图将基因组间差异分析的统计显著性量度(如p值、FDR值)和表达量变化幅度(差异倍数)相结合,能够帮助快速识别那些变化幅度较大且具有统计学意义的基因。一般使用p值(或FDR值)和差异倍数(fold change,fc)相结合筛选差异基因,比如通常的阈值:p < 0.05(or FDR < 0.05)&  |log2fc| ≥ 1,表示具有统计学意义且变化幅度在2倍以上的基因为差异表达基因。

 


火山图横坐标表示表达量变化幅度,通常把表达量变化倍数取log2,使得数据相对而言分布更均衡。同时log2fc小于0表示下调(图左侧),log2fc大于0表示上调(图右侧)。因为一般设置差异倍数显著阈值为2倍,因此火山图上一般有两条参考线对称分布,分别对应log2fc = -1和log2fc = 1。

火山图纵坐标表示差异分析的统计显著性量度,可以为p值或p值的校正值FDR。p值或FDR值越小代表统计学显著性越显著,将其进行-log10转换,可以将越小越显著转化为纵坐标越大越显著,同时也可以将纵坐标0到1的分布转换为0到正无穷的分布。通过转换在火山图越靠近右上角,上调越显著;越靠近左上角,下调越显著。

在文章中火山图被用于展示基因整体差异情况,可以在火山图中标注上、下调基因的数目,也可以在火山图中标注差异最显著基因(比如差异最明显的Top20,前提是包含我们的目标基因)、某类关注基因(比如趋化因子)或目标基因的位置。


3.散点图(Scatter)

散点图是最常见的图形类型之一,通常用于显示和比较数值。在二维散点图中,可以通过观察两个变量的数据分析,发现两者的关系与相关性。火山图可以直观地展示差异分析中的两个重要参数,差异倍数和p值(或FDR值)但是没有体现基因的表达水平,因此当需要体现基因的表达水平时,可以更改横纵坐标体现的参数量,从而体现基因的表达水平。



如上图,散点图的横、纵坐标表示基因在不同样本组中的表达水平,使用不同颜色表示上调基因与下调基因,而差异倍数与零点的斜率相关;一般越靠近坐标轴,差异倍数越大。通过散点图可以体现基因在两组间的表达水平与差异幅度,有利于筛选表达水平高且组间差异显著的基因。当然一般使用同种颜色表示上调基因或下调基因,如果需要体现基因在两组间差异的统计学显著性,可以使用p值表示点的颜色。与火山图一样,散点图上也可以标注基因,比如表达量高、变化明显的基因或者特定关注的基因。


4.韦恩图(venn)

韦恩图(Venn)是用于显示集合(如基因集合)重叠区域的关系图。通过图形(或椭圆形)之间的层叠,可以表示集合与集合之间的相交关系。我们常用韦恩图筛选不同比较组(不同基因集)共同的元素和特有元素,比如共同差异表达基因、某比较组特异差异表达基因等,并将这种筛选过程和结果可视化。虽然Excel也可以进行交集和并集的筛选,但韦恩图可以更简单地将筛选过程和结果可视化。

当基因集数目较多时(大于5组),可以使用upset图或花瓣图体现基因集的相交情况,可以在upset图中标出重点关注的区域或引出目标基因集。韦恩图(或upset图)广泛用于多个比较组数据筛选或多组学数据联合筛选,通过重点关注其中的某些区域从小达到缩小候选范围的目的。



5.富集分析相关图形

基因富集分析是指将基因按照基因组注释信息或数据库注释信息进行分类的过程。基因经过分类后,能够帮助我们认知寻找到的基因是否具有某方面的共性(如功能、通路等)。通过对差异表达基因(或目标基因集)进行富集分析,期望发现在生物学过程中起关键作用的通路,从而探索揭示生物学过程的基本分子机制。最常用于富集分析的数据库是GO和KEGG数据库。

基因本体(Gene Ontology,GO)是一个国际标准化的基因功能分类体系,它提供了一套动态更新的标准词汇表来全面描述生物体中基因和基因产物的属性。GO共有三个本体(ontology),分别描述基因的分子功能(molecular function,mf)、细胞组分(cellular component,cc)、参与的生物学过程(biological process,bp)。GO的基本单位是Term(词条、节点、条目),每个Term都对应一个属性。KEGG(Kyoto Encyclopedia of Genes and Genomes)全称是京都基因和基因组百科全书,是基因组破译方面的公共数据库。KEGG的基本单位是通路(Pathway),是根据相关知识手绘的,可能是指人工以特定的语言格式来确定通路各组件的联系。

通常使用气泡图(或dotplot)、柱状图体现富集分析结果,以反映目标基因集涉及的生物学过程或KEGG通路。气泡图可以体现富集分析的统计显著性的p值(或FDR、q值,通常为气泡颜色)、通路包含的目标基因集中的基因数目(通常为气泡大小)和通路中目标基因集中通路中基因总数的比例(通常是横坐标,如下图的GeneRatio、Rich factor),这三个参数量都可以表示通路的富集程度。

 


柱状图也可以用于展示富集分析中的一个或多个指标,比如下图C中的GO条目包含的目标基因集中的基因数目,使用不同颜色区分GO的三个本体。同时由于GO、KEGG都有各自的分类体系,可以使用颜色区分不同的KEGG大类分类(下图D)。

 


此外可以通过堆积柱状图体现富集通路中上调基因和下调基因数目分布情况,也可以用柱状图简单直接体现富集分析的p值(或FDR、q值)。

 


总之,可以基于富集分析结果选择合适的图形形式,并在图中标注关注的生物学过程或KEGG通路,以通过富集分析引出研究方向。


6.GSEA相关图形

常规富集分析是基于超几何检验的,一般需要用到差异表达基因的信息,即需要设置变化阈值去判断哪些基因差异显著哪些基因差异不显著,而通用或常用阈值不一定适用于所有情况下的差异判断。当单个基因变化较为微弱时,传统富集分析得到结果可能会很少,甚至没有结果。GSEA(Gene Set Enrichment Analysis)能够有效弥补传统富集分析对微效基因的有效信息挖据不足等问题,更为全面地对某一功能单位的调节作用进行解释。GSEA分析基于所有基因的表达量信息,以Signal2Noise为标准(也包含其他算法)对基因进行排序(默认降序排列),分析特定基因集(比如某KEGG通路所有基因或某GO Term所有基因)在所有基因的排名中是否更为靠前或靠后(是否在两个生物学状态或两组之间显示出统计学上显著且一致的差异,计算Signal2Noise一般是处理组相对于对照组而言,因此靠前和靠后分别指该基因集是在处理组中高表达还是对照组中高表达),然后对该基因集所在的通路或Term进行打分,分值称为ES(enrichment score,富集分数)值。基于基因集进行permutation test,计算出显著性p值,最后对标准化的ES值(NES值)进行多种检验矫正,得到FDR值。

GSEA分析的主要结果是ES值,通过ES折线图可以反映特定基因集(比如关注通路)的富集情况(如下图),横轴为该基因下的每个基因,纵轴为对应的Running ES;在折线图中有个峰值,该峰值就是这个基因集的Enrichment score。如果ES为正数,峰值左侧的基因就是该基因集下的核心基因;如果ES为负数,峰值右侧的基因为该基因集下的核心基因。在ES折线图中可以额外添加NES值、p值或FDR值以体现具体生物学过程、信号通路的富集情况。另外也可以使用气泡图、柱状图体现GSEA分析基因集的FDR值或NES值以体现显著富集的基因集。

 

总结:上述图形是转录组测序中的高频图形,通过图形可以直观展示主要分析结果,体现目标的机制探索方向。一图胜千言,上述图形均可以在omicstudio(https://www.omicstudio.cn/tool)绘制,在工具篇也介绍了相关图形绘制方法,有相关数据展示需求的可以前往omicstudio。


参考文献:




Verstraeten B, Atighi MR, Ruiz-Ferrer V, Escobar C, De Meyer T, Kyndt T. Non-coding RNAs in the interaction between rice and Meloidogyne graminicola. BMC Genomics. 2021 Jul 20;22(1):560. doi: 10.1186/s12864-021-07735-7. Erratum in: BMC Genomics. 2022 Feb 7;23(1):103. PMID: 34284724; PMCID: PMC8293575.









Qiu C, Liu Y, Huang S, Ning B, He S, Zhong L. Rab31 promotes activation of hepatic stellate cells by accelerating TGF-β receptor II complex endocytosis. Int J Biochem Cell Biol. 2022 Mar;144:106170. doi: 10.1016/j.biocel.2022.106170. Epub 2022 Jan 26. PMID: 35091093.









Hou S, Liu D, Huang S, Luo D, Liu Z, Xiang Q, Wang P, Mu R, Han Z, Chen S, Chai J, Shan L, He P. The Arabidopsis MIK2 receptor elicits immunity by sensing a conserved signature from phytocytokines and microbes. Nat Commun. 2021 Sep 17;12(1):5494. doi: 10.1038/s41467-021-25580-w. PMID: 34535661; PMCID: PMC8448819.









Hua Z, Wei R, Guo M, Lin Z, Yu X, Li X, Gu C, Yang Y. YTHDF2 promotes multiple myeloma cell proliferation via STAT5A/MAP2K2/p-ERK axis. Oncogene. 2022 Mar;41(10):1482-1491. doi: 10.1038/s41388-022-02191-3. Epub 2022 Jan 24. PMID: 35075244.









Li C, Zhao N, An L, Dai Z, Chen X, Yang F, You Q, Di B, Hu C, Xu L. Apoptosis-inducing activity of synthetic hydrocarbon-stapled peptides in H358 cancer cells expressing KRASG12C. Acta Pharm Sin B. 2021 Sep;11(9):2670-2684. doi: 10.1016/j.apsb.2021.06.013. Epub 2021 Jun 25. PMID: 34589388; PMCID: PMC8463269.









Li Y, Sheng Y, Liu J, Xu G, Yu W, Cui Q, Lu X, Du P, An L. Hair-growth promoting effect and anti-inflammatory mechanism of Ginkgo biloba polysaccharides. Carbohydr Polym. 2022 Feb 15;278:118811. doi: 10.1016/j.carbpol.2021.118811. Epub 2021 Oct 26. PMID: 34973721.









Li ZF, Cui L, Jin MM, Hu DY, Hou XG, Liu SS, Zhang X, Zhu JH. A Matrigel-based 3D construct of SH-SY5Y cells models the α-synuclein pathologies of Parkinson's disease. Dis Model Mech. 2022 Mar 1;15(3):dmm049125. doi: 10.1242/dmm.049125. Epub 2022 Mar 8. PMID: 35023548.









Ruan F, Zeng J, Yin H, Jiang S, Cao X, Zheng N, Han C, Zhang C, Zuo Z, He C. RNA m6A Modification Alteration by Black Phosphorus Quantum Dots Regulates Cell Ferroptosis: Implications for Nanotoxicological Assessment. Small Methods. 2021 Mar;5(3):e2001045. doi: 10.1002/smtd.202001045. Epub 2021 Jan 18. PMID: 34927824.









Su T, Fu L, Kuang L, Chen D, Zhang G, Shen Q, Wu D. Transcriptome-wide m6A methylation profile reveals regulatory networks in roots of barley under cadmium stress. J Hazard Mater. 2022 Feb 5;423(Pt A):127140. doi: 10.1016/j.jhazmat.2021.127140. Epub 2021 Sep 5. PMID: 34523471.









Su T, Fu L, Kuang L, Chen D, Zhang G, Shen Q, Wu D. Transcriptome-wide m6A methylation profile reveals regulatory networks in roots of barley under cadmium stress. J Hazard Mater. 2022 Feb 5;423(Pt A):127140. doi: 10.1016/j.jhazmat.2021.127140. Epub 2021 Sep 5. PMID: 34523471.









Wan C, Gu T, Ling J, Qin Y, Luo J, Sun L, Hua L, Zhao J, Jiang S. Perfluorooctane sulfonate aggravates CCl4-induced hepatic fibrosis via HMGB1/TLR4/Smad signaling. Environ Toxicol. 2022 Jan 6. doi: 10.1002/tox.23458. Epub ahead of print. PMID: 34990082.









Wu J, Yeung SJ, Liu S, Qdaisat A, Jiang D, Liu W, Cheng Z, Liu W, Wang H, Li L, Zhou Z, Liu R, Yang C, Chen C, Yang R. Cyst(e)ine in nutrition formulation promotes colon cancer growth and chemoresistance by activating mTORC1 and scavenging ROS. Signal Transduct Target Ther. 2021 May 28;6(1):188. doi: 10.1038/s41392-021-00581-9. PMID: 34045438; PMCID: PMC8160199.









Xiang J, Alafate W, Wu W, Wang Y, Li X, Xie W, Bai X, Li R, Wang M, Wang J. NEK2 enhances malignancies of glioblastoma via NIK/NF-κB pathway. Cell Death Dis. 2022 Jan 14;13(1):58. doi: 10.1038/s41419-022-04512-6. PMID: 35031599; PMCID: PMC8760305.









Yan J, Zhao Z, Xia M, Chen S, Wan X, He A, Daniel Sheng G, Wang X, Qian Q, Wang H. Induction of lipid metabolism dysfunction, oxidative stress and inflammation response by tris(1-chloro-2-propyl)phosphate in larval/adult zebrafish. Environ Int. 2022 Feb;160:107081. doi: 10.1016/j.envint.2022.107081. Epub 2022 Jan 10. PMID: 35021149.









Yang Q, Song D, Xie Z, He G, Zhao J, Wang Z, Dong Z, Zhang H, Yang L, Jiang M, Wu Y, Shi Q, Li J, Yang J, Bai Z, Quan Z, Qing H. Optogenetic stimulation of CA3 pyramidal neurons restores synaptic deficits to improve spatial short-term memory in APP/PS1 mice. Prog Neurobiol. 2022 Feb;209:102209. doi: 10.1016/j.pneurobio.2021.102209. Epub 2021 Dec 22. PMID: 34953962.









Yu S, Lu Y, Su A, Chen J, Li J, Zhou B, Liu X, Xia Q, Li Y, Li J, Huang M, Ye Y, Zhao Q, Jiang S, Yan X, Wang X, Di C, Pan J, Su S. A CD10-OGP Membrane Peptolytic Signaling Axis in Fibroblasts Regulates Lipid Metabolism of Cancer Stem Cells via SCD1. Adv Sci (Weinh). 2021 Oct;8(19):e2101848. doi: 10.1002/advs.202101848. Epub 2021 Aug 7. PMID: 34363355; PMCID: PMC8498877.







相关阅读

基础篇:5000字带你了解lncRNA测序 | 转录调控专题

干货:转录组生信分析流程大比拼,你pick哪一款 | 转录调控专题

如何查询目标基因的序列 | 转录调控专题

必须收藏的几个好用的circRNA数据库 | 转录调控专题

5000字带你了解转录组一些生信基础概念 | 转录调控


点击下方图片进入云平台资料汇总:

所见即所得,绘图高规格联川云平台,让科研更自由


继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存