干货:5千字解密转录组发高分常见应用场景(含推荐样本数) | 转录调控专题
转录调控泛指RNA层面各类RNA调控关系,包含常规RNA测序如转录组测序、非编码RNA测序以及RNA修饰组学等。
其中狭义的转录组检测对象为总RNA中的mRNA,而全转录组的检测对象则是转录出来的所有类型RNA 的总和,包括mRNA 和非编码RNA(ncRNA),如miRNA、lncRNA、circRNA等。这些RNA是转录调控研究中的主要对象。根据研究目的,可以有针对性的选择其中之一进行深入研究,也可以结合多种RNA 信息进行整合分析,系统揭示生物学背后的转录调控规律。
本文探讨对象为狭义转录组,即以研究mRNA为出发点的转录组测序技术。目前作为一项常规技术已经成为基础医学、临床及转化医学、生物化学与分子生物学、动植物科学等多个学科的通用技术。成为大家预实验的好帮手,筛选基因的好工具,告别了繁琐的qPCR,让实验进度快到飞起。
当然随着测序价格的不断下降,纯分析的转录组文章也越来越多,伴随着大样本的转录组测序样本而诞生的纯生信论文近几年也是成为了很多主刊的常客。
但是这边必须澄清一个误区,那就是不做实验只分析数据就能轻松发文章…………是不存在的!真实的情况是,在实验上节约的时间都会一遍遍地加倍花在数据挖掘上。之所谓东边不亮西边亮,避开实验走生信的捷径,结果却让自己陷入了新的死胡同。纯生信论文涉及大量数学模型和统计学算法,分析难度较大,且对新手诱惑较大,但往往到实际分析过程中需要对参数和数据反复调试。也根本不存在所谓的一个神奇的生信按钮按下去,一张Cell的图就立刻呈现出来了。一张主刊的主图背后往往是是死伤无数的几千张废图及几百次无功而返的尝试。
而机制类论文,渐渐开始使用转录组来替代传统的qPCR和WB,成为了一种物美价廉的预实验方法之一。且需要在实验后期重点关注的某些明星基因和明星通路,也可以通过转录组测序来进行批量筛选。
此处再次奉上经典的图两张,以强调论文中重要的图和不重要的图。
一般来讲,转录组测序每组生物学重复数量如下所示:
接下来,我们针对高分文章中几种常见的利用转录组测序的下游应用场景,进行一一解析。由于应用场景较多,只针对部分高频出现的4种场景进行分析。
利用转录组测序,可通过比较实验组和对照组基因表达量筛选差异表达的基因。然后对差异表达基因进行进一步锁定,如通过GO、KEGG富集分析及GSEA分析,配合Pubmed中已发表的文献以及课题组中已积累的部分明星分子对差异表达基因进行功能注释,并进一步分析关注的功能基因。进入实验验证阶段后可对筛选到的差异基因进行qPCR、Northern、Western Blot、FISH验证、、基因敲除及过表达等。
通常这类应用场景仅仅是将转录组作为筛选后期验证,开启一个新课题方向所使用的工具而已。部分课题组甚至是已经大致锁定了部分热点通路和明星基因,仅仅是想通过转录组来证实这些基因是否在两组之间有差异。
具体包括转录组数据挖掘+分子机制验证,或纯分子机制辅助转录组两种较多的形式。
适用研究领域:临床与转化医学、基础医学、生物化学与分子生物学、动植物研究等任意分子生物学方向
常用分析方法:基因差异分析、GO/KEGG富集分析、GSEA分析
生信分析含量:低
后期验证含量:高
比较组设置:常见以处理组vs对照组居多,通常在2-5个比较组居多,较少出现上百例大样本样本
标题:Calcium/calmodulin-dependent protein kinase IV promotes imiquimod-induced psoriatic inflammation via macrophages and keratinocytes in mice
期刊:Nature Communications
影响因子:17.694
安徽医科大学附属第一医院皮炎所孙良丹教授团队,在线发表了CaMK4在银屑病发病机制中作用的研究。在IMQ(咪喹莫特)或AMP激活的巨噬细胞中,CaMK4通过ADCY1-cAMP-Erk1/2和p38途径上调,抑制IL-10的产生,并降低皮肤中IL-10的水平,从而促进银屑病炎症的发生。CaMK4还上调IL-1β和IL-12的表达,以刺激γδT细胞释放IL-17A。反过来,IL-17A导致KCs的过度增殖,产生AMP和趋化因子,通过CaMK4-AKT-NF-κB途径将免疫细胞富集到皮肤中。
在这篇文章中,孙良丹组首先对使用IMQ处理前后的Camk4-/-以及Camk+/+小鼠的整个皮肤组织进行了转录组测序,在差异基因中重点锁定了趋化因子、细胞因子、炎症因子等一系列与炎症免疫相关的基因集。继而在后续实验中通过流式分选等方法进一步锁定到了MHC II+巨噬细胞。
用户案例2:转录因子NAC介导小麦抗旱性
标题:Variation in cis-Regulation of a NAC Transcription Factor Contributes to Drought Tolerance in Wheat
期刊:Molecular Plant
影响因子: 21.94
西北农林科技大学康振生院士组,前期通过GWAS确定了一个抗旱相关转录因子TaNAC071-A。该基因与小麦的耐旱性密切相关。小麦中的TaNAC071-A敲低减弱了植物的耐旱性,而其过表达通过提高水分利用效率和激活胁迫响应基因的表达显着增强了耐旱性。这种强化的节水机制进一步减轻了因缺水造成的产量损失。
在本文中,康振生组通过对干旱胁迫处理的TaNAC071-A过表达和野生型小麦进行转录组差异分析,从2400多个差异基因中,上调差异基因进一步锁定到脱落酸、渗透压、脯氨酸合成等与干旱胁迫相关的基因上,而下调差异基因进一步锁定到氧化还原反应、过氧化氢、叶片衰老、水杨酸反应等相关通路基因上。
在转录组数据分析过程中,有一类特殊的实验设计。通过对不同时间段的实验样本进行搜集,或测试不同的药物、试剂等浓度梯度的样本进行采集。继而研究不同基因在不同时间段或不同浓度梯度间的表达规律,这一类分析通常称之为“时序分析”。目前可以实现时序分析的R包有很多,联川生物售后服务团队就有多种实现方式。
此外联川生物云平台Omicstudio也有时序分析模块,欢迎各位老师来体验。
当然时序分析在图表展现形式上有多种变种格式,可以是柱状图,可以是折线图,更可以是组合图的方式。不变的是X轴永远是不同时间点。
通过时序分析,可以锁定在表达模式上较为接近的基因或基因集,从而进一步想要锁定的研究方向。
适用研究领域:临床样本、细胞样本、动植物样本多个时间段和不同浓度梯度处理
常用分析方法:Time Course时序分析、STEM分析、基因网络分析、WGCNA分析等
生信分析含量:中低
后期验证含量:中高
比较组设置:以不同时间点或浓度梯度展开,常常至少在4-5个比较组起。临床样本至少6-10个重复,常规样本每组4-5个重复
标题:Dynamic transcriptome analysis unveils key proresolving factors of chronic inflammatory arthritis
期刊:Journal of Clinical Investigation
影响因子: 19.456
本文作者对小鼠滑膜组织中关节炎进展及消退各个时间段进行了转录组时序分析,并鉴定了一系列与炎症消退相关基因。
通过基因网络分析,预测了3个消炎相关因子:Itgb1、Rps3和Ywhaz。这些因子主要由Tregs和抗炎M2巨噬细胞表达,抑制促炎细胞因子的产生。其中Ywhaz在关节炎消退小鼠的血清和治疗反应良好的类风湿关节炎(RA)患者的尿液中升高。此外小鼠体内过表达Ywhaz可抑制关节炎进展,并抑制关节组织、淋巴结和脾脏中促炎细胞因子的表达,这表明Ywhaz是RA治疗的理想靶点。
用户案例2:促进了莲藕根瘤的发育相关因子鉴定
标题:Auxin methylation by IAMT1, duplicated in the legume lineage, promotes root nodule development in Lotus japonicus
期刊:PNAS
影响因子: 12.779
作者对突变体莲花感染大豆根瘤菌后进行转录组时序分析,发现IAA羧基甲基转移酶1(IAMT1)编码将生长素(IAA)转化为其甲酯(MeIAA)的酶。在感染早期阶段,野生型莲花根部中短暂诱导,但在莲花突变体中表现出不同的表达模式。
IAMT1在拟南芥的发育中起着重要作用,但IAMT1对根的作用尚未见报道。系统发生树分析表明,豆科植物谱系中存在IAMT1基因重复,作者发现两个IAMT1s中的一个(称为IAMT1a)是由表皮感染在根中诱导的。IAMT1a基因敲除抑制皮质结节的发育;但对表皮感染无影响。根系MeIAA含量随根瘤菌侵染而增加。在没有根瘤菌感染的情况下,施用MeIAA(而不是IAA)可显著诱导共生基因NIN的表达。我们的结果为生长素甲基化在根瘤发育早期的作用提供了证据。
常规转录组差异分析极有可能得到数量巨大的差异基因,这对后期验证的目标基因锁定带来挑战。在没有特定感兴趣的通路及明星分子前提下,转录因子是一个非常不错的切入方向。转录因子可以调节基因组DNA开放性、募集RNA聚合酶进行转录过程、募集辅助因子调节特定的转录阶段,调控诸多生命进程,诸如免疫反应、发育模式等。
所以分析转录因子表达及其调控活性对于解析复杂生命活动具有重要意义。其他调节因子包括可变剪切等调控基因也可以参与上游调控。
适用研究领域:临床与转化医学、基础医学、生物化学与分子生物学、动植物研究等任意分子生物学方向
常用分析方法:转录因子、调控因子、组蛋白等相关数据库注释及文献检索
生信分析含量:低
后期验证含量:高
比较组设置:常见以处理组vs对照组居多,通常在2-5个比较组居多,较少出现上百例大样本样本
用户案例1:转录因子调节杨树中的磷酸盐饥饿反应
标题:PtoWRKY40 interacts with PtoPHR1-LIKE3 while regulating the phosphate starvation response in poplar
期刊:Plant Physiology
影响因子: 8.005
该研究通过转录组测序,发现低磷处理的杨树转录因子PtoWRKY40被快速抑制并且其编码的蛋白也被降解。过表达和敲除表达PtoWRKY40会分别抑制和诱导磷饥饿信号途径中的基因。PtoWRKY40可以结合到多个PtoPHT1s启动子区的 W box上来抑制它们的表达。而且在蛋白水平上PtoWRKY40可以与一个PHR1的同源基因PtoPHR1-LIKE3 (PtoPHL3)发生相互作用来抑制后者对P1BS顺式作用元件的结合从而降低了在磷重组条件下PtoPHT1s’的转录。而在磷饥饿条件下PtoWRKY40的表达被抑制从而释放了对PHT1s的表达抑制。该研究解析了PtoWRKY40 and PtoPHL3介导的不同磷素条件下植物对磷响应机制。
随着测序技术的飞速发展,少量样本的转录组测序研究已经无法解释复杂的生物学问题。研究者们已开始利用大样本量的转录组样本,结合统计学与机器学习等方式,挖掘符合特定规律和研究目的的核心基因。如相关性分析、线性回归、LASSO回归、Cox回归等,分析不同样本基因或基因组多样性,挖掘更深入和全面的生物学意义。
其中机器学习已经被广泛应用在了医学、农学等各项研究中。机器学习由于需要用于建模的样本量足够大,使用机器学习要保证转录组总样本量不小于1000例。在准备好了样本后,需要提取特征值后进行测试及训练,构建机器学习模型后还要进行预测。所以样本量不足的话,无法满足建模需求。至于其他的一些常见的多变量分析,如线性回归目前也已经广泛的应用在各种大样本测序分析中。
通常来讲,如果无法满足1000例以上的队列来满足机器学习的分析需求,几十例到几百例也是较为常见的研究方案。通常会将入组的样本分为发现集(Discovery Sets)和验证集(Validation Sets),发现集样本个数从几十个到几百个不等,甚至是可以分为多个组别。通常用于测序的验证集通常样本数量会少于发现集,而采用低通量低成本的检验方式如qPCR则验证队列数量会高于发现队列。
适用研究领域:临床与转化医学队列研究、动植物群体研究
常用分析方法:机器学习、线性回归、Cox回归、LASSO回归、卡方检验、WGCNA、PCA……等各类统计学模型算法
生信分析含量:高
后期验证含量:低或无
比较组设置:出现2组及多组,每组重复数量在几十例到几千例不等。整体实验样本个数在几百例以上
标题:One thousand plant transcriptomes and the phylogenomics of green plants
期刊:Nature
影响因子: 69.504
该研究对1124种广义上的植物进行了转录组测序。这些植物在选择上具有代表性,包括绿色植物、共生藻和红藻。研究结果为绿色植物的进化提供了一个强有力的系统基因组框架。该研究揭示了全基因组复制的时间,以及基因家族的起源、扩张和收缩,有助于推动绿藻、苔藓、蕨类植物、针叶树、开花植物和其它绿色植物谱系的进化。
植物如何以及在何时开始长高、结出种子、花朵和果实的历史,为理解地球上植物多样性提供了一个框架。值得注意的是,该研究发现,在绿色植物、陆地植物和维管植物起源之前,基因家族就有了大范围扩展,而全基因组复制则是在开花植物和蕨类植物的进化过程中反复发生。
案例2:血液转录组测序和大型对照队列鉴定罕见疾病基因
标题:Identification of rare-disease genes using blood transcriptome sequencing and large control cohorts
期刊:Nature Medicine
影响因子: 87.241
针对外显子检测中为阴性的患者而言,转录组测序已在特定组织和疾病中显示出诊断效用。但是临床上想要获取组织活检样本难度较大,所以在本文中作者试图利用血液样本的转录组测序结果来作为诊断不同病理生理学罕见疾病的工具。作者从94名患有16种不同疾病类型的未确诊罕见疾病的患者全血中提取total RNA并进行了转录组测序,此外还从1594名不相关的健康人及49名未患病的家庭内成员作为对照样本。
作者分别从基因表达量、基因可变剪切、等位基因特异性分析三个方面入手,开发了RIVER算法(分层贝叶斯模型),并利用GTEx中全基因组重测序及转录组数据作为训练集用于预测本次转录组和外显子中的突变信息。最后作者在队列中观察到转录组测序结果有7.5%的诊断率,并且随着候选基因分辨率的提高,额外产生了16.7%的诊断率。
标题:A Pan-cancer Transcriptome Analysis Reveals Pervasive Regulation through Alternative Promoters
杂志:Cell
影响因子: 66.85
作者利用18468例癌症和正常样本的RNA序列数据推断出活性启动子,证明选择性启动子是转录的上下文特异性调节的主要贡献者。作者发现启动子在组织、癌症类型和患者中被解除调控,影响已知的癌症基因和新的候选基因。对于具有独立调节启动子的基因,作者也证明启动子活性比基因表达更能准确预测患者存活率。最后表明,活性启动子的动态景观塑造了癌症转录组,为进一步探索调控机制与癌症转录异常的相互作用开辟了新的诊断途径和机会。
温馨小提示:
联川生物生信研发部,目前已针对部分课题组开启了转录组、miRNA测序等RNA测序相关的大样本队列及机器学习等个性化服务,欢迎客户前来咨询。目前暂时对样本个数等有要求,建议样本个数不少于1200例,且针对研究方向有明确的目的和需求。
用户案例NSR(IF=23)暨南大学张力课题组发现调控社交的杏仁核神经元集群 | 转录调控专题
JEB(IF=7.298):拟南芥金属蛋白酶FtsH12调控叶绿体发育 | 转录调控专题
案例解析:miR167-ARF3/30-多胺氧化酶 1 模块赋予玉米对MCMV的抗性 | 转录调控专题
所见即所得,绘图高规格联川云平台,让科研更自由