收藏再看!120分钟视频+上万字问题解答=circRNA大佬!(内含整理一年资料合集免费领取)
复制下方链接或者扫描下方二维码可在B站上观看:https://www.bilibili.com/video/BV1HF411i72T?spm_id_from=333.999.0.0
篇幅有限,在公众号后台回复“circRNA干货合集资料包”免费获取联川十年工程师吐血整理一年circRNA资料合集~
为了节省空间,原始数据fastq一般以压缩形式fastq.gz(或fq.gz)储存、分发和上传公共数据库,如无必要,无需解压。
工具>>>MD5>>>从文件生成...
),Mac平台可以打开终端,定位到文件的位置(比如如果文件在桌面,可以使用指令cd Desktop
定位到桌面),然后使用指令MD5 Control1_Data1.fq.gz
生成Control1_Data1.fq.gz文件的MD5值,而使用MD5 *
可以生成此目录下所有文本文件的MD5值。除OmicStudio外,对于Windows平台,推荐使用notepad++(https://notepad-plus-plus.org/)打开此文件(0_circRNA.fa),使用快捷键(Ctrl+F
)检索转录本所在位置,将序列复制出来即可。对于Mac平台,推荐使用CotEditor(https://coteditor.com/)打开此文件。
A:我们的分析结果分为三个部分,即结题报告(网页版)、完整分析结果(单独的summary)和原始数据。结题报告是对结果的导读以及文件结构的说明,其支持文件夹 src 中包含完整分析结果的完整结构,只是针对大的文件表格取其前 100 行进行展示;如果您查看的是 src 中summary_part 中的结果,表格只有 100 行信息。数据挖掘可以基于网页版报告的说明在完整分析结果中进行。
A:热图使用表达量绘制的,如果我们需要绘制所有样本的基因热图可以前往summary/3_1_circRNA_candidate_prediction/1_circRNA_expression.xlsx 是所有样本 circRNA 表达量文件,其中 circRNA ID 列和所有 srpbm 列(表达量,其他组学也是上传表达量矩阵),将其复制到新 Excel 即可得到 circRNA 表达量矩阵。从中筛选我们关注的 circRNA 即可针对我们关注的 circRNA 进行热图绘制。summary_part/3_2_circRNA_differential_expression/*/1_*_circRNA_differential_expression.xlsx 是*(差异比较组)的差异分析文件,取关注 circRNA 的 circRNA ID 列和所有 srpbm 列(表达量)至新的 Excel 中即可获得这些 circRNA 的热图绘制文件。热图绘制可以在 OmicStudio(https://www.omicstudio.cn/tool/4)进行绘制。需要强调的是对于生物学重复的样本,我们一般对表达量取 Z 值,然后对Z 值进行赋色,以直观比较 circRNA 在不同样本中的表达量高低。Z 值计算公式为:Zsample-i =[(srpbmsample-i)-Mean(srpbm of all samples)] / [Standard deviation(srpbm of all samples)]当对数据进行如下处理时等同于 Z 值,建议在绘图时参照如下勾选。其他的颜色、图片比例可以基于个性化选择进行调整。备注:1) 如果绘制热图时 circRNA 数目太多(比如超过 100 个),不建议显示 circRNA 名称(或ID),因为如果需要显示清楚每个 circRNA 的名称,图形可能很长。如果是此情况,可以不显示行名,并通过图片高度和宽度调整比例以体现选择 circRNA 的表达量变化趋势;
2)一般聚类可以将表达模式相似的基因聚在一起,从而更好的通过热图直观看出表达趋势。如果需要输出的热图和输入的circRNA 顺序或样本顺序一致,可以不对行(一般是基因)或列(一般是样本)进行举例
详情请点击:
A:GO 富集性分析结果柱状图反映在生物学过程(biological process)、细胞组分(cellular component)和分子功能(molecular function)富集的GO_Term 上差异 circRNA 亲本基因的个数分布情况。由于在生物学过程、细胞组分、分子功能这三种GO_function 上富集的 GO_Term 数目比较多,无法把所有的注释结果都展示在一张图中,因此三种 GO_function 我们分别挑选 Top25、Top15、Top10 进行展示,数据筛选的依据是:先筛选 GO_function(以 biological process 为例),再根据注释到GO_Term 的差异circRNA 亲本基因数目(S gene number)从大到小降序排列,筛选出 Top25。当筛选到Top25 时,如果出现几个 GO_Term 对应的 S gene number 数目相等时,代码会随机选一个进行绘图,另外 S gene number 数目相等的 GO_Term 在柱状图上是随机排列的,没有先后顺序,所以 GO 富集分析柱状图横坐标跟 GO 富集分析结果表中 S gene number 降序排列的结果不是完全一一对应的。
详情请点击:
1. 玩转GO和KEGG富集因子图的N种姿势:3种数据处理(含在线筛选条目),3种排序方式,本地交互图片
2. 跟着小姐姐一起学习如何做GO和KEGG基因功能富集分析 | 生信快闪
3.【疯狂7月】⑬—KEGG通路标色:表达量/上下调、单组/多组 | 云平台
A:差异表达谱中包含差异显著 circRNA 和非差异circRNA,老师您先选中首行,点击筛选,然后在 significant 那一列选“yes”,筛选之后的基因即为差异表达 circRNA。在分析结果中同时满足 log2(fc) 绝对值大于等于 1 且p 值小于 0.05 的 circRNA 标为yes,否者标为no。
A:分析结果中同时满足log2(fc) 绝对值大于等于 1 且p 值小于 0.05 的 circRNA 定义为差异显著 circRNA,如果某 circRNA(您关注的 circRNA)p 值小于 0.05,但差异倍数没到 2 倍,也是可以考虑下游分析验证的。在生信分析时需要设置阈值,那么如果某 circRNA 满足 p 小于 0.05,但是差异倍数为 1.99,那么分析会认为其差异不显著,如果差异倍数为 2.01,那么分析会认为其差异显著。事实上在生物学实验中,2.01 和 1.99 没有明显差别,如果对此类circRNA 感兴趣,也是可以考虑将此circRNA 纳入候选。
A:柱 状 图 是 根 据 百 分 比 结 果 列 出 的 , 纵 坐 标 Percent of genes 计 算 公 式 如 下 :percent=s_gene_number*fold(BP/CC/MF)/(max(s_gene_number)*1.1)s_gene_number:表示该功能条目下显著基因的个数max(s_gene_number):显著基因数目最多的条目的显著基因数目max(BP/CC/MF):表示三大功能中各自的 s_gene_number 最大值fold(BP/CC/MF):表示 max(s_gene_number)的 1.1 倍与 max(BP/CC/MF)的比值再取整fold(BP/CC/MF)=int(max(s_gene_number)*1.1/max(BP/CC/MF)
详情请点击:
1. 玩转GO和KEGG富集因子图的N种姿势:3种数据处理(含在线筛选条目),3种排序方式,本地交互图片
2. 跟着小姐姐一起学习如何做GO和KEGG基因功能富集分析 | 生信快闪
3.【疯狂7月】⑬—KEGG通路标色:表达量/上下调、单组/多组 | 云平台
A:关于 KEGG 富集的 p 值是利用超几何检验计算的,在散点图中 p 值和 Rich facrtor(S_gene_number/B_gene_number)以及S_gene_number 都是可以作为参数筛选使用,选择依据推荐是 pvalue——Rich factor——S_gene_number。不能说 p 值越大越不能用,建议您根据您所关心的功能及三个筛选依据进行综合考量。另外对于 circRNA 而言,富集分析是基于其亲本基因的 GO、KEGG 注释,不用过度解读差异circRNA 亲本基因的富集分析结果。
详情请点击:
1. 玩转GO和KEGG富集因子图的N种姿势:3种数据处理(含在线筛选条目),3种排序方式,本地交互图片
2. 跟着小姐姐一起学习如何做GO和KEGG基因功能富集分析 | 生信快闪
3.【疯狂7月】⑬—KEGG通路标色:表达量/上下调、单组/多组 | 云平台
A:增加生物学重复个数和单个样品数据量,都可以改善定量的结果。随着生物学重复数(n)的增加,差异分析的假阳性率(FPR)变化不大,但真阳性率(TPR)在不断提高。即提高生物学重复数,差异表达基因的检测更加敏感;随着生物学重复数的增加,差异分析的真阳性率(TPR)在不断提高;而测序深度的提高对真阳性率(TPR)的提高没有生物学重复增加明显。建议在实验设计时,如果允许多设几个重复,特别是对于异质性较高的样本类型。
链特异性文库详细情况,请点击:
你可能做了假转录组!揭秘yyds“真”转录组秘密——链特异性文库
A:联川生物在转录组建库时采用链特异性建库(fr-firstrand),链特异性转录组测序(strand-specific RNA-seq/ssRNA-seq) 可以保留转录组测序时转录本的方向信息,即可以确定转录本是来源于基因组上面的正义链还是反义链。其构建文库的方法有多种,其中用的最普遍的即是 dUTP 方法。相对于传统转录组测序而言,链特异性文库在基因结构的确定,non-coding 转录本(例如lncRNA 和 antisense transcript)的鉴定,原核生物的操纵子(operon)鉴定以及转录本的基本定量方面,都具有绝佳的优势。链特异性建库的关键就在于合成 cDNA 的第二链时,由 dUTP 代替dTTP,然后用 UDG 处理,第二链就会降解,而第一链保留下来, 继而测序。因此,测序得到的转录本序列信息,只是来源于第一链的。
链特异性建库有如下优势:
1) 定量更准确
由于链特异性测序方法可以区分转录本的来源,因此在计算某些转录本的表达量时,可以排除来自其互补链的转录本。
2) 可变剪切事件的检测更准确
因为链特异性文库可以排除反义链上 antisense 转录本的影响,可变剪接事件的检测假阳性更低。
3) Non-coding transcript 的检测
链特异性文库可以显著提高 non-coding transcript 的检出效率。对于 antisense 的 non-coding 转录本,如果用普通文库,是无法区分的;如果是基因间的 non-coding 转录本,普通文库无法确定转录本的方向。
4) 原核生物操纵子(operon)的预测
原核生物的基因是多顺反子的结构,反义转录本上的基因,如果不加区分,那么对应位置的基因表达量会计算不准确,并且预测 operon 以及基因结构也更不准确。
5) 组装结果更真实
一般的转录组组装出来的 unigene 既包括编码转录本,也包括一些非编码转录本(比如lncRNA),但是如果不区分正反链, 那么有互补配对关系的编码与非编码转录本会被组装成一条转录本。
参考文献:Parkhomchuk D, Borodina T, Amstislavskiy V, Banaru M, Hallen L, Krobitsch S, Lehrach H, Soldatov A. Transcriptome analysis by strand-specific sequencing of complementary DNA. Nucleic Acids Res. 2009 Oct;37(18):e123. doi: 10.1093/nar/gkp596. Epub 2009 Jul 20. PMID: 19620212; PMCID: PMC2764448.
A:建议不要仅仅基于 Pathway 富集分析的结果解读数据,人为的解读和挑选是必不可少的。因为生物数据的解读,在现阶段更多是生物学问题,而不是数学问题。原因大体如下:
1) 基因调控是个系统,不要仅仅看成一个一个孤立的 Pathway
基因调控是个系统,可以从两个层面进行解读:
a)1 个基因的改变可以造成整个系统的改变;举几个例子:
把 1 个生命活动必须的蛋白敲除后,整个细胞会发生紊乱。而植物抗病应激,也往往是 1 个受体蛋白识别了病原的外源蛋白,然后导致整个细胞系统的变化。
b)1 个基因往往有多个功能,但执行具体的功能往往是不同蛋白复合物共同作用的结果。
例如。基因 X 理论上在不同情况下,有可能参与 A、B、C 通路。在某个生物处理下,或许基因 X 只在A 通路里起作用。但如果进行基因注释的话,X 同样也会被注释到 B、C。所以,富集分析的结果总是会涉及特别多的通路。例如,研究人的项目,无论什么研究背景,常常会富集到帕金森综合症通路。不是你的材料真的得了帕金森综合症,只是那些与你实验处理相关的基因,在一定条件下也可以参与到帕金森综合症的过程,所以被注释到了这个通路里。
2) Pathway 富集分析的统计假设,并非在任何情况下都适用
Pathway 富集分析,在生物学上的假设是:1 个 Pathway 上游基因的改变,会导致下游相关基因改变,从而改变通路中大量基因的表达,达到统计学上富集的效果。但很多 Pathway 中,基因 A、B、C 并不是相互调控的关系,而是共同参与某个过程的不同部分。
例如,代谢物 X 的合成修饰。基因 A、B、C 分步骤参与合成的 3 个步骤。基因 A 给X 前体加了羟基,然后传递到下游;基因 B 又给 X 前体加了苯环,再传递到下游;基因 C 又给X 的前体加了个乙酰基 ,完成 X 的合成。那么,基因 A、B、C 是参与了的相同的通路。如果基因 A 发生表达量变化,会直接调控影响 B、C 的表达量变化吗?看来很有可能不会,所以从RNA-seq 差异分析的富集分析结果中,这个通路是不显著的。那么基因A 的表达变化是否有生物学意义?当然有,因为代谢物 X 的合成的确受影响了。
类似的例子,理论上 DNA 差异甲基化的结果,就不能看Pathway 富集分析的结果。1 个Pathway 中的 1 个基因的 DNA 甲基化变化,就足以改变这个通路的基因表达,而不需要整个通路的甲基化都发生变化。DNA 甲基化、组蛋白 CHIP-seq 的结果,其实只看功能注释或通路注释就足够了,不需要考虑富集。
所以,我们还是要观察、理解某个核心 Pathway 中基因的相互作用,才能判断其中的基因变化是否有生物学意义,而不仅仅看富集分析的 p 值或 q 值。
3) 目前的 Pathway 是不完整的
目前 KEGG 等数据库收录的是已有的研究结果,但这些Pathway 的信息,远没有到达完善的水准。大部分通路只是了解1 个大概的调控途径,而中间有什么转录因子参与、是否还有其他代谢物的生成,都是不知道的。这些通路的完整性,也会影响 Pathway 富集分析结果。例如,基因 A 发生变化了,看起来下游基因没有变化。也许是还有其他的调控在起作用,只是这些调控作用现在还不知道而已。
总结:Pathway 和 GO 富集分析结果的解读,应该从生物学意义的角度出发,p 值和 q 值只是个参考而已,那些不显著的通路也值得解读(从功能注释的角度解读,而不是从富集分析的角度解读)。只要结果可以解释,有意义,不用太迷信 p 值。详情请点击:
1. 玩转GO和KEGG富集因子图的N种姿势:3种数据处理(含在线筛选条目),3种排序方式,本地交互图片
2. 跟着小姐姐一起学习如何做GO和KEGG基因功能富集分析 | 生信快闪
3.【疯狂7月】⑬—KEGG通路标色:表达量/上下调、单组/多组 | 云平台
A:我们构建基因敲除体系时一般是在染色体(DNA)上进行操作,主要针对基因(蛋白编码基因)的某个外显子,通过局部的 DNA 序列测序(PCR 加一代测序),确定基因外显子产生了移码突变,从而确定基因被敲除,并且通过 WB 检测蛋白水平显著的降低。一般通过 DNA(基因局部的 DNA 序列)的一代测序和 WB 结果即可确定目标基因被敲除。但是 RNA-Seq 反映的是转录水平,如果我们对于目标基因的操作并没有显著影响基因转录,那么在 RNA-Seq 中是可以检测到目标基因的, 同时敲除组的基因 FPKM 值可能相对于对照组下调、稍上调或者没有明显差异。
如果我们针对的是目标基因的启动子区域(一般针对 RNA 基因),那么理论上,无论是转录水平还是蛋白水平都是下调的。但是如果针对的是外显子,那么比较转录水平是没有意义的,有 WB 结果支持即可。那么为什么在转录组中检测到敲除基因的表达,但是蛋白却又明显下调呢?原因是虽然移码突变不一定会影响转录,但是转录出来的 RNA 不能翻译(比如由 mRNA 变成了 lncRNA),从而影响了蛋白水平。如果我们研究的基因敲除模型并不是自己构建的,可以先咨询敲除是针对基因的哪个区域,再去分析可能的原因。Q20:circRNA 测序结果中,对于存在于同一宿主基因(亲本基因)的几个circRNA,表达差异都显著,是否验证时只需要挑选其中一条 circRNA 进行验证?因为考虑到同一宿主基因的数个 circRNA 可能具有相同的功能 。
A:"A Circular RNA profiling reveals an abundant circHIPK3 that regulates cell growth by sponging multiple miRNAs"这篇文献中提到:同一个亲本基因环化而来的多个 circRNA 当中会有一个显著差异表达的高丰度 circRNA,所以对于同一个亲本基因环化而来的 circRNA,建议优先挑选表达丰度最高的 circRNA 进行后续研究。
A:通过高通量测序仪获得的 paired-end 原始数据(read1+read2),其中可能含有带接头(建库过程引入)和低质量的测序数据(由测序仪器本身产生)。为了确保准确、可信的分析结果,需要对原始数据进行预处理,得到有效数据(Valid Data), 用于后续的信息分析。ReadsQC.xlsx 中的 Valid Data 指的是去除接头、去除含有 N(N 表示无法确定碱基信息)的比例大于5%的reads、去除低质量reads(质量值Q<=20 的碱基数占整个 read 的百分之 20 以上)之后的有效数据。
rRNA 在Total RNA 中占的比例很高,实验建库过程中通过探针杂交尽量去除 rRNA,但是没有办法完全去除,因此预处理后的有效数据(Valid Data)在使用 TopHat 和参考基因组进行比对之前,会先过滤掉 rRNA 序列,得到 Valid reads,然后和参考基因组进行比对,即 2_mapped_stat.xlsx 中的有效 reads。ReadsQC.xlsx 和 2_mapped_stat.xlsx 中的有效数据都可以用,如果您要放数据量、Q20、Q30 等,可以用ReadsQC.xlsx 中的质控结果,如果要用比对率等指标,可以用 2_mapped_stat.xlsx 中的比对结果。
A:在”Transcriptome-wide investigation of circular RNAs in rice”这篇文章中,作者分析了生物学重复内 circRNA 的 overlap 情况,发现在同一生物学重复内鉴定出来的 circRNA 相同的数目个数也比较少,这可能是由于 head-to-tail junctions 在测序时是随机测序导致的。
A:分析结果中的基因 ID(或转录本ID)、基因名(symbol)和转录本ID 都来源于参考基因组,一般只有部分物种(如小鼠、大鼠等)有类似人中的基因名(如GAPDH、Gapdh),当然即使是大鼠目前也有部分基因没有基因名而以基因ID 代替。其他研究较多的物种可能有自己专门的网站和基因命名方式,比如拟南芥以 AT1G 开头的基因名,番茄以Solyc01g 开头的基因名等。另外部分物种可能有多个数据库,比如水稻、茶叶等,不同数据库间的基因 ID、基因名和转录本 ID 形式可能都不同。此外对于研究较少物种或新组装的基因组可能基因 ID、转录本 ID 和基因名三者相同。
A:多组比较使用 edgeR(http://bioconductor.org/packages/release/bioc/html/edgeR.html)进行p 值的计算,使用BH 进行 p 值的校正。
有时候我们需要在多个细胞系中探索敲除(或敲减)某基因后共同差异变化的circRNA或基因,或者是过表达某基因或敲减某基因的体系中变化相反的circRNA或基因,或者是动物模型或细胞模型中用药后表达有回复的circRNA或基因,亦或者是关注响应时间序列或浓度梯度变化的circRNA或基因,上述目的往往需要结合两个比较组或多个比较组的差异分析信息,可以参考以下方法进行数据筛选:
韦恩图(Venn),也叫温氏图、维恩图,是用于显示集合重叠区域的关系图。我们可以用韦恩图筛选不同比较组(不同基因集)共同的元素和特有元素,比如共同差异表达circRNA、特异差异表达circRNA等,并将这种筛选过程和结果可视化。灵活利用韦恩图可以通过一次筛选或多次筛选获取我们关注的核心circRNA集,然后可以对核心circRNA集进行进一步分析。比如利用韦恩图筛选某基因敲减组差异上调circRNA和过表达组差异下调circRNA的交集,韦恩图详细方法介绍参见:三分钟绘制一张优美的维恩图 | 云平台。当然也可以利用韦恩图比较不同样本或组中表达circRNA的区别,对于单样本而言,您可以通过表达量是否为0(或count数是否为0)判断某circRNA是否表达(或低于某一临界值判断为不表达或极低表达);对于生物学重复组而言,您可以认为在所有样本中表达量都大于0的circRNA在该组表达,也可以认为至少一个样本中表达量大于0(平均表达量大于0)的circRNA在该组中表达。
当样本为时间节点样本、浓度梯度样本、治疗或用药前后设置时,若进行两两比较筛选,当样本组较多时可能需要多次的相交筛选才能获得目标变化趋势的基因集。基于STEM(http://www.cs.cmu.edu/~jernst/stem/)的基因表达模式聚类分析(趋势分析)可以快速获得我们关注趋势的基因(或circRNA)集或者哪种变化趋势是最显著的变化趋势。OmicStudio已经上线表达模式分析工具(https://www.omicstudio.cn/tool/37),输入基因表达量数据即可进行表达模式分析。表达模式分析需要将所有组(或自己关注的组)按照时间节点排序、浓度梯度排序或对照、模型、治疗的顺序排序,输入的是基因或circRNA表达量(比如FPKM值或srpbm值)信息,每组需要使用一个表达量表征该组的基因表达量,通常使用表达量平均值(对该组所有样本取表达量平均值)。关于OmicStudio上的表达模式分析可以参考:https://zhuanlan.zhihu.com/p/188823706/。
我们默认是对差异circRNA的亲本基因进行富集分析,通过circRNA来源基因座的功能注释推测circRNA可能具有的功能。当然我们也可以通过其他方式建立circRNA和mRNA(或蛋白编码基因)的联系,比如ceRNA分析(分析circRNA可能互作的miRNA下游的潜在靶基因),随后我们可以对这些靶基因进行功能富集分析,看看主要分布于哪些通路,或者有没有与自己感兴趣的通路或生物学过程中基因相关的circRNA(通过结合相同的miRNA构建联系)。OmicStudio已上线通用版富集分析工具,具体说明可以参考:通用版富集分析。(通用版富集分析可关注公众号在后台回复“circRNA干货合集资料包”获取)
详情请点击:
1. 玩转GO和KEGG富集因子图的N种姿势:3种数据处理(含在线筛选条目),3种排序方式,本地交互图片
2. 跟着小姐姐一起学习如何做GO和KEGG基因功能富集分析 | 生信快闪
3.【疯狂7月】⑬—KEGG通路标色:表达量/上下调、单组/多组 | 云平台
在进行功能相关的circRNA筛选时,最直接的是构建功能筛选模型(基于分子指标、表型指标等),通过Gain-of-function(过表达、激动剂等)或loss-of-function(敲减、敲除、抑制剂等)的模型直接筛选功能相关的circRNA(挑选丰度Top的若干差异circRNA),然后再探究可能的调控机制(对于临床研究而言,也可以评估目标circRNA是否和肿瘤、生存、预后等相关);间接方式是通过不同的方式建立circRNA与功能基因(或蛋白)的联系,从而推测circRNA可能的功能或者辅助筛选具有生物学功能的circRNA。关于circRNA研究方法可以参考五万字书籍CircularRNAs。(CircularRNAs书籍可关注公众号在后台回复“circRNA干货合集资料包”获取)
circRNA是基因座的特殊剪切产物,有观点认为哺乳动物中大量的circRNA是剪切错误的产物,可能不具备生物学功能[11]。即使是剪切错误,那么circRNA大量产生所造成的影响,其如何产生,如何降解同样可能具有一定的研究价值。作为特殊的剪切产物,circRNA可能能够影响其亲本基因的转录、剪切或翻译等等,因此基于circRNA可能与其亲本基因存在功能相关性的假设,可以基于亲本基因的功能注释(GO、KEGG)筛选可能与目标兴趣生物学过程相关的circRNA。
circRNA总表达谱和组间差异分析表格中(3_2_circRNA_differential_expression/*/1_*_circRNA_differential_expression.xlsx,*为差异比较组)中包含亲本基因的GO、KEGG注释(并不是所有的亲本基因都有GO或KEGG注释),因此在表格的GO列或KEGG列检索相关关键词,可以检索与目标生物学过程相关的基因是否能够产生circRNA以及其表达和差异信息。
从另一个角度看,正因为可能与其他同基因座转录产物存在高度相似性或相关性(比如外显子型circRNA和其亲本基因),在探索circRNA的功能时,需要排除亲本基因mRNA的干扰(可能是无法回避的问题)。
circRNA可以作为ceRNA分子与mRNA(或其他RNA)竞争结合miRNA,从而间接调控mRNA的翻译或降解。通过预测circRNA上潜在的miRNA识别元件(MRE)获取circRNA可能结合的miRNA,然后通过miRNA下游靶基因的检索或预测可以获得circRNA可能影响的mRNA信息,进行推测circRNA可能通过ceRNA机制在哪些生物学过程中发挥功能。
如果您想查询关注基因可能互作的RNA(miRNA、lncRNA、circRNA等),可以前往ENCORI(The Encyclopedia of RNA Interactomes,https://starbase.sysu.edu.cn/index.php)查询,也可以参考如下数据库查询或预测miRNA与靶基因的互作关系:
TargetScan:https://www.targetscan.org/vert_72
RNA22:https://cm.jefferson.edu/rna22/Interactive
RNAhybrid:https://bibiserv.cebitec.uni-bielefeld.de/rnahybrid
miRTarBase:https://miRTarBase.cuhk.edu.cn,收录了实验验证的miRNA-靶基因关系。
TarBase:https://carolina.imis.athena-innovation.gr/diana_tools/web/index.php?r=tarbasev8%2Findex,收录各种手段检测过的miR-Target数据。
OmicStudio:https://www.omicstudio.cn/analysis/targetGene,提供基于miRanda和TargetScan的动物模式和基于PsRobot的植物模式预测miRNA的靶基因和靶点。
circRNA的亚细胞定位与其作用机制存在相关性,获取其定位信息可以帮助我们推测可能的机制探索方向。我们可以通过FISH(荧光原位杂交)、核质分离的qPCR、Northern杂交探索circRNA的亚细胞定位。除了必不可少的实验检测外,也可以使用一些网站预测一下circRNA可能的亚细胞定位,以下网站的结果仅供参考:
RNALocate:https://www.rna-society.org/rnalocate/
lncLocator:http://www.csbio.sjtu.edu.cn/bioinf/lncLocator/
circRNA能够与RPB(RNA结合蛋白)结合从而发挥相关的生物学功能,比如,可以使用CircInteractome(Cirular RNA interactome,https://circinteractome.irp.nia.nih.gov/)数据库查询circRNA(人源,circBase ID)可能结合的RBPs或查询RBPs可能结合的circRNA,CircInteractome通过Targetscan预测了circRNA可能结合的miRNA,CircInteractome相关的使用说明可以参考CircularRNAs的Chapter 4。也可以前往RBPDB(https://rbpdb.ccbr.utoronto.ca/)查询或预测目标RNA和目标蛋白结合的概率,或者使用RPISeq(https://pridb.gdcb.iastate.edu/RPISeq)和catRAPID(https://service.tartaglialab.com/page/catrapid_group)预测您关注的RNA和RBPs是否存在结合的可能。POSTAR3(https://postar.ncrnalab.org/index.html)是一个用于探索RNA结合蛋白协调的转录后调控平台,可以查询目标circRNA是否存在RNA结合蛋白结合位点。
circRNA的PCR和qPCR和mRNA、lncRNA的稍有区别,由于circRNA可能与mRNA序列高度相似,差别之一是circRNA包含跨反向剪切的序列,其鉴定和定量都依据这一特征,因此在设计引物时需要用到这一区别。在设计Divergent Primer(参考circRNA的引物设计)时,可以设计跨环化位点引物(其中一条引物跨反向剪切点)或背靠背引物(产物跨反向剪切点),在实验时也需要设计Convergent Primer作为对照(例如PMID: 23446348,PMCID: PMC7446195),对于人或小鼠circRNA,可以使用circPrimer 2.0(https://www.bio-inf.cn/)辅助进行引物设计,当然引物效果还是需要实验检验的。(circRNA的引物设计可关注公众号在后台回复“circRNA干货合集资料包”获取)
由于circRNA的鉴定和定量都依赖于具有反向剪切位点的reads,随机误差对其的影响要大于mRNA、lncRNA等线性转录本。在挑选进行qPCR的circRNA,建议优先选择表达量高、组内一致性较好、组间差异大的circRNA,以提高验证成功率(包括是否为circRNA,是否在组间存在统计学差异)。另外考虑到样本异质性和检测随机误差的影响,无论测序选择几个生物学重复,qPCR验证时尽量选择更多样本,以确定目标circRNA是否在组间存在表达差异。比如PMID: 31324812在测序时选择5对样本(癌和癌旁)进行差异circRNA的检测,其中4对样本显示目标circRNA显著上调,1对无差异;qRT-PCR验证时选取35对样本表明目标circRNA在癌组织中表达量显著高于癌旁组织(其中23对样本上调,7对样本下调,5对样本无明显差异)。
circRNA的物种间保守性一般较长链非编码RNA(lncRNA)高,基于此,我们可能对自己研究的circRNA是否在模式动物(人、小鼠)、植物(拟南芥)中具有同源circRNA感兴趣,如果存在同源circRNA,那么目标circRNA可能具有较高的物种间保守性,从而可能具有保守的功能或作用机制(miRNA也具有较高的物种间保守性)。另外探索模式动植物中的同源circRNA,也可以借鉴模式动物或植物中广泛的数据库资源。比如在CircInteractome可以预测人源circRNA可能结合的蛋白,通过人源circRNA可能结合的蛋白,推测目标circRNA可能结合本物种中的同源蛋白,从而可以为实验探索提供思路与猜测方向,当然更直接的还是基于circRNA pull down的质谱分析或分析RIP-Seq中的circRNA。同时分析circRNA是否可能结合AGO2蛋白(或基于AGO2的RIP-Seq中的circRNA检测分析),也可以提供circRNA是否可能发挥ceRNA机制的参考信息。
circRNA的保守性分析可以在circBase(https://circrna.org/cgi-bin/webBlat)或PlantcircBase(https://ibi.zju.edu.cn/plantcircbase/blastcirc.php)中进行。通过在0_circRNA.fa中查询circRNA序列(参考引物设计中的跨反向剪切序列形成方法),借助于circBase和PlantcircBase在线blast功能(基于序列和跨反向剪切点序列),可以获得在模式动植物中相似度高的circRNA,再结合基因座、长度,相似区域是否跨剪切位点以确定是否存在同源circRNA。
下面列出了部分circRNA相关的数据库,其他circRNA数据库可以参考:circRNA数据库简介(circRNA数据库简介可关注公众号在后台回复“circRNA干货合集资料包”获取)
circBase:https://www.circbase.org,目前收集6个物种包括人、小鼠、秀丽线虫、黑腹果蝇、矛尾鱼和腔棘鱼的circRNA信息。circBase提供了基因组位置、细胞系、组织来源和参考文献等信息,并支持circRNA序列查询和相关信息下载。可以在此数据库中分析研究物种中circRNA是否可能在人、小鼠中具有同源的circRNA。
PlantcircBase:https://ibi.zju.edu.cn/plantcircbase/index.php,更新至6.0版本,收录了20个植物物种(比如拟南芥、水稻、番茄等)的circRNA序列信息、反向剪切点等,可以在线进行分析研究物种中circRNA是否可能在常见植物中找到同源circRNA。
PlantCircNet:https://bis.zju.edu.cn/plantcircnet/index.php,收录了八种植物(拟南芥、二穗短柄草、大豆、大麦、亚洲栽培稻、番茄、小麦和玉米)的circRNA以及circRNA-miRNA-mRNA互作网络信息,还提供了circRNA的类型、反向剪接位点、亲本基因、相关亚型以及表达水平等基本信息。
LeafcircBase:https://bis.zju.edu.cn/LeafcircBase/index.php,一个叶circRNA资源数据库,目前收录了来自五种模式植物叶子的circRNA,为circRNAs的基因组定位和保守提供了信息。
TSCD:https://gb.whu.edu.cn/TSCD/,Tissue-specific CircRNA Database,提供人类和小鼠主要组织中组织特异性circRNA的全局视图,有助于识别器官发生和发育疾病的新标记。
exoRBase:https://www.exorbase.org,收录了人类血液外泌体RNA-seq数据分析的circRNA、lncRNA和mRNA。
cir2traits:https://gyanxet-beta.com/circdb/,收集与人类疾病相关的circRNA(除肿瘤外,还包括非肿瘤疾病,如心肌病、阿尔茨海默症、血管发育等),并预测miRNA和人类蛋白质编码基因、lncRNA及cirRNA间的相互作用关系,构建相互作用网络。
circR2Disease:https://bioinfo.snnu.edu.cn/CircR2Disease,收录了环状RNA和疾病之间的关联数据,数据库中的记录都是从文献中整理得到的,给出了疾病名称、circRNA在患病者中的表达趋势、相关文献等信息,主要用于检索circRNA和疾病之间的关系。
收藏!看完联川这1万多字的问题解答,你就能从转录组小白变成大神
所见即所得,绘图高规格联川云平台,让科研更自由