查看原文
其他

收藏再看!120分钟视频+上万字问题解答=circRNA大佬!(内含整理一年资料合集免费领取)

运营部-LH 联川生物 2024-03-27




复制下方链接或者扫描下方二维码可在B站上观看:https://www.bilibili.com/video/BV1HF411i72T?spm_id_from=333.999.0.0




篇幅有限,在公众号后台回复“circRNA干货合集资料包”免费获取联川十年工程师吐血整理一年circRNA资料合集~


一、 常见问题

Q1: 原始数据FASTQ是什么?

A:高通量测序得到的原始图像数据经碱基识别分析(base calling)转化为原始测序序列,原始数据以fastq文件格式存储,文件内是一些150bp左右的短序列(也叫reads)。fastq是一个文本格式,用于储存生物学序列及其相应质量值(通常是核酸序列的)。为了方便储存及可读这些信息,这些序列以及质量信息使用ASCII字符标示。该格式最初由Sanger开发,目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的事实标准。通常fastq文件中每一个序列含有4行信息,第一行:以‘@’开头,是这一条read的名字,这个字符串是根据测序时的状态信息转换过来的,中间不会有空格,它是每一条read的唯一标识符,同一份FASTQ文件中不会重复出现,甚至不同的FASTQ文件里也不会有重复;第二行:表示序列信息,制表符或者空格不允许出现。一般是明确的DNA或者RNA字符,由A,C,G,T和N这五种字母构成,N代表的是测序时那些无法被识别出来的碱基;第三行:用于将测序序列和质量值内容分离开来。以‘+’开头,后面是描述信息等,或者什么也不加。在旧版的FASTQ文件中会直接重复第一行的信息,但现在一般什么也不加(节省存储空间);第四行:测序read的质量值,每个字符与第二行的碱基一一对应,按照一定规则转换为碱基质量得分,进而反映该碱基的错误率,因此字符数必须和第二行保持一致,它描述的是每个测序碱基的可靠程度,用ASCII码表示。第四行中每个字符对应的ASCII值减去64,即为对应第二行碱基的测序质量值。如果测序错误率用E表示,Illumina的碱基质量值用Qphred表示,则有下列关系Qphred=-10log10E:

为了节省空间,原始数据fastq一般以压缩形式fastq.gz(或fq.gz)储存、分发和上传公共数据库,如无必要,无需解压。


Q2 一般来说,srpbm值多大算表达量高的?

A:srpbm值和物种、不同的发育生长时期、测序深度、建库方式都是有关系的,没有一个绝对和统一的标准。对于circRNA而言,其鉴定和定量都依赖含BS位点的reads,因此误差可能较mRNA大(体现在生物学重复性较mRNA差,如果样本本身异质性比较明显,可能生物学重复样本差异更明显)。如果生物学重复较少或样本本身异质性比较明显,表达量的重要性可能稍高于差异倍数或p值(或q值),因此建议先按照表达量(srpbm值或count值)从大到小排序(优先选择丰度高的circRNA),然后再评估其他指标,比如表达量与趋势一致性、差异倍数和p值(或q值)。


Q3 MD5值是什么?

A:MD5全称是Message-Digest Algorithm 5,是一种被广泛使用的密码散列函数,可以产生出一个128位(16字节)的散列值(hash value),用于确保信息传输完整一致。MD5值等同于文件的ID,它的值是唯一的。如果文件内容(不是文件名)发生改变,那么MD5值会发生变化。由于二代测序原始数据一般较大,为了保证数据在传输过程没有发生损坏,可以使用MD5值进行文件校验。Windows平台可以使用notepad++生成文件的MD5值(工具>>>MD5>>>从文件生成...),Mac平台可以打开终端,定位到文件的位置(比如如果文件在桌面,可以使用指令cd Desktop定位到桌面),然后使用指令MD5 Control1_Data1.fq.gz生成Control1_Data1.fq.gz文件的MD5值,而使用MD5 *可以生成此目录下所有文本文件的MD5值。


Q4 怎么查找circRNA序列进行后续实验,比如qPCR?

A:我们已经将所有circRNA序列信息整合并放入3_1_circRNA_candidate_prediction文件夹中,您可以使用circRNA的Accession ID(注意circ和ci开头是不同的,请使用全称)在0_circRNA.fa中查询其序列。OmicStudio已上线序列批量提取工具(https://www.omicstudio.cn/tool/77/),提交0_circRNA.fa文件和circRNA ID列表,即可批量提取关注circRNA的序列。

除OmicStudio外,对于Windows平台,推荐使用notepad++(https://notepad-plus-plus.org/)打开此文件(0_circRNA.fa),使用快捷键(Ctrl+F)检索转录本所在位置,将序列复制出来即可。对于Mac平台,推荐使用CotEditor(https://coteditor.com/)打开此文件。

另外circRNA序列是基于反向剪切位点信息和基因组注释信息拟合出来的,比如检测到某基因外显子2和外显子4的反向剪切信号,预测软件会基于相关信息组装circRNA序列,即将外显子2、3、4序列组合形成circRNA序列。0_circRNA.fa中的circRNA序列以线性形式储存,首尾连接处即反向剪切点。实验验证时可以通过divergent primers和Sanger sequencing确定反向剪切点。


Q5 为什么研究的是A组织(如肝脏),circRNA亲本基因富集分析却富集到B组织(如神经)相关通路或疾病的?

A:一般基因是多功能性的,其在不同发育时期、不同组织和不同状态下可能具有不同的功能。circRNA富集分析是将所有显著性差异circRNA的亲本基因向Gene Ontology数据库(或其他数据库)的各Term映射,也就是会统计显著性差异circRNA亲本基因在数据库中收录的所有功能(或涉及条目、通路)。如果一个基因差异显著,那么其涉及的所有通路都会被富集,只是通路的富集程度不同。因此如果出现显著富集通路与自己研究不相关或相关性不大的情况,可以直接忽略;或者,如果有兴趣的话,也可以探索其他组织中有明确功能报道的基因是否在我们研究的模型中发挥作用以及发挥怎样的作用。
更重要的是,在circRNA项目中,其富集分析参考意义有限,更多的是通过circRNA亲本基因的注释和富集分析建立亲本基因和生物学过程的相关性。circRNA也是基因座转录剪切形成的转录本,也可能直接影响亲本基因,从而间接建立circRNA与生物学过程的相关性。然而并没有大量研究表明circRNA与亲本基因功能或涉及生物学过程的直接相关性,因此基于亲本基因的GO、KEGG注释的富集分析仅供参考,不建议过度解读。


Q6 在填写立项信息和分析要求时将实验组和对照组填反了,会不会影响分析结果?

A:比较组格式为:<实验组>VS<对照组>,即分析流程判断VS前为实验组,VS后为对照组。实验组和对照组的顺序只是影响差异基因上下调的判定(上调和下调刚好对调),对p值和q值无影响,对差异基因的判定和富集分析结果无影响,只需要将差异倍数(fc)变为倒数(1/fc),log2fc变为相反数(-log2fc),up和down对调即可。上下调是相对而言的(比较srpbm值的大小可以判断在哪组或哪个样本中的表达量高),A相对于B下调也可以描述为B相对于A上调。另外默认上下调是基于组的平均srpbm值比较而来,如果存在异常高或低的表达值,可能会对差异倍数产生影响,因此按照差异倍数筛选时要注意不同组中是否存在异常表达量。


Q7 审稿人要求将circRNA测序原始数据上传至公共数据库,其与普通转录组测序有什么区别吗?

A:circRNA测序原始数据上传至公共数据库大体与普通转录组相同,稍有区别的是circRNA原始数据上传时建议一并上传circRNA的序列文件(或参考基因组版本、区间位置和反向剪切位点信息),对于circBase收录的circRNA,读者可以去circBase查询序列;对于circBase没有收录的,读者无法获得有效序列信息,因此建议在上传时附上circRNA序列文件。对于模式动植物的普通转录组而言,一般是对参考基因组收录基因或转录本进行定量,无需特定上传mRNA序列,除非序列参考基因组没有收录。现在发表文章时Clean Data(表示去除接头和低质量序列的Raw Data)一般会被要求上传至公共数据库(有时审稿人或杂志会指定数据库),如NCBI的GEO(https://www.ncbi.nlm.nih.gov/geo/)或SRA(https://www.ncbi.nlm.nih.gov/sra)数据库,因此在收到原始数据后请及时下载、妥善保存、备份Clean Data数据。
GEO数据上传可以参考:简易教程,元数据表格(对上传数据的说明)参考:元数据表格(简易教程和元数据表格可关注公众号在后台回复“circRNA干货合集资料包”获取)
circRNA有两种建库模式,对于去核糖体建库方式而言,mRNA、lncRNA和circRNA的原始数据是同一套,无法完全分开(存在区间重叠)。
如果您发表lncRNA或mRNA相关研究时已经将原始数据上传至公共数据库并获得登录号,那么在circRNA文章发表时只需要补充上传circRNA表达谱数据和circRNA序列文件并备注先前获得的登录号即可;对于去线性转录本建库方法(RNase R)而言,circRNA的原始数据是独立的,您单独上传circRNA原始数据、circRNA表达谱和circRNA序列获得登录号即可。


Q8 有一个感兴趣的circRNA,满足p<0.05,但不满足差异倍数2倍以上的阈值,还有机会吗?

A:兴趣是第一位的,在生信分析时一般需要设置截止值(或阈值)以初步判断差异显著性。我们可以基于自己的研究背景对默认阈值进行适当调整,部分基因或circRNA可能变化倍数不到2(比如1.5倍、1.8倍)也能产生明显的生物学功能。如果您对某circRNA感兴趣,其表达量较高、组内一致性较好(非常重要),那么即使没有到达2倍,也是可以去探索其可能的功能。
但是,circRNA的鉴定和定量都依赖反向剪切点识别,因此理论上样本间(包括生物学重复组内样本)的差异可能更大(受随机误差影响,有没有捕获到带有反向剪切位点的reads对于circRNA的定量影响较大)。如果生物学重复组内差异明显(或存在异常值)、生物学重复数偏少,那么基于平均表达量的差异2倍以上的circRNA也需要先斟酌并仔细判断,此时2倍以内的circRNA就基本不建议选择了。
对于异质性比较明显的样本,比如临床样本、动物模型、外泌体、细胞pool等,在筛选circRNA进行qPCR验证或功能筛选时更需要注意组内样本表达量一致性、表达量水平、组间差异程度等信息。如果某circRNA表达量较高,差异倍数较大,但是由于生物学重复数偏少、组内表达量一致性较差、存在异常值或缺失值等情况导致p值偏大,也是可以考虑通过更多的样本数去检测目标circRNA是否在组间存在统计学差异的。



Q9 为什么差异分析表格中只有 100 行,99 个 circRNA 的信息?

A:我们的分析结果分为三个部分,即结题报告(网页版)、完整分析结果(单独的summary)和原始数据。结题报告是对结果的导读以及文件结构的说明,其支持文件夹 src 中包含完整分析结果的完整结构,只是针对大的文件表格取其前 100 行进行展示;如果您查看的是 src 中summary_part 中的结果,表格只有 100 行信息。数据挖掘可以基于网页版报告的说明在完整分析结果中进行。

 


 Q10 热图使用什么数据绘制的,从哪个文件中可以找到绘图数据?

A:热图使用表达量绘制的,如果我们需要绘制所有样本的基因热图可以前往summary/3_1_circRNA_candidate_prediction/1_circRNA_expression.xlsx 是所有样本 circRNA 表达量文件,其中 circRNA ID 列和所有 srpbm 列(表达量,其他组学也是上传表达量矩阵),将其复制到新 Excel 即可得到 circRNA 表达量矩阵。从中筛选我们关注的 circRNA 即可针对我们关注的 circRNA 进行热图绘制。summary_part/3_2_circRNA_differential_expression/*/1_*_circRNA_differential_expression.xlsx 是*(差异比较组)的差异分析文件,取关注 circRNA 的 circRNA ID 列和所有 srpbm 列(表达量)至新的 Excel 中即可获得这些 circRNA 的热图绘制文件。热图绘制可以在 OmicStudio(https://www.omicstudio.cn/tool/4)进行绘制。需要强调的是对于生物学重复的样本,我们一般对表达量取 Z 值,然后对Z 值进行赋色,以直观比较 circRNA 在不同样本中的表达量高低。Z 值计算公式为:Zsample-i =[(srpbmsample-i)-Mean(srpbm of all samples)] / [Standard deviation(srpbm of all samples)]当对数据进行如下处理时等同于 Z 值,建议在绘图时参照如下勾选。其他的颜色、图片比例可以基于个性化选择进行调整。备注:1) 如果绘制热图时 circRNA 数目太多(比如超过 100 个),不建议显示 circRNA 名称(ID),因为如果需要显示清楚每circRNA 的名称,图形可能很长。如果是此情况,可以不显示行名,并通过图片高度和宽度调整比例以体现选择 circRNA 的表达量变化趋势;
2)一般聚类可以将表达模式相似的基因聚在一起,从而更好的通过热图直观看出表达趋势。如果需要输出的热图和输入的circRNA 顺序或样本顺序一致,可以不对行(一般是基因)或列(一般是样本)进行举例

详情请点击:

跟着小姐姐学做热图 | 生信快闪

不同样本的差异通路如何绘制热图? | 生信快闪



 Q11 差异circRNA 亲本基因 GO 富集分析柱状图为什么始终都是 biological_process(25 个),cellular_component(15 个),molecular_function(10 个)?数据筛选的依据是什么?

A:GO 富集性分析结果柱状图反映在生物学过程(biological process)、细胞组分(cellular component)和分子功能(molecular function)富集的GO_Term 上差异 circRNA 亲本基因的个数分布情况。由于在生物学过程、细胞组分、分子功能这三种GO_function 上富集的 GO_Term 数目比较多,无法把所有的注释结果都展示在一张图中,因此三种 GO_function 我们分别挑选 Top25、Top15、Top10 进行展示,数据筛选的依据是:先筛选 GO_function(以 biological process 为例),再根据注释到GO_Term 的差异circRNA 亲本基因数目(S gene number)从大到小降序排列,筛选出 Top25。当筛选到Top25 时,如果出现几个 GO_Term 对应的 S gene number 数目相等时,代码会随机选一个进行绘图,另外 S gene number 数目相等的 GO_Term 在柱状图上是随机排列的,没有先后顺序,所以 GO 富集分析柱状图横坐标跟 GO 富集分析结果表中 S gene number 降序排列的结果不是完全一一对应的。

详情请点击:

1. 玩转GO和KEGG富集因子图的N种姿势:3种数据处理(含在线筛选条目),3种排序方式,本地交互图片  

2. 跟着小姐姐一起学习如何做GO和KEGG基因功能富集分析 | 生信快闪

3.【疯狂7月】⑬—KEGG通路标色:表达量/上下调、单组/多组 | 云平台



Q12 请问为什么差异表达分析结果中,最后significant 都是no?

A:差异表达谱中包含差异显著 circRNA 和非差异circRNA,老师您先选中首行,点击筛选,然后在 significant 那一列选“yes”,筛选之后的基因即为差异表达 circRNA。在分析结果中同时满足 log2(fc) 绝对值大于等于 1 且p 值小于 0.05 的 circRNA 标为yes,否者标为no。

 


Q13 请问为什么差异表达分析结果中,有的 circRNA p 值小于 0.05,定义为差异显著 circRNA,有的p 值小于 0.05,定义为非差异显著 circRNA?

A:分析结果中同时满足log2(fc) 绝对值大于等于 1 且p 值小于 0.05 的 circRNA 定义为差异显著 circRNA,如果某 circRNA您关注的 circRNA)p 值小于 0.05,但差异倍数没到 2 倍,也是可以考虑下游分析验证的。在生信分析时需要设置阈值,那么如果某 circRNA 满足 p 小于 0.05,但是差异倍数为 1.99,那么分析会认为其差异不显著,如果差异倍数为 2.01,那么分析会认为其差异显著。事实上在生物学实验中,2.01 1.99 没有明显差别,如果对此类circRNA 感兴趣,也是可以考虑将此circRNA 纳入候选。

 


Q14 你们云平台上的通用版富集分析结果中的GO 富集分析柱状图的纵坐标百分比是怎么计算的?

A:柱 状 图 是 根 据 百 分 比 结 果 列 出 的 , 纵 坐 标 Percent of genes 计 算 公 式 如 下 :percent=s_gene_number*fold(BP/CC/MF)/(max(s_gene_number)*1.1)s_gene_number:表示该功能条目下显著基因的个数max(s_gene_number):显著基因数目最多的条目的显著基因数目max(BP/CC/MF):表示三大功能中各自的 s_gene_number 最大值fold(BP/CC/MF):表示 max(s_gene_number)的 1.1 倍与 max(BP/CC/MF)的比值再取整fold(BP/CC/MF)=int(max(s_gene_number)*1.1/max(BP/CC/MF)

详情请点击:

1. 玩转GO和KEGG富集因子图的N种姿势:3种数据处理(含在线筛选条目),3种排序方式,本地交互图片  

2. 跟着小姐姐一起学习如何做GO和KEGG基因功能富集分析 | 生信快闪

3.【疯狂7月】⑬—KEGG通路标色:表达量/上下调、单组/多组 | 云平台


 

Q15 KEGG 富集的表格中那个 p 值有什么用?是越小越好?大于一定值这个结果就不能用了吗?

A:关于 KEGG 富集的 p 值是利用超几何检验计算的,在散点图中 p 值和 Rich facrtor(S_gene_number/B_gene_number)以及S_gene_number 都是可以作为参数筛选使用,选择依据推荐是 pvalue——Rich factor——S_gene_number。不能说 p 值越大越不能用,建议您根据您所关心的功能及三个筛选依据进行综合考量。另外对于 circRNA 而言,富集分析是基于其亲本基因的 GO、KEGG 注释,不用过度解读差异circRNA 亲本基因的富集分析结果。

详情请点击:

1. 玩转GO和KEGG富集因子图的N种姿势:3种数据处理(含在线筛选条目),3种排序方式,本地交互图片  

2. 跟着小姐姐一起学习如何做GO和KEGG基因功能富集分析 | 生信快闪

3.【疯狂7月】⑬—KEGG通路标色:表达量/上下调、单组/多组 | 云平台

 


Q16 RNA-Seq 测序中,增加生物学重复个数和单个样本数据量对差异分析的影响是什么?

A:增加生物学重复个数和单个样品数据量,都可以改善定量的结果。随着生物学重复数(n)的增加,差异分析的假阳性率(FPR)变化不大,但真阳性率(TPR)在不断提高。即提高生物学重复数,差异表达基因的检测更加敏感;随着生物学重复数的增加,差异分析的真阳性率(TPR)在不断提高;而测序深度的提高对真阳性率(TPR)的提高没有生物学重复增加明显。建议在实验设计时,如果允许多设几个重复,特别是对于异质性较高的样本类型。

 


Q17 链特异性建库是什么,有什么优势?

链特异性文库详细情况,请点击:

你可能做了假转录组!揭秘yyds“真”转录组秘密——链特异性文库

A:联川生物在转录组建库时采用链特异性建库fr-firstrand,链特异性转录组测序(strand-specific RNA-seq/ssRNA-seq) 可以保留转录组测序时转录本的方向信息,即可以确定转录本是来源于基因组上面的正义链还是反义链。其构建文库的方法有多种,其中用的最普遍的即是 dUTP 方法。相对于传统转录组测序而言,链特异性文库在基因结构的确定,non-coding 转录本(例如lncRNA 和 antisense transcript)的鉴定,原核生物的操纵子(operon)鉴定以及转录本的基本定量方面,都具有绝佳的优势。

链特异性建库的关键就在于合成 cDNA 的第二链时,由 dUTP 代替dTTP,然后用 UDG 处理,第二链就会降解,而第一链保留下来, 继而测序。因此,测序得到的转录本序列信息,只是来源于第一链的。


链特异性建库有如下优势:

1) 定量更准确

由于链特异性测序方法可以区分转录本的来源,因此在计算某些转录本的表达量时,可以排除来自其互补链的转录本。

2) 可变剪切事件的检测更准确

因为链特异性文库可以排除反义链上 antisense 转录本的影响,可变剪接事件的检测假阳性更低。

3) Non-coding transcript 的检测

链特异性文库可以显著提高 non-coding transcript 的检出效率。对于 antisense 的 non-coding 转录本,如果用普通文库,是无法区分的;如果是基因间的 non-coding 转录本,普通文库无法确定转录本的方向。

4) 原核生物操纵子(operon)的预测

原核生物的基因是多顺反子的结构,反义转录本上的基因,如果不加区分,那么对应位置的基因表达量会计算不准确,并且预测 operon 以及基因结构也更不准确。

5) 组装结果更真实

一般的转录组组装出来的 unigene 既包括编码转录本,也包括一些非编码转录本(比如lncRNA),但是如果不区分正反链, 那么有互补配对关系的编码与非编码转录本会被组装成一条转录本。

参考文献:Parkhomchuk D, Borodina T, Amstislavskiy V, Banaru M, Hallen L, Krobitsch S, Lehrach H, Soldatov A. Transcriptome analysis by strand-specific sequencing of complementary DNA. Nucleic Acids Res. 2009 Oct;37(18):e123. doi: 10.1093/nar/gkp596. Epub 2009 Jul 20. PMID: 19620212; PMCID: PMC2764448.

 


Q18 GO、Pathway 富集分析中是否一定需要选择显著富集的通路?

A:建议不要仅仅基于 Pathway 富集分析的结果解读数据,人为的解读和挑选是必不可少的。因为生物数据的解读,在现阶段更多是生物学问题,而不是数学问题。原因大体如下:

1) 基因调控是个系统,不要仅仅看成一个一个孤立的 Pathway

基因调控是个系统,可以从两个层面进行解读:

a)1 个基因的改变可以造成整个系统的改变;举几个例子:

把 1 个生命活动必须的蛋白敲除后,整个细胞会发生紊乱。而植物抗病应激,也往往是 1 个受体蛋白识别了病原的外源蛋白,然后导致整个细胞系统的变化。

b)1 个基因往往有多个功能,但执行具体的功能往往是不同蛋白复合物共同作用的结果。

例如。基因 X 理论上在不同情况下,有可能参与 A、B、C 通路。在某个生物处理下,或许基因 X 只在A 通路里起作用。但如果进行基因注释的话,X 同样也会被注释到 B、C。所以,富集分析的结果总是会涉及特别多的通路。例如,研究人的项目,无论什么研究背景,常常会富集到帕金森综合症通路。不是你的材料真的得了帕金森综合症,只是那些与你实验处理相关的基因,在一定条件下也可以参与到帕金森综合症的过程,所以被注释到了这个通路里。

2) Pathway 富集分析的统计假设,并非在任何情况下都适用

Pathway 富集分析,在生物学上的假设是:1 个 Pathway 上游基因的改变,会导致下游相关基因改变,从而改变通路中大量基因的表达,达到统计学上富集的效果。但很多 Pathway 中,基因 A、B、C 并不是相互调控的关系,而是共同参与某个过程的不同部分。

例如,代谢物 X 的合成修饰。基因 A、B、C 分步骤参与合成的 3 个步骤。基因 A 给X 前体加了羟基,然后传递到下游;基因 B 又给 X 前体加了苯环,再传递到下游;基因 C 又给X 的前体加了个乙酰基 ,完成 X 的合成。那么,基因 A、B、C 是参与了的相同的通路。如果基因 A 发生表达量变化,会直接调控影响 B、C 的表达量变化吗?看来很有可能不会,所以从RNA-seq 差异分析的富集分析结果中,这个通路是不显著的。那么基因A 的表达变化是否有生物学意义?当然有,因为代谢物 X 的合成的确受影响了。

类似的例子,理论上 DNA 差异甲基化的结果,就不能看Pathway 富集分析的结果。1 个Pathway 中的 1 个基因的 DNA 甲基化变化,就足以改变这个通路的基因表达,而不需要整个通路的甲基化都发生变化。DNA 甲基化、组蛋白 CHIP-seq 的结果,其实只看功能注释或通路注释就足够了,不需要考虑富集。

所以,我们还是要观察、理解某个核心 Pathway 中基因的相互作用,才能判断其中的基因变化是否有生物学意义,而不仅仅看富集分析的 p 值或 q 值。

3) 目前的 Pathway 是不完整的

目前 KEGG 等数据库收录的是已有的研究结果,但这些Pathway 的信息,远没有到达完善的水准。大部分通路只是了解1 个大概的调控途径,而中间有什么转录因子参与、是否还有其他代谢物的生成,都是不知道的。这些通路的完整性,也会影响 Pathway 富集分析结果。例如,基因 A 发生变化了,看起来下游基因没有变化。也许是还有其他的调控在起作用,只是这些调控作用现在还不知道而已。

总结:Pathway 和 GO 富集分析结果的解读,应该从生物学意义的角度出发,p 值和 q 值只是个参考而已,那些不显著的通路也值得解读(从功能注释的角度解读,而不是从富集分析的角度解读)。只要结果可以解释,有意义,不用太迷信 p 值。

详情请点击:

1. 玩转GO和KEGG富集因子图的N种姿势:3种数据处理(含在线筛选条目),3种排序方式,本地交互图片  

2. 跟着小姐姐一起学习如何做GO和KEGG基因功能富集分析 | 生信快闪

3.【疯狂7月】⑬—KEGG通路标色:表达量/上下调、单组/多组 | 云平台



Q19 构建基因 A 敲除的细胞系或动物模型,为什么测序结果中还能够检测到基因 A 或基因 A 的表达水平没有明显变化?

A:我们构建基因敲除体系时一般是在染色体(DNA)上进行操作,主要针对基因(蛋白编码基因)的某个外显子,通过局部的 DNA 序列测序(PCR 加一代测序),确定基因外显子产生了移码突变,从而确定基因被敲除,并且通过 WB 检测蛋白水平显著的降低。一般通过 DNA(基因局部的 DNA 序列)的一代测序和 WB 结果即可确定目标基因被敲除。但是 RNA-Seq 反映的是转录水平,如果我们对于目标基因的操作并没有显著影响基因转录,那么在 RNA-Seq 中是可以检测到目标基因的, 同时敲除组的基因 FPKM 值可能相对于对照组下调、稍上调或者没有明显差异。

如果我们针对的是目标基因的启动子区域(一般针对 RNA 基因),那么理论上,无论是转录水平还是蛋白水平都是下调的。但是如果针对的是外显子,那么比较转录水平是没有意义的,有 WB 结果支持即可。那么为什么在转录组中检测到敲除基因的表达,但是蛋白却又明显下调呢?原因是虽然移码突变不一定会影响转录,但是转录出来的 RNA 不能翻译(比如由 mRNA 变成了 lncRNA),从而影响了蛋白水平。如果我们研究的基因敲除模型并不是自己构建的,可以先咨询敲除是针对基因的哪个区域,再去分析可能的原因。 
Q20circRNA 测序结果中,对于存在于同一宿主基因(亲本基因)的几个circRNA,表达差异都显著,是否验证时只需要挑选其中一条 circRNA 进行验证?因为考虑到同一宿主基因的数个 circRNA 可能具有相同的功能 。

A:"A Circular RNA profiling reveals an abundant circHIPK3 that regulates cell growth by sponging multiple miRNAs"这篇文献中提到:同一个亲本基因环化而来的多个 circRNA 当中会有一个显著差异表达的高丰度 circRNA,所以对于同一个亲本基因环化而来的 circRNA,建议优先挑选表达丰度最高的 circRNA 进行后续研究。

 


Q21 ReadsQC.xlsx 中的 valid reads 和 2_mapped_stat.xlsx 中的 valid reads 为什么不一样,以哪个为准?

A:通过高通量测序仪获得的 paired-end 原始数据(read1+read2),其中可能含有带接头(建库过程引入)和低质量的测序数据(由测序仪器本身产生)。为了确保准确、可信的分析结果,需要对原始数据进行预处理,得到有效数据(Valid Data), 用于后续的信息分析。ReadsQC.xlsx 中的 Valid Data 指的是去除接头、去除含有 N(N 表示无法确定碱基信息)的比例大于5%reads、去除低质量reads(质量值Q<=20 的碱基数占整个 read 的百分之 20 以上)之后的有效数据。

rRNA 在Total RNA 中占的比例很高,实验建库过程中通过探针杂交尽量去除 rRNA,但是没有办法完全去除,因此预处理后的有效数据(Valid Data)在使用 TopHat 和参考基因组进行比对之前,会先过滤掉 rRNA 序列,得到 Valid reads,然后和参考基因组进行比对,即 2_mapped_stat.xlsx 中的有效 reads。ReadsQC.xlsx 和 2_mapped_stat.xlsx 中的有效数据都可以用,如果您要放数据量、Q20、Q30 等,可以用ReadsQC.xlsx 中的质控结果,如果要用比对率等指标,可以用 2_mapped_stat.xlsx 中的比对结果。

 


Q22 circRNA 测序结果中,为什么生物学重复之间鉴定出来的 circRNA 相同的数目非常少,这是不是间接说明了重复性不好?

A:在”Transcriptome-wide investigation of circular RNAs in rice”这篇文章中,作者分析了生物学重复内 circRNA 的 overlap 情况,发现在同一生物学重复内鉴定出来的 circRNA 相同的数目个数也比较少,这可能是由于 head-to-tail junctions 在测序时是随机测序导致的。



Q23 为什么分析结果中的 circRNA 亲本基因没有类似于人、小鼠中的基因名?

A:分析结果中的基因 ID(或转录本ID)、基因名(symbol)和转录本ID 都来源于参考基因组,一般只有部分物种(如小鼠、大鼠等)有类似人中的基因名(如GAPDH、Gapdh),当然即使是大鼠目前也有部分基因没有基因名而以基因ID 代替。其他研究较多的物种可能有自己专门的网站和基因命名方式,比如拟南芥以 AT1G 开头的基因名,番茄以Solyc01g 开头的基因名等。另外部分物种可能有多个数据库,比如水稻、茶叶等,不同数据库间的基因 ID、基因名和转录本 ID 形式可能都不同。此外对于研究较少物种或新组装的基因组可能基因 ID、转录本 ID 和基因名三者相同。

 


Q24 你们多组比较的 p 值是怎么计算的?

A:多组比较使用 edgeR(http://bioconductor.org/packages/release/bioc/html/edgeR.html)进行p 值的计算,使用BH 进行 p 值的校正。




二、 组合筛选方法


有时候我们需要在多个细胞系中探索敲除(或敲减)某基因后共同差异变化的circRNA或基因,或者是过表达某基因或敲减某基因的体系中变化相反的circRNA或基因,或者是动物模型或细胞模型中用药后表达有回复的circRNA或基因,亦或者是关注响应时间序列或浓度梯度变化的circRNA或基因,上述目的往往需要结合两个比较组或多个比较组的差异分析信息,可以参考以下方法进行数据筛选:


1)韦恩图

       韦恩图(Venn),也叫温氏图、维恩图,是用于显示集合重叠区域的关系图。我们可以用韦恩图筛选不同比较组(不同基因集)共同的元素和特有元素,比如共同差异表达circRNA、特异差异表达circRNA等,并将这种筛选过程和结果可视化。灵活利用韦恩图可以通过一次筛选或多次筛选获取我们关注的核心circRNA集,然后可以对核心circRNA集进行进一步分析。比如利用韦恩图筛选某基因敲减组差异上调circRNA和过表达组差异下调circRNA的交集,韦恩图详细方法介绍参见:三分钟绘制一张优美的维恩图 | 云平台。当然也可以利用韦恩图比较不同样本或组中表达circRNA的区别,对于单样本而言,您可以通过表达量是否为0(或count数是否为0)判断某circRNA是否表达(或低于某一临界值判断为不表达或极低表达);对于生物学重复组而言,您可以认为在所有样本中表达量都大于0的circRNA在该组表达,也可以认为至少一个样本中表达量大于0(平均表达量大于0)的circRNA在该组中表达。



2)表达模式分析

当样本为时间节点样本、浓度梯度样本、治疗或用药前后设置时,若进行两两比较筛选,当样本组较多时可能需要多次的相交筛选才能获得目标变化趋势的基因集。基于STEM(http://www.cs.cmu.edu/~jernst/stem/)的基因表达模式聚类分析(趋势分析)可以快速获得我们关注趋势的基因(或circRNA)集或者哪种变化趋势是最显著的变化趋势。OmicStudio已经上线表达模式分析工具(https://www.omicstudio.cn/tool/37),输入基因表达量数据即可进行表达模式分析。表达模式分析需要将所有组(或自己关注的组)按照时间节点排序、浓度梯度排序或对照、模型、治疗的顺序排序,输入的是基因或circRNA表达量(比如FPKM值或srpbm值)信息,每组需要使用一个表达量表征该组的基因表达量,通常使用表达量平均值(对该组所有样本取表达量平均值)。关于OmicStudio上的表达模式分析可以参考:https://zhuanlan.zhihu.com/p/188823706/

详情请点击:
小姐姐教你使用STEM进行趋势分析


3)富集分析

我们默认是对差异circRNA的亲本基因进行富集分析,通过circRNA来源基因座的功能注释推测circRNA可能具有的功能。当然我们也可以通过其他方式建立circRNA和mRNA(或蛋白编码基因)的联系,比如ceRNA分析(分析circRNA可能互作的miRNA下游的潜在靶基因),随后我们可以对这些靶基因进行功能富集分析,看看主要分布于哪些通路,或者有没有与自己感兴趣的通路或生物学过程中基因相关的circRNA(通过结合相同的miRNA构建联系)。OmicStudio已上线通用版富集分析工具,具体说明可以参考:通用版富集分析(通用版富集分析可关注公众号在后台回复“circRNA干货合集资料包”获取)

详情请点击:

1. 玩转GO和KEGG富集因子图的N种姿势:3种数据处理(含在线筛选条目),3种排序方式,本地交互图片  

2. 跟着小姐姐一起学习如何做GO和KEGG基因功能富集分析 | 生信快闪

3.【疯狂7月】⑬—KEGG通路标色:表达量/上下调、单组/多组 | 云平台



5.3 功能相关circRNA筛选


 在进行功能相关的circRNA筛选时,最直接的是构建功能筛选模型(基于分子指标、表型指标等),通过Gain-of-function(过表达、激动剂等)或loss-of-function(敲减、敲除、抑制剂等)的模型直接筛选功能相关的circRNA(挑选丰度Top的若干差异circRNA),然后再探究可能的调控机制(对于临床研究而言,也可以评估目标circRNA是否和肿瘤、生存、预后等相关);间接方式是通过不同的方式建立circRNA与功能基因(或蛋白)的联系,从而推测circRNA可能的功能或者辅助筛选具有生物学功能的circRNA。关于circRNA研究方法可以参考五万字书籍CircularRNAs(CircularRNAs书籍可关注公众号在后台回复“circRNA干货合集资料包”获取)


1)circRNA亲本基因

circRNA是基因座的特殊剪切产物,有观点认为哺乳动物中大量的circRNA是剪切错误的产物,可能不具备生物学功能[11]。即使是剪切错误,那么circRNA大量产生所造成的影响,其如何产生,如何降解同样可能具有一定的研究价值。作为特殊的剪切产物,circRNA可能能够影响其亲本基因的转录、剪切或翻译等等,因此基于circRNA可能与其亲本基因存在功能相关性的假设,可以基于亲本基因的功能注释(GO、KEGG)筛选可能与目标兴趣生物学过程相关的circRNA。

       circRNA总表达谱和组间差异分析表格中(3_2_circRNA_differential_expression/*/1_*_circRNA_differential_expression.xlsx,*为差异比较组)中包含亲本基因的GO、KEGG注释(并不是所有的亲本基因都有GO或KEGG注释),因此在表格的GO列或KEGG列检索相关关键词,可以检索与目标生物学过程相关的基因是否能够产生circRNA以及其表达和差异信息。

       从另一个角度看,正因为可能与其他同基因座转录产物存在高度相似性或相关性(比如外显子型circRNA和其亲本基因),在探索circRNA的功能时,需要排除亲本基因mRNA的干扰(可能是无法回避的问题)。


2)miRNA sponge

 circRNA可以作为ceRNA分子与mRNA(或其他RNA)竞争结合miRNA,从而间接调控mRNA的翻译或降解。通过预测circRNA上潜在的miRNA识别元件(MRE)获取circRNA可能结合的miRNA,然后通过miRNA下游靶基因的检索或预测可以获得circRNA可能影响的mRNA信息,进行推测circRNA可能通过ceRNA机制在哪些生物学过程中发挥功能。

       如果您想查询关注基因可能互作的RNA(miRNA、lncRNA、circRNA等),可以前往ENCORI(The Encyclopedia of RNA Interactomes,https://starbase.sysu.edu.cn/index.php)查询,也可以参考如下数据库查询预测miRNA与靶基因的互作关系:

       TargetScan:https://www.targetscan.org/vert_72

       RNA22:https://cm.jefferson.edu/rna22/Interactive

       RNAhybridhttps://bibiserv.cebitec.uni-bielefeld.de/rnahybrid

       miRTarBasehttps://miRTarBase.cuhk.edu.cn,收录了实验验证的miRNA-靶基因关系。

TarBasehttps://carolina.imis.athena-innovation.gr/diana_tools/web/index.php?r=tarbasev8%2Findex,收录各种手段检测过的miR-Target数据。


       OmicStudiohttps://www.omicstudio.cn/analysis/targetGene,提供基于miRanda和TargetScan的动物模式和基于PsRobot的植物模式预测miRNA的靶基因和靶点。


3)亚细胞定位

circRNA的亚细胞定位与其作用机制存在相关性,获取其定位信息可以帮助我们推测可能的机制探索方向。我们可以通过FISH(荧光原位杂交)、核质分离的qPCR、Northern杂交探索circRNA的亚细胞定位。除了必不可少的实验检测外,也可以使用一些网站预测一下circRNA可能的亚细胞定位,以下网站的结果仅供参考:

       RNALocatehttps://www.rna-society.org/rnalocate/

       lncLocator:http://www.csbio.sjtu.edu.cn/bioinf/lncLocator/


4)蛋白互作

 circRNA能够与RPB(RNA结合蛋白)结合从而发挥相关的生物学功能,比如,可以使用CircInteractome(Cirular RNA interactome,https://circinteractome.irp.nia.nih.gov/)数据库查询circRNA(人源,circBase ID)可能结合的RBPs或查询RBPs可能结合的circRNA,CircInteractome通过Targetscan预测了circRNA可能结合的miRNA,CircInteractome相关的使用说明可以参考CircularRNAs的Chapter 4。也可以前往RBPDB(https://rbpdb.ccbr.utoronto.ca/)查询或预测目标RNA和目标蛋白结合的概率,或者使用RPISeq(https://pridb.gdcb.iastate.edu/RPISeq)和catRAPID(https://service.tartaglialab.com/page/catrapid_group)预测您关注的RNA和RBPs是否存在结合的可能。POSTAR3(https://postar.ncrnalab.org/index.html)是一个用于探索RNA结合蛋白协调的转录后调控平台,可以查询目标circRNA是否存在RNA结合蛋白结合位点。


5)circRNA的qPCR

circRNA的PCR和qPCR和mRNA、lncRNA的稍有区别,由于circRNA可能与mRNA序列高度相似,差别之一是circRNA包含跨反向剪切的序列,其鉴定和定量都依据这一特征,因此在设计引物时需要用到这一区别。在设计Divergent Primer(参考circRNA的引物设计)时,可以设计跨环化位点引物(其中一条引物跨反向剪切点)或背靠背引物(产物跨反向剪切点),在实验时也需要设计Convergent Primer作为对照(例如PMID: 23446348,PMCID: PMC7446195),对于人或小鼠circRNA,可以使用circPrimer 2.0(https://www.bio-inf.cn/)辅助进行引物设计,当然引物效果还是需要实验检验的。(circRNA的引物设计可关注公众号在后台回复“circRNA干货合集资料包”获取)

       由于circRNA的鉴定和定量都依赖于具有反向剪切位点的reads,随机误差对其的影响要大于mRNA、lncRNA等线性转录本。在挑选进行qPCR的circRNA,建议优先选择表达量高、组内一致性较好、组间差异大的circRNA,以提高验证成功率(包括是否为circRNA,是否在组间存在统计学差异)。另外考虑到样本异质性和检测随机误差的影响,无论测序选择几个生物学重复,qPCR验证时尽量选择更多样本,以确定目标circRNA是否在组间存在表达差异。比如PMID: 31324812在测序时选择5对样本(癌和癌旁)进行差异circRNA的检测,其中4对样本显示目标circRNA显著上调,1对无差异;qRT-PCR验证时选取35对样本表明目标circRNA在癌组织中表达量显著高于癌旁组织(其中23对样本上调,7对样本下调,5对样本无明显差异)。


6)保守性分析

circRNA的物种间保守性一般较长链非编码RNA(lncRNA)高,基于此,我们可能对自己研究的circRNA是否在模式动物(人、小鼠)、植物(拟南芥)中具有同源circRNA感兴趣,如果存在同源circRNA,那么目标circRNA可能具有较高的物种间保守性,从而可能具有保守的功能或作用机制(miRNA也具有较高的物种间保守性)。另外探索模式动植物中的同源circRNA,也可以借鉴模式动物或植物中广泛的数据库资源。比如在CircInteractome可以预测人源circRNA可能结合的蛋白,通过人源circRNA可能结合的蛋白,推测目标circRNA可能结合本物种中的同源蛋白,从而可以为实验探索提供思路与猜测方向,当然更直接的还是基于circRNA pull down的质谱分析或分析RIP-Seq中的circRNA。同时分析circRNA是否可能结合AGO2蛋白(或基于AGO2的RIP-Seq中的circRNA检测分析),也可以提供circRNA是否可能发挥ceRNA机制的参考信息。

       circRNA的保守性分析可以在circBase(https://circrna.org/cgi-bin/webBlat)或PlantcircBase(https://ibi.zju.edu.cn/plantcircbase/blastcirc.php)中进行。通过在0_circRNA.fa中查询circRNA序列(参考引物设计中的跨反向剪切序列形成方法),借助于circBase和PlantcircBase在线blast功能(基于序列和跨反向剪切点序列),可以获得在模式动植物中相似度高的circRNA,再结合基因座、长度,相似区域是否跨剪切位点以确定是否存在同源circRNA。


7)circRNA研究相关资源

下面列出了部分circRNA相关的数据库,其他circRNA数据库可以参考:circRNA数据库简介(circRNA数据库简介可关注公众号在后台回复“circRNA干货合集资料包”获取)

       circBase:https://www.circbase.org,目前收集6个物种包括人、小鼠、秀丽线虫、黑腹果蝇、矛尾鱼和腔棘鱼的circRNA信息。circBase提供了基因组位置、细胞系、组织来源和参考文献等信息,并支持circRNA序列查询和相关信息下载。可以在此数据库中分析研究物种中circRNA是否可能在人、小鼠中具有同源的circRNA。

       PlantcircBase:https://ibi.zju.edu.cn/plantcircbase/index.php,更新至6.0版本,收录了20个植物物种(比如拟南芥、水稻、番茄等)的circRNA序列信息、反向剪切点等,可以在线进行分析研究物种中circRNA是否可能在常见植物中找到同源circRNA。

       PlantCircNet:https://bis.zju.edu.cn/plantcircnet/index.php,收录了八种植物(拟南芥、二穗短柄草、大豆、大麦、亚洲栽培稻、番茄、小麦和玉米)的circRNA以及circRNA-miRNA-mRNA互作网络信息,还提供了circRNA的类型、反向剪接位点、亲本基因、相关亚型以及表达水平等基本信息。

       LeafcircBase:https://bis.zju.edu.cn/LeafcircBase/index.php,一个叶circRNA资源数据库,目前收录了来自五种模式植物叶子的circRNA,为circRNAs的基因组定位和保守提供了信息。

       TSCD:https://gb.whu.edu.cn/TSCD/,Tissue-specific CircRNA Database,提供人类和小鼠主要组织中组织特异性circRNA的全局视图,有助于识别器官发生和发育疾病的新标记。

       exoRBase:https://www.exorbase.org,收录了人类血液外泌体RNA-seq数据分析的circRNA、lncRNA和mRNA。

       cir2traits:https://gyanxet-beta.com/circdb/,收集与人类疾病相关的circRNA(除肿瘤外,还包括非肿瘤疾病,如心肌病、阿尔茨海默症、血管发育等),并预测miRNA和人类蛋白质编码基因、lncRNA及cirRNA间的相互作用关系,构建相互作用网络。

       circR2Disease:https://bioinfo.snnu.edu.cn/CircR2Disease,收录了环状RNA和疾病之间的关联数据,数据库中的记录都是从文献中整理得到的,给出了疾病名称、circRNA在患病者中的表达趋势、相关文献等信息,主要用于检索circRNA和疾病之间的关系。


相关阅读

收藏!看完联川这1万多字的问题解答,你就能从转录组小白变成大神

Lnc&CircRNA干货大放送 | 学习专栏



点击下方图片进入云平台资料汇总:

所见即所得,绘图高规格联川云平台,让科研更自由


继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存