关于差异基因数量较少还是较多的原因和解决方案,一文看懂!
努力科研的小A
科技君,最近我在做RNA测序项目,但过程中碰到了一些问题,你帮我看看有没有好的解决方案~
没问题,你展开说说~
科技君
努力科研的小A
我经常会遇到差异基因数目异常的情况,可究竟差异基因数多少可以算作异常?怎么理解异常?少或者多就一定不对吗?遇到异常情况该如何解决呢……
别担心,最近有很多老师和同学都有遇到这个问题。
科技君
科技君这就带大家层层揭开差异基因数量的面纱,看看面对不同的情况应该如何解决。👇
首先,需要明确一点,差异表达基因的多或少,没有固定的标准,从几十到几千都是很常见的,如果要设置一个限定标准的话,我们可以认为:10以内过少,100以内较少,10,000以上过多(要结合具体的研究内容、样本情况等实际因素综合考虑,不能一概而论)。
因此,差异基因的数目不是少就不对,也不是越多越好,只要能满足研究需求和达到目的就是可以的。
(注:small RNA/circ RNA的鉴定数会明显小于mRNA,故差异数整体也会少,不适用于以上标准。)
努力科研的小A
原来如此!那有没有具体的原因和解决方案呢?
有的!接下来,科技君就为大家一一介绍差异基因数较少或较多的原因判定及解决方案。
科技君
一、差异基因数较少的原因判定及解决方案
原因1:测序样品质控数据异常
判定标准:应仔细查看数据质控指标,考虑是否是实验流程造成的影响,如核酸质控阶段中有个别样品异常(因微量或降解严重使用了不同的建库方法)造成后续基因组/基因集比对率有误差,差异基因数少,单样品测序过程有误,样品污染等。这些情况可以通过查看Q20/Q30、单样品测序碱基图、genome/gene mapping rate等是否出现异常进行判断。
原因2:样品自身的特殊性
判定标准:FFPE或其他特殊的极微量组织样本提取的核酸总量过低(一般10ng以下),本身RNA库容小(样本包含的RNA种类少,造成差异也少),并且极低起始量也会造成测序数据质量低。如样品Q20/Q30偏低,且genome/gene mapping rate偏低(如人鼠样品低于80%),查看饱和度曲线(过饱和,曲线迅速趋于平行 X 轴,表示RNA库容小)、单样品鉴定基因数少*,以及FastQC报告的duplicate模块**,综合判定样品的测序情况。
*不同物种单样品鉴定基因数不同,例如人样品鉴定基因数范围约为16,000-20,000之间。
**此结果华大不提供,但部分情况客户会自己使用此软件QC,当样品RNA库容过低时,可能导致dup偏高。
原因3:组内重复性差
判定标准:生物学重复不好,同一组内有离群样品。可以通过查看PCA图(图上有明显离群样品)/correlation相关性热图判断组内是否出现离群样品:组内的样品间相关性明显出现了某一个或多个样品偏离,如某组样品相关性都为0.95左右,但其中有一组0.8,具体偏离多少为离群,可结合整体相关性情况综合判断,另相关性热图是根据整体样品中基因的表达量绘制的,如样品中出现了某几个基因极高表达,会导致相关性虚高;关注组内相关性是否明显大于组间相关性,判断样品是否具有较好的生物学重复;还可以通过某一种或几种候选基因在组内各个样品中的表达量是否存在显著差异,来判断组内样品是否有较好的重复性(此方式比较局限,不一定能代表全貌,应尽量使用已经明确的候选基因)。
解决方案:
根据研究需求和数据情况综合判断后,需要去除离群样品进行后续分析,如果是Dr. Tom多组学数据挖掘系统交付,可自行剔除离群样品并进行重新分析(操作如下图所示)。如样品为临床样品或其他特殊情况,相关性确实无法改善,也不能剔除样品,还可尝试更换分析软件进行差异基因的计算(Dr. Tom系统交付的项目可以在系统上操作更换软件),如我们常用DEGseq替代DEseq2分析数据以帮助得到更多的差异基因,虽不同的分析软件都有文献支持,但DEseq2是引用次数更多、更被认同的处理方法。更换软件进行分析后可能得到更多的差异基因,但是也可能出现不准确的情况,需要更好的去做后续的实验验证(qPCR等)。
原因4:组间差异小
判定标准:实验处理效应不明显,control和treat过于相似。整体逻辑基本同原因2,查看PCA图/correlation相关性热图,判断组间是否存在明显差异;还可以通过某一种或几种候选基因在各组样品中的表达量是否存在显著不同,来判断组间是否有较大的差异。
解决方案:
组间差异小通常是由于实验组的处理效应微弱导致的,出现这种情况时,建议重新考虑实验设计、取样部位、时间等是否合理。在不更改实验方案的情况下,可以对鉴定出的少量差异基因逐一研究查看,筛选候选基因,或参考相关功能分析的结果,深入挖掘;还可以扩大筛选范围,通常对差异表达基因的筛选会参考两个参数:一个是差异倍数|log2FC|,另一个是描述差异显著程度的 Qvalue/P值。一般来讲,Qvalue/P取0.01或0.05,同时|log2FC|在1-3之间都是可以接受的,目前华大流程不针对差异倍数进行筛选,只考虑Qvalue/P值。如果是Dr. Tom交付的项目可以在系统中自行调低差异倍数参数(操作如下图所示),其他方式交付的项目可以在交付数据的表格中直接进行筛选。需要注意和明确的是,差异倍数小的基因不一定就和实验的处理效应无关,实际上也会出现某些通路上游基因的细微差异最终导致下游基因的剧烈变化,这种情况就很难被固定阈值法(差异倍数+Qvalue/P)筛选,所以我们需要调整阈值或者使用其他的分析手段(如GSEA等)更加细致的分析数据结果。
二、差异基因数较多的原因判定及解决方案
原因1:组间差异大
判定标准:实验处理效应强,control和treat差别过大。查看PCA图/correlation相关性热图(查看组间相关性是否过低),判断组间差异是否异常;还可以通过多个非目标基因在组间各个样品中的表达量是否均存在明显差别,来判断组间样本是否有较大的差异。
解决方案:
当处理效应强或者实验组对处理十分敏感时,常会出现差异基因数过多的情况,此时可以在数据挖掘阶段多下功夫,具体可关注以下几点:
1. 聚焦核心富集通路
先根据通路富集的结果,找到感兴趣的代谢通路(如某课题组研究激素信号通路对植物抗病的作用,但结果中出现了一些与此不相关的基因:光照、抗逆或者其他功能的差异基因,可以先将这部分去除),再关注通路上的差异表达基因。
2. 关注趋势和聚类
当样品是经过梯度处理或者处于不同的生长阶段时,可以重点关注表达趋势相同的一类基因,或者聚类结果中相关性比较高的基因集。
3. 多个分析点综合考虑
除了关注功能注释外,还可以从基因表达模式、网络互作关系、共有/特有差异基因集等多个方面入手筛选目标基因。
原因2:筛选条件宽泛
判定标准:阈值的严格程度会直接影响差异基因数量。当差异基因数较多的情况出现时,都可以尝试使用更严格的标准筛选数据,但并不是越严格越好,要根据实际情况综合判断。
解决方案:
缩小筛选范围,通常对差异表达基因的筛选会参考两个参数:一个是差异倍数|log2FC|,另一个是描述差异显著程度的Qvalue/P值。
一般来讲,Qvalue/P取0.01或0.05,同时|log2FC|在1-3之间都是可以接受的,如果是Dr. Tom交付的项目可以在系统中自行调高差异倍数参数,或者调低Qvalue/P值(操作如下图所示),如果是其他方式交付的项目可以在交付数据中直接进行筛选。
科技君
总结
转录组项目的核心就是对差异基因进行分析和挖掘,只有筛选的差异基因准确可靠,才能保证后续分析的有效性。希望以上分享可以帮助处于不同研究阶段的老师们更好地解决和应对筛选差异基因过程中遇到的一些问题,能够客观、高效的面对分析结果。
欲知更多详情,
请联系华大科技当地销售代表↓↓↓
热线电话:400-706-6615
邮箱:info@genomics.cn
供稿:小橘
编辑:市场部
近期热文
了解更多产品服务及资讯,关注我们!