查看原文
其他

(策略篇)千里挑一:挑选差异基因的七点策略

2016-04-01 小张 小张聊科研


现在有好多小伙伴手里有测序、芯片等高通量的组学数据,面对着成百上千的差异基因(蛋白)分子,该如何挑选分子进行下游研究,小伙伴们是不是有些懵呢?看到别人发表的文章,有没有想过别人是怎么挑选分子的呢?


今天小张分享自己挑选时考虑的七点策略给大家,仅供参考。


1.    倍数+P

第一点大家都知道,也是现在大家用的最多的策略,根据差异表达分子的倍数变化+P value,一般情况下用的标准是2倍+0.05这个标准,当然可以人为设定,比如4倍,8倍等等,有时会添加FDR这一标准。当然,也可以根据倍数大小进行排序,挑选最明显的20个。



 2.    分子新旧:

一般来讲,我们进行高通量研究的时候目的是进行筛选,以挑选新分子进行后续功能和机制研究,所以分子的新旧对于我们发表文章和进行课题研究是非常重要的。以pubmed上检索到这个分子发表的文章数量为例,一般认为文献数量<300为新,大于1000为旧,当然检索的时候不要忘了有的分子是有多个名字的,分享一个了解分子信息比较全面的数据库:Genecards,网址:http://www.genecards.org/。



 3.    功能注释:

分子的功能注释能帮助我们大大缩小研究范围,最常见的功能注释是KEGG和GO,通过KEGG和GO注释,我们可以对差异分子所参与的信号通路、生物过程等进行查询,这里以GO注释中细胞组分(Cellular Component, CC)为例, 这部分结果可以帮我们了解到分子在细胞的定位信息:核内、胞浆、细胞器、胞膜、胞外,比如我们比较关注定位于线粒体上的蛋白、膜蛋白或者对转录因子感兴趣,那么可以直接进行查询和挑选。



 4.    Network:

分子间的网络关系是我们挑选分子时另外一个参考因素,一般来说像String这样的网站会给出分子之间相互作用的信息;另外,也可以根据分子之间的表达关系自己构建,然后根据网络关系中邻近分子所参与的功能进行推测和挑选,比如新分子A周围有10个分子,而有5个分子与研究过程有关,那么A分子可能参与该过程。


另外,做非编码RNA的同学可能对CNC(coding-non-coding gene co-expression)network比较熟悉,也可以用这种原则参考使用。


 5.    分子大小:

一般来说,分子大小主要是从后续进行功能验证这一角度进行考虑的,如果后续要做基因的过表达,在构建质粒或者包装病毒的时候,如果分子太大(>3Kb),那么对于包装病毒的滴度都有一定的影响;当然,分子太小也不适合,个人一般选的范围是0.8-2.5K左右。

 
 6.    本底表达:

分子的本底表达水平主要的考虑因素是在本底表达较低的情况下,由于技术原因噪音导致倍数差异不可靠,举个例子,同样是差异倍数10倍的两个分子,A分子拷贝数从1个变为10个,B分子拷贝数从1000个变为10000个,而技术检测的噪音可能在5个左右,因此A分子检测到的结果可信度要低一些;

另外,如果后续还要进行基因的沉默和过表达实验,那么会选择本底表达中等水平的,一般来说会尽量避免对本底表达太高的做过表达和对表达太低的做沉默。


7.    分子位置;

位置对分子功能的意义常用来挑选LncRNA,主要原因是考虑到LncRNA对靶基因调控的Cis作用方式的,做LncRNA研究的同学应该对下面这个图很熟,一句话形容吧:相邻可能相关。




以上七个策略可以总结为三点:


  1. 基于实验结果:1,4和6;

  2. 基于已知数据库和文献的:2,3,4和7;

  3. 基于后续实验的:5,6和7。






That's all. Thank you!



请关注
小张聊科研:搜索微信号xzlky2015,或长按二维码识别关注。

↓↓↓


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存