其他
建议收藏 | 生物信息学中的可变剪切,这些内容你了解吗?
The following article is from 聊点学术 Author Carina
检索TCGA中可变剪切的相关文献,虽然总数量并不多,但是其在2019年猛增为49,在2020年的上半年发文数量也超过了2019年的一半。这说明可变剪切研究在生物信息学中的热度有上升的趋势。
1.基础知识
1.1 可变剪切的定义与生物学意义
根据基因的某个转录本与其组成型转录本(可以理解为最长转录本)之间的比较,可对不同的基因的不同转录转本进行分类。
Spliceseq是MDAnderson cancer center开发的,基于java探究高通量RNA-seq数据可变性剪切模式的软件。SplAdder是基于python或matlab软件。此外,还有很多方法可用于识别可变剪切。
①SplAdder软件得到5种可变剪切类型:外显子跳跃(exonskip);内含子保留(intron retention);可变3’剪切位点(alternative 3’ site);可变5’剪切位点(alternative 5’ site);互斥外显子(mutual exclusive exons)。
②Spliceseq软件得到7种可变剪切类型:在5分类的基础上还包括可变供体位点和可变受体位点。
1.3可变剪切的调控
2.可变剪切拼接图谱和PSI
2.1可变剪切拼接图谱
很多方法识别可变剪切均是基于剪切图谱(splice graph)。剪切图谱的构建,可参考以下模式图:转录本1-4分别是基因x的4个不同的转录版本,将他们进行取并集的形式,构建囊括所有转录本结构的统一体,即针对gene x创建了单个基因的剪切图谱。至于如何解读剪切图谱,可参考接下来的示例。
2.2PSI
PSI(percent spliced in)指剪切百分比,它是可以量化可变剪切的指标,可以实现某个外显子是否纳入转录本定量,从而用于单个样本或组间多个样本的比较。其计算公式可总结成如下:
PSI = splice_in / (splice_in+splice_out)
2.3spliceseq探索TCGA样本的AS示例
①第一列展示可变剪切的类型:ES、AT、AP等等。
②第二列展示发生可变剪切的外显子位点:外显子1、2、3等等。
③第三列对应发生可变剪切的基因:基因名。
后面的列分别对应不同的肿瘤类型(可用于不同肿瘤间的比较,PSI值取同一肿瘤队列中所有样本的均值)。如果后面对应的是不同的样本,PSI取该样本对应的PSI值。
上中图是对可变剪切矩阵的箱线图可视化结果,可用于直观比较不同肿瘤类型中某种可变剪切类型的差异。
上右图与NCBI、uniprot相连展示基因的信息,而exon table则是对目前基因的外显子情况进行汇总,包含每个外显子的序列,这对感兴趣序列的接头的设计非常有用。
下图是基于右上角选中基因(如FBLN2),构建的可变剪切图谱。根据可变剪切矩阵,可以知道该基因发生的是外显子11跳过事件,而该剪切图谱就是阐释为什么发生的是外显子11跳过事件,而不是其他类型的可变剪切事件。
在外显子11处,外显子10-外显子11、外显子11-外显子12连接分别对应的OPKM读数为0.3、0.4(OPKM:校正基因长度和样本含量,类似于RPKM;READS:rawdata),而外显子10-外显子12连接对应的OPKM为2,故基因FBLN2倾向于发生外显子11跳过的转录版本,故得出外显子11发生跳跃事件。
另外,我们还可以观察到,在剪切谱图中:同一基因的不同外显子发生相同类型或者不同类型的可变剪切,通过软件计算出不同的PSI值,如NEIL3的外显子10和外显子8.2。也就是说,同一个基因能够同时发生多种类型的可变剪切事件,可用UpSet plot进行汇总展示[3],如下:
3.可变剪切研究思路
3.1可变剪切分析流程
3.2可变剪切后续研究
① 可变剪切事件与患者预后的单因素或多因素cox分析
②可变剪切事件与剪切因子表达的相关性分析[4]
③可变剪切事件与蛋白质组数据库(CPTAC)的联合分析
动动小手加星标,浏览文章不迷路!关注菌菌🍄
每天轻轻松松学生物,幸福喜乐阖家欢~
往期推荐
2021-03-08
2021-03-05
2021-03-04
2021-03-04
2021-03-03
关注我们
点了“在看”的小哥哥小姐姐
永远帅气美丽可爱迷人😗