查看原文
其他

说了那么久的motif到底是什么? | RIP专题

运营部-CL 联川生物 2022-06-07



什么是motif?

Motif是一段典型的序列或者一个结构。一般来说,我们称为基序。一般情况下是指构成任何一种特征序列的基本结构。通俗来讲,即是有特征的短序列,一般认为它是拥有生物学功能的保守序列,可能包含特异性的结合位点,或者是涉及某一个特定生物学过程的有共性的序列区段。比如蛋白质的序列特异性结合位点,如核酸酶和转录因子。

motif很多情况下会和domain相提并论,但是它们本质上完全不同。会把它们相互联系起来,只是因为它们在理解上有相似处。Protein domain是一种结构实体,通常代表蛋白质结构中独立折叠和行使功能的一部分。而motif我们在理解的时候,将其理解为某一个大类的序列共性,通常也将它和一种特定的功能联系在一起。然而,它们在结构上和具体的功能上完全不同。


研究motif的意义

序列基序在基因调控分析中越来越重要。Motif并不局限于基因组DNA序列还是RNA序列,甚至蛋白质序列也可以提取出相应的motif。通过序列信息的解析,我们可以解析生物学过程中的密码。当某一个大类的序列中,大量重复出现相同的序列结构的时候,就可能存在探索它意义的价值。基于motif序列的提取,我们可以预测潜在的结合位点等等,有助于我们进一步理解各生物学过程中涉及的生物学意义。比如转录因子的结合位点,其motif往往意味着某蛋白结构域与DNA碱基序列的相互作用。


motif的展示形式

a.logo展示图

  

                                            

在我们的日常应用中,我们经常会看到motif这个词的出现,往往会伴随着这样一张logo展示图。这样的logo经常用于描述序列特征,如DNA中的蛋白质结合位点等。motif logo由每个位置的一堆字母组成。字母的相对大小表示它们在序列中的频率。每个字母的高度与该位置的相应碱基的出现频率成正比,常以bits为单位。高度bits的计算方式参考如下:


每个位置的字母按照保守性从大到小排列,可以方便的从顶端的字母识别保守序列。

b.一致性序列

用一段序列来描述所有序列的碱基组成,称之为一致性序列。当一个位置涉及到多个碱基出现的时候,这里就涉及到简并碱基的使用。

比如,在MeRIP项目中,我们经常看到的logo如下:

而我们在日常使用中,也经常用“RRACH”来表示它。这个“RRACH”就是一种一致性序列的表示方式。


c.PFM矩阵

PFM矩阵(position  frequency matrix),用于代表motif的碱基分布频数。


和FASTA文件类似,有一个“>”开头的ID信息。下面的每一行分别代表4个碱基,每一列分别代表一个位置。矩阵信息的即表示A, C, G, T 4种碱基在每个位置的频数分布。

不同的工具或者数据库对应的PFM矩阵的细节格式不完全相同,但是总体格式和表示的信息是相似的。


参考文献

[1]. Schneider TD, Stephens RM. 1990. SequenceLogos: A New Way to Display Consensus Sequences. Nucleic Acids Res.18:6097-6100

相关阅读

抗体纯化、选择和稀释比度 | RIP/ChIP专题

m6A2Target:不做RIP也能预测m6A酶靶基因 | RIP专题

抗体及抗体结构简介 | RIP/ChIP专题

RIP-seq让m6A后期研究威力加倍 | RIP专题

超详细RIP实验流程,看完神清气爽


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存