说了那么久的motif到底是什么? | RIP专题
Motif是一段典型的序列或者一个结构。一般来说,我们称为基序。一般情况下是指构成任何一种特征序列的基本结构。通俗来讲,即是有特征的短序列,一般认为它是拥有生物学功能的保守序列,可能包含特异性的结合位点,或者是涉及某一个特定生物学过程的有共性的序列区段。比如蛋白质的序列特异性结合位点,如核酸酶和转录因子。
motif很多情况下会和domain相提并论,但是它们本质上完全不同。会把它们相互联系起来,只是因为它们在理解上有相似处。Protein domain是一种结构实体,通常代表蛋白质结构中独立折叠和行使功能的一部分。而motif我们在理解的时候,将其理解为某一个大类的序列共性,通常也将它和一种特定的功能联系在一起。然而,它们在结构上和具体的功能上完全不同。
序列基序在基因调控分析中越来越重要。Motif并不局限于基因组DNA序列还是RNA序列,甚至蛋白质序列也可以提取出相应的motif。通过序列信息的解析,我们可以解析生物学过程中的密码。当某一个大类的序列中,大量重复出现相同的序列结构的时候,就可能存在探索它意义的价值。基于motif序列的提取,我们可以预测潜在的结合位点等等,有助于我们进一步理解各生物学过程中涉及的生物学意义。比如转录因子的结合位点,其motif往往意味着某蛋白结构域与DNA碱基序列的相互作用。
a.logo展示图
在我们的日常应用中,我们经常会看到motif这个词的出现,往往会伴随着这样一张logo展示图。这样的logo经常用于描述序列特征,如DNA中的蛋白质结合位点等。motif logo由每个位置的一堆字母组成。字母的相对大小表示它们在序列中的频率。每个字母的高度与该位置的相应碱基的出现频率成正比,常以bits为单位。高度bits的计算方式参考如下:
每个位置的字母按照保守性从大到小排列,可以方便的从顶端的字母识别保守序列。
b.一致性序列
用一段序列来描述所有序列的碱基组成,称之为一致性序列。当一个位置涉及到多个碱基出现的时候,这里就涉及到简并碱基的使用。
比如,在MeRIP项目中,我们经常看到的logo如下:
而我们在日常使用中,也经常用“RRACH”来表示它。这个“RRACH”就是一种一致性序列的表示方式。
c.PFM矩阵
PFM矩阵(position frequency matrix),用于代表motif的碱基分布频数。
和FASTA文件类似,有一个“>”开头的ID信息。下面的每一行分别代表4个碱基,每一列分别代表一个位置。矩阵信息的即表示A, C, G, T 4种碱基在每个位置的频数分布。
不同的工具或者数据库对应的PFM矩阵的细节格式不完全相同,但是总体格式和表示的信息是相似的。
[1]. Schneider TD, Stephens RM. 1990. SequenceLogos: A New Way to Display Consensus Sequences. Nucleic Acids Res.18:6097-6100
m6A2Target:不做RIP也能预测m6A酶靶基因 | RIP专题