什么是motif?Motif是一段典型的序列或者一个结构。一般来说,我们称为基序。一般情况下是指构成任何一种特征序列的基本结构。通俗来讲,即是有特征的短序列,一般认为它是拥有生物学功能的保守序列,可能包含特异性的结合位点,或者是涉及某一个特定生物学过程的有共性的序列区段。比如蛋白质的序列特异性结合位点,如核酸酶和转录因子。motif很多情况下会和domain相提并论,但是它们本质上完全不同。会把它们相互联系起来,只是因为它们在理解上有相似处。Protein domain是一种结构实体,通常代表蛋白质结构中独立折叠和行使功能的一部分。而motif我们在理解的时候,将其理解为某一个大类的序列共性,通常也将它和一种特定的功能联系在一起。然而,它们在结构上和具体的功能上完全不同。
研究motif的意义序列基序在基因调控分析中越来越重要。Motif并不局限于基因组DNA序列还是RNA序列,甚至蛋白质序列也可以提取出相应的motif。通过序列信息的解析,我们可以解析生物学过程中的密码。当某一个大类的序列中,大量重复出现相同的序列结构的时候,就可能存在探索它意义的价值。基于motif序列的提取,我们可以预测潜在的结合位点等等,有助于我们进一步理解各生物学过程中涉及的生物学意义。比如转录因子的结合位点,其motif往往意味着某蛋白结构域与DNA碱基序列的相互作用。
motif的展示形式a.logo展示图
在我们的日常应用中,我们经常会看到motif这个词的出现,往往会伴随着这样一张logo展示图。这样的logo经常用于描述序列特征,如DNA中的蛋白质结合位点等。motif logo由每个位置的一堆字母组成。字母的相对大小表示它们在序列中的频率。每个字母的高度与该位置的相应碱基的出现频率成正比,常以bits为单位。高度bits的计算方式参考如下:
每个位置的字母按照保守性从大到小排列,可以方便的从顶端的字母识别保守序列。b.一致性序列
用一段序列来描述所有序列的碱基组成,称之为一致性序列。当一个位置涉及到多个碱基出现的时候,这里就涉及到简并碱基的使用。
比如,在MeRIP项目中,我们经常看到的logo如下:
而我们在日常使用中,也经常用“RRACH”来表示它。这个“RRACH”就是一种一致性序列的表示方式。
c.PFM矩阵
PFM矩阵(position frequency matrix),用于代表motif的碱基分布频数。
和FASTA文件类似,有一个“>”开头的ID信息。下面的每一行分别代表4个碱基,每一列分别代表一个位置。矩阵信息的即表示A, C, G, T 4种碱基在每个位置的频数分布。不同的工具或者数据库对应的PFM矩阵的细节格式不完全相同,但是总体格式和表示的信息是相似的。
参考文献[1]. Schneider TD, Stephens RM. 1990. SequenceLogos: A New Way to Display Consensus Sequences. Nucleic Acids Res.18:6097-6100
相关阅读1+1大于2!RIP-seq与其他组学的搭配你值得拥有 | RIP专题
RIP?Co-IP?Pull-down?这篇千字长文让你明明白白 | RIP专题
干货分享| 普林斯顿教授详谈RNA与蛋白质互作高通量检测技术 | m6A专题&RIP专题
RIP-seq抗体评估怎么做?小师妹看了都直呼内行!|RIP专题
3篇10分客户文章教你m6A和RIP数据该如何挖掘 | RIP专题
点击下方图片进入云平台资料汇总:
所见即所得,绘图高规格
联川云平台,让科研更自由