启动子作为能被蛋白质识别的一段DNA序列,它和用于转录或翻译的序列是不同的。
反映启动子功能的信息直接来源于DNA序列本身:其结构就是信号。前面图1.31~32 为一个具有代表性的顺式作用位点的例子。这种情况下,只能在它自身所包含的信息被转换成核苷酸或蛋白质的形式之后,被表达区域才能显示出含义来。
RNA 聚合酶与其启动子之间相互作用的关键问题在于蛋白质如何识别一个特异的启动子序列。是否是酶有一个活性位点来识别DNA 双螺旋中某一特殊碱基序列?它需要怎样的序列特异性?
设计一个启动子就是设计一段能被RNA聚合酶特异识别的DNA序列,每个启动子至少包括这段序列。在细菌基因组中,能提供足够信号的最小长度是12bp(再短的序列可能提供假信号。随着基因组长度增加,特异性识别所需的最小长度也相应增加),这12bp 可以不相邻。如果两个碱基数恒定的短序列被某一特定数目的碱基对所隔开,它们若组合到一起,长度将短于12bp,因为分离的碱基本身就提供了部分信息(即使中间序列本身是不相干的)。
人们试图通过比较不同启动子的序列来弄清楚RNA 聚合酶结合所必需的DNA 的特征。所有启动子都有基本的核苷酸序列被认为是保守(Conserved)的,然而所谓的保守序列未必在每个位点都保守,它们是可以有所变异。我们如何分析一段DNA 序列,来判断它对组成一个可识别的信号是否足够保守呢?
公认(Putative) DNA识别位点是启动子每个位置最常出现的理想化碱基序列。共有序列(Consensus sequence)这个概念来自将所有已知启动子排列起来以求其最大相似性。一个序列如果为共有,则每一个特定碱基都理应在相应位置上有分布优势;大多数共有序列间的碱基差异不能超过1~2 个。
E. coli的启动子序列最显著的特征是在与RNA聚合酶结合的60bp上缺乏任何广泛的保守序列。结合位点的很多序列是互不相干的。但启动子中有一小段是保守的,它们对启动子的功能很重要。不管是在原核生物还是在真核生物的基因组中,短的共有序列的保守性是调控位点(如启动子)的典型特征。
细菌启动子有4 个保守特征:起始位点、-10 区、-35 区以及-10 和-35 区之间间隔距离。
·起始位点通常(>90%)都是嘌呤碱基。起始位点经常作为CAT 序列的中心,但是仅凭这个三联体的保守性还不足构成专有信号。
·在起始位点上游,在几乎所有的启动子中都可以发现一个6bp 的区域。六聚物的中心通常靠近起始点上游的10bp。已知启动子中从-18 到-9之间的碱基是多种多样的。六聚物据其位置常被称为-10区。它的同源序列为TATAT,可被总结为如下形式:T80A95T45A60A50T96 ,其中,下标表示碱基出现最大频率的百分数,从45%到96%各有不同。我们推测:-10 序列中开始的高度保守的TA 和最后一个几乎完全保守的T 是最重要的碱基。
·另外一个保守六聚体是以起始位点上游-35bp为中心的,称-35区。其共有序列为TTGACA;详细形式为T82T84G78A65C54A45。
·在90%启动子中,-35 和-10 区之间的分隔距离在16 到18bp 之间。个别例外的可以小于15 或者大于20bp。尽管间隔区的真实序列并不重要,但其距离大小保持两个位点恰当分隔,从而适合RNA 聚合酶的几何结构方面是很重要的。
理想的启动子所包含的-35 区六聚体应位于启动点上游7bp,并与-10 区六聚体相隔17bp。
启动子功能的主要信息来源于突变。启动子的突变影响它们所控制基因的表达水平,而不改变基因产物本身,细菌的突变大多可造成相关基因转录的丧失或大大减少。这被称为下降突变(Down mutation)。有时突变也能使启动子增加转录水平增加,称为上升突变(Up mutation)。
应当记住,说谓“上升”和“下降”突变是相对于启动子通常效率而言。而它有很大波动。因此一个启动子的下降突变的变化千万不能与另一个启动子连在一起比较(其野生型甚至可能比第一个启动子突变后的效率还要低)。所以,体内研究所获得的信息仅能简单提示突变造成变化的总方向。
最有效的启动子是那些含有共有序列的吗?人们之所以会有这个设想是因为:上升突变多增大共有位点的相似性或使它们之间的距离更接近17bp,而下降突变多降低共有位点的相似性,或是使它们的距离比17bp 更大,而且下降突变倾向于集中在最高度保守位置,这更确定了它们在决定启动子效率方面的特殊重要性。然而,偶然的例外表明启动子效率不完全取决于共有序列的构成。
为确定启动子突变的决定影响,我们必需测量体外实验中野生型和突变型启动子对RNA 聚合酶的亲和性。在体外,RNA 聚合酶结合到不同启动子的速度可有大约100 倍的差异,这与体内它们在基因表达时的转录效率差异很好地吻合。进一步分析,我们可以发现在哪个阶段突变影响了启动子的能力,突变是否改变了启动子与RNA聚合酶的亲和性?突变是使酶能够结合但不能起始转录吗?突变是否受辅助因子的影响?
通过测定闭合复合体形成及转变为开放复合体这两个过程的动力学常数,我们可将起始过程分为两个阶段。
·-35 区序列的下降突变使闭合复合体的形成速度减慢(降低KB),但并不抑制其转变为开放复合体。
·-10 区序列的下降突变不影响闭合复合体的起始形成,但是其向开放形式的转变变慢(降低K2)。
这些结果表明,-35 区序列的功能是为RNA 聚合酶的识别提供信号,而-10 区序列允许复合体由闭合的转变为开放的。我们可以将-35 区序列看作是“识别域(Recognition domain)”,而-10 区序列组成了启动子的“解旋域(Unwinding domain)”。
-10 区的共有序列全部由A:T 碱基对组成,它们辅助DNA 其使溶解成为单链。破坏A:T碱基对比G:C碱基所需要的能量少,因为一般A:T碱基对的双链分离需要的能量最小。与起始位点直接相邻的序列影响起始过程。开始的RNA转录区(从+1到+30)能够影响聚合酶离开启动子的速度,从而影响启动子的强度。因此,启动子的总强度不能完全根据-35和-10 区共有序列来预测。
典型的启动子依赖于-35和-10 区序列,它们被RNA聚合酶识别,但在某些特殊的启动子中,这两个序列可以少一个,这种状况下的启动子有些不能单独被RNA聚合酶识别,而需要辅助蛋白质参与。这些辅助蛋白质弥补了RNA 聚合酶与启动子之间相互作用的缺陷。
欢迎关注生信人。