重复的基因:你我都是复读机
点击上方蓝字“返朴”进入主页,可关注查阅往期文章
人类的本质是复读机?从基因上看确实如此。不仅每个人体内都有过半的重复DNA序列,而且每个人重复的方式还都不一样。重复多了,还可能得病。
只要在网上冲浪够久,你总会遭遇灵魂一问:人类的本质到底是鸽子、柠檬、真香,还是复读机?
有意思的是,这个问题有答案——从分子生物学上讲,我们是复读机。
在人类基因组中,有一种“自私的垃圾”DNA,它们包含大量类似 GAGAGAGAGA 这样的重复序列,甚至可以占据基因组的一半以上。
而它们却不编码蛋白质。
所以如此聒噪、狂刷存在感,是要干啥?今天我们要讲的就是这些“垃圾”DNA,看它是真垃圾,还是假垃圾。
从分子生物学上看,我们是复读机。| 来自网络
生物越复杂,DNA未必越多
我们或许直觉地认为,物种越复杂,其基因组中包含的 DNA 就越多。比如,作为万物灵长的人类,我们每一个细胞中所含的 DNA 一定超过很多简单的生物,才能编码如此丰富的信息。
但人们很快发现,事实并非如此:对不同物种,个体细胞中所含的 DNA 的量不仅差异巨大,而且与决定生物复杂性的基因数量似乎并无多少关系。
*基因,是指有遗传效应的DNA或RNA片段,其数量越多,生物功能越复杂。
比如,蝾螈基因组的大小是人类的几十倍,基因数量却并不比人多,也明显不如人类复杂。只会吃饭睡觉挠沙发的猫猫,基因组几乎跟人类一样大。
蝾螈的基因组比你大几十倍。|University News
猫的基因组跟你一样大。所以谁是主子?|图虫创意
于是我们不禁纳闷,那些多出来的DNA,是用来当摆设的吗?
1970年前后,科学家们发现,基因组上有一些 DNA 并不转录出 RNA(一般而言,蛋白质都是由RNA翻译,被称为“中心法则”),从而也不直接参与蛋白质的合成,它们叫非编码 DNA。对不同物种,非编码DNA在基因组中所占比例有所差别,有时甚至占到九成以上。
中心法则示意图:基于DNA和RNA的生命遗传信息的流动方向或传递规律
既然不编码蛋白质,那非编码DNA有什么用呢?难道是自然造物的时候走神啦?
基因组里的噪音:阿巴阿巴阿巴……
其一,基因组里的大部分 DNA 都是此类;其二,它们通过已有的 DNA 拷贝扩展而来;其三,也是最重要的,无用!
他们认为,非编码 DNA 并没有明显的正面或负面作用,不过是DNA复制过程中不得不产生的副产物。它们如此堂而皇之地赖在细胞中,不干活还占地方,只是因为比较“自私”。
不编码蛋白质的DNA就是自私的垃圾吗?另一些科学家对此表示怀疑。
一些证据显示,这些“自私的DNA”并非完全无用。比如在一些物种中,基因组的大小跟细胞周期和世代时间(生物从一次繁殖结束到下一次繁殖结束的时间间隔)有关。所以,或许我们不应该急着将这些冗余 DNA 扔进垃圾桶。
40多年后的今天,全基因组测序越来越便宜,也越来越普遍了,我们对人类基因组的认识早已今非昔比。科学家发现,人类基因组里除了与编码蛋白质有关的特异性 DNA 序列之外,还有相当一部分重复DNA序列——正是它们决定了人类的“复读机”本质。
基因测序结果表明,在同一人类个体的基因组中,这些序列有的重复几次,有的重复成千上万次;其中既有长达1000~200 000个碱基对的片段重复,也包括短的简单序列重复;重复的基本单位有时只有一个碱基(比如AAAAAAAAAA),有时包含几个碱基(比如CACACACACAC和CAGCAGCAGCAG)。它们加起来甚至可以占到人类基因组的一半以上!
人类的基因组包含特异性序列和重复序列。重复序列甚至可以占到人类基因组的一半以上。|来源:Molecular biology of the cell
人类基因组中为何存在如此多的重复DNA序列?这种“复读机”本质对我们有哪些影响呢?
你我都是独特的复读机
*基因表达,指基因通过指导蛋白质合成,将自己表现出来。
以简单序列重复(简称STR)为例,虽然它们只占人类全基因组的3%,但分布极为广泛。据估计,有超过10万个STR位点遍布基因组的各个角落。它们既可以直接出现在编码序列中,直接影响DNA的翻译产物蛋白质,又可以处于调控序列中,间接影响基因表达。
有趣的是,STR 虽然是看似冗余的重复序列, 在每个人体内的重复方式却并不一样。即使是同一STR位点,在不同个体中,其基本单位的重复次数也有较大差异。这就像是,我们的基因组虽然都有着复读机的本质,但每个人的复读方式却又独一无二。
实验证实,STR 与人体的数十种疾病有关,且主要为神经肌肉性疾病,比如舞蹈征、肯尼迪病、肌萎缩侧索硬化等。其中与舞蹈征有关的 STR 位点位于一个特定基因中,如果它的基本单位的重复次数小于30次,患者就不发病;重复次数越多,则发病年龄越小,症状越严重。
2021年1月13日,《自然》上发表的一项新研究还发现,STR的突变与自闭症有关。研究人员分析了1637 个家庭的全基因组数据,结果发现,罹患自闭症的儿童,他们基因组上的STR突变数量明显比未患病的兄弟姐妹高出一截。而且与导致舞蹈征的STR突变不同,这些导致自闭症的STR突变并不局限于一个特定的基因,而是与很多基因都相关。
自闭症与肥胖类似,和遗传因素有很大关系,并且难以确定到底是哪些基因在捣鬼,更别说找出什么具体的突变。而STR突变的加入,为解释自闭症的遗传根源增加了一个新维度。
除了研究疾病,STR 序列还因为具有如指纹般的独特性,在现实生活中有广泛应用。比如身份认定、亲子鉴定、产前检查等。
2008年,美国洛杉矶的警察就曾通过比对嫌疑人和凶手的STR序列,追踪到二十多年前一桩连环强奸杀人案的真凶。美国 FBI 则建立数据库,在国家范围内收集罪犯或失踪人员的 STR 序列信息,以提高破案率。
人类基因组中仍蕴藏着许多未知。|Chris Madden
但,关于重复序列的价值讨论早已没有疑义:我们是复读机,但不是垃圾。
注:以上关于复读机的比喻仅为文字戏谑,并非科学上的比喻,各位读者请勿当真。
参考资料
[1] Molecular biology of the cell, 6th[2] https://www.nature.com/articles/s41586-020-03078-7[3] https://www.nature.com/articles/284601a0[4] https://genome.cshlp.org/content/24/11/1894.full.html[5] https://www.nature.com/articles/285617a0[6] https://academic.oup.com/emph/article/2019/1/17/5303511
本文经授权转载自微信公众号“十点科学”。
相关阅读
近期推荐
1 比英国毒株更可怕:南非新冠病毒变异株可显著逃避抗体攻击,新冠疫苗或需更新 | 117三人行
3 新冠疫苗保护作用能持续多久?自然免疫研究也许能告诉我们丨117三人行
5 拜登的科学新政
特 别 提 示
1. 进入『返朴』微信公众号底部菜单“精品专栏“,可查阅不同主题系列科普文章。
2. 『返朴』提供按月检索文章功能。关注公众号,回复四位数组成的年份+月份,如“1903”,可获取2019年3月的文章索引,以此类推。
长按下方图片关注「返朴」,查看更多历史文章