查看原文
其他

当我们在谈基因组的时候,合成生物学家在谈什么?

孟凡康 再创丨Regenesis 2021-02-09


作者 | 孟凡康

编辑团队 | 罗训训   孟凡康   孙智   张益豪

本文首发于知乎专栏 @ 「札记·合成生物学」


编者的话·写在前面

前言:基因组,蕴藏着生命的奥秘。现代生物学建立以来,从解码一个人的基因组计划的人类基因组计划,到分析人群差异性的HapMap,再到利用基因组围剿疾病的GWAS以及现在的精准医疗,在基因组巨大的宝藏之中,人类的探索从未停止 。当我们在关注对基因组信息的解密和挖掘时,合成生物学家似乎在用不同的方法对基因组进行着研究和改造。合成生物学家似乎总是不满足于自然的设计,通过将工程学思想引入生物学,他们希望对现有的基因组进行重编码或者基因组中引入新的功能。在细菌和酵母染色体的基因组中探索一番之后,合成生物学家将他们的目光聚焦在了更加复杂生物的基因组上,包括人类 。

那么在当我们在谈基因组的时候,合成生物学家在谈什么?


作者 | 孟凡康

编辑团队 | 罗训训   孟凡康   孙智   张益豪

本文首发于知乎专栏 @ 「札记·合成生物学」


1. “Is there a synthetic biology equivalent of the sound barrier, or the speed of light?”


近年来合成生物学快速发展。

“Biology is not limited by what is natural, but rather, by what is possible.”
——David Baker

对于合成生物学家来说,生命40亿年的进化并不代表着最优的进化结果。来自华盛顿大学,被著名遗传学、合成生物学家George Church称为“蛋白质设计领域毫无疑问的王者”——David Baker,正在将人类蛋白质设计的能力提升到一个全新的高度。

得益于基因组学和计算机学的革命性发展,David Baker团队解决了现代生命科学领域最大的挑战——解释如何通过氨基酸长链折叠成让“生命机器”运转的三维蛋白质。他和同事通过这种方法设计并合成了非天然的蛋白质,这些蛋白质可以在医药到材料不同领域发挥作用。2017年10月,他的研究团队在《自然》杂志发文,声称通过Rosetta蛋白质设计模型、寡核苷酸合成技术、酵母展示筛选技术和下一代基因测序,以流感病毒HA和神经毒素为靶点,设计并测试了超过两万个蛋白质抑制多肽。而通过这样的从头设计策略,与以前的研究相比,他们将此类的抑制多肽数量提高了两个数量级,并且这些抑制多肽非常稳定,在小鼠实验中可以很好的阻断流感病毒的传播。

在波士顿,Christopher Voigt是另一项研究的主导者。在其麻省理工学院的实验室里,一株名为JF1的大肠杆菌菌株和其他的大肠杆菌的菌落表型看起来没有什么差别。但是当菌株暴露在红色、绿色或者蓝色光的波长之中,这个菌株能够根据所接触的光的种类将化学物质转化成染料并形成一定的图案(Pattern)。它产生静态但有些模糊的图像,让人联想到20世纪70年代的宝丽来相机。

2017年5月Voigt在《自然》杂志称他的团队利用该系统重新创建了荷兰艺术家M.C.埃舍尔多彩多姿的蜥蜴图案。他说这个研究除了为了好玩,也是展示合成生物学中最先进技术的一种方法。

Christopher Voigt团队通过RGB-Imaging系统创建荷兰艺术家M.C.埃舍尔的多彩多姿的蜥蜴插图。
“When you add it all up, it’s quite a sophisticated project.” 
——Christopher Voigt

看似简单结果的背后,设计这样一套系统并不容易:基因线路中一共包含18个基因和32个调节元件,分布在4个不同的质粒上。基因线路一共包含46,198个碱基对。它分别响应红色,绿色和蓝色光。

Voigt的大肠杆菌RGB系统。a)系统一共包括4个模块:Sensor Array、Circuits、Resource allocator和Actuators b)RGB系统分别编码在基因组和4个质粒上

这两个研究并不是唯一的。合成生物学中类似的研究还存在着很多,甚至研究的复杂度比这两个还要高。DNA合成和编辑技术以及计算机模型的发展使得研究耗费持续降低的同时,工程化设计的精确程度也在大大增加。现在科学家已经有能力从头建构或者重编程大肠杆菌或者酵母的基因组。虽然仍然存在大量的难题没有解决,目前合成生物学的研究者在认真的讨论人工合成更加复杂生物的基因组,包括人类在内。

麻省理工学院林肯分院的合成生物学家Peter Carr说:

“Results over the past two years have certainly increased my optimism that we may be able to do some really profound engineering in animals.”
——Peter Carr

Carr在2015年致Trends in Biotechnology的信中问道:

“Is there a synthetic biology equivalent of the sound barrier, or the speed of light?”
——Peter Carr

Carr指出合成生物学的快速发展是否也存在像音障或者光速这样的极限呢?显然,极限存在的。例如生长速率,生物生长不能无限快。 但是,合成生物学的极限在不断变化。 几年前一些认为不可能的想法现在已经实现,几年前只具有理论可行性的设计现在已经变得实用化。

曾经艰难合成几千个碱基对DNA序列的研究人员现在正在合成含有百万碱基对的基因组。 2016年3月,测序和合成生物学先驱Craig Venter及其同事们宣布,他们重编码了支原体细菌的基因组,将其基因组大小从约一百万碱基减少到五十万碱基,创建了“最小”基因组——这是目前维持生命所需的最小基因组。

左图:创造拥有最小基因组的研究团队,左起J. Craig Venter, Hamilton Smith, Dan Gibson, Lijie Sun, John Glass, Krishna Kannan, John Gill, and Clyde Hutchison III 右图:含有最小基因组的JCVI-syn3.0细菌的扫描电子显微镜图

2016年8月,由哈佛医学院遗传学家George Church领导的研究人员在《科学》杂志报告说,他们创造了一种称为“rE.coli-57”的细菌, 其中七个密码子——编码特定氨基酸的核苷酸三联体已被删除,并用其同义密码子替代。而在2017年3月,由哈佛大学Wyss Institute for Biologically Inspired Engineering的生物化学家Pamela Silver领导的团队在期刊《核酸研究》描述了其重编码细菌沙门氏菌(Salmonella typhimurium)菌株LT2基因组的工作,他们编辑了其基因组内大约20万碱基对的DNA,并消除了基因组上特定的亮氨酸密码子,以防止病原微生物之间的基因转移。

对S. typhimurium 基因组的重编码一共涉及了大约200kb的碱基对。研究团队将其基因组上33229个TTA/TTG亮氨酸密码子全部替换成了CTA/CTG密码子,以防止病原微生物之间的基因转移

今年最引人注目的工作当属“合成酵母基因组计划”——Sc 2.0。在2017年3月,由纽约大学朗戈医学中心的Jef Boeke和马里兰州巴尔的摩约翰霍普金斯大学的Joel Bader领导的国际联盟报告他们成功从头合成了酿酒酵母16条染色体中5条染色体,这是“合成酵母基因组计划”(Sc2.0)国际项目的里程碑。Sc2.0旨在优化和合成酿酒酵母的完整基因组,用于工业和纯研究应用。

By removing all DNA sequences that do not encode proteins (introns), We can assess the biological roles of the cellular machinery required to handle those genetic elements.
——Jef Boeke

Science杂志特刊文章《Building on Nature’s Design》封面:人工构建的酵母染色体

英国爱丁堡大学的Patrick Yizhi Cai是该项目的国际协调人,他表示Sc2.0的组织工作是相当巨大的。然而负责合成六号染色体亚组的博伊特实验室博士后Leslie Mitchell称编辑酵母染色体的实际过程是相当有序的。

“The actual process of editing the yeast chromosomes was fairly routine, requiring just a few plates of yeast in the incubator.”
——Leslie Mitchell

Sc2.0的团队利用一种叫做SwAP-In的策略来一点一点合成酵母的基因组。研究人员首先将短的DNA单链分子合成750个碱基对的Building Blocks,然后组装成1万的碱基对的chunks,最后组装成3-6万的Megachunks。每一个Megachunks都包含有筛选标记基因,使得含有这些megachunks 的酵母能够被筛选出来。这些Megachunks最后通过同源重组被整合到现有的基因组上,通过筛选标记和PCR测序对成功整合合成片段的菌落进行筛选和验证。产生的合成酵母株系要在严格的条件下测试其形成菌落的能力。Leslie Mitchell对合成酵母染色体的过程解释为:

“The idea is: integrate the megachunk, test the fitness and repeat.”
——Leslie Mitchell

2. “Our lack of basic biological knowledge, even with the simplest bacterial genomes, is huge.”


在 Sc2.0 这项庞大的工程中,假使不存在其他问题的前提下, 单个的 Megachunk 能够在两周内整合到基因组上并开始测试。在实际过程中,对合成菌株进行适应度测试和调试才是最耗时的步骤。

“Fitness testing and 'debugging' (error correction) take longer than the actual build at this point.” 
——Jef Boeke

迄今为止完成每一条合成的染色体都存在着大量显著的问题。 例如,一些原因出自原本基因组注释的错误,而另一部分则是由于密码子替换导致RNA的二级结构发生改变。

对于大多数情况下,酵母可以说是“逆来顺受”,通过进一步的测试和修改设计,酵母最终总能接受人工改造的染色体。但是相对于一个更大的叫做Genome Project-write(GP-Write)的项目对错误的容忍度可就没有那么高了,这项计划旨在重写更复杂真核生物的基因组——包括人类。除了比较明显的问题——人类基因组包含30亿碱基对,相对于酵母来说基因组数量提高了两个数量级,还有一个比较关键的问题是——复杂生物的基因组注释远远没有达到要求,我们对基因组的了解远远还不够。

当Craig Venter的研究团队第一次尝试构建M.mycoides的最小基因组时,他们通过理性设计,利用发表的遗传数据来搜寻基因组中一系列的必需基因——但这种自下而上的方法没有成功。

“Our lack of basic biological knowledge, even with the simplest bacterial genomes, is huge.”
——Craig Venter

相反来说,成功来自一种从上到下的研究方法——通过对基因组上基因一点一点的敲除来确定细菌生存的必需基因。最终他们成功构建了只含有473个基因的最小基因组。但是仍然有1/3的基因还没有知晓其明确的功能。

在Syn 3.0里相对于Syn1.0删除了428个生命不必需基因,保留了473个基因。但在这473个基因里,仍有大约1/3的基因的具体功能是未知的。

还有进一步的挑战。Sc2.0和其他的基因组重写计划都努力避开基因组基因的调节区域,但是在像真核生物这类更加复杂的生物中,基因调节区域往往与它们调控的基因的相隔很远,并且有些调控区域至今都没有被发现。因此,研究人员很有可能不知道哪些基因片段能够被重编码,那些基因片段需要保持完整不动。同时,如此大规模的基因组编写是否会影响染色体的三维结构和相关基因的表达也是未知的。

现实的情况是,染色体这么大DNA分子很难对其进行操控,往往会对DNA分子造成不小的“破坏”,并且目前还没有很有效的方法将他们递送到真核细胞内。即使科学家能够将DNA递送进细胞,这些DNA分子也很难整合进细胞基因组上,因为大多数的细胞很难像酵母那样能够很轻松的进行同源重组,并且这些细胞缓慢的生长速度很可能拖慢每一个实验步骤。

合成DNA的价格也是一个值得考虑的问题。Pamela Silver的研究团队从美国DARP获得了在S. typhimurium进行研究的科研基金,这使得他们可以和DNA合成公司谈判,来获得一个受人青睐的DNA合成价格。但是即使在每个碱基的合成价格为10美分,整个项目也需要耗费一百万美元才能完成。而人类基因组,相比较来说,可能耗费的资金需要成百上千倍。

DNA合成技术的价格在30年的时间里,价格虽然下降了两个数量级,但是相对于DNA测序技术价格的下降程度,DNA合成的价格远远未达到科研人员的预期。

然而Church说DNA合成技术赶上人类的野心只是一个时间问题。

“My guess is, it's going to get easier and easier with time to build large genomes.”
——George Church


3. “There’s idiosyncratic information in the genome.”


目前为止基因组重写和设计很大程度上局限于自然中就已经存在的“菜单”。但是最终,合成生物学家希望谱写新的“菜单”,在基因组中插入新的功能。

目前的几个工程,包括rE.coli-57S. typhimurium的研究,关注点集中在遗传重编码。在这些工程中,基因组上的某些密码子被移除,从而多余出的密码子可以被用于其他途径,如引入非天然氨基酸。Jason Chin,英国剑桥MRC分子生物学实验室的一位合成生物学家,在操控遗传密码方面做了很多延伸性的工作。他说,改变遗传密码将非天然氨基酸引入生命,可以以此设计、测试和合成新的多肽或者蛋白质。

“Such recoding can advance protein engineering, not to mention the design, testing and synthesis of new chemical polymers built from monomers other than standard amino acids.”
——Jason Chin

遗传编码的改变还有其他方面的应用,包括生物防控(防止遗传改造生命逃逸出实验室,破坏自然原有生态平衡)和遗传隔离(保护生物免于病毒感染)。

在2005年,在作为Church的博士后时,Farren Isaacs,现在是耶鲁大学的一位生物工程师,开始了他重编码大肠杆菌基因组的探索,他将他所有的精力全部集中在替换终止密码子TAG的工作上。

替换大肠杆菌基因组上所有的TAG密码子在电脑上操作似乎很简单,而在生物基因组上进行操作的难度远超想象

因为大肠杆菌只存在321个终止密码子,所以Issacs仅通过对现有的基因组进行大规模修改就可以完成目标,而不用从头合成整个基因组。Issacs和他的同事首先将大肠杆菌基因组分成了32个片段,利用能够在多个DNA序列多靶点同时进行编辑的MAGE(Multiplexed Automated Genome Engineering)技术,将每个DNA片段上的TAG密码子全部替换成同义密码子TAA。

接下来,他们利用CAGE(Conjugative Assembly Genome Engineering)技术将修改后的32个片段组成一个完成的DNA分子。

为了完成整个重编码的过程,这个团队同时将编码TAG终止密码子识别蛋白RF1的基因从基因组上敲除(另一个相关蛋白,RF2,则识别密码子TAA)。敲除RF1因子可以使得在细菌蛋白中高效引入非天然氨基酸成为可能。

在将所有TAG密码子全部替换成TAA之后,敲除RF1因子可以使得细菌蛋白中引入非天然氨基酸成为可能。

对于大多数科研工作者,现有的技术已经完成满足他们修改基因组的需求。eGenesis公司,位于马塞诸塞州的剑桥市,正在利用CRISPR基因编辑技术将猪的器官转变为可用于人类移植的器官。杨璐菡——eGenesis公司的共同创始者,解释公司主要通过CIRSPR技术将猪基因组中引起人类免疫原反应的蛋白合成基因敲除掉,同时将促进猪组织与人类更加兼容的蛋白基因也会被引进猪的基因组中。

“We think dozens of modifications probably would suffice.”
——Luhang Yang

杨璐菡博士,eGenesis的共同创始者

然而在更加具有开拓性的研究中,只利用MAGE或者CRISPR技术对基因组编辑往往还不够。例如,Ostrov和Church的“rE.coli-57”工程除了移除大肠杆菌中TAG密码子,还要移除编码丝氨酸、精氨酸和亮氨酸的6个密码子,从而创造一个仅含有57个密码子的菌株。这项工作共需要62,214处基因组修改,这使得整个研究团队选择了从头合成基因组而不是对已有基因组进行修改。

“With so many necessary genetic modifications, we might as well make the genome from scratch.” 
——Nili Ostrov

实际上目前所有这些基因组重编写的研究都没有一次性构建出染色体大小的DNA分子。大多数DNA合成的商业公司仍然依赖于已经有几十年历史的DNA合成方法,但是这种手段产生的DNA分子一般很难超过200个寡核苷酸。由于DNA合成技术的限制,大多数需要基因组合成的研究团队包括George Church的团队,均利用分层组装方法构建研究所需的DNA分子。研究团队首先从基因公司购买2-4kb左右的DNA片段,然后将这些片段通过同源重组组装成50kb左右的长片段,并将这些完整的片段转进大肠杆菌,连接到大肠杆菌的基因组上。

按照Ostrov的说法,尽管重编码的过程进行的很顺利,但是也出现了不少的问题。例如,改变特定基因的编码区域可能会不可逆的减弱相重叠基因的启动子强度,使得菌体的生长受到影响。

“There's idiosyncratic information in the genome, it can only be deciphered experimentally.”
——Nili Ostrov

4. “We’re almost taunted by what exists in nature.”


其他的研究者正在发展复杂的基因线路来赋予基因组新的功能。

通常来说,这些基因线路——比如Voigt的RGB系统,是通过使用转录因子作为正或负输入和输出信号组成的基因线路实现的。Wilson Wong,波士顿大学的生物医药工程师,和Voigt的方法不同,他主要利用重组酶来对目的DNA进行翻转和删除来实现他的基因线路设计——这种设计策略叫做BLADE(Boolean logic and arithmetic through DNA excision)。

Wong说BLADE将研究人员从连接不同基因线路的困难中解放出来。这样的基因线路要求上一个基因线路的输出信号能够和下一个基因线路的输入信号相互匹配。

Wong和它的团队构建了其研究所需要布尔逻辑查询表——这是一个基因线路,大约有10kb长,它能够根据6种重组酶的存在情况转变成任意16种逻辑门。

The Boolean logic look-up table (LUT). The Boolean logic LUT 是一个6-input-one-output基因线路。线路的输入信号A和B,由另外4种S1, S2, S3, 和S4控制,线路的输出信号为GFP。6中信号(重组酶)输入状态可以将基因线路转变成任何16中逻辑门

Wong的团队是通过笔和纸设计基因线路的。但是,合成生物学家最终希望在电脑上完成他们的设计。因此,Christopher Voigt,和波士顿大学的Douglas Densmore一起开发了Cello,使得上述愿景得以实现。研究人员通过Verilog编程语言来设计特定的基因线路。Cello则产生相应的DNA序列使得这些设计能够工作。

Cello的网址为:http://www.cellocad.org

Cello:Cello的使用者通过Verilog语言编程,并且选择或者上传Sensors和UCF(User Constraint File)。Cello会基于Verilog语言描述的设计创建出真值表和基因电路图。Cello会为每一个逻辑门赋予一个调控元件,然后将不同的元件串联成线性DNA分子。弯曲的箭头表示启动子,线路主干上圆圈表示核酶绝缘子,半圆表示RBS序列,大箭头表示蛋白质编码序列,而“T”表示终止子。

生物基因组展示出了令人惊叹的精妙遗传调控能力。虽然我们现在可以设计复杂的基因线路,但是这和基因组相比还差的很远。

“We're almost taunted by what exists in nature.”
——Christopher Voigt

但是通过基因组编辑,基因组合成和更加强大的预测和设计工具,研究人员正在调整与大自然之间的天平,缩小于自然的差距。

参考资料:

1. Perkel J M. Cell engineering: How to hack the genome[J]. Nature, 2017, 547(7664):477-479.

2. Fernandez-Rodriguez J, Moser F, Song M, et al. Engineering RGB color vision into Escherichia coli[J]. Nature Chemical Biology, 2017, 13(7): 706-708.

3. Hutchison C A, Chuang R Y, Noskov V N, et al. Design and synthesis of a minimal bacterial genome[J]. Science, 2016, 351(6280): aad6253.

4. Richardson S M, Mitchell L A, Stracquadanio G, et al. Design of a synthetic yeast genome[J]. Science, 2017, 355(6329): 1040-1044.

5. Ostrov N, Landon M, Guell M, et al. Design, synthesis, and testing toward a 57-codon genome[J]. Science, 2016, 353(6301): 819-822.

6. Lau Y H, Stirling F, Kuo J, et al. Large-scale recoding of a bacterial genome by
iterative recombineering of synthetic DNA[J]. Nucleic Acids Research, 2017.

7. Weinberg B H, Pham N T H, Caraballo L D, et al. Large-scale design of robust genetic circuits with multiple inputs and outputs for mammalian cells[J]. Nature Biotechnology, 2017, 35(5): 453-462.

8. Zahn L M, Riddihough G. Building on nature's design[J]. Science, 2017, 355(6329):1038-1039.

(结束)


再创丨Regenesis


微信号:Bio-regenesis



    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存