微信ID:Epiview
其他
Epiview | 如果用DNA储存世界上全部的信息, 需要多大的空间? 一间屋子!
3月3日,Science报道了题为DNA Fountain enables a robust and efficient storage architecture的文章,介绍了“DNA存储技术”的最新进展。那么,何为“DNA存储技术”?下面跟随小编,了解“DNA存储技术”的奥秘吧~
小身材,大容量
人类正面临着棘手的数据存储问题: 在过去两年间产生的数据已经超过了人类历史数据的总和。信息飞速喷发,很快就会超过信息捕获硬件的存储能力。现在研究人员报道,他们想出了一种新的方法:将数据编码在DNA中,制造出了迄今为止密度最高的数据存储方案。1g的DNA可以存储215拍字节(千万亿字节)。这个系统基本上可以存储人类目前记录的全部数据(字节),存储这样的海量数据只需要两三个小型皮卡车的体积。但是这项技术是否会实现飞跃,主要取决于它的费用。
DNA作为数据存储媒介有哪些好处?
DNA作为数据存储媒介有诸多优点。首先,体积超级小;便于长久保存,如果存放在冰冷干燥的环境中,它可以保存几十万年。只要人类社会还在阅读(即DNA测序)和书写DNA(DNA合成),我们就可能解码它。“DNA就像盒式磁带和CD,它不会降解,而且不会过时,”哥伦比亚大学的计算科学家Yaniv Erlich如此说道。不像其他高密度存储方法,比如在平面上操纵单个原子,这项新技术可逐一书写和阅读大量的DNA,使得(其数据容量)进一步扩大。
如何实现DNA数据存储?
2012年,哈佛大学遗传学家George Church、Sri Kosuri及其同事将一本52000字的书编码进成千上万个DNA片段中,用DNA的四个字母A、G、C、T来编码数字文件的0和1。实际上,这种独特的编码方案相对低效,然而每克DNA可以存储1.28拍字节。其他途径可以做的更好。但目前还没有人可以储存理论值(DNA实际可以储存的量)的一半的存储量。这个理论值为每个核苷酸存储1.8字节。(这里不是2个字节是因为可能会出现罕见的,不可避免的DNA书写和读取错误。)
DNA fountain编码的流程图
Erlich认为他可以接近这个极限。因此他和纽约基因中心的一位副研究员Dina Zielinski着眼于数据编码和解码算法。他们从六个文件开始,这六个文件包括一套完整的计算机运行系统、一个计算机病毒、一部1859年的法国电影《火车进站》以及理论家Claude Shannon的一项研究。首先他们将这些文件转换成0和1构成的二进制字符串。他们发明了一种叫做DNA fountain(直译为“DNA泉”)的算法,可把这些二进制字符串随机地包装至所谓的液滴,并在这些液滴上加上额外的标签,进而可实现一定顺序的重组。研究者一共制造了72000条DNA链,每条长200bp。
随后,他们把这些文本文件发送到Twist Bioscience(一个位于旧金山的新兴生物科技公司),这家公司可合成这些DNA链。两个星期后,Erlich和Zielinski收到了一个邮寄过来的小管,里面正是含有编码文件信息的DNA。为了解码,他们采用DNA测序技术。测序数据输入计算机,重新把这些遗传密码转化为二进制数,并利用标签重组这6个原始文件。这种方法表现异常出色,新组装的文件没有任何错误,他们近日在Science上进行了报道。此外,他们可通过PCR反应实现无限制,零错误的拷贝。Erlich说,目前他们可以做到每个核苷酸编码1.6个字节,比此前其他组的要好60%,而且达到了理论存储值的85%。
与以往工作的对比
应用有哪些瓶颈?
“我喜欢这项工作,”加州大学洛杉矶分校的生物化学家Kosuri说,“我想正是这项决定性工作,向大家展示了(在技术上)可实现数据大规模地储存在DNA中。”
然而,Kosuri和Erlich强调,新方法目前还不能进行大规模应用。合成存储2兆字节数据的DNA需要花费7000美金,此外另需要2000美金来读取它们。随着时间的推进,费用可能会降低,但还有很长的路要走。
与其他数据存储方式相比,书写和读取DNA还太慢。如果数据即时需要,那么这项技术将束手无策,但它适用于档案保存。然而未来的事情谁说得准呢?说不定哪一天,Facebook和亚马逊数据中心就可能被几个皮卡车大小的DNA存储器给取代掉。