查看原文
其他

创纪录!科学家把它们都放进了DNA里(从700k到22M到200M的存储突破)

2016-07-13 生物探索


管底粉红色物质即DNA,少量DNA即可存储大量数据


存储是信息跨越时间的传播。数据存储领域正在发生着剧烈的变化,并且这种变化将是长期的一种趋势。随着数据存储领域的变化,将催生中一些新的技术改变存储领域的发展。


从20世纪开始,信息技术发生了历史性的进步,“万物皆可数”对人类历史具有深刻的意义。


最近,由微软和华盛顿大学的研究人员创造了新的记录,他们完成了约200MB数据的保存工作,其中包括《战争与和平》(War and Peace)以及另外99部经典文学作品。


存储技术的昨天



几千年前的岩画、古书,以及近代的照相技术、留声机技术、电影技术以及现代的硬盘光盘、磁盘阵列等技术的发明,极大丰富了我们的信息获取渠道。随着存储需求量的急剧增加,到2020年,数据有望达到44万亿gigabyte(GB),这已经超出了我们现有的存储能力,且硬盘和光存储等DVD和蓝光光盘,易受损伤和退化。好消息是,研究人员开发的DNA存储技术可以填补这些缺点。


DNA存储技术的出现


你身体里每个细胞的DNA(脱氧核糖核酸)都含有数不胜数的信息量。在科学家完全绘制出基因组图谱之前,在破解核苷酸的密码过程中,少数研究者就设想利用DNA进行数据存储:利用人工合成的DNA(脱氧核糖核酸)作为存储介质,存储文本文档、图片和声音文件等数据,随后完整读取的技术,具有高效、存储量大、存储时间长、易获取且免维护的优点。


DNA存储技术的发展


DNA是一种令人难以置信的密集存储介质,每立方毫米(per cubic millimeter.)可以压缩5.5 petabit(PB,相当于10的15次方个二进制数字,125000 GB)的信息。


早在2012年,哈佛大学分子生物学家George Church向DNA中写入了一本5.34 万个单词、数据量不到1MB的书,随后将其印刷在比花粉粒还小的玻璃芯片上。


2013年,欧洲生物信息学研究所向DNA中写入了大小为739KB的声音、图像和文本以及一个26s的音频片段存储了马汀路德金(Martin Luther King)的《我有一个梦想》(I Have a Dream)的演讲稿。


今年早些时候,哈佛医学院和一个技术团队(George Church也参与)报告称,已实现了22MB数据的DNA编码,包括法国无声电影“月球旅行记”(A Trip to the Moon)。


2016年7月8日,微软宣布,利用DNA存储技术完成约200MB数据的保存,其中包括《战争与和平》(War and Peace)以及另外99部经典文学作品。



Luis Ceze语录


与此同时,华盛顿大学教授Luis Ceze在鞋盒大小的空间存储了700 exabyte(EB,相当于1024PB)的数据。Luis Ceze教授还表示,一个鞋盒所放的数据相当于100个大型数据中心的存储量,可以保留几千年。此外,他们已经发现,猛犸象化石在猛犸象死后几千年仍然含有动物的遗传密码子,这说明DNA信息非常耐寒,能够在残酷的环境中存储数千年。


DNA是如何存储信息的?


DNA存储技术是一种基于生物分子的数据存储技术,是以人工合成的DNA(脱氧核糖核酸)分子为存储介质,以A、C 、G、T这4种碱基对信息进行编码,将信息存储于DNA分子中,同时利用现有技术实现DNA分子的复制和DNA分子碱基的修改等操作,从而实现文本文档、图片和声音视频文件等数据的存储和读取。



DNA存储技术的示意图


如上图所示:


1)首先,研究人员把数据中诸多由“0”和“1”组成的长串转换为DNA序列的四个基本组成部分:腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)。


2)转换完成后,研究人员把数据分成段,并且储存到海量的人工合成的微小DNA分子中,这些分子经脱水可以保存很长时间。


3)为了便于检索存储的数据,研究团队把类似于邮政编码和街道地址的信息编入DNA序列,这样就很容易找到所需数据了。


4)通过DNA测序技术,研究人员可以“读取”数据并把它转换成原始形式,目前科学家已经成功地对图片数据和视频数据进行编码和检索。


值得一提的是,尽管DNA存储技术是可靠的,但如同硬盘驱动器和电子存储器会发生错误,DNA的写入和读取也可能存在错误,因此科学家在这一过程中还需要制定纠错码,以可靠地检索数据。


DNA存储技术的优势


相比传统存储介质,DNA是一种优良存储介质,能带来更高的存储密度和耐久性。DNA存储技术是一项着眼于未来的具有划时代意义存储技术,作为生物分子计算机领域的一个重要分支,它具有存储密度高、硬件成本低廉、存取高度并行性、扩充性强、储存长久性等优点,极有可能替代传统的存储系统。


微软首席研究员Karin Strauss表示,由于在数字存储世界里,通常是以GB或者TB来记录。虽然200MB听起来不是很多,但此前并没有任何研究者能一次性向DNA写入如此多数据。例如,2012年哈佛遗传学家George Church将他的电子书存储到DNA中,只用了700 KB的HTML文本。


微软的愿景:尽快降低成本


尽管目前还不能使用基于DNA的硬盘存储假期照片,但这个项目将人类带入了存储、处理海量数据的高效时代。科学家们还尝试储存了其他类型的文件,如100多种语言的《世界人权宣言》,《古腾堡计划》的前100种书籍,作物信托(Crop Trust)的种子库以及“OK Go's This Too Shall Pass”的高清音乐视频。



Karin Strauss还表示,目前DNA数据存储一技术实现成本昂贵且操作复杂。微软希望借助生物科技行业的研究成果来降低这一技术的最终成本。


知名市场调研机构IDC预计:科技不断发展令数据大量涌现,到明年全球范围内保存的数字化数据将达到16万亿GB。传统储存介质无法满足庞大的数据存储需求,DNA作为存储介质有望解决这一难题,生物芯片存储企业迎来发展机遇。


可能感兴趣的:


Science:表观遗传重要复合物的综述


Science:细胞利用核ATP紧急驱动DNA修复


本文系生物探索原创,欢迎个人转发分享。其他任何媒体、网站如需转载,须在正文前注明来源生物探索。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存