微软研究院联合华盛顿大学首次实现全自动DNA数据存储

Original 微软亚洲研究院微软研究院AI头条 2021-04-22

编者按：随着数字信息的指数级增长，数据中心已经无法满足越来越大的数据存储需求，研究人员们正在探索DNA数据存储及其大规模商用的可能性。日前，微软研究院与美国华盛顿大学共同发布了一项全新的突破——首次实现全自动的DNA数据存储与提取过程。本文编译自微软英文博客文章 “With a 'hello,' Microsoft and UW demonstrate first fully automated DNA data storage”。

我们生活在一个信息化的时代，在全世界范围内，数字信息每时每刻都呈现出爆炸式的增长。为了满足数字信息存储与使用的需要，企业通常将数据储存在遍布各地的大型商业数据中心，尽管如此，数据存储需求与数据中心存储能力之间的缺口正在日益扩大。

如果将等量的数字信息记录在DNA中，信息存储所占用的空间将比现有的数据中心节省几个数量级，而且无论是企业商业数据、医学扫描影像，还是你在社交网络上云吸猫时看到的可爱视频，任意类型的数据都可以存储在DNA上。因此，DNA数据存储是一个极其富有价值的解决方案。

因此自2015年起，微软研究院与华盛顿大学的研究人员合作开展了一项DNA数据存储研究，希望将人造DNA变成耐用、易操作的高密度信息存储介质，以弥补庞大的存储需求与存储容量之间的缺口。这项研究的核心是在人造DNA中编码和提取数据所涉及的算法和分子计算技术，这些技术能把一个大型数据中心里的全部信息存到几个骰子那么小的迷你空间里。

在2016年，研究团队成功地将4个图像文件信息存储到一段人造DNA片段上，并完好无损地将它们取了出来。前不久，这一团队再度获得了重量级的突破——首次实现了全自动的DNA数据存储与提取。

全自动的DNA数据存储

在这项实验中，研究团队开发的全自动的端到端系统，成功地在人造DNA片段中写入了“hello”一词，并毫发无伤地将DNA上的数据转换回了通用的数字信息。关于这一系统的最新论文“Demonstration of End-to-End Automation of DNA Data Storage“已发表于3月21日的《自然科学报告》，在文末点击“阅读原文”即可下载。

这项自动化技术，是让DNA数据存储得以走出实验室，应用到商业数据中心的一个重要的里程碑。因为在此之前，在实验室合成的DNA上存储、读取、甚至加密数据的过程中，虽然有合成器、测序仪等复杂设备的帮助，仍有大量的中间步骤需要实验人员手动操作，这使DNA数据存储难以满足在商业环境中运行的需要。“在商用场景里，你不可能让一群人来来回回为这些中间环节忙活，这样不仅容易出现人为错误，而且成本高，占地面积大。” 华盛顿大学计算机科学与工程学院资深研究科学家Chris Takahashi指出。

“因此我们要将整个过程自动化，来证明DNA数据存储在商业环境中是切实可行的。”微软首席研究员Karin Strauss说，“我们的最终目标，是让自动DNA数据存储系统得以投入生产，让它的使用体验和任何云存储服务一样快捷和便利。”

除了存储空间极小，自动化DNA存储技术也能节省大量成本，在技术成熟后，价格将更加亲民。在实验成功后，自动化DNA存储系统为研究人员提供了直接的便利，让他们能将时间和精力放在探究更深入的问题上，而不用为中间环节的重复性工作花费大量时间。

DNA也比现有存储技术的“保质期”更长。我们可以看到，在猛犸象牙和早期人类骨骼中，部分DNA历经了数万年的考验，完好地留存了下来。

目前，要让这项技术成为商用存储解决方案，还必须降低两大工序的成本，其一是DNA合成，也就是“定制”包含有意义的信息序列的DNA链，其次是提取已存储信息的测序过程。目前研究人员正努力朝着这个方向迈进。

攻克自动化的关键难点

如何自动化存储和提取过程是这一研究项目的主要难点。研究人员表示，本次项目的主要目标是证明自动化的可行性，而不是证明系统能以多快的速度或多低廉的成本运转。

自动化DNA数据存储系统运用了由微软和华盛顿大学联合开发的软件，在写入过程中，能将数据中的“1”和“0”转换为构成DNA 的A、T、C、G四种碱基。随后，系统会自动通过成本并不高的实验室设备，利用必要的液体和化学成分合成人造DNA片段，并将DNA置入储存容器。

在提取DNA上的数据时，系统会先对DNA加入一些化学物质进行预处理，并用微型流体泵将液体导入系统的其它部分，读取DNA序列，并转换回计算机可理解的语言。

经过实验，研究团队已经成功将猫咪照片、文学作品、流行视频、档案记录等各种形式的数据存储到DNA上，并在实验环境中准确无误地提取出这些文件。目前他们已经能够在DNA中存储1千兆字节的数据，相比他们此前200兆字节的世界纪录有了相当可观的提高。

研究人员还对执行特定需求的计算进行了探索，比如在DNA中检索和提取包含“苹果”或“绿色自行车”的图像，且仅使用分子原形来完成计算，不将文件转换回通用数字格式。

与硅基计算系统不同，基于DNA的存储和计算必须使用液体来移动分子，因此需要全新的工程解决方案。为此，微软与华盛顿大学共同开发了一套可编程系统，利用电和水的特性让极小的水滴在电极构成的网格上四处移动，由此实现了实验过程的自动化。由开源软件“Puddle”和硬件“PurpleDrop”组成的全栈可以混合、分离、加热或冷却不同液体。

在未来，研究团队计划将自动化系统与PurpleDrop、DNA搜索等技术进行进一步的整合。他们还特意对自动化系统进行了模块化的设计，使之能够随时更新部件，随着更多新DNA技术的涌现而不断优化。这为后续工作提供了极大的灵活性。

“我们在见证一种全新计算机系统的诞生——用DNA分子存储数据，并用电子设备进行控制和处理。这二者的融合一定能为未来创造更多有趣的可能”，华盛顿大学计算机学院教授Luis Ceze表达了他对自动化DNA存储技术的展望。

更多信息请访问

DNA Storage项目主页:

https://www.microsoft.com/en-us/research/project/dna-storage/

微流体自动化开源软件“Puddle”与硬件“PurpleDrop”：

http://misl.cs.washington.edu/projects/puddle.html

识别下方二维码阅读相关论文

你也许还想看：

感谢你关注“微软研究院AI头条”，我们期待你的留言和投稿，共建交流平台。来稿请寄：msraai@microsoft.com。

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…