存储介质的“黑科技”,引发下一代数据存储革命? |《DNA存储蓝皮书》连载(4)
“DNA信息存储技术是利用生物技术(BT)来突破信息技术(IT)的天花板,是用BT来解决IT领域的难题。利用DNA信息存储,能够使人类的数据与文明被亿万年保存下来。”
——中国科学院计算技术研究所的孙凝晖院士
一、DNA存储产业发展的机遇
1.BT和IT融合的典范,利用BT突破IT的天花板
2021年2月,科技部发布“十四五”国家重点研发计划“生物与信息融合(BT与IT融合 )”重点专项,聚焦未来生命科学、医药健康产业和经济社会发展等重大需求,引领新经济模式发展。DNA存储是其中三项任务之一。方向包括:
可以看到DNA存储技术集成光电、DNA测序、DNA合成、生物材料、信息编码,实现数字和生物信息的双向流动,是BT和IT融合的典范,如同元英进院士所言:“(DNA存储是)突破半导体和合成生物学的瓶颈,实现研究范式和路径变革”:
半导体发展瓶颈:功耗极限、小尺度工艺成本、投资回报 合成生物发展瓶颈:通量、成本、功能扩展、工程理念 BT和IT交叉融合:生命信息的小尺度、低功耗吸引半导体领域仿生设计;半导体技术应用扩展到生命科学
DNA存储有望满足大数据海量存储及安全需求,应对半导体和生物技术面临的趋向成本和效率极限的挑战。
在工程设计驱动DNA存储方面,例如元英进教授团队研发的“酵母CD”——数据存储人工染色体,可以使用纳米孔测序读出,实现高效纠错,编码碱基数超过24万,而之前的研究在单个细胞内用于存储数字信息的部分仅有几千碱基;深圳华大生命科学研究院研发的YYC阴阳双编码系统通过in vivo酵母细胞存储,实现信息存储密度432.2艾字节/克(接近理论值)。 在DNA存储驱动半导体发展方面,通过DNA存储研发28nm工艺的大规模微电极阵列芯片。
电子元件和分子元件的结合,是DNA存取一体化、更为复杂操作的DNA存储体系的基础。2019年,微软公司和华盛顿大学研发的DNA数据自动读写装置模型,是首个实现端到端的集成DNA存储系统,使用定制的计算机芯片自动移动液体,使得软件能够访问到DNA储存的生物学信息。
2.推动未来生命科学的关键共性底层技术——DNA合成
从DNA测序、DNA编辑到DNA合成,完成从“读”、“写”到“存”的跃迁。
DNA合成技术包括化学法合成、酶促法合成和连接法合成等方式,结合了生物化学、分子生物、光电材料等跨学科技术,是目前DNA领域较为前沿和复杂的技术之一。 DNA合成是合成生物的关键共性底层技术。合成生物依赖DNA合成建立更加精密的人工生物学系统;同时随着DNA合成技术的逐步成熟,正加速合成生物突破大规模产业化瓶颈,朝着工程化、设计化、精细可控的方向发展。
DNA合成是基因合成、疫苗和生物医药研发、快速检验试剂盒、工程菌改造等领域的关键底层技术之一。
3.提高数据存储效率和安全,赋能产业数字化与碳中和
随着《“十四五”数字经济发展规划》的发布,数字基础设施将成为新兴基础设施。根2035年,预计我国数字基础设施用电量将占全社会用电量的5%-7%,约占中国碳排放量的2%-4%,相当于目前两个北京市的二氧化碳排放量。互联网数据中心(Internet Data Center, IDC)必须转型到超低能耗存储技术转型。
而DNA存储不仅基于可再生资源介质,而且是超低能耗、超高密度、超稳定的存储系统:
超高密度:在存储密度提升6-7个数量级
超低能耗:仅需冰箱保存所需电量
超稳定性:半衰期为521年,抗冲击、抗电磁波;可去中心化存储,分子加密方式灵活
4.DNA计算和DNA网络
DNA除了存储信息外,由于它的非周期性材料属性,为分子编程提供了丰富的工具箱,这为BT和IT开发者提供了新兴载体,从DNA开关、DNA计算到DNA网络等。目前这一领域处于极其早期,但是由于DNA的特点,可以实现高性能架构设计和单分子动态成像,而具备极其广阔的前景,包括具备存储、计算功能的生物传感器等:
基于DNA存储记录微小分子事件(例如细胞膜蛋白的相互作用)(Fahim Fazadfard,Science,2018,361)
基于DNA计算进行分子诊断
利用DNA纳米技术工具箱实现DNA分子间反应的可编程控制(Han,Nat. Nanotec.,2020,15)
不需要测序和人工辅助,一次测量所有血型基因型
基于DNA开关进行逻辑运算(Wang,F., Nat.Commun., 2020,11)
DNA分子开关控制CRISPR活性(Hao,Y., Angew. Chem.Int.Ed.2020,59)
基于单分子荧光信号动态测定单分子反应动力学和局域分子运动状态(Nat.Materials, 2019,18;Science Adv.,2020,6)
二、未满足需求与关键问题
目前DNA存储还处于技术研发的阶段,技术驱动DNA存储产品化和产业化。 从技术层面,酶促合成和化学合成(包括光化学合成及电化学合成)均有各自的优劣,整体上,高通量DNA合成在规模化生产及应用前,仍需克服一系列的关键问题。为实现技术可及性,满足规模化生产及应用的需求,DNA存储短期要解决仪器层面的合成成本及效率,长期要解决芯片层面的算力成本。 根据基因慧的相关调研,目前DNA存储未满足的需求及关键问题罗列如下。
1.DNA合成及存储成本高
目前平均来说,合成寡核苷酸的成本约为10-3美元/碱基,存储1TB数据约需要10亿美元,以第二代测序为例,单个样本的数据量动辄就达到TB级。而随着基因研究技术进步,生物信息数据的存储计算需求每12到18个月就会增长10倍,这对存储系统可扩展性以及存储成本提出巨大挑战。根据国内外机构与专家的评估,规模化应用前至少需要下降8个数量级,即到100美元/TB碱基。
解决路径仍在探索中,专家提出的一个思路是学习高通量测序,采用并行化的思维。例如深圳华大生命科学研究院正在研发的基于分选原理的高通量芯片合成仪,独立载体实现并行合成,未来将积极降低成本;中国科学院武汉病毒研究所的研究团队提出基于生物法DNA合成技术路线(获得国家重点研发项目立项)。以上两种方法理论上成本可降低5个数量级。
中国科学院深圳先进技术研究院戴俊彪表示(DAI Junbiao. Synthetic Biology Journal, 2021),利用通用合成的DNA片段,基于类似于“活字印刷”的原理来存储数据信息,也可能是一种非常有效的降成本方式。比如将英文的26个字母分别存储在通用合成DNA上,然后通过酶拼接或者其他方法,在存储信息时,进行自由组合,进而反复使用一次合成的DNA分子,能够潜在地降低成本。
2.DNA存储的准确率不高
DNA存储的准确率不高是除了成本之外最大的问题之一,原因有多方面:
(1)合成错误率
中国科学院深圳先进技术研究院戴俊彪表示(DAI Junbiao. Synthetic Biology Journal, 2021),化学寡核苷酸合成常常伴随着较高的错误率。由于盖帽不充分、反应试剂纯度不够、反应环境湿度太高、酸处理时间过长、偶联时间不够等多方面原因,合成会出现碱基缺失、突变等多种错误。然而合成错误率并不是限制因素,可以通过纠错算法来更正。
深圳华大生命科学研究院研究团队在文章(SHEN Yue,Synthetic Biology Journal, 2021, 2(3))中表示,常规DNA合成的错误率为0.1-0.3%左右,而大片段DNA组装合成中错误率会更高。
(2)测序错误率
尽管目前的错误率已经低至10-3数量级,但相对商业硬盘的读写错误率仍相差至少9个数量级。主要原因是测序技术本身的局限,需要依靠提高测序深度来达到高准确率,包括高通量测序中的PCR偏好及单分子测序中引入的插入缺失问题。
对于高通量测序中的PCR偏好问题,例如北卡罗来纳州立大学研究团队开发了一种动态操作和可重复使用信息存储(DORIS)的系统,无需PCR,使用由单链DNA组成的“悬垂”而非双链 DNA作为引物结合序列,在室温下可以工作,将DNA转录为RNA,然后通过反向转录来读取的数据存储系统DNA。此外,单链“悬垂”也可以修改,允许用户重命名文件、删除文件或”锁定”文件,从而有效地使其他用户看不到这些文件。
对于单分子测序的错误率以及包含难以处理的插入与缺失错误问题,天津大学研究团队从头设计合成了一条254 886 bp的存储专用染色体,其中数据编码部分占95.27%,将单菌内数据存储DNA 数量提升到了百kbp级,存储了37.8KB图片、视频以及文字。采用叠加编码方案,有效克服三代测序的高错误率问题,实现了数据的可靠恢复,这项工作突破性地将单菌内数据存储DNA数量提升到百kbp级(YUAN Yingjin et.al., Synthetic Biology Journal, 2021, 2(3): 309-322))。
由于PCR扩增偏好问题,高温PCR扩增酶对于高GC或者高AT区的扩增困难,以及高GC/AT和高重复序列会增加不同寡核苷酸或DNA片段的错配,从而导致组装失败;通过常规DNA合成的错误率分析。通过往PCR体系中添加GC扩增增强剂、优化PCR程序以及在寡核苷酸设计时避免将这些区域包裹在重叠区内等方式,能够一定程度解决这些问题。
解决DNA合成及测序的错误率问题,除了以上方法,常见的解决方式是纠错编码,在插入/删除/替换错误各1%的情况下,大多数转码方案的原始数据恢复率都在97.05%~98.62%之间。
深圳华大生命科学研究院研究团队表示(SHEN Yue,Synthetic Biology Journal, 2021, 2(3))合成错误、测序深度、PCR 随机性等会造成DNA分子的突变或者丢失。这些突变和丢失通常分为系统误差和随机误差。在DNA存储中,随机误差一般由测序产生,而测序过程的随机错误通常可以用序列比对的方式进行相互校正,但系统误差一般由合成或分子生物学操作产生,无法通过常规测序数据处理方式进行校正。而常规纠错编码可以有效纠正少量的替换错误,但插入删除错误及分子丢失无法纠正。
3.DNA读取速度慢
南方科技大学研究团队在《DNA 数据存储前沿论坛》中表示,相对固体硬盘(550MB/s)和机械硬盘(160MB/s),目前DNA读取速度至少还相差3-4个数量级。例如MinION测序芯片的速度为56KB/s,Illumina主流测序仪的速度为5-500KB/s。
解决的方向,一方面亟需测序仪本身的迭代优化;另一方面发展存取一体化系统。
4.大片段基因合成组装长度的局限
由于寡核苷酸拼接组装中的碱基仍存在一定的错误率,为减少首次克隆筛选获得正确克隆的工作量,通常从寡核苷酸直接拼接组装的基因长度会控制在3Kb以内。对于更长的基因合成,则将首轮克隆筛选获得的正确的基因片段组装成更长的片段。一系列方法被应用其中,如Golden Gate组装、Gibson组装、循环LCR、双引物TPA组装、BioBrick组装等。其中Golden Gate组装法和Gibson组装法,在大片段基因合成组装应用上相对成熟。
5.存取集成自动化不足
尽管短期内DNA存储的应用场景是冷存储,但长期而言需满足热存储的快速随机访问等需求。而目前DNA存取集成自动化不足,2019年微软和华盛顿实现的端到端的集成DNA存储系统,5字节读写消耗21小时;同年,美国Catalog公司实现16GB维基百科的信息存储,采用预合成的DNA进行长链组装,未整合信息读取(测序)系统。
这主要因为DNA合成设备尚未完全成熟;另外,DNA合成、DNA测序、信息操作系统等各功能模块间接口适配不成熟。解决这个问题的方向是集成化,例如蒋兴宇教授研发离心式微流控平台开发,以及深圳华大生命科学研究院研发的Chamaeleo编解码集成系统、结合高通量合成仪、高通量测序仪、自动化样本库等读写存系统一体化解决方案。据悉,该一体化解决方案目前基于华大智造自动化产线MGIGLab系列,已在开发中。
6.BT和IT的战略协同合作
DNA存储是BT和IT交叉融合学科,也是光电、生化、材料、分子生物等产业融合的领域,涉及技术及产业链纷繁且复杂。从目前的研发原型到量产,需要代表测序、合成、算法、架构等领域的专家及团队通力协作。这需要BT和IT领域的决策者的重视和战略协同。
三、发展方向
1.更高效的存取一体化体系
突破目前介质的存储密度极限和高能耗等问题,实现新型的IDC(互联网数据中心)模式,包括:
可稳定存储大规模数据的持久存储体系
支持快速读取、随机访问的存取一体化体系
高度集成化自动化系统等
2.更有效的编码算法和信息载体
由于DNA测序、合成等平台的局限,对于准确率不高的信息纠错是重大的挑战。解决方向:
编码算法方面,需要迭代低复杂度、纠错、索引、压缩算法等。例如中国科学院深圳先进技术研究院合成生物研究所、中科碳元研究团队研发的“悟空”编码算法,容纳超过20万亿种编码规则,通过自然语言处理(NLP)人工智能算法实现DNA存储纠错。 载体方面,中国科学院武汉病毒研究所研究团队提出,发展多元的信息编码载体,包括DNA序列(DNA分子、类DNA分析)、DNA结构(二级结构单元、DNA组建)、DNA反应(分子反应产生的光电信号)等。
3.更复杂的数据操作和算法优化
数据操作方面,例如莱思大学研究团队研发了编码、复制、擦除和解码DNA分子中的信息的方法,还提供了包含其序列编码信息的DNA分子的组合物。
大规模数据的算法优化方面,非线性计算成本高,信息编码需具备系统的编码结构和线性复杂度,进一步降低错误率;同时结合多个编码提高恢复数据比例,例如,天津大学研究团队采用DNA-LM码与RS(255,223)码级联模拟存储,可100%恢复数据。
4.DNA操控与生化反应小型化
2019年微软公司和华盛顿大学研发的DNA数据自动存储器,虽然不依赖人为控制,但是占地面积大,不便于规模化生产。DNA存储的小型化、集成化是必然方向。
例如南方科技大学研究团队研发基于离心式微流控平台的DNA数据光盘:
利用微流控原件(微泵、阀、混合器等),操纵纳升级的液体
可对样本完成前处理、纯化、分离、分析等过程
芯片上完成合成、纯化、修饰、扩增、测序等化学反应
可单独寻址、随机访问的正交开闭、3小时存储153TB(3x7cm2)
可以实现一步式DNA分检(Anal.Chem.2020,92,14846-14852)、单核苷酸多态性(SNP)快速索引(Chem.Sci.2021,12,4455-4462)、动态多重免疫分析(Lab Chip,2019,19,2750-2757)以及高灵敏度蛋白质检验(Biomedical Microdevices,2019,21(3))等。
除了DNA存储装置的小型化,未来可以想象进一步结合可穿戴金属高分子导体(MPC),用于电子血管、智能T恤等。
这类成果还包括上海交通大学研究团队的研发的DNA Origami纳米芯片等。
5.分子电路和数据调控
DNA作为非周期性晶体,它的材料属性为分子编程提供了丰富的工具箱,特别是未来期待的分子电路以及基于此的数据调控。通过分子信息处理,将分子行为的无序性转化为信息的确定性。
从哈密尔顿路径、逻辑门电路发展到图像识别,未来的迭代方向之一是分子计算机。而基于DNA链计算和细胞逻辑,不仅可完成数据索引和计算,还可以进行空间搜寻、数据调控、数据加密或数据自毁。
目前的DNA分子网络仍在非常早期的研发,但运算能力逐步提升,从加、减、乘到开根号到解一元二次方程。
优化方向包括基于DNA开关电路、纳米限域反应网络的高性能架构设计;基于单分子动态成像,包括时域上基于单分子荧光信号动态测定的单分子反应动力学(Nature Materials,2019,18,273),空域上基于单分子定位的分子运动动态(Science Advance,2020,6,Wang,F),亦可以应用基于单分子逻辑门控制活细胞染色体成像。
上海交通大学研究团队表示:简化分子算法,减少非特异碰撞;引入空间限制,降低自由度等均可以不同程度提升或优化DNA分子网络的运算能力。
6.更多样的分子存储介质和创新的存储硬件体系
北京大学研究团队提出(QIAN Long,Synthetic Biology Journal, 2021, 2(3):)除了DNA之外,其他碳基存储介质也展现了信息存储能力,包括混合碱基、代谢组存储、蚕丝蛋白等更多样的分子存储介质等以及芯片上的存储硬件体系。
例如,中国科学院上海微系统与信息技术研究所研究团队发明了基于蚕丝蛋白的生物存储器,每平方英寸可以存储64GB数据信息(1平方英寸=6.4516×10-4m2),并且可重复擦写。蚕丝蛋白和DNA相似,可耐受异常湿度、辐射和磁场等环境。蚕丝蛋白也可以用于存储生物体DNA等生物样品,有望未来和DNA介质结合,用于数字存储。
尽管其存储密度依旧受限于光学写入设备的分辨率,但展现了学术界对于碳基介质用作信息存储的认可。而代谢分子(糖类、氨基酸等)更小,也可以用作信息存储。布朗大学研究团队受DNA存储的启发,利用代谢分子液滴在金属板点阵列存储图片等信息。与简并碱基的思想类似,他们利用对代谢组分分布的测量实现了更高维度空间中的信息编码。
尽管碳基存储尤其DNA在密度上有很大优势,考虑到随机访问所需的稀溶液条件和分子扩散速率,1L的DNA存储池的信息容量被限制在TB~ZB量级。因此,值得关注“Storage-on-Chip”的理念。存储硬件体系的设计需要适配实际考量;超大规模的数据存储离不开存储体系的创新。
总体来看,DNA存储目前在原理验证、编码方法等基础工作上已经取得了大量的突破,但这一部分工作仍然会是DNA应用于数据存储、信息交换载体的重中之重,就如同今天在通讯领域的编解码所做的基础工作一样。不仅仅要继续解决如何用ATCG四种碱基、甚至更多人工碱基进行高密度编码的数学方法,也要解决如何利用神经网络等方法进一步结合DNA载体特征进行数据压缩、失真恢复等工作。
除了上述基础工作之外,基于DNA存储,如何在这一载体基础上完成基于数学方法和生化方法结合的高效信息检索、模糊搜索也是重要的方向。在实际应用中,低成本、高通量的合成技术,存读一体机开发,以及重大历史资料的应用示范等也值得重点关注。
一方面,DNA存储与DNA合成与测序技术、细胞生物学与分子生物学技术、BT和IT技术等领域正在不断交叉融合,DNA因数据稳定性、传输、更迭、维护、保存等实用角度成为人工信息储存的理想介质,成为存储介质中的“黑科技”。
另一方面,随着生物技术的发展,特别是高通量的芯片合成和测序技术的不断完善,DNA数据存储领域也得到了越来越多的关注。与此同时,虽然大量研究表明DNA信息存储无论是在存储能力、保存时间还是稳定可重复的读取上都展现出了巨大的发展前景,但目前DNA信息存储仍面临巨大的挑战。
首先,读写成本和DNA数据存储的错误率是面临的主要问题,但随着DNA合成和测序技术的改进,其成本和准确率有望得到提升,使其更好地适用于DNA存储领域,反之,DNA存储的快速发展也将带动合成和测序技术的二次飞跃。 其次,在信息编码和硬件上,DNA存储将主要攻克随机读取、擦写、信息加密等关键问题。最后,活细胞DNA存储技术搭配先进的细胞微处理器技术,可以在小尺度范围整合数据的存储与决策,即数据“存”与“算”的一体化和边缘化,这个愿景的实现将依赖于DNA存储技术和细胞计算领域的巨大突破。在未来的超大数据时代,活细胞DNA存储或能以医疗健康为中心进行广泛的应用辐射,具备颠覆性技术的潜能。 再次,在云应用的角度上,公有云对象存储服务会按照特定的算法将数据切成多个数据块,按照文件存储类型分别写到不同的存储介质中。DNA存储技术的主要优势在于信息密度高,存储成本有机会跟随超摩尔定律可快速降低,但主要劣势在于读写速度慢,综合来看未来可适用于海量冷数据的长期归档和备份存储。DNA存储技术距离工程应用仍然面临着数据持久性低(缺乏大规模工程验证)、/存储成本高(8个数量级的差距)、读写速度太慢(2个数量级的差距)和对现代存储系统适配等多项挑战。
在DNA存储的市场化道路中,DNA存储领域资深学者Yaniv Erlich曾提到,DNA存储的市场化可能不会面向个人用户,初期的使用者会是一些机构,主要用来存储那些冗长、重要的数据,如金融数据和档案资料等。
未来DNA存储的重要研究方向如下:
一是高稳定、易保存的DNA存储介质;
二是自动化控制的DNA信息存储软硬件一体化系统;
三是高通量、低成本的信息映射与管理技术;
四是分子电路和数据调控;
五是DNA存储的小型化、集成化;
我们期望DNA存储领域能取得突破进入商业应用,并逐步弥补甚至取代当前的数据存储方式。
作者丨基因慧 编辑丨MN 审核 | 威锋 关键词 | DNA存储
关于《DNA存储蓝皮书》及下载链接
下载链接
扫码登记
即可下载
感谢欧阳颀院士、元英进院士、杨焕明院士和樊春海院士的指导和作序,感谢华大生命科学研究院、华大智造、国家基因库发起,基因慧策划,生工生物、联川生物、擎科生物、腾讯医疗健康对蓝皮书的大力支持,共同推动生命科技普惠和产业融合发展。
【预告】基因慧的《2022基因行业蓝皮书》预计Q3发布,欢迎地方政府和行业大会合作发布;《2023基因行业蓝皮书》即将启动,欢迎企业预约联合发布限量合作名额。
《DNA存储蓝皮书》连载(3)
《DNA存储蓝皮书》连载(2)
《DNA存储蓝皮书》连载(1)
关于基因慧
基因慧专注数字生命健康产业知识服务。创始团队深耕行业一线十余年,秉持“使连接产生价值,用数据看见未来”的理念,基于产业智库和专业内容,提供产业规划、行研咨询、科技推广等服务。连续五年发布行业蓝皮书,被国家及省市级产业报告收录,组织多家单位发布行业共识和团标,推动生命科技普惠和产业融合发展。
☆ 国发改《战略性新兴产业发展展望》白皮书执笔
☆ 连续五年发布基因行业蓝皮书
☆ 中国抗癌协会肿瘤标志专业委员会战略合作单位
☆ 中国遗传学会生物产业促进委员会委员
☆ 广东省精准医学应用学会政策研究应用分会常委
☆ 深圳市健康产业发展促进会副会长单位
☆ 参与组织机构发布多项行业共识和团体标准
☆ 组织基因检测联盟(筹)首届、第二届会议
☆ 主办数字健康私董会、大湾区生命健康创新论坛
☆ 受邀为华西、因美纳、华大、上海交大等作报告
是我的不竭动力