华大团队开发DNA存储转码评估系统,集6大算法,已开源运行丨专访沈玥
1 个 12TB(1TB=1024GB 的硬盘能够存储 300 万首 MP3 音乐,240 万部电影,而 1g DNA 可以存储 2.15 亿千兆字节的数据,重量不到一块方糖的 DNA 可以存储世界上所有的电影,一辆两厢式货车大小的 DNA 可以容纳世界上产生的所有数据。
根据国际权威机构 Statista 的统计和预测,2020 年全球数据产生量预计为 47ZB ,而到 2035 年,这一数字将达到 2142ZB。随着数据爆炸式的增长,人类也正在实现从磁带、光盘、硬盘到 DNA 存储的技术迭代。
DNA 存储本质上是将原本用 0 和 1 表示的内容,换成用 A、T、C、G 四个碱基来表示,存储(编码)的时候就合成 DNA 序列,读取(解码)的时候通过测序完成。
仅编解码而言,国内外的科学家们就先后开发了多种方式, George Church、 Goldman、 Grass、Erlich 等研究团队均提出了不同策略的 DNA 存储编解码方案 。
近日,深圳华大生命科学研究院、深圳国家基因库研究团队在《合成生物学》杂志 DNA 存储专辑中发表了题为《Chamaeleo:DNA 存储碱基编解码算法的可拓展集成与系统评估平台》的研究论文。研究团队开发了评估平台 Chamaeleo,集成了现有的经典 DNA 存储编码算法,可以针对不同的存储文件,根据其适配性、安全性、稳定性择最优方案。
“DNA 存储实际上是非常典型的 IT(信息技术)和 BT(生物技术)的融合,生物技术带动了信息技术的转型和升级发展,大数据的存储模式只是其中一种应用。” 沈玥博士告诉生辉。
留学归国的沈玥自 2010 年就加入华大创始人杨焕明院士的课题组,从事合成生物学领域研究工作 ,目前担任深圳华大生命科学研究院合成生物学领域方向首席科学家、深圳市合成生物学创新研究院兼职研究员、深圳先进技术研究院合成基因组学研究中心客座研究员,参与合成基因组学的里程碑项目 —— 人工合成酵母基因组计划(Sc2.0)。
图 | 沈玥博士(来源:受访人提供)
DNA 合成和测序是基础
上古无文字,结绳以记事。现代的数据存储经历数百年的变化,发生了翻天覆地的变化,磁带、光盘、硬盘,到如今大热的 DNA 存储。
1988 年,艺术家 Joe Davis 与哈佛研究人员合作,把一个取名为 Microvenus(小维纳斯)的 7*5 像素矩阵的照片,转化成 35 个碱基的 DNA 序列,插入到大肠杆菌里,第一次把不属于自然演化的信息写进了 DNA。
作为一种天然的存储介质,DNA 存储很快得到了关注,并飞速发展。2016 年,微软和华盛顿大学利用 DNA 存储技术完成了约 200MB 数据的存储,成为 DNA 信息存储技术的一个飞跃。
2019 年,社群网站 MyHeritage 的首席科学家、哥伦比亚大学副教授 Yaniv Erlich 在 Nature Biotechnology 上发表了一项最新成果,研究团队通过 3D 打印制作了一只兔子,并将这只兔子三维结构的数据以双链 DNA 的形式内置在打印材料中。也就是说,通过编码和解码,这只兔子模型实现了其自身数据的 DNA 存储和传递。
同年,在麻省理工科技评论(中国)举办的 EmTech China 会议上, Yaniv Erlich 向现场观众展示了这只 DNA 存储数据的兔子。
图 | 包含了 DNA 数据的斯坦福兔子 (来源:苏黎世联邦理工学院)
DNA 存储背后的逻辑则离不开 DNA 合成和测序。在高通量的芯片合成中,合成手段包括喷墨打印、电化学、光控等方式,以实现在高密度芯片中进行点阵式的反应。
“华大的合成路径则不同”,沈玥讲道,“在开发方面,华大借鉴了低通量的柱式合成思路,保持了生化过程易于控制与优化方面的优势。”
根据沈玥的介绍,目前常见的高通量合成是通过在一张芯片上进行非常高密度的生化反应控制,华大则选择通过对大量毫米级的微芯片进行合成过程的控制,从而达到高通量的目的。
“在生化效率、错误率等关键性能方面,华大的技术在高通量合成领域更具优势,另一方面,未来通量提升也更灵活,易于实现。” 沈玥讲道。
图 | DNA 存储的常规流程(来源:上述论文)
集 6 大转码算法,已开源运行
尽管 DNA 存储编解码研究已有诸多进展,但与现有上下游衔接技术的兼容性,对不同存储文件的适配性、存储稳健性和数据安全性等尚缺少一个可量化比较与评估的系统。
Chamaeleo 平台则集成了 5 种现有经典编解码算法:Church(2012)、Goldman (2013)、Grass (2015)、Blawat (2016)、Erlich (2017),以及由深圳华大生命科学研究院、深圳国家基因库自主研发的 “阴阳”(Yin-Yang)双编码算法,能够针对不同的存储文件,选择最优的编码算法,并输出与合成和测序技术兼容性最佳的编码序列。
这也正是华大的本意,促进该领域的开发者协同开发,为应用端提供辅助的指导工具,以实现不同的存储需求。正如 Chamaeleo 的本意 ——“变色龙”,能够针对不同环境快速适应进行特征变换。
根据沈玥的介绍,编解码系统的评估标准主要包括三方面。
首先,信息存储密度。为了降低 DNA 存储的成本,转码方法通常需要在保证数据完整的情况下尽可能减少 DNA 序列的合成量,单位 DNA 质量下,能够存储的信息量越高越好。
图 | Chamaeleo 平台评价体系(来源:上述论文)
其次,编码的适配性。DNA 存储需要借助 DNA 合成、测序、以及 PCR 等技术实现,极高或极低的 GC 含量或单碱基长串重复对现有上下游衔接技术非常不利,会造成 DNA 合成困难以及 DNA 测序错误,进而导致数据无法恢复的问题。因此,在编码过程中,应该尽量避免产生的序列 GC 含量偏差大或者单碱基重复的问题。
最后,编码的鲁棒性。指在信息的写入或者读出的过程中,因为技术的局限性或者人为操作失误,存储的信息有丢失或者错误的情况下,整个编码文件能否被恢复的性能。
“这也是华大开发的阴阳编码系统想要解决的问题”,沈玥表示,“已经集成的经典算法中,更注重的是追求信息存储密度极致或编码适配性,阴阳编码系统则在保证存储密度的基础上,更加重视适配性和鲁棒性问题。”
据沈玥透露,在存储数据信息对应的 DNA 拷贝数低于 1000 的情况下,阴阳编码系统依然能达到 90% 以上的数据恢复,远高于同类编码算法。
值得注意的是,Chamaeleo 平台以开源方式运行。“未来该平台会继续拓展,用更新的技术去迭代和升级,也希望 DNA 存储领域的研究者将其独特的存储转码方式嵌入 Chamaeleo 平台,进一步推动 DNA 信息存储领域编解码方法理论体系的形成。”
“将和其它存储方式共存”
尽管在 DNA 存储领域已经有诸多研究成果,但在 DNA 中编码存储 1GB 的数据仍然花费数百万美元,而储存到硬盘上的花费不到一美分。
沈玥对此保持积极的态度,“技术本身在不断发展和迭代,2003 年完成的人类基因组计划,测一个人的基因组花费了 38 亿美元,13 年的时间,现在 24 小时内即可完成,成本仅需几百美元。在 DNA 存储中,需要对上下游共同推动,我们需要生化技术、数据处理技术等的快速迭代,将成本降低,才能使得应用场景被普及化。”
(来源:habilita.it)
2020 年 10 月,illumina、Twist Bioscience、微软等公司合作建立了 DNA 数据存储联盟。该联盟牵头为 DNA 数据存储领域制定标准、制定行业路线图,并为商业档案数据存储生态系统奠定基础。
在国内,中科碳元此前宣布完成数千万元人民币天使轮融资,成为国内最早一批尝试将 DNA 数据存储进行商业化探索的公司之一。
“DNA 存储不管是在技术还是产业化进展方面,都处于早期阶段,但呈现出快速发展的态势。和国外相比,我们可能在产业化的方面相对较慢,但在底层的关键技术方面,和国外的差距并不大”。沈玥透露道,“商业化落地的瓶颈之一是 DNA 合成的成本,目前我们也在积极推进国内的‘DNA 数据存储联盟’。”
根据最新发表在《自然・通讯》上的成果,美国北卡罗来纳州立大学研究人员已经能够为用户提供 DNA 存储文件的 “预览”,例如图像文件的缩略图版本。研究人员可通过 PCR 过程的几个参数,温度、样本中 DNA 的浓度以及样本中试剂的类型和浓度,来选择是 “打开” 整个文件还是只 “打开” 其 “预览” 版本。
从 1988 到 2021,DNA 存储实现了翻天覆地的变化。“从长周期的时间尺度下,DNA 存储在成本、能效等方面更有优势,但它并不会取代现有的存储方式,而是以共生的方式存在,能够面向数据爆炸式增长的趋势下,解决需求和能力间的不平衡。” 沈玥说道。
最新资讯、优质资源、观点碰撞