查看原文
其他

解决传统存储困境,DNA 存储的商业机会在哪里? | Founder 100

Founder 100 Founder Park 2023-03-21

传统数据存储正面临能耗危机和原材料枯竭的问题。

随着全球数据量指数级的增长,有数据显示,预测到 2040 年数据储存对单晶硅的需求量将达到 2 万吨。这一需求已经超过了当年全球的单晶硅总产量,以硅基为底的储存器可能跟不上大数据的需求。

而数据中心对于电量的消耗也越来越大,2016 年我国数据存储的耗电量已经超过了三峡大坝全年的发电量。

存储成本低,原材料充沛、而且可以实现超大容量存储的 DNA 存储应运而生。

使用的移动硬盘作类比,1000 万块移动硬盘一屋子都垒不下,但却只要 50 克 DNA 就能实现相同容量信息的储存。」中科碳元创始人&首席科学家戴俊彪是这么说的。不过现阶段限于技术成本,DNA 存储当前只能在特种领域如军方有应用市场。

与传统存储相比,DNA 存储更适合「冷数据」,不需要经常读取但是数据量很大,「差不多有 80% 的数据都是属于冷数据,这类数据不在乎读写的速度有多快,而在乎能不能长久地保存下来。」戴俊彪认为,这正是 DNA 存储可以发挥用武之地的地方,而且高便携、低能耗。

DNA 存储目前的商业模式是怎么样的?如何优势如此明显,为何还没得到大规模推广?以及,国内 DNA 存储的技术发展与国际相比有什么差距吗?关于这些问题,我们也和戴俊彪聊了聊。


  1. 合成技术使得 DNA 存储有机会往商业化方向拓展,测序技术也使得技术能够满足这一部分的发展,近几年信息数据的增长也带动了需求的增长。

  2. 中科碳元主要针对 DNA 存储的流程,从信息的编解码、到合成、到保存、到测序这几个环节,目前都已经有了很好的布局。

  3. 不管是硅基存储也好,还是 DNA 碳基存储也好,这是相辅相成的两种介质,是相互支持和承载的状态。

  4. 我国的基本技术跟国外是处于持平状态的,因为大家现在面临的状况都差不多;技术上总体处于一个相互平衡的状态,属于并行跑的状态。


01

测序成本的下降

推动了 DNA 存储的商业化

Founder Park:和传统的数据存储相比,DNA 数据存储的流程是怎么样的,数据的复制和拷贝成本高吗?

戴俊彪:一般的信息存储,就是把信息变成了 01 编码,以正负储存在硅基芯片上,0 代表一个极、 1 代表另外一个极,储存到芯片上。DNA 存储也很简单,就是把 01 再转换成 ATGC 碱基对,它的流程也跟计算机存储非常类似,信息先编码再解码的过程。

信息编码和储存时,可以把信息先编译成 01,再把 01 变成 ATGC,只需要有一个编码和解码的算法开发标准。将信息都编译成 ATGC 以后,再对信息进行合成,因为 ATGC 是按照编解码需求所得出的一个序列,这个序列不是天然存在的,而是要合成出来的,这就是信息储存、写入的过程。ATGC 合成后,可以变成粉末状储存于体外;也可以矿化成为一个包裹,实现更久的储存;还可以塞到细胞里,让这个细胞携带信息,通过细胞的不断分裂就可以代代地传承下去,这就实现了信息的写入。

信息读取时,涉及到测序的流程。如果我想要读取全部的数据或其中一部分,可以先把 DNA 抓取出来,然后把这些 DNA 序列送到一个高通量的 DNA 测序仪里,测完以后就知道它的 ATGC 序列是什么,再用与编码相对应的解码法则,将它恢复成原来的信息。这样就形成了一个信息闭环,完成从存到取的流程。

DNA存储的主要流程 | 来源:电子与信息学报

信息的复制在 DNA 中也很容易实现。要想在 DNA 中复制 ATGC,当前有一项非常成熟的技术——PCR 聚合酶链式反应,酶可以依照前期设定的模板,提供单体后,便能非常快速地合成和拷贝。这样的复制实际上比硬盘复制所耗费的成本低很多;另外还可以把 DNA 放到细胞里面去,通过活体细胞,给予它一定的营养,它就能自我分裂,其分裂速度非常快,大肠杆菌每 20 分钟分裂一代,一个晚上就可以得到海量的信息拷贝。

所以,用生物方法储存和复制信息是最好的,它的成本非常低。

另外,当前计算机能存储的信息,DNA 都能存储。因为计算机中存储的信息都是以 01 形式进行了编码,只要把 01 编码转换成 ATGC,就能存储到 DNA 里。目前大部分的文本、图片、音频、视频数据都已经进行过测试,这些数据类型可以用 DNA 的办法进行储存,并恢复到原来的数据。

Founder Park:在其他行业比如量子计算、可控核聚变,之所以可以看到集中出现一些公司,核心原因在于整个领域开始从科学往工程化阶段迈进。看似科幻的 DNA 数据储存领域开始涌现大量商业公司,也是因为这个领域实现了从科学向工程化的阶段迈进吗?

戴俊彪:DNA 存储的概念大概在二十世纪 60、70 年代就被提出来,因为 DNA 本身就储存了生命遗传的各种密码,所有生命发育的信息都储存其中,因此也就顺其自然地产生用 DNA 储存其他信息的推测;科研人员也把 DNA 用于储存非常小的片段信息,储存到生物里。

但是早期 DNA 存储的发展,有一段时间是中断的,这是因为整个领域的技术还不够成熟。直至 2012 年,George Church 又重新提出来,此后整个领域就更快地发展起来。原因是领域内解决了一个大问题——它从科学问题变成了工程问题,一开始的 DNA 合成技术作为 DNA 存储最关键的技术,决定了如何把信息写到 DNA 里去;以前技术比较落后,没有办法实现高通量地写、高通量地读,而随着测序技术的发展,这部分问题被解决了;后来又随着芯片技术的发展,芯片上能够合成的 DNA 数量比传统的柱式合成法更多,我们就能将 KB 级、MB 级的数据用 DNA 储存起来。

所以在技术发展上,合成技术使得我们有机会往商业化方向拓展,测序技术也使得我们能够满足这一部分的发展,近几年信息数据的增长也带动了需求的增长……这几方面的结合,让很多有想法的人开始思考用公司化方式去运行相关业务,其中只需要解决工程问题——能够让 DNA 信息更高通量地合成,包括更高通量地写、更高通量地读,然后就能打通整个流程。

从成本上来看,以测序技术为例,最早的一代测序技术——Sanger 测序,成本相对是比较高的,一开始可能需要 1 美元左右才能测 1 个碱基;而近几年,由于我国华大基因努力推动合成测序仪的发展,现在实现了大概 1 美元可以测 10 的 8 次方个碱基,也就是说实现了 8 个数量级的成本下降,这是在短短不到 20 年内实现的。

Founder Park:DNA 数据存储目前的变现模式是怎么样的?全球范围内,成熟的 DNA 数据存储公司的商业化模式是怎样的?

戴俊彪:到目前为止,全球范围内都没有非常成熟的商业 DNA 存储公司,大部分公司都是用 DNA 存储过程中需要发展的其他技术实现盈利。

以国外 DNA 存储公司 Twist Bioscience 为例,它的主营业务是 DNA 合成,他们开发并迭代了高通量的 DNA 合成技术,使得 DNA 合成的价格下降,因此有机会去合成很多 DNA,也就能以比较低的成本实现 DNA 的信息存储。

此外,Catalog、 DNA Script 等公司,大部分也都是做 DNA 合成新技术,其中 Catalog 算是专门做 DNA 存储,他们所开发的是用于可编程 DNA 存储的仪器,然后通过自动化合成,将所需信息存储起来。基本上现在的模式,都是在不同的合成方法上、在算法上建立一系列专利,然后再往前推进。

当前 DNA 数据储存真正落地的有以下两个方向:

第一,用于重要加密信息的储存。因为这部分储存的信息量不是很大,比如说比特币密码的储存,对于安全性要求很高,但是信息量不是特别大,这是最早可以应用 DNA 存储的产品。

第二,近期很热门的 SpaceX 公司,我们设想过一个新的应用场景——想象未来在太空上也是需要储存很多信息,太空上的存储如果要硅基,将那么多硬盘搬到太空是比较困难的。但如果能够在太空上用 DNA 存储的话,DNA 重量轻、密度高的优势就会体现出来。


02

DNA 存储可以实现

超大容量数据的长时间存储

Founder Park:与其他存储方式相比,发展 DNA 数据储存,对我们到底有什么意义?

戴俊彪第一,实现数据的长时间存储。DNA 是一个很好的储存介质,可以非常稳定地存在于自然界,并且储存非常非常久的时间。

DNA 是非常稳定的,我们能够把古化石中几十万年前马的基因组提炼出来,这是因为它的稳定性。与很多介质相比,裸 DNA 本身已经很稳定,如果再用一些保存办法,比如对它进行矿化,把它包裹起来,它的稳定性就会更强。

第二,实现超大容量的信息储存。目前我们积累的数据很多,包括天气数据、交通数据、各个摄像头上的数据、医院的个人健康数据……要想把这些数据全部储存起来,需要大容量,而这些数据又非常重要,要想把这一个人的各个生命阶段的数据全部储存下来,已经需要非常大的容量,更别说这么多人。现在的做法是用新数据取代掉旧数据,天气数据可能储存一个月、最多一年的数据,未来想要用以前的数据,是没有办法获取的。但如果有 DNA 存储,就能够让这些数据稳定地保存下来,未来想用的时候随时可以调用,这就体现出 DNA 储存的价值了。

在信息储存的超大容量这一点上,用我们现在使用的移动硬盘作类比,1000 块移动硬盘可能一屋子都垒不下,但却只要 50 克 DNA 就能实现相同容量信息的储存,这 50 克 DNA 可能只占到一个试管的一小部分。

相较于其他媒介的存储方式,还有以下优势:

第一,安全性高。现在要做加密,基本上是通过计算机的 01 加密等各种变化来实现,而 DNA 上有 ATGC 四个位置可以做加密,它所能实现的变化比计算机更多。

第二,大量数据的储存成本低。现在如果用数据中心进行储存,需要建一个巨大的数据中心,需要很大的建筑面积,而大面积建筑的成本还不是最高的,最高的是电费,为了运行这些服务器,确保时刻不宕机,任何一个超算中心、数据中心,每天的用电量是非常惊人的,这也是国内把数据中心建在云贵等地的原因,因为电能获得比较快,而且地域温度比较低,能够降低电消耗。

但是相较于硬盘和磁带储存,DNA 存储现阶段的软肋是存储成本高。以当前储存大概 1 MB 数据为例,数据存储价格近 1 万人民币,当前只能在特种领域如军方有应用市场。

Founder Park:作为科研人员,为什么您会成立中科碳元公司,以企业的方式推动 DNA 数据存储的发展?

戴俊彪:在创办中科碳元之前,我创立了另外一家企业无锡青蓝,是一家做 DNA 合成的公司,这家公司在 2018 年被华纳基因收购,所以中科碳元是我的二次创业。我觉得这是很有意思的、不一样的经历,基础科研虽然能去探索很多未知的东西,但往往很多并不一定能马上应用到日常生活中去解决具体的问题。我个人认为既要能够研究前期问题,又要能够把这些技术发展起来,推动后续产业的发展,最好能引起产业上一些大的革新。因此我一直对技术特别敏感,也特别感兴趣,因为绝大部分新的产业革命是由技术发展所推动的。目前在生命科学上,我们已经看到了两个:DNA 测序使得我们能够得到基因检测的所有测序;基因编辑让我们看到了在农业、医学治疗上的应用可能性,前途不可估量。

DNA 合成和 DNA 存储在未来产业中的发展也不可估量。设想一下:如果我们可以人为地设计生物,这个生物可以帮助我们生产某一类特殊产品或应用到某一个特殊场景,能够不断地制造出专业化的生物工厂或生物机器,后续带来的产业是非常广阔的。现在合成生物学受到了这么高的评价和追捧,就是因为它让大家看到生物技术与应用的快速结合,能够为我们的生活带来影响和新的变革。

Founder Park:中科碳元在 DNA 存储上关注哪些方向,有哪些探索,已经做出了哪些成果?

戴俊彪:中科碳元主要针对 DNA 存储的流程,从信息的编解码、到合成、到保存、到测序这几个环节,目前都已经有了很好的布局,我们前期的成果也主要集中在这几个方面。

首先,我们在编解码上不断开发新的算法。我们的很多专利都集中在这些算法上,希望通过开发出更好的算法,实现更好的数据压缩能力,使得数据的 ATGC 序列更容易合成、更容易测序。

其次,我们在 DNA 合成上也一直在开发不同的技术,尤其是大片段的 DNA 组装,把我们合成的短链变成长链,这个技术使得我们能够在体外合成几十 KB、几百 KB 的长 DNA 片段。这部分近期也实现了很好的突破,最近正在准备发表相关文章。

DNA数据存储编解码软件:ATOM | 来源:中科碳元公众号

最后,从公司的角度来讲,我们开发了一些软件来帮助人们熟悉 DNA 合成和 DNA 存储这样全新的领域——称为 ATOM,人们把自己想要存储的信息上传,选择它的编写码方法,合成 DNA 并生成 DNA 序列文件。这个序列文件由我们来合成,合成后就可以由个人保存,文件里包含了个人想要储存的信息;等到要读取的时候,再上传文件,然后选择相应的解码方式,获得原本上传的图片或文本。ATOM 软件很好地实现了个人隐私的保护,只有个人使用自己设置的密码,才能获取编解码法则,其他人即便拿到序列上传,也无法找出对应的法则实现解码。


03

DNA 存储会与

传统硅基存储共存,

而不是取代

Founder Park:目前 DNA 数据存储处于一个什么样的发展阶段?未来还有哪些新的发展趋势和变化?会取代其他的数据存储类型吗?

戴俊彪:类比 IT 行业的话。1946 年,贝尔实验室发明晶体管;1956 年,德州仪器做出了第一个电路,能够把不同的东西串起来,进行简单计算;再到苹果的计算机出现,是在 1976 年左右……从 1976 年到 2022 年,差不多也就五十年的时间,但我们现在的任何一部手机,都远超当年的超级计算机所能实现的计算能力了。

而 DNA 存储也好、合成生物学也好,目前我们能够去对系统进行设计,能做一些改造,正处于在形成一个电路的过程。

至于会不会取代其他的存储方式,我认为不管是硅基存储也好,还是 DNA 碳基存储也好,这是相辅相成的两种介质,是相互支持和承载的状态。因为使用 DNA 测序、合成途径去存储,速度一定会比较慢,合成和测序都是需要时间的,虽然这个过程会越来越缩短,但是远远比不上计算机的速度。

在很多需要实施更新信息的应用场景中,比如无人驾驶,需要随时要跟周围的信息进行交互,这时如果用 DNA 就会变得很慢,难以实现及时的反应。像这一类数据,我们把它叫做「热数据」,这类数据经常要读取,因此使用传统介质比较好。

但是,我们积累下来的数据绝大部分的都不是热数据,不是每天都要去看的数据。比如你的电脑里三年前拍的那张照片,只有在一个月或一年以后想起来,才会再去把它翻出来看一眼,这一类的数据就叫做「冷数据」。医院的医疗数据、政府的各种金融数据,它都不会经常读取,但是要储存这类数据,所占的空间容量和数据量都非常大。我们初步预计,差不多有 80% 的数据都是属于冷数据,这类数据不在乎读写的速度有多快,而在乎能不能长久地保存下来。

因此 DNA 存储和现有的数据存储是互补关系,整个储存市场足够大,所以二者都有很好的应用前景。

Founder Park:在你看来,DNA 存储实现商业化落地的卡点在于哪里?是技术到场景的商业化落地之路,还是技术的成熟度?

戴俊彪:目前 DNA 存储最大的卡点还是 DNA 合成的成本。将信息写入 DNA、转化成 DNA 以后,DNA 的碱基要一个个合成出来,这个成本一定是高的。

近几年因为通量提升了,DNA 存储成本下降挺多的,原来合成一个碱基要 10 美分左右,现在降到了 0.01 美分左右。但 DNA 存储整体还是比较贵的,虽然单个碱基 0.01 美分,但随着数量的三次方倍增,数据合成所占的成本依然很高。

目前大家在想办法把成本往下降,所以就有了高通量合成等技术的探索。我还在研究 DNA 存储是否一定要依赖于 DNA 合成,如果要合成,就很难避免高成本,因此在技术和科学上探究「利用自然界中的 DNA 来替代合成」,或许会开发出另外一条路。一旦实现把固定信息对应到自然界 DNA 片段上的算法,跳过合成的步骤,那成本的下降就不再是一两个数量级,而是多个数量级。

当然现阶段通过通量合成所实现的成本下降,能够满足一些对成本要求不那么高的特殊用途,而且这个市场不小,可以先把以此为依托进行拓展。

此外,读写速度也是一个非常大的挑战。现在 DNA 合成的速度是非常慢的,复制速度很快。这样的话,最快也需要一两分钟实现一个循环,因为它是一个碱基,需要保护好,保护完了再耦合上去,耦合完再把功能团队释放出来,才能做下一轮的循环,这个时间一定是比较长的。所以目前一般用 DNA 来储存对时间要求不高的冷数据。

其次,我个人认为 DNA 存储对于错误的容忍率相对来说是比较高的。因为 DNA 存储不像计算机存储,在计算机里储存信息是通过拷贝,如果一个地方的某个字节坏了,导致信息变错误了,就没办法恢复整个拷贝;但当 DNA 序列出错时,在 1kb 即 1000 个碱基的范围内出现一两个错误,错误是随机的,而合成的其他大部分序列都是正确的,出现的随机错误可以通过测序得出深度,然后再校准把它去除掉。

Founder Park:在合成生物领域,龙头公司 Ginkgo 提出了「Knight』s law」,随着 Ginkgo 不断通过兼并收购扩大规模,单位成本会越来越低。就如同芯片行业的摩尔定律(Moore』s Law)一样,Ginkgo 拥有自己的 Knight』s law,即 Ginkgo 平台每年产出翻三倍的同时,单位成本可以减半。随着做的项目越多,积累的 Codebase 越多,后续项目就如同飞轮效应(Flywheel)一样进展更快、成本更低、并且成功率更高。在 DNA 存储领域是否可以看见类似于摩尔定律的存在?

戴俊彪:这是可以期待的。以 DNA 测序为例,当前测序的成本下降高于摩尔定律的速度;二代测序发展出来以后,已经不是类似于摩尔定理的线性下降,而是断崖式的下降。此外,DNA 合成的成本也一直在下降,但它是以比较缓慢的速度在下降。目前我们也期待有一些新技术的发展,包括现在提到用酶以及其他不同的办法实现 DNA 合成,能够使得 DNA 合成的成本也实现超过摩尔定律的下降,全球的公司都在不同的方面做这样的努力。

Founder Park:DNA 数据存储的国内外发展情况是否有差距?主要体现在哪些方面?

戴俊彪:国内外的发展差距主要是因为国内起步比较晚。

从技术角度看,我国的基本技术跟国外是处于持平状态的,因为大家现在面临的状况都差不多;单看合成技术,国内现在的高通量合成做得也不错。技术上总体处于一个相互平衡的状态,属于并行跑的状态。

另外,DNA 存储已经被列入十四五发展规划的纲要,2035 年的发展规划中明确地提出要把 DNA 存储作为发展重点,这也就意味着我国在 DNA 存储投入了大量资源。目前国内专门建立了一个叫 ITBT 融合的专项,专项中有 1/3 的重点在于开展 DNA 存储相关研究,十四五规划中也有 DNA 存储的布局。

再者,国内的人才是不缺的,我们有非常多各个方面的人才,有了项目支持,加上有这样的人才,我们有各种各样的奇思妙想,我认为能够使得后续的发展比国快得多。这两年来,国内外真正做 DNA 存储的科研成果应该已经是差不多的,专利情况我相信也一定在赶超。

Founder Park:在 DNA 数据存储领域,未来还有哪些重要的、值得关注的发展趋势?

戴俊彪:目前有几个方面,既是巨大的挑战,也是未来的发展机会。

第一,就当前整个 DNA 存储领域的研发而言,目前为止还没有 TB 级或 PB 级的数据,这里存在着非常大的一个挑战。类比于经典牛顿力学和相对论的差别,当宏观达到了一定程度后,可能需要有不同的公式或原理去适配当下的需求;所以在储存大数据方面,还是需要做很多的研究。对于这么大的数据来说,数据结构如何能设计出好的方案,能够帮助我们很快地调用这些数据。

第二,DNA 存储面临着人才缺口。DNA 存储领域除了生物科研人才外,还需要 IT 专业人员来实现算法开发,而生物科学作为「天坑专业」,很难吸引 IT 人才来从事。IT 研发产品,速度快、回报高、项目经费大;而生命科学的 DNA 储存就很难与 IT 行业竞争,目前从事生物科学研究是需要有一定情怀的。

其次,生物科学想帮助 IT 解决数据存储问题,还需要解决技术上的问题,包括 DNA 合成成本、算法开发,这些都需要 IT 人才,而且要既懂 IT 又懂 BT,对两个差别比较大的专业都有所理解,这样的跨领域综合人才就更难找到。

在生物计算的发展前景上,DNA 有一个天然的好处,它有碱基互补配对的原则,也就意味着可以去设计很多不同状态下的计算,比如说低温情况下,形成某一种结构;当温度升高时,DNA 把结构打开后,形成了另一个结构。这也是目前非常前沿的领域,大家都在往前推进它的发展,是比较值得期待的。

另外我们现在正在努力地推进 DNA 存储的大众化,但目前缺乏行业的标准,无法推动不同方、不同公司就使用同样的编解码方式来储存信息达成共识,就像 TCP/IP(互联网传输控制协议/网际协议)一样,能够使得整个产业变成标准化的纯粹工程。如果有一套很好的算法,能够得到大家的共用,能够作为大众储存大部分数据的通用方案,那彼此之间的交流也会比较顺畅;如果 IT 行业从业者、生物科技从业者都使用同一套方案,在计算和讨论时都使用同一套语言,对整个行业的发展也会起到很大的帮助。

*以上嘉宾观点不代表 Founder Park 立场,也不构成任何投资建议。


公司:中科碳元

领域:数据存储、DNA 存储、合成生物学

融资状态:天使轮数千万元人民币

主要投资人:英诺天使基金、中科天使、常见投资、沸腾创投

官方网站:http://carbon-atom.com/


中国科学院深圳先进技术研究院研究员,深圳市合成生物学创新研究院副院长,深圳合成基因组学重点实验室主任,广东省合成基因组学重点实验室主任。荣获国家杰出青年科学基金、国家「万人计划」领军人才、谈家桢生命科学创新奖、英国皇家学会牛顿高级学者基金等。主要从事合成基因组学及合成生物学相关使能技术研究。戴俊彪研究员是人工合成酵母基因组国际计划(Sc2.0)中方主要参与者,基因组编写计划(GP-write)科学委员会共同主席,牵头发起了「国际基因组编写计划·中国」(GP-write China)和「Sc3.0」国际合作项目;作为通讯/共同通讯作者在 Science、Nature Communications、Cell Research、Developmental Cell 等国际著名期刊发表论文 40 余篇;其中「人工合成酵母基因组」工作入选 2017 中国科学十大进展。在 DNA 数据存储编码算法、软件开发和生化技术拓展方面开展了系列研究工作,已申请/获批相关专利 10 余项。

2021 年 5 月,中科碳元由中科院深圳先进技术研究院孵化成立,戴俊彪研究员担任中科碳元创始人&首席科学家。该公司是国内首批专注于 DNA 数据存储的企业,致力于推进 DNA 数据存储技术的发展和商业化。


中科碳元(深圳)生物科技有限公司(C-ATOM) 是一家专注于DNA数据存储技术开发及应用拓展的高科技公司。公司成立于2021年05月26日,由深圳合成生物学创新研究院孵化成立,立志打造全球DNA数据存储领域的领军企业。

目前,公司在深圳光明工程生物产业中心注册,依托中心整体共享办公和实验室空间的同时,拥有将近500平米独立实验空间及办公场地。公司核心高管团队具有多年上市企业高端技术开发和商业运营管理经验,成立初期已经组建覆盖数学,计算机,生信,生化等多学科领域的技术开发团队,期望尽快推动DNA存储的商业化应用。



更多科技创业者的采访,欢迎在
小宇宙或者苹果播客收听我们的播客节目「Founder 100」。
Founder 100 栏目一直在招募优秀的科技创业者来做客我们的直播间,如果大家对于这档栏目感兴趣,也有意向想要来分享自己的故事,欢迎大家长按下图,识别图中二维码,填写报名申请单。
更多阅读

转载原创文章请添加微信:geekparker

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存