万物DNA?DNA存储究竟应用于何处 | 《DNA存储蓝皮书》连载(3)
2020年哥伦比亚大学,苏黎世联邦工学院研究团队首次提出了万物皆可实现 DNA存储的理论。那么在数据爆炸式增长的今天,DNA存储能实现的应用场景究竟有哪些?本文通过国内首部《DNA存储蓝皮书》第三部分连载分享如下。
图:来源/《DNA存储蓝皮书》,下同
数据总量基数大、种类多样、增长速度快是当前大数据的典型特征,如何集中存储大量数据成为亟需解决的问题。因此,新型大数据存储须具备以下特征:
更大的存储容量
更高的访问性能
更低的总体拥有成本
低碳、绿色、节能、环保
在当前技术条件下,存储介质各有所长。为了降低海量数据存储成本,企业通常通过建立分层存储架构来优化存储空间。根据数据访问频率、IO类型、性能需求等不同特征,把数据分为热数据、温数据、冷数据等不同类型。经常访问的热数据保存在速度更快性能更好的存储系统,而不经常访问的冷数据则存放在成本更低的存储上。
由于DNA存储信息密度高、保存寿命长、节能环保、读写速度慢、随机读写困难等特点,DNA存储目前主要适用于冷数据的长期归档。因为DNA存储能大大减少碳排放,对于构建新型大数据存储,实现数据中心绿色低碳。将发挥重要作用,具体体现在:
数据存放耗电
DNA长期离线存放不消耗电量,相比磁带,硬盘等传统媒介,耗电量更小。
基础设施耗电
传统的存储媒介需要空调、加湿除湿器、UPS、电池、稳压器等配套设备的支持,但这些设备会带来额外的电力损耗。与此对比,DNA存储对基础设施的耗电需求更低。
土地资源占用
DNA存储自身和配套基础设施的占地面积小,能在消耗有限的土地资源的前提下,实现大量数据的存储。
制造材料环保
由于存储密度低,传统存储介质需要耗费大量材料来生产。同比DNA存储,少量DNA即可存储大量数据,因此更加环保。
目前在DNA数据存储的应用上,国内联川生物与天津大学团队在微流控原位合成技术方面密切合作,共同推动高密度DNA合成在数据存储方面的国产化应用。国外IARPA于2020年正式启动分子信息存储项目,旨在利用合成DNA存储艾字节级数据,该计划将开发出能够同时向合成DNA介质写入数据和从中读取数据的新型设备,将艾字节级数据存储系统缩减到桌面尺寸,同时大幅降低运营和维护成本,目标是在3~5年内实现商用。
其次,数据中心除了冷数据存储问题,如何搭建存储体系也是重点关注问题。针对数据迁入和迁出的场景,DNA存储体系的搭建可以借鉴腾讯云文件存储体系的架构的相关经验,相关数据存储对策及关键技术如下:
腾讯云文件存储(Cloud File Storage)
腾讯云文件存储(Cloud File Storage)是腾讯云自主研发的安全可靠、性能及容量可弹性扩展的共享文件存储服务。产品涵盖传统NAS存储及并行存储,在云厂商中首先推出百GB级超高吞吐及千万级IOPS性能的文件存储产品,单个文件系统的存储量亦支持从TB级扩展到100PB,充分满足各类规模基因分析的存储诉求。
1. 超高性能
腾讯云上的计算节点通过NFS/SMB协议或CFS私有协议,像使用本地文件系统一样使用CFS服务。CFS提供的百GB/s超高吞吐及百微秒级的时延,使得基因测序过程中可以充分发挥计算节点性能,减少读写数据耗时,降低测序时间与TCO。同时,CFS的精细化流控能力可以实现同时为多用户提供无差别的高性能存储服务。
2. 弹性伸缩及服务高可用
CFS采用全分布式架构,提供的通用系列(分布式文件存储)及Turbo系列(并行文件存储)均可提供高可用的存储及性能的无感知弹性扩展,跨平台的接口及访问协议可无缝对接多种基因测序系统及应用。
CFS单文件系统下存储容量可从TB级无感扩容至100PB,吞吐及IOPS性能亦可按需弹性扩展。实时在线的弹性扩容可以更灵活地满足基因测序海量数据存储及项目激增的性能需求;99.9%的可用性充分保障测序业务的连续性、减少因为基础设施异常导致的额外时间与金钱成本。CFS支持通过生命周期功能自动对数据降冷,进一步降低存储成本。可充分满足基因测序不同项目、不同阶段对基础设施性能及成本需求。
对象存储 (Cloud Object Storage,COS)
对象存储(Cloud Object Storage,COS)是腾讯云提供的一种存储海量文件的分布式存储服务,具有高扩展性、低成本、可靠安全等优点。通过控制台、API、SDK和工具等多样化方式,用户可简单、快速地接入COS,进行多格式文件的上传、下载和管理。
在对象存储服务上,用户可以创建不同的存储桶,将文件存储在这个存储桶中,并进行上传/下载等操作。整个分布式存储架构由接入网关、接入服务、存储引擎三大部分组成,一份数据在写入到对象存储服务时,会从网关接收数据流,然后由接入服务层进行路由转发到存储引擎侧,最终在存储引擎侧会按照特定的算法切成多个数据块,分别写入到不同的存储介质中。目前在公有云上,普遍是用磁盘,尤其是12T、16T等高密度磁盘存储数据。
COS提供多种对象的存储类型:标准存储、低频存储、智能分层存储、归档存储、深度归档存储。每种存储类型拥有不同的特性,例如对象访问频度、数据持久性、数据可用性和访问时延等。用户可根据自身场景选择以哪种存储类型将数据上传至COS。
不同存储类型的产品特征和适用场景如下 :
标准存储
支持低访问时延、高访问吞吐,可为用户提供高可靠性、高可用性、高性能的对象存储服务,适用于实时访问大量热点文件、频繁的数据交互等业务场景。
低频存储
提供较低存储成本和较低访问时延。这种存储类型在降低存储价格的基础上,保持首字节访问时间在毫秒级,保证用户在取回数据的场景下无需等待,高速读取,适用于较低访问频率的业务场景。
智能分层存储
该类型的对象可存放在标准存储层和低频存储层两个存储层,COS可根据智能分层存储类型对象的访问频次自动在对应的两个存储层之间变换,无数据取回费用,可降低用户的存储成本。智能分层存储适用于数据访问模式不固定的场景,如果业务对成本要求较为严格,且对文件读取性能较不敏感,可以使用该存储类型来降低使用成本。
归档存储
可为用户提供高可靠性、极低存储成本和长期保存的对象存储服务。适用于需要长期保存数据的业务场景。
深度归档存储
可为用户提供高可靠性、比其他存储类型都低的存储成本和长期保存的对象存储服务。与归档存储的差别在于,深度归档的存储成本更低,但需要存储更长的时间。
在基因测序场景中,作为原始数据的FASTQ数据和比对后输出的BAM数据通常都需要长期保存,便于后期持续挖掘价值,因此低频存储、归档存储/深度归档存储均可作为高性价比的存储方式。标准存储鉴于其低访问时延、高访问吞吐的特性,更适合用于VCF数据的存储,便于临床医生、科研专家进行变异分析和标注。
回顾前文所述DNA存储特征,目前其主要优势在于信息密度高,存储成本有机会跟随超摩尔定律快速降低,但读取写入速度慢。因此,在当前海量分布式存储系统中,DNA存储技术的典型特征与深度归档存储的业务模型和适用场景最为匹配,未来可以作为大规模冷数据的长期归档和备份使用,但目前仍然存在较大的技术挑战:
数据持久性低
存储成本高
数据读写速度慢
适配现代存储系统
二、新数据加密
除了财产信息、健康生理信息、生物识别信息、身份信息等私密信息外,由于DNA存储的高存储密度、低能耗等特点,DNA存储也可用于新型数据加密,包括个人及集体私密信息。
DNA存储除了可以在数据中心作为超大容量归档存储,也可以用于个人加密存储私密信息,或者重要物品的防伪。
个人私密信息包括财产信息、健康生理信息、生物识别信息、身份信息、网络身份标识信息等,有可能会危及个人财产和人身安全。
对于敏感及高度机密信息,一般建议在离线设备上加密保存;为防止非法访问,通常使用隐写和加密两种技术,利用DNA固有的高存储密度、高并行性、低能耗、体积小等特点,在隐写和加密领域具有某些传统计算机无可比拟和替代的优越性。
隐写是将文本、图像、音频、视频或文件等敏感信息隐藏在某种界质中的技术,仅授权于特定知情人。衡量隐写技术的主要指标包括信息容量、隐蔽性、不容易被篡改或伪造等。DNA序列以下特性可用于隐写和加密的载体,即称为DNA隐写:
DNA的数据密度大,即使加上编码和数据冗余造成的消耗,DNA存储在单位面积的数据量上远超传统技术;
DNA体积极小,隐秘性高。人造的DNA和自然的DNA序列几乎没有差异,很难区分到底是否含有机密信息的人造DNA;
当把带机密信息的DNA混在其他DNA中,几乎不存在篡改或伪造信息的可能;
DNA可以和其他技术整合使用,应用范围更广。
为了达到更高的安全级别,科学家们还常把DNA隐写与加密技术一起使用。一方面,可以在机密信息转换成DNA序列信息之前用传统的DES、AES、RSA等算法进行加密;另一方面,也可以用DNA计算直接实现加密。利用DNA本身的特征构建的密码系统包括依赖密码本序列,采用映射替换法或者异或法的一次一密加密,基于聚合酶链式反应(PCR)引物作为密钥的加密,和利用DNA探针进行对称和非对称加密等。
自2009年比特币诞生以来,加密货币的规模越来越大,成为越来越多人的财富重要组成部分。私钥作为加密货币所有权的唯一凭证,是非常重要的私密信息,必须进行备份,以防丢失。DNA存储作为一种使用寿命长、与时俱进的新兴技术,是极具潜力的备份方案。叠加DNA隐写和加密等特性,私密信息可以长期存储在只有知情者可以获取的地方。随着DNA合成的测序成本的下降,人们更倾向于DNA存储来存放私密信息。
除了个人私有存储,DNA隐写和加密还可以用来取代生活中常见的条形码、二维码和防伪认证标签。基于DNA的信息存储技术可以创建比传统方法更小、更难发现、更难篡改的新型标记系统。与传统的方法不同的地方在于,DNA标签无法通过视觉或者触觉的方式来发现,在高价值产品的防伪方面能起重要的作用。另外,DNA存储可以在多种应用和技术上相兼容。
隐写术可应用于军事、金融等:
在军事应用层面,美国科学家曾在1999年发表过“DNA隐写术”的文章。研究人员将“JUNE 6 INVASION:NORMANDY”这段历史上的军事密令转化成100bp左右的DNA信息,然后将该DNA与30亿bp的垃圾DNA信息混合,起到情报保密的作用。
在金融应用层面,美国初创公司Carverr推出将数字货币密码存储在DNA中的服务,以保护数字货币财产,目前仍与银行和其他大型加密货币控股公司进行谈判,以扩大服务范围。
三、分子追踪系统
2008年,D. Onoshima等研究人员曾基于酶促反应,使用微流控系统来追踪单个反应物DNA分子轨迹,并成功证明该方法可以应用于DNA和蛋白质,奠定了分子追踪系统成为应用方向的基础。分子追踪技术是利用高分辨荧光显微镜对细胞内单个特定分子进行定位和追踪。
除了微流控系统,还可以应用分子标记技术进行分子追踪。分子标记是一种使用DNA或其他分子标记物理对象的方法。来补充或替代传统的条形码、二维码等,而这些标签不能用于追踪数量太多或者太少的对象,并且价格昂贵。2020年华盛顿大学和微软研发出新型“条形码”——“豪猪”分子标签系统,可用于二维码无法适用的微小物体上,且通过便携式设备在几秒钟内进行解码。
根据华盛顿大学和微软的研究报告:
在豪猪系统中,数字标签的二进制0和1由96个“分子比特”中的每一个“存在”和“不存在”表达;
用户可以任何混合现有的链,并快速创建新的标签;
在保存方式上,在初始标签组装期间准备好用于读取的熔块,进行脱水处理以延长标签的保质期;
DNA标签系统安全性高,很难被篡改。
DNA存储技术的研发和应用进展使得对分子轨迹进行追踪得以实现,并以此诞生多样化的技术,并且应用于食品安全、司法、医疗健康等。
四、基于DNA计算的分子诊断
DNA计算是新兴的计算技术。包含信息学、数学、物理学、纳米领域等学科,由于其DNA分子的高密信息存储能力、强大的并行运算能力和分子识别能力,具有巨大的应用潜力,目前正处于早期研究。
根据上海交通大学研究团队成果,DNA分子计算是基于平行计算的原理。若把一对DNA分子互补碱基的计算能力理解为1的话,1uM的DNA序列可以平行计算大约1017的数据量。借助DNA超大数据平行计算容量,DNA计算可以在一秒内完成比现有的超级计算机更多的操作,若结合DNA的平行计算能力和分子识别能力,则可实现精细、智能和复杂的分子计算。
基于以上理论,韩达课题组发展出DNA计算的肿瘤分子诊断技术,步骤如下:
首先利用TCGA数据库中肺癌miRNA表达谱进行机器学习模型训练,获得了一组非小细胞肺癌高度相关的特征miRNA以及对应权重的分类模型;
其次,将血清中微量特征的miRNA通过线性扩增放大到nM数量级;
随后通过成环反应将miRNA序列转换成长链环状DNA;
最后通过DNA计算使之有肺癌或健康一种特征的信号分子被放大并产生报告信号。
相对于传统的技术,基于DNA计算的分子诊断技术拥有强大的并行计算能力和分子识别能力,一旦成熟应用,将是对临床分子诊断是重大的变革。目前仍处于理论完善及科研阶段。
五、其他
除上述提到的应用以外,DNA存储还有更多的想象空间,以下将从这几个应用展开,DNA电子简历、体内DNA存储、DNA记录器、万物DNA。
DNA电子病历
在医学植入物中,患者数据和植入物信息被保存到长期的“DNA电子病历”。当植入物损坏,只需要从植入物中提取保存的信息,即可重新生成独一无二的植入物。植入物一生跟随着病人,不存在档案信息保管不当丢失重要信息无法还原的问题。
体内DNA存储
迄今为止,大多数DNA存储的尝试都是在体外进行的。这主要归功于当前DNA测序和合成技术快速发展,体外存储在通量、操作便利性等方面更有优势。但实际上人类第一次实现DNA存储的概念验证,是将数据编译写入大肠杆菌,也就是说是在细胞内完成的。体外DNA存储依赖于体外DNA合成,通过溶液、干粉或二氧化硅等形式保存,但借助细胞实现体内DNA数据存储可能在合成速度、合成成本方面会更有优势。细胞内DNA存储可以利用生物自身的功能,比如细胞自身DNA复制和校对的机制、细胞能使DNA免受环境干扰的能力等。
细胞体积较大,导致了体内DNA存储密度低于体外DNA存储,但其在体内的特点又有着独特的优势。一方面,有了体内DNA存储技术,未来可以通过人体或者其他生物携带数据,每个生命体都可以成为一个超大容量的移动硬盘。另一方面,某些体内DNA存储的读写是借助基因编辑技术实现的,进一步扩展了基因编辑技术的应用,从农业分子育种、畜牧业繁殖、生物多样性保护、解决人口粮食问题、工业生物合成等。
DNA记录器
体内DNA存储除了可以记录人类创作产生的数据,还可以记录细胞事件和细胞所在的生存环境信息。科学家们已经研究出这种可读写DNA的生物感应器原型,可以在不影响生命体正常运作的前期下,长期跟踪记录分子事件,连续记录细胞活动,以供研究使用。比如:
可以记录肿瘤的发展过程以及环境信息,揭秘肿瘤的形成机制。
改造土壤或水中的细菌,用来检测和记录毒性物质、微量元素等。
用来绘制人类大脑活动图谱。
万物DNA
“万物 DNA”(DNA-of-things)来源于“物联网”,本质是通过3D打印具有DNA编码信息的新型信息介质作为“记忆”的物体。具体来说是将DNA 封装在二氧化硅中,并将含有DNA的二氧化硅封装物料融合在其他材料,并进行3D打印。将3D打印的物体取出进行部分溶解,得到含DNA的微珠材料,通过DNA提取、PCR和测序,即能提取编码信息。
科学家们曾经用3D打印制作了一只兔子(斯坦福兔),并将制作这个兔子所需要立体光刻文件数据写入DNA片段,然后封装在大小为160纳米的二氧化硅小球上,嵌入制作兔子的热塑性聚酯材料中。就像生物可以从组织中提取DNA来克隆“重生”,科学家们从这只兔子耳朵处剪下部分打印材料,从中提取出DNA还原其中存储的数据,并最终完整克隆出一模一样的兔子,实现一代代不断复制。
作者 | 基因慧
编辑丨MN 审核 | 威锋
关键词 | DNA存储
关于《DNA存储蓝皮书》
及下载链接
下载链接
扫码登记
即可下载
感谢欧阳颀院士、元英进院士、杨焕明院士和樊春海院士的指导和作序,感谢华大生命科学研究院、华大智造、国家基因库发起,基因慧策划,生工生物、联川生物、擎科生物、腾讯医疗健康对蓝皮书的大力支持,共同推动生命科技普惠和产业融合发展。
【预告】基因慧的《2022基因行业蓝皮书》预计Q3发布,欢迎地方政府和行业大会合作发布;《2023基因行业蓝皮书》即将启动,欢迎企业预约联合发布限量合作名额。
扩展阅读月
一公斤DNA可存储全球数据是如何做到的?
我们自带祖传的超级“硬盘”
【声明】为了推动基因及数字生命健康科技推广、产业发展及政产学研用连接,基因慧秉持专业、赋能、中立的立场收集、分析及发布相关信息。但由于时效性及行业特殊性,所刊登内容仅供研究参考,未经说明不作为决策依据;本文相关信息不代表基因慧的观点;基因慧平台刊登的原创内容的知识产权为“基因慧”商标拥有者及相关权利人所有;欢迎转载,转载请申请并注明来源。欢迎个人及机构投稿及合作。
关于基因慧
基因慧专注数字生命健康产业知识服务。创始团队深耕行业一线十余年,秉持“使连接产生价值,用数据看见未来”的理念,基于产业智库和专业内容,提供产业规划、行研咨询、科技推广等服务。连续五年发布行业蓝皮书,被国家及省市级产业报告收录,组织多家单位发布行业共识和团标,推动生命科技普惠和产业融合发展。
☆ 国发改《战略性新兴产业发展展望》白皮书执笔
☆ 连续五年发布基因行业蓝皮书
☆ 中国抗癌协会肿瘤标志专业委员会战略合作单位
☆ 中国遗传学会生物产业促进委员会委员
☆ 广东省精准医学应用学会政策研究应用分会常委
☆ 深圳市健康产业发展促进会副会长单位
☆ 参与组织机构发布多项行业共识和团体标准
☆ 组织基因检测联盟(筹)首届、第二届会议
☆ 主办数字健康私董会、大湾区生命健康创新论坛
☆ 受邀为华西、因美纳、华大、上海交大等作报告
▼ 点击 " 阅读原文 ",查看精选文章目录
您的点赞与在看