查看原文
其他

专访华大智造蒋慧博士、单日强先生:硬件软件双重核心工具助力大人群基因组研究

测序中国 2022-11-14
自人类基因组计划启动至今,20多年以来,新的基因组研究不断涌现,大人群基因组研究逐步实现从0到1的跨越。随着基因测序技术的高速发展,多国研究者陆续开启了大规模人群研究,持续挖掘“从个体到人群”“从序列到序列”的奥秘,多维度解读与人类健康相关的遗传问题。

大人群基因组研究完成周期长,其中各个环节都充满了挑战,例如样本多组学表型数据的标准化收集、样本高质量长期存储、测序数据的高质量低成本产出、海量数据的计算存储及挖掘、数据安全共享等多个问题横亘在研究者面前。为了更好的探索人体奥秘,生物技术和信息技术(BT+IT)的跨界组合应运而生,引领了新的生命科学发展模式。那么在大人群基因组研究中,BT+IT应用前景如何?对测序硬件、分析软件提出了哪些挑战?我国国产平台又可以提供怎样的核心工具?

为此,测序中国特邀华大智造首席运营官蒋慧博士、华大智造首席信息官单日强先生接受专访,深度解读大人群基因组研究所面临的挑战,并就华大智造硬件软件双重核心工具在大队列研究的应用进行了深度分享。




蒋慧

华大智造 首席运营官

博士、研究员。长期从事基因组学实验技术及人类健康应用开发工作,参与炎黄基因组计划、千人基因组计划、国产基因测序仪及配套试剂的研制等重大项目。已发表SCI论文110余篇,获国内外授权专利147件。曾获湖北省科技进步二等奖、深圳市科技进步二等奖、2019年广东省博士博士后“三百行动” 100位博士博士后创新人物等荣誉。






单日强华大智造 首席信息官美国加州大学伯克利分校哈斯商学院工商管理硕士,现任华大智造CIO。曾先后在IBM、北方电信、东软、凯易讯等公司担任高级管理岗位,具有丰富的跨国,跨文化的高水准产品体系战略和商业战略管理经验,带领管理国际化团队超过二十年;作为行业领军牵头人,先后在国际、国内会议上发表多篇学术论文,并获得过十多项专利;作为项目课题负责人,先后承担国家发改委、科技部等多个国家及地方计划项目,并获得省市级科学进步奖。


“大人群基因组研究使我们对群体的遗传信息有了全面了解,进而分析疾病发生机理,将极大地推动对于重大疾病的预测预防。”蒋慧博士表示。但是,大规模的群体多组学在开展过程中也面临诸多挑战,其中之一就在于应对大规模样本采集、保存、数据产出和数据存储分析的平台建设。

蒋慧博士谈到,华大智造针对这一挑战,研制了“存、读、算、用”一体化平台建设方案,可提供多重硬件和软件支持,真正解决大规模多组学数据产出的工具卡点

图:大人群基因组学之核心工具 —— 存读算用


硬件创新:不断迭代升级,开创智能化“测序工厂”


蒋慧博士采访视频


面对大人群基因组研究中海量样本的存储需求,特别是涉及生物安全、数据安全方面的自动化样本存储需求,华大智造推出MGICLab-LT系列超低温自动化生物样本库,可实现超低温大规模保藏(五十万至百万级存量),并可根据实际需求灵活定制化,提供全自动高效存取,保证样本的信息智能化与稳定安全。



“读”作为基因大数据产出的关键底层技术,其测序深度、测序质量以及检测灵敏度至关重要。如何高效、准确、低成本的获取基因信息,是测序工具发展的方向,也是大人群基因组研究得以开展的重要技术支撑。蒋慧博士表示:“华大智造拥有自主可控的源头性核心技术体系,其中DNBSEQ™是华大智造独有的核心技术,并且已经顺利‘解锁’美英两大市场。” DNBSEQ™以固定单链DNA为模板进行滚环扩增与复制,测序准确度高、重复错误率低、标签跳跃度小,可实现高效准确的大规模并行测序。2021年,生物分子资源设施协会(ARBF)多平台比较文章分析发现DNBSEQ™测序仪对比具有最低的测序错误率。
基于DNBSEQ™这一核心技术,华大智造测序仪布局已实现高中低通量全覆盖,并以高数据产出量推动着大人群队列研究和国家基因组项目的数据产出。2018年,DNBSEQ-T7推出后成为当时测序通量最高的测序仪,可实现一天60人全基因组数据的快速产出,更可将高深度WGS测序成本降低至500美元以下,成为万人基因组实验室的首选。2020年,大人群基因组一站式技术平台DNBSEQ-Tx上市。被称为“测序工厂”的DNBSEQ-Tx定制化超高通量测序系统,搭配MGIGLab-L全自动文库制备生产线可年产至少50000个高深度WGS,并实现样本到报告全程自动化以及后续数据全流程监控,是目前测序通量最高的平台,助力实现百万人基因组数据产出。其中,华大智造设计研发的MGIGLab-L全自动文库制备生产线,可通过全自动机器人整合不同功能仪器,真正实现了高通量测序文库制备全流程自动化,大大提升了测序效率。
蒋慧博士强调:“华大智造核心工具的快速持续迭代研发是为了更好地推动应用拓展。我们也非常期待这些工具被应用于更多实验室中,特别是助力大规模数据产出以解析生命奥秘。”基于华大智造DNBSEQ™测序平台,上海交通大学医学院附属瑞金医院启动的ChinaMAP(中国代谢解析计划)发表了最大规模中国人群全基因组测序和表型研究成果;此外,哈尔滨工业大学牵头启动的中国十万人基因组计划,也将构建更加完善的中国人群多组学参比数据库;四川大学华西医院罕见病研究院开展的十万罕见病队列研究,将全面解析多种罕见病致病机理。这些人群队列研究和疾病队列研究让我们的工具真正有了用武之地,助力健康中国目标的实现。我们同样也在积极推动全球的科研合作,华大智造测序仪也已参与多个国家基因组项目,包括阿联酋基因组、泰国基因组以及最近的印度尼西亚基因组项目等,这些国家基因组学项目的实施也必将推动全球医疗健康水平整体提升。

软件赋能:提升基因数据管理能力,搭建高效化“生态系统”


单日强先生采访视频
测序成本的持续降低,助推“人人基因组时代”的到来。据悉,基于DNBSEQ™测序平台的研究已累计产出基因组数据100Pb。同时,大人群基因组的海量数据信息给BT与IT融合带来了一系列挑战,包括数据存储分析、隐私保护、数据共享、多组学数据融合、实验室管理数智化转型等。单日强先生从“算”和“用”两个方面分享了华大智造在基因数据管理软件开发中作出的努力。


要实现大人群基因组的计算、存储及管理,需要提供高性价比、高密度和高扩展的技术和产品。单日强先生谈到,华大智造自主研发了ZTRON系列产品,其中ZBOLT/ZBOLT Pro生信分析加速器,采取多流水线并行的计算架构,较传统分析方式加速300倍以上,其分析能力可达每年17000/70000 WGS,日通量近似5TB/20TB。DNBSEQ-T7平台每run产生60套WGS数据,ZBOLT Pro分析仅需半天,是目前世界上密度最高、算力最强的生信分析加速器。另外,华大智造自主研发业界领先的基因数据压缩算法可实现7到10倍的无损压缩
单日强先生强调:“针对万级、十万级和百万级大人群海量数据,通过融合ZBOLT生信分析加速器、高性能数据管理系统、自动化资源调度平台,华大智造提供了一站式ZTRON基因数据中心一体机,最大化降低成本,全面加速基因组数据的处理能力。特别地,ZTRON基因数据中心一体机获得了全球范围内最为严苛的欧盟Europrise认证,符合GDPR要求。”



生命数据管理和隐私安全共享是当下基因大数据面临的重大挑战之一,面临着个人数据追溯难、安全防护难、信息孤岛共享难等技术痛点。目前,世界各国已相继出台了相关的个人数据隐私保护法案和法规,例如欧洲的GDPR,美国的HHIPA以及国内的《数据安全法》、《个人信息保护法》等等。

关于数据安全隐私保护,单日强先生表示:“基因组数据相关产品需要遵循Privacy  by  Design的规则和制度,即从设计开始就要保障隐私安全,包括数据如何进行安全高效的算、存、加密等,以及如何安全高效的传输和应用管理。其次,区块链技术具有不可篡改、可追溯的优势。去中心化使得核心的个人数据、基因数据可访问,并且可知可追溯,但不可篡改。此外,基于区块链技术,通过隐私计算和联邦学习,可以在不贡献个人数据的前提下,将加密的结果反馈到最终受用方。”目前,华大智造已经基于以上三点完成了产品研发落地,全面保护客户数据隐私安全。对于数据共享,华大智造自研TrustGWAS隐私计算分析技术,可支持多中心联合计算,在全球率先实现全流程支持十万样本百万位点全基因组关联分析的隐私计算分析工具。
单日强先生介绍,基于华大智造ZTRON基因数据中心,深圳华大生命科学研究院10天完成了万人的测序数据分析;合作亚太最大规模国别基因组(阿拉伯联合酋长国),提供测序仪+整套基因数据中心,样本测序量达20万+,整体效率提升30%;开展全自动化生产线实验室,降低成本,提升产能,帮助国内上市公司客户达到管理提升目标,实现百万基因测序实验室自动化;服务华西医院罕见病研究院,提高数据产出、数据计算、数据交付、数据治理的能力。
华大智造围绕“存、读、算、用”,在各个环节提供自主可控的软件和硬件,协助客户提高基因测序效率、降低出错成本,提升自动化和智能化,实现大人群基因组研究全流程管理。
值得关注的是,大人群基因组研究除了对“存读算用”相关软件和硬件的创新发展提出了高要求,也使实验室管理迎来了新的发展机遇,逐步走向数字化智能化。为此,华大智造提出了建立ZLIMS四层实验室管理架构,涵盖环境管理、设备管理、应用管理和数据管理,提供实验室从样本到实验结果的全流程全周期管理,已成功应用于百万样本规模测序实验室生产管理工作中。

图:大人群基因测序全流程管理


 结 语 


生命科学已经进入了基因大数据时代。大人群基因组学研究在慢病、肿瘤和遗传病的预防、诊断和新药研发中发挥重要作用,推动精准医疗与健康管理的变革。但大人群基因组研究的样本多、周期长,项目复杂,数据量多,需要硬件软件核心工具的强力支撑。华大智造全力打造的全套生命数字化核心工具,可助力大人群数据队列的高效研究。我们也期待未来有更多科研成果落地临床应用的转化,助力全民健康事业的发展。

·END ·

热文推荐


专访袁慧军教授、吴息凤教授:从基因组大数据到人类健康全周期管理

Nature | 基于空间分辨转录组学分析良、恶性组织拷贝数状态,揭示全基因组CNV的独特克隆模式

Genome Biology | 伯晓晨/何松/张仲楠团队评估16种基于深度学习的癌症多组学数据融合算法

NEJM | 神速!基于纳米孔测序的产前检测方法可2小时内快速鉴定胎儿染色体异常


喜欢就点个“在看”吧

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存