独家专访华大金鑫:从14万中国人基因大数据开始,拓展生命认知边界
关键词/基因组学大数据研究 文/基因慧
2018年10月10日,华大正式对外发布14万中国人基因组学研究成果(详情),标志着我国迈出百万人群基因大数据研究重要一步,基因大数据成为精准医学时代的核心竞争力之一。基因慧对该研究的共同通讯作者金鑫博士进行了独家深度采访,欢迎留言讨论。
· 低深度、大样本量
· 基因频率数据库对国内科研机构免费开放
· 研究团队具备多样能力
【基因慧】1. 感谢您参与基因慧专访,据报道华大一共对350万孕妇进行基因测序,是什么契机让您的团队开始对其中14万人群体基因组进行分析呢?这14万人选择的标准又是什么呢?
【金鑫】实际上我们没有做任何的选择,将它当作一个自然人群进行研究。我们的这项研究属于样本量比较多,但是每个样本的数据相对比较少的情况,当时想到要做这个研究,也是通过理论上算法推演,认为应该能够进行相关的遗传研究,但是数据计算方面确实存在很多困难,所以从真正的设计开始,到这个文章发表经历了两年的时间。
关于项目使用的数据,实验中样本深度大约0.1X,相对来说非常浅,因为这些数据来源于无创产前基因检测(简称NIPT),NIPT应用于染色体综合征等疾病的检测,由于这些疾病的异常来自于整个染色体水平,只需少量的数据就可以完成检测和分析,因此我们拥有的单个样本数据量不多。通过模拟的数据推算,我们发现把这些数据整合起来后,能够去做更多的事情。
关于实验开始的设计,我们并不是先假设好研究方向,再去找符合这个条件的样本,而是先找到一系列可以用的数据和样本,保证数据在知情同意、伦理隐私等各方面没有问题,可以进行研究,然后我们才从数据中分析得出结论。
【基因慧】2. 这个项目挖掘了中国人群特有基因,并将900万位点信息沉淀为CMDB数据库,请问这个数据库开放程度怎么样,功能上有哪些应用场景?
【金鑫】这次的分析完成之后,所有的数据都存在国家基因库。关于对外开放的情况,我们上线了一个可以对外提供服务的数据库,即炎黄中国人群基因频率数据库,简称CMDB,包含900多万个多态性位点。通过这个数据库可以查询我们在人群中找到的基因多态性位点和对应的在人群中的频率,用户可以查询我们经过分析得到的结果,但是原始数据无法查询,这些是受保护的。该数据库免费对国内研究人员开放,可以通过https://db.cngb.org/cmdb/注册和使用。
图,研究团队主要成员(左起): 刘斯洋博士(第一作者)、徐讯博士(第一通讯作者)、陈芳(共同第一作者)、金鑫博士(共同通讯作者)、黄树嘉博士(共同第一作者)
【基因慧】3. 完成这样一项庞大的实验项目,想必需要测序实验、生物信息、大数据等不同人才跨部门才能完成,听说您的团队很年轻,可否介绍下?
【金鑫】这个团队有很资深的科学家,像徐讯院长,也有比较年轻的成员如刘斯洋博士,虽然很年轻,但是她其实还是受过非常系统的训练,也很有经验。整个这个团队从分工上来讲,比较资深的项目组成员,更多的会去负责项目设计和确定分析的思路。一线的同事主要是在读的和刚毕业的博士生,他们会更多的完成内容分析。
因为要对数据要进行分析,涉及到建立算法,而且基本都是全新的算法,还需要有新的统计模型,以及能够支撑得起相应大数据量的计算能力,最后还要有能力,把分析出来的结果解读成科学的语言,所以我们的团队必须具备这些能力,成员们在能力上形成相互补充。
· 算力、大数据、算法三者相辅相成
· AI是更好的算法
· 各种数据之间的互通非常重要
【基因慧】4. 14余万人的测序数据和分析数据对于数据管理是一个很大的考验,去构建匹配这一海量数据的基础架构,云计算起到了怎样的角色?
【金鑫】云计算起到了补充计算能力的作用,我们的分析主体是在国家基因库完成,但是也有一部分由于计算量特别大,非常耗时,所以通过云计算的方式进行加速,这样能够在更短的时间内完成。需要说明的是,云计算也都是在国内完成的,所有数据都受到严格的保护。完成计算之后,数据又全都回到国家基因库。
因为每个样本的测序深度都相对比较低,现在常用的一些分析软件和工具都不能直接用于我们的数据分析,我们得出的几个主要结论,包括中国人群的基因频率库构建、遗传结构的绘制、基因和疾病之间的关联分析,这些都是通过我们自己新开发的方法去分析得到结论,有些方法是我们自己开发的,有些通过合作开发,但是基本上关键的方法都是我们自己从头设计出来的。
【基因慧】5. 即将在10月下旬召开第三届基因组云计算技术开发者大会(GCTA大会),其中提到了生物智能,您认为在2018年,AI、云和基因大数据会有一个怎样的新的融合点,未来有哪些可以期待的应用场景落地?
【金鑫】云计算以及超算、国家基因库的计算中心等提供的是算力;数据相当于石油;算法是一个加工器,它利用一堆的数据产生新的知识,或者新的内容。这三者肯定是相辅相成的,只有具备算力、优化算法、拥有足够大的数据量,三者在一起才能产生新的价值。
我认为大数据有意思的一个地方在于,我们很难预测它会产生什么样的结论。因为在做研究和分析的时候,我们是没有预期的。不是先假设我们要产生一个什么样的结论,才去收集和分析数据。而是得到数据之后,根据数据去分析各种各样的问题,有可能得出的结论是完全没有想到的,也有可能得出的结论完全没有新意。
AI是更好的算法,同样的数据在更合适的算法助力之下可能更快的得出新的发现。所以我认为在AI和算力的加持下,大数据可以对我们认知边界和理解边界进行拓展,通过大数据研究肯定会得到很多新的认识,这些新的认识反过来会作用于临床应用或者健康人群中的应用,有可能是让检测更加精准,也可能产生全新的应用,现在这些都是未知的,我们希望进一步研究之后能够有更明确的结论。
【基因慧】6. 国内很多医院或者实验室也开展了一些试验,拥有自己的数据库,未来这些数据库有没有可能综合起来呢?
【金鑫】各种数据之间的互通其实是非常重要的,因为数据的维度越多,能做的事情和可能性会越多。从我们的角度出发,有几个方面需要优先考虑。第一个,合规性,所有数据的联动肯定需要有合规作为前提。第二个,可能需要一个好的机制和技术做支持,比如区块链技术,未来可能会通过区块链的方式进行数据授权。第三个,合作精神。如果只是从自己拥有的一点数据去研究肯定比较局限,如果能够在上述前提下合作,将会产生更多的价值。
【基因慧】7. 您作为BGI Online的负责人,近期是否有新的进展?
【金鑫】BGI Online是华大的基因云平台,体现的是对算力的组织能力,并通过云平台的方式输出,友好的提供给数据分析人员,使他们可以便捷的调用成百上千台服务器处理分析任务,是基因大数据时代重要的基础设施。这次14万项目顺利完成也是得益于之前积累的算力组织能力。
今年BGI Online已经累积完成了超过2万个高深度全基因组数据的分析,处理的数据量超过2PB,体现了优秀的性能和效率。我们也会在今年的ICG(第十三届国际基因组学大会)期间推出BGI Online的新版本,性能上会有进一步的提升。
· 有望加速肿瘤早筛
· 与临床专家密切合作
【基因慧】8. 关于这个项目中具有极大价值的NIPT,NIPT帮助了上百万的孕妇及家庭,同时也在不断地演化,对于NIPT发现孕期肿瘤、微缺失微重复等13三体、18三体、21三体之外的应用,目前哪些可以期待1-2年内落地临床呢?
【金鑫】针对13、18、21三体综合征,NIPT技术应该是比较成熟的。但是在这个技术不断发展过程中,尤其是随着数据的不断积累,发现了各种各样其他的异常情况,比如微缺失重复这类出生缺陷,或者孕期肿瘤,这些异常都会在数据中有所体现。如果我们能对这些数据有更深入的了解,以正常人的数据水平为参考,我们就有可能提前发现像孕期肿瘤这种异常情况,这对肿瘤早筛会有很大的帮助。
关于技术的落地,我认为需要和很多临床专家进行密切的交流合作,目前我们的研究成果还是一个非常纯粹的科学研究,它更多的是基础信息和知识数据库。以后在进行其他临床应用时,我们建立的这个数据集或许可以作为一个参照。但是能否发展更快,还需要跟临床的专家一起反复沟通,找到比较清晰的路径。
关于临床应用,这个需要看具体的方向,比如单基因病的诊断,需要看中国人群中是怎样的参照情况,有很好的参照集诊断的准确性就会提高很多,在这方面这次的研究成果马上就能够应用。但是要应用在肿瘤或病原领域,可能就要花更多的时间,所以在不同的方面可能进展速度不同。
· 未来三年内完成百万人基因数据分析
· 初步研究基因数据与药物靶点关系
· 疱疹病毒相关基因与疾病的关系
【基因慧】9. 关于这个项目的下一步进展,是否会有加深深度或者扩大样本量的计划?此外,是否会跟药企合作,将这些海量数据应用到药物研发呢?
【金鑫】接下来我们主要的努力方向是进一步扩大样本量,希望未来三年内能完成100万人的基因数据分析。我们目前掌握的数据主要特征是样本量很大、测序深度比较低,这也是因为目前的临床应用是以无创产前基因检测为主,后续如果有其他基于更高深度测序数据的应用,我们也会考虑使用新的数据展开科学研究。
目前没有与药厂合作,但是我们会去做一些探索,初步研究这些数据跟药物靶点的关系。
图,血浆病毒谱分析
【基因慧】10. 研究还发现疱疹病毒相关的基因,或许可以发现阿茨海默症的疗法,是否还有延续的下一步研究计划呢?
【金鑫】这个结果也是一项意外发现,关于疱疹病毒与阿茨海默症相关的研究在我们投稿的时候还没有发布,但是这两个独立的研究都找到了这个病毒相关的一些特性,我们找到的是感染这个病毒跟人类基因之间的关联,他们则是找到了疱疹病毒和人类疾病的关联。接下来,如果这两个研究成果进行结合或许会有更多可能性,需要下一步深入研究。
· 技术挑战与工程挑战
· 不同领域大数据平台的交流非常重要
· 自主知识产权的基因测序仪
【基因慧】11. 英国日前宣布启动五百万人基因组研究(详情),中国目前如果要展开这种百万级别基因大数据研究的主要困难和挑战会有哪些?
【金鑫】还是有很大挑战,处理如此大量的数据,而且需要一些比较复杂的算法,有些算法还需要重新开发。这其中的困难一个是技术挑战,另一个是工程挑战,技术方面设计这样一套算法存在不小的困难;工程方面,随着样本量的增长其中的困难可能不是线性增长。举例说明,比如1万个人的样本量,两两之间做比较是1万乘1万的矩阵,但是如果10万乘10万或者100万乘100万,增长幅度大很多,解矩阵的困难也会大很多。所以对计算的基础设施和工程方面,会有比较高的要求。
在这方面,国内做互联网大数据的平台也有积累一些基本能力,其他行业积累的经验其中有一些可以应用在基因行业。不同的领域之间的交流非常重要,有些问题可能对我们很难,但是他们可能已经有解决办法;也有些问题可能只有我们能做出这个算法,所以需要增加交流。
另外,自主知识产权的基因测序仪是重中之重,因为这涉及到基因样本数字化的质量、成本和遗传资源的自主权。华大已经推出了多款国产测序仪与试剂,大幅降低了测序成本,数据质量也已经得到了英国生物样本库(UK BioBank)等项目的高度认可。这对我国开展类似的百万级别基因大数据研究也是重大利好。
◆ 炎黄中国人群基因频率数据库CMDB:https://db.cngb.org/cmdb/
◆ Genomic Analyses from Non-invasive Prenatal Testing Reveal Genetic Associations,Patterns of Viral Infections, and Chinese Population History :https://www.cell.com/cell/fulltext/S0092-8674(18)31032-8
编者:Candice 校对:Eric 审核:Mark
扫码参与基因慧读者调研
领取年中报告纸质版
基因慧招聘
新媒体编辑/行业分析员/互联网产品经理
和我们一起:使连接产生价值,用数据预见未来
简历投递邮箱:info@genonet.cn
液体活检企业Guardant上市首日暴涨69%,千亿元蓝海数据为王
▼ 点击阅读原文,领取年中报告