查看原文
其他

【金猿人物展】华大生命科学研究院金鑫:生命信息的数字化,将为人类疾病的防控与治疗带来新希望

金鑫 数据猿 2022-01-07





金鑫

本文由深圳华大生命科学研究院精准健康所所长金鑫撰写并投递参与“数据猿年度金猿策划活动——2021大数据产业趋势人物榜单及奖项”评选。

数据智能产业创新服务媒体

——聚焦数智 · 改变商业



新冠疫情全球肆虐的两年里,核酸检测成为了很多人的日常,疫苗和特效药的研发进展也牵动着每个人的心,支撑这一系列科技抗疫工作的核心,是生命信息的数字化。

最早确定新冠病毒是此次疫情的“元凶”,并比较其与其它病毒的异同,所依托的就是病毒基因序列的数字化,在此基础上开发出了特异性的核酸检测与新型的mRNA疫苗,并实现了病毒新变种的监测。再如,解析病毒侵入人体细胞的机制,所参照的主要是病毒蛋白结构的数字化,在此基础上开发出了靶向新冠病毒的抗体等多种药物,为重症患者的治疗带来了希望。

如此种种,一场疫情,让生命大数据从象牙塔里走到了聚光灯下。

基因是生命信息的载体


生命信息的主要载体是基因。基因数据代代相传,大到人类,小到病毒,把自己的基因传递下去,是每一个个体、每一个物种的本能。而基因数据有以下特点:

1、数据量大。一个人的基因组大小约为30亿对碱基(30Gb, Giga base),即30亿对ATCG的排列组成。为提高精确度需要进行约30倍的冗余检测,完成一份高质量的完整个人基因组将产生约100Gb的数据。按此测算,每一万人的全基因组数据总量高达1Pb。全世界所有人的基因数据加起来将是天文数字。新冠病毒基因组大小只有约为3万碱基(30Kb, Kilo base),但在每个宿主体内都会大量自我复制,随着病毒的广泛传播,全世界新冠病毒的基因数据加起来也是天文数字。

2、时空特异性。基因是与生俱来的,通常情况下不会发生明显变化,但因衰老、疾病、病原感染等原因,在肿瘤早筛、出生缺陷防控等很多领域,生命信息存在一定的时空特异性,需要根据临床应用场景进行多次测定(被48小时核酸支配的恐惧)。同时,生命信息除了DNA还包含RNA、蛋白质等时空特异性更强的生命分子,进一步丰富了生命大数据的内涵和价值。

3、读取需要专门的工具——基因测序仪。这是生命科学领域的“根技术”之一,目前全球只有两个国家、三个公司可以量产临床级别测序仪,华大智造是中国唯一。基因测序技术自主可控使得测序成本以超摩尔定律的速度飞速下降,显著降低了生命数字化的成本,这为基因科技人人可及奠定了成本基础。

4、数据来源丰富。除人类外,地球上已知的动物大约有150万种,自然界中已知的植物约有37万种,微生物的总数约在50万至600万,其中已记载的只有约20万种,这些都是基因数据的丰富来源。华大研究院启动的数字化地球EBP计划,就是希望将尽可能多的生物样本进行数字化保存,帮助我们更好的认识地球上的万千物种,也帮我们尽早识别和防范类似新冠这样潜在威胁人类健康的病原生物。

生命数字化的应用场景


随着近年来的快速发展,生命数字化已不仅仅是实验室里阳春白雪的尖端技术,逐步探索出了其独特的应用场景:

1、与生俱来的生命信息。我们每个人的基因都来自父母的遗传,但如果在传递和复制的过程中出现偏差,就有可能导致出生缺陷。比如21号染色体由正常的二倍体变为三倍体,就会导致“唐氏综合征”。目前基因科技已可以在孕期通过母亲外周血检测胎儿染色体数目是否异常,提早提示相关疾病的风险。

2、与时俱变的生命信息。由于衰老、疾病等原因,尤其是细胞的癌变会表现为基因特征的大幅变化,比如拷贝数据的变化、特定基因的融合或者抑癌基因的突变等。科学家利用其中一些特征,开发了可以靶向这一类基因突变的药物,即大家常听说的“靶向药”。要让这类药物发挥最佳的作用,首先需要确认目标靶点是否存在,基因检测技术就发挥了重要的作用。另外,肿瘤基因的一系列特征也使得肿瘤的早筛成为可能,目前国内外有众多科技团队和公司正在进行相应的攻关。


图为:华大数极 CTO汪宇盈博士

3、外来入侵的生命信息。新冠疫情防控中大家最常接触到的核酸检测,测定的就是新冠病毒的特征基因序列。类似新冠这样的病原微生物对人体来说就是外来入侵基因。一方面,依托基因科技我们的检测能力得以加强,可以快速的确定未知病原体究竟是什么;另一方面,根据所确认的病原耐药性等特征,可以针对性的用药,挽救患者生命。

总结思考与趋势展望


著名学术杂志Science公布的 2021 年度10大科学突破榜单中,生命科学相关进展占据7席,黄铮、张一鸣、陈天桥、李彦宏等多位产业界大佬也纷纷表示出对生命科学及相关产业的浓厚兴趣,这些似乎都预示着生命科学与产业新一波浪潮的临近。但生命科学有其本身的特点与规律,我本人对于生命信息大数据的发展趋势有以下几个判断:

1、安全保障持续加强。生命信息数据对于个体健康和深入理解疾病与生命底层机制意义重大,但同时也与个人隐私和生物安全等息息相关,基因数据的安全与隐私保护相关研究势在必行。确保生命信息大数据的安全主要从法律法规、伦理规范和技术手段等多个层面共同保驾护航,我国已相继颁布了《中华人民共和国人类遗传资源管理条例》和《中华人民共和国生物安全法》,为合理合规利用基因数据划定了安全底线,随着生命信息大数据的快速积累,相关保护会持续加强。

2、应用场景不断拓宽。生命信息的“读”,即数字化,已经在生育健康、肿瘤防控、病原监测等方面发挥了重要作用。在此基础上,生命信息的“写”,即合成与编辑,将为疾病的防控与治疗带来新的希望。如使用基因编辑治疗地中海贫血等以前没有治疗办法的遗传疾病,合成mRNA疫苗用于防控感染和肿瘤等。由于生命信息的时空特异性,为了更深入的解析生命底层规律,也需要更好的生物样本与数据“存”方案,如深低温自动化样本库等,为人类未来积累宝贵的生命资本。

3、跨界合作不断深入。经典的生命信息大数据处理和相关算法以统计学为主,但随着数据总量越来越多,数据模态与维度不断增加,要解决的问题越来越复杂,经典算法遇到的困难越来越大,异构计算、云计算与人工智能技术在生命科学领域有巨大潜力。2021十大科技进展之一的蛋白结构智能预测算法AlphaFold就是例证。相信也会有更多跨界人才进入生命科学领域,推动不同领域的融合与发展。

4、战胜疫情未来可期。从监测病毒变异到疫苗快速研发,生命科学在抗击疫情方面的表现令人瞩目,特效药物的研发成功,也让我们更加期待全面战胜疫情那一天的到来。疫情也是生命科学最好的科普,从遥远神秘到人人可及,每个人都能掌控自己的生命信息数据,并以此为基础进行个人健康管理的那一天也有望在可预见的未来实现。

关于金鑫:

研究员,博士生导师,深圳华大生命科学研究院精准健康所所长,大人群大数据方向主任科学家,贵州生命大数据研究院院长,基因组学与生物信息学专家。曾获评广东省自然科学杰出青年基金,广东“特支计划”青年拔尖人才及深圳市自然科学二等奖。

曾参与一系列重大科研项目的攻坚,包括国际千人基因组计划、中丹糖尿病基因组计划、人类泛基因组图谱计划、高原基因组计划及自闭症基因组计划等。已经累计在 Cell、Nature、Science 等杂志发表论文50余篇。研究工作曾获得 Science 杂志题为 South China: Arising power in science 的报道,目前专注于生命信息大数据的研究与应用。

【相关阅读】数据猿专访贵州华大基因总经理靳大卫:以火眼实验室为“根据地”,我们要打造数字化抗疫新标杆


《2021企业数智化转型升级服务全景图/产业图谱1.0版》

《2021中国数据智能产业图谱3.0升级版》

《2021中国企业数智化转型升级发展研究报告》

《2021中国数据智能产业发展研究报告》

❷ 创新服务企业榜 

❸ 创新服务产品榜

❸ 最具投资价值榜 

❺ 创新技术突破榜

条漫:《看过大佬们发的朋友圈之后,我相信:明天会更好!》


联系数据猿

北京区负责人:Summer

电话:18500447861(微信)

邮箱:summer@datayuan.cn

全国区负责人:Yaphet

电话:18600591561(微信)

邮箱:yaphet@datayuan.cn

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存