为什么说基因大数据是生命健康新基建丨行研报告节选
数字生命健康产业创新服务
基因慧
【导语】新基建围绕数字技术进行融合创新和应用,那么生命健康新基建是什么?BT和IT的融合有哪些逻辑和应用场景?基因大数据本质是什么?本篇节选自《基因大数据智能生产及分析行研报告》。由陈润生院士、方向东老师指导,基因慧与诺禾致源、华大智造、华为和智因东方联合发布支持。点击阅读原文申请大数据报告。《细胞和基因治疗行研报告》和《2021年基因行业蓝皮书》战略合作进行中。
编辑 | 罗湘 关键词 | 基因大数据 新基建新型基础设施(简称“新基建”,下同)的概念第一次出现是在2015年《国务院关于积极推进“互联网+”行动的指导意见》中。从2018年开始,新基建被频繁提及。2020年4月在国务院常务会议中被正式定义。
根据2020年4月的国务院常务会议,新基建主要包括3个方面:信息基础设施;融合基础设施;创新基础设施。具体内涵见下图。
图:新基建内涵
(来源/《基因大数据智能生产及分析行研报告》)
在2020全球经济下行压力、疫情等社会和自然不稳定因素冲击下,“新基建”的投资与建设作为逆周期调节的重要手段,为创新驱动的战略性新兴产业打下坚实的政策支持基础。
4月1日,习近平总书记在浙江考察时强调:“要抓住产业数字化、数字产业化赋予的机遇,加快5G网络、数据中心等新型基础设施建设,抓紧布局数字经济、生命健康、新材料等战略性新兴产业、未来产业,大力推进科技创新,着力壮大新增长点、形成发展新动能。”
云上火神山医院、5G网络云监工、核酸检测自动化、“火眼实验室”等成功应用,充分显现了5G、大数据、云计算、人工智能等技术在对抗疫情的过程中发挥的作用。“新基建”的数字技术融合生命健康大数据,构建生命健康新基建,可以通过引入新生产力改变生产方式与生产关系,提高生产效率。
(更多精彩内容,请点击文末“阅读原文”或关注“基因慧公众号”从菜单栏申请《基因大数据智能生产及分析行研报告》)
图:全国各层级医疗卫生机构数及相应服务量
(来源/基因慧)
生命健康新基建的外部条件,主要是指医疗与公共卫生机构的基础设施建设。我国医疗卫生机构数量和医疗卫生机构服务量不同层级的医疗机构发展极为不均衡,占比95%的基层医疗机构提供的医疗服务还不到整体服务量的一半,基层医疗卫生机构利用率有待提高。5G、大数据、云计算、人工智能等新基建,将从技术体系上改善不同地区、不同层级的医疗卫生机构资源配置效率问题。
2020年全国“两会”和连续数年的政府工作报告中,医疗新基建相关内容不断被提及。2020年4月,国务院联防联控机制明确三级综合医院均应当建立符合生物安全二级及以上标准的临床检验实验室,独立开展新型冠状病毒检测。这需要结合传统的临床检验环境、基因检测技术、生物信息和数据中心等数字技术,实现快速检测和布局基层公共卫生服务网络等。
图:中心法则(图源/基因慧)
生命健康新基建的内涵,主要围绕着生命全周期的中心法则。DNA形成基因组,RNA构成转录组,结合蛋白组、代谢组、微生物组等构成生命组学。
基因慧认为,生命健康新基建的内容是,以基因大数据为核心,构建生命组学,结合医疗健康信息化和真实世界大数据,借助人工智能/区块链/5G等数字技术,实现实时、全景、全生命周期的数字生命健康大数据,服务临床诊断、健康管理、公共卫生监测、司法安全、数据存储等领域,赋能基础研究、新兴技术转化应用和产业升级。
图:生命健康基础设施(来源/基因慧)
从生命内源的需求出发,生命健康新基建的应用方向包括疾病预防、临床诊疗、新药研发,公共卫生监测以及健康管理等领域。在基于生物大分子标记物的疾病分型和精准医疗的理念和实践不断成熟的现状下,生命健康基础设施需包括生命健康数字化信息的采集、数据生产、分析、解读与转化应用等环节,基于大数据实现大规模人群的精准医疗和全生命周期管理。
基因数据与医疗健康强相关、极具大数据特点且能大规模转化应用。一方面,基因大数据自身具备生命健康新基建的属性。另一方面,基因大数据是新基建中针对众多数字技术(云计算、人工智能、5G、区块链等)最具价值的输入之一。
基因大数据指的是基于测序、PCR(聚合酶链式反应)、基因芯片、光学图谱等获得的大规模、具有数据挖掘应用价值的多样本基因数据信息。基因慧认为,基因大数据本质是生命数字化的基础信息,包括核心的先天遗传信息以及后天随环境改变的基因变异信息,是生物个体及群体的身份识别、疾病健康生物标记以及生命组装等方面的基本要素。
图:基因大数据示例(以pan-genome结构为例)
(来源/DOI: 10.1093/bib/bbw089)
在数字经济成为新经济“稳定器”的现状下,大数据作为新的生产要素,是数字经济的核心。基因大数据作为精准医学和全生命周期管理的核心生产资料,能优化甚至革新生产关系,提高生产力,助力产业发展并提高全民健康水平。
在基因领域,基因大数据是最基本的生产要素,与其相关的基础设施不仅包括从采样、样本制备(含样本提取、建库、质控等)、到测序(或其他技术)的基因数据生产流程所需的设备试剂盒耗材及软件平台等生物技术基础设施,还包括基因数据的存储、传输、计算、分析及挖掘过程中所需要的信息基础设施。
图:基因大数据生产及分析流程
(来源/基因慧)
基因数据的生产具体过程包括样本采集、文库制备、测序(或基于其他技术的基因读取过程)。主要的衡量指标包括周期(Turnaround Time,即TAT)、价格(可及性)、有效性等。
图:基因大数据生产及分析流程(以基于NGS数据的遗传病分析为例)
(来源/《中华医学遗传学杂志》)
基因数据的处理和分析,通常称之为“生物信息分析”,主要过程是基于项目要求、数据特征、分子遗传理论和数学算法等编写计算机程序和流程,将测序获得的碱基序列通过比对、筛选、注释等一系列过程转换为生物信息的过程。
根据2019年5月在上海召开第二届基因检测联盟会议,形成了《遗传病二代测序临床检测全流程规范化共识探讨》,其中谈到,以遗传病基因检测为例的生物信息学分析流程,主要包括数据过滤、序列比对、变异检测、变异注释和相关质控统计等步骤。
目前基因大数据生产及分析已正在步入整合化、智能化和规模化,基于人口级数以十万、百万的样本数量以及可承担的成本,普惠到民生、遗传病诊断、新药研发、分子育种、司法鉴定等。
但仍在较多重难点,在基因慧联合诺禾、华大、华为、智因等发布的《基因大数据智能生产及分析行研报告》中提到四大重难点,分别是:
1. 业务整合难度高,探索高附加值服务
2. 大数据行业相关标准不完整
3. 基因大数据易形成信息孤岛,需与表型及临床信息结合
4. 数据共享的刚需与隐私及安全问题的平衡
(更多精彩内容,请点击文末“阅读原文”或关注“基因慧公众号”从菜单栏申请《基因大数据智能生产及分析行研报告》)
上期福利活动中奖读者名单
▽
感谢所有参与基因大数据行研报告首发文章留言讨论的读者,以下是获赠126页纸质版《基因大数据智能生产及分析行研报告》和103页纸质版《2020基因行业报告》的读者留言。
图:获赠大数据报告的读者
图:获赠2020基因行业报告的读者
今天基因慧将联系以上读者朋友,请留意查收信息。赠书活动还会继续,敬请关注。
推荐阅读月
最新《细胞和基因治疗行研报告》 招商冠名合作进行中
【声明】为传播科学信息,推动基因及数字生命健康产学研连接,我们秉持中立、专业、赋能的理念收集、分析或发布信息。但由于时效性及行业特殊性,所刊登内容仅供研究参考,不作为决策依据;本文相关信息不代表基因慧机构的观点;“基因慧”刊登的原创内容的知识产权为“基因慧”商标拥有者及相关权利人所有;欢迎转载,转载请申请并注明来源。欢迎个人及机构投稿及合作。
关于基因慧
基因慧是数字生命健康领域创新服务平台。团队深耕行业十余年,从行研咨询、媒体资讯、产业数据库等方面提供优质内容服务。基因慧作为国发改产业研究合作单位,联合多家专业机构发布了多份基因及数字生命健康领域行研报告,参与组织发布了两份行业共识和一项团体标准,致力于建设产业信息大数据平台,服务生命科技创新创业。
☆ 发布产业大数据平台优脉通YourMap
☆ 中国遗传学会生物产业促进委员会委员
☆ 发布数十份基因及数字生命健康领域行研报告
☆ 主办数字健康私董会、大湾区生命健康创新论坛
☆ 广东省精准医学应用学会政策研究应用分会常务委员
▼ 点击“阅读原文”,申请基因大数据行研报告