查看原文
其他

更新 | 方向东教授:规范生命组学大数据推动精准医疗发展 | 《大咖论健》32期

2017-08-18 基因慧 基因慧Pro



关键词生命大数据  精准医疗 大数据中心  

AI 人群队列 生物样本库

建议用时:7分钟


注:此篇《大咖论健》是旧文重发


《大咖论健》总第32期方向东教授



(图1:方向东教授,经作者授权发布)



随着全球精准医学的产业研浪潮到来,“健康中国 2030” 纲要落地,2017年精准医疗迎来高速发展和行业整合。因此,基因慧主办《大咖论健》,聚集科研、临床、产业、资本、政策等领域代表人物参与行业大探讨。欢迎参与。感谢健康界媒体支持。


往期内容


1. 黄尚志、丁洁、王艺、沈亦平等12位临床大咖

2. 尹烨、孙洪业、熊磊、阎海等12位产业大咖

3. 南京总医院李宁主任:肠道微生态疗法

4. Illumina总经理赵瑞林:建立更成熟的生态圈

5. 华西医院魏于全院士:癌症的生物治疗

更多详情见文末。




规范生命大数据推动精准医疗发展

作者:方向东教授/中科院基因组所

编者:基因慧

本期简介


  • 生物医学大数据标准化建设、隐私安全

  • 我国生命大数据的局限和BIGD介绍

  • 生命大数据挖掘的挑战和人工智能

  • 人群队列研究和基础健康数据库的建立

  • 生物样本库规范化标准的建立



前言经历:从药物研发到生命大数据


感谢基因慧的邀请。希望借助基因慧的平台,在这里我想和大家分享一下我对精准医学的一些粗浅看法。我1992年毕业于第一军医大学(现南方医科大学)的六年制临床医学本科专业;1995年,获得免疫学硕士学位;1999年,获得人体解剖学和组织胚胎学博士学位。两个研究生课题都是在中科院上海生物化学研究所分子生物学国家重点实验室戚正武院士实验室完成的。在2000年5月出国之前,主要从事基因工程多肽类药物的研制与开发工作,获得过国家1项新药证书 (rhG-CSF)和多项国家专利。


2000-2008年,在美国华盛顿大学医学院医学遗传系和基因组学系,主要从事血液分化发育的表观遗传调控工作。2009年1月起,受聘为中国科学院北京基因组研究所“百人计划”研究员,获得中科院“引进国外杰出人才”择优支持。目前,主要利用基于高通量测序平台的多组学技术,以干细胞和血液病、恶性肿瘤为主要研究对象,在DNA、RNA、蛋白质以及染色质等不同调控层次上筛选与细胞发育和分化、以及肿瘤发生和转移等相关的关键分子标记、信号通路和调控网络,为临床制定更加高效、特异的分子干预策略、并开展其规范化研究提供理论基础和实验依据。基于长期基础医学的科研工作经历,我对转化医学研究具有浓厚的兴趣,也非常希望有机会将实验室的研究成果更多地应用到临床防诊治等医疗实践当中。而精准医学,是以多组学大数据为基础,结合患者临床医疗与健康数据,开展精准的疾病分类及诊断、实现个性化的疾病预防和治疗的全新研究模式,对于实现我们的工作目标,是一个非常好的切入点。


希望借此机会,与更多不同领域的专家学者共同探讨我国精准医疗发展的一些热点问题。我将从以下五个方面谈起。


(图2:方向东教授,经作者授权发布)



1没有规范的大数据谈不上精准医疗


随着近年来互联网的快速发展,各种文字、音频、图片、表格、视频等信息大量涌现。这些信息通常有数量大、形式复杂,经过专业化处理后能够产生更有价值的信息,具备这些特征的海量信息,都可以称之为大数据。人类已经进入了大数据时代。在这个时代,人类的任何行为、生理变化等的信息都已经成为了可用于分析和记录的数据,人类的医疗保健、疾病预防及用药治疗等将更加个体化与精准化。没有大数据谈不上精准医学。


精准医学大数据主要是指来源于临床样本的生命组学大数据与医疗大数据,这里的生命组学范围不应限于已知的基因组、转录组、表管组、蛋白组、代谢组等不同类型的数据,其范围应该更广,比如还应包括免疫组、营养基因组,甚至微生物组等不同形式、不同层次的组学数据。这些生命组学数据都与人类健康/疾病密切相关。目前,各种生命组学数据是生物医学领域增长最快的数据类型,这主要得益于测序成本的大幅度降低,世界各国对精准医疗计划的推进,以及人类自身健康保健意识的空前提高。


同时,医疗领域每天也都在产生大量的临床生化、组织病理、诊断影像图像等的分析结果,以及临床决策中的诊断用药建议、文本文档、电子录音等多种数据。这些数据中无不蕴含着特定疾病的大量信息,精准医疗需要这些信息。获得的生命组学数据越全面,我们就越能对疾病的发生与发展等过程有更深入的了解。比如,通过对基因组数据的分析,我们可以在全基因组水平上获得全部的基因突变信息,其中可能会有某种疾病重要标志性基因突变的信息,但是这一信息可能还非常片面。


这时,如果结合转录组及蛋白质组数据进一步分析该基因及编码蛋白表达水平是否异常,或者结合该基因或编码蛋白参与并影响的代谢途径,通过代谢组数据分析特定代谢产物的含量是否异常变化等,我们就能进一步获得更全面的信息。然后,再对比受试者临床影像、组织活检、病历文档等的医疗数据,并结合以往报道的针对特定基因突变位点或异常表达基因/蛋白的相应药物,可在很大程度上指导用药。


当然,在实际临床实践中,还要具体问题具体分析。这可能还受限于以下三个方面:

  • 第一,以往报道的针对不同基因突变的药物,在疗效上不同地域、种族、性别等可能存在很大差异;

  • 第二,当前,还不是所有异常的组学表现(比如基因突变)都有对应的药物;

  • 第三,只有更加科学地处理与整合组学数据,才能获得更加真实可信的临床指导信息,当然要做到这一点我们还有很长的路要走。


我国是数据产出大国。就生命组学数据而言,我国的测序能力已经稳居世界前列。全球每年产生的生物数据总量高达EB 级,其中多于1/3是中国科学家贡献的。当前,精准医学大数据处理和利用的标准化技术体系建设,是我国精准医疗正在解决的问题,其涵盖了包括多组学数据、临床功能组学及疾病表型数据的标准化体系构建、精准医学大数据整合与管理分析的标准化体系构建,以及精准医学大数据标准体系示范应用与评价等几个方面。


由中科院北京基因组研究所牵头的“精准医学”重点研发计划“精准医学大数据处理和利用的标准化技术体系建设”已于去年年底启动。该项目联合了包括中科院生物物理研究所、复旦大学、浙江大学、国家卫计委统计信息中心、北京蛋白质组研究中心、中科院微生物研究所、中科院上海生命科学研究院、北京大学人民医院、中南大学等10家单位参加。


生物医学大数据是实现精准医学的基础,而大数据是否能得到有效处理和充分利用的关键则依赖于标准化体系的建设,因此该项目是整个精准医学重点专项中十分重要的一环。项目任务设置不仅充分考虑了团队的优势互补和课题之间的有机联系,同时也高度兼容3.1.1共享技术平台和3.2.1精准医学知识库等精准医学重点专项项目之间的数据标准,以期实现真正意义上的精准医学“互联、互通、互操作”的标准化体系构建。当前该项目正按计划有序推进。


高质量的精准医疗大数据还体现在数据隐私与信息安全方面。实际操作中,要制定精准医学数据隐私保护与安全的管理规范,开发临床与组学数据脱敏与加密软件,针对不同层面的隐私保护要求设计隐私保护框架,有效规避数据处理与利用过程中涉及的用户安全隐私泄漏风险,开展医学数据分类分级管理与安全防护策略,形成精准医学大数据体系规范化的应用安全体系。


我们的个人信息,例如姓名、年龄、健康状况、家庭背景、联络方式等等都是个人隐私。在采集后可通过物理隔离、模糊和隐匿等方式防止隐私被泄露的问题。另外,数据采集必须通过合法途径告知当事人并得到授权,以保证当事人隐私不被侵犯。譬如:受检者的疾病风险被保险从业人员不合理采用;用人单位以健康隐患为由不公平对待员工等等。


(图3:方向东教授,经作者授权发布)



2中国的精准医疗需要自主的大数据中心


谈到大数据,一个重要问题不能回避,那就是数据存储。当前,我国生命组学数据大多存储分散、标准不规范、共享和利用效率低,以及生命组学和医疗数据尚未形成体系等问题比较突出。我国科技工作者发表文章需要的生命组学数据大都提交给了美国NCBI等数据中心或机构。不仅要交发表文章的版面费,就连数据也要放到国外。虽然部分数据通过申请仍可以取用,但不排除有些数据使用将来可能面临受限的窘境。如何规范、有效地存储生命组学大数据,提高其共享与利用效率,真正服务于国人医疗保健,是我国迫在眉睫的战略任务。建立我国自主研发的大数据中心势在必行。


以布局国家863《组学大数据中心和知识库构建与服务技术》项目为契机,结合以往积累的技术与资源储备,中科院北京基因组研究所于2015年初开始酝酿建立所级大数据中心,负责存储与管理我所及国内产出的高通量组学数据,结合我所牵头的中国人群精准医学计划,推动形成海量生物组学大数据储存、整合与挖掘研究体系,为实现生物大数据的深度挖掘奠定基础。经过近一年的酝酿与论证,研究所于2016年2月29日获准正式成立北京基因组研究所生命与健康大数据中心(简称BIGD),该中心目前已投入运营。


BIGD是研究所科研、支撑体系的一部分,其发展目标为面向我国人口健康和社会可持续发展的重大战略需求,围绕国家精准医学和重要战略生物资源的组学数据,建立海量生物组学大数据储存、整合与挖掘分析研究体系,发展组学大数据系统构建、挖掘与分析的新技术、新方法,建设组学大数据汇交、应用与共享平台,力争建成支撑我国生命科学发展、国际知名的生命与健康大数据中心。


近期主要研究方向为:

  • 第一、围绕中国人群普惠健康的精准医学相关组学信息资源,完善建立中国人群基因组遗传变异图谱,形成中国人群精准医学信息库; 

  • 第二、基于高通量测序的海量原始组学数据资源,建立符合国际标准的原始组学数据归档库,形成中国原始组学数据的共享平台;

  • 第三、围绕国家重要战略生物资源,建立海量组学数据的整合、挖掘与应用体系,形成综合性的多组学数据库系统。


BIGD除主要负责存储与管理我国重要的高通量生命组学数据外,还积极吸纳国外重要组学数据资源。不仅如此,该中心还建成了原始基因组数据汇交与管理系统(GSA),并已获得多个国际期刊认可,现已开始接收来自PNAS、Cell Research等国际期刊的原始组学数据提交,接收国外生命组学数据的比例不断扩大,当前接收数据规模已超过1PB,打破了国外三大数据中心(美国NCBI、欧洲EBI、日本DDBJ)对生命组学数据资源的垄断。当然,当前BIGD的发展还处于初期阶段,后续的可持续发展壮大还需要从国家层面设计切入以及社会各界的大力支持。


3如何挖掘大数据是精准医疗的关键


生命组学与医疗大数据中均蕴含着重要的疾病信息。不同类型的生命组学数据代表了疾病不同层次分子水平的信息。如何建立医疗表型数据与生命组学分子数据之间的联系,从而为疾病早期诊断、治疗及预后等提供重要靶点、用药指导等信息,是精准医疗的关键。


我们知道,疾病表型的发展变化涉及基因组、转录组、表观组、代谢组及蛋白组等不同层次的病理变化过程。单组学数据分析通常只能体现疾病样本其中一个层面的变化,在获得疾病靶点等重要信息方面往往具有很大的局限性。通过对不同层次生命组学数据进行整合分析与标准化处理,建立不同组学数据之间的关联性和差异性,并根据这种内在联系在不同层次对候选疾病靶点信息等进行筛选过滤,最终对病理发生发展过程建立定量模型。


这里以基因组与转录组数据整合分析为例。我们知道数量性状位点(QTLs)是基因组的一个基本统计指标,用于标识基因组性状关联区域的基因数。通过全基因组QTLs分析能鉴定很多与疾病相关的QTLs,但其通常不能明确地找出疾病基因。而RNA-Seq测序得到的差异基因表达谱广泛用于疾病遗传基础研究,可是单独使用转录组测序会遇到很大障碍,因为许多的差异表达基因源于人群中的个体差异,这些基因和疾病并没有直接联系。


通过整合基因组和转录组两种类型的生命组学数据为复杂疾病研究提供了一个新策略,即筛选出来的基因是差异表达的,并且映射到了疾病相关的QTLs。鉴定的这些基因极有可能包含在疾病的病理生理学过程中。当前,这种策略的整合分析方法已应用于前列腺癌、乳腺癌等疾病研究中。因此,通过对不同层次疾病组学数据的系统分析,必将有助于科研工作者对疾病发展形成更加全面的认识,为精准医疗提供更多价值的参考信息。


当前 ,多组学数据的整合分析方法还不尽如人意,主要是缺乏实用的标准化分析方法与流程,不同项目组迥异的分析策略使得信息获取的重复性和可溯性不佳。如何整合这些大数据为生物信息分析工作者提出了严峻的挑战。当前,我国大数据分析的需求量是很大的,但我国在这方面的人才积累还非常有限。能够较好理解生物学和临床科学问题的高水平、高质量的大数据挖掘及生物信息分析专业技术人才的匮乏是当前精准医疗大数据分析的最重要障碍。


人工智能是当前很热门的技术领域,将来或许可以用于分析处理整合这些大数据,但前提条件是人类自身要先有较好的知识储备,比如人类自身首先应该对高维度组学数据整合结果有正确的判断、类似于整合分析及模型建立等计算机语言的应用,以及当前的人工智能设备软硬件等方面是否需要更新升级等的知识储备。


(图4:著名基因组学家Maynard Olson访问北京基因组所指导GSA数据库工作)



4人群队列建设也是精准医疗的重要内容


除信息学分析外,人群队列研究也是精准医学的重要内容。人群队列研究是一种系统的病因学研究方法,队列规模主要参考依据是检出阳性的统计效率。我们知道,许多疾病的发生是基于生活习惯、环境、遗传的复杂因素相互作用所致,但是,这种相互作用方式往往都太过复杂,短时间内很难了解疾病的病因结构与发展规律。随着人们对健康与环境、经济、社会等相互作用关系的认识日渐深刻,建设大型人群队列战略意义日益凸显,队列研究的广度与深度也大大增加。


大型人群队列研究,按规模来讲,其样本量可为几万, 甚至几十万例个体,主要是针对大量人群,在数十年内对人群健康状况与疾病进行追踪和随访调查研究,了解人群健康状况与疾病发生随社会经济发展及环境等因素的改变而发生的变化和相关影响因素。比如,经过多年的建设, 我国已建成的规模为20 万例的泰州人群健康跟踪调查项目,以及规模为50 万样本量的中国慢性病前瞻性研究项目。


通过建立基础健康数据库,从遗传、环境和生活方式等多环节,深入研究危害中国人群健康的脑卒中、冠心病、癌症、糖尿病、高血压等重大慢性复杂疾病的致病因素、发病机理及流行规律和趋势,为有效地制定慢性病预防和控制对策、开发新的治疗和干预手段提供科学依据。


未来5年的“十三五”期间,国家还要进一步完善覆盖全国的“百万自然人群队列”和不少于20种每种5万人的“专病人群队列”。随着近年来我国对于全民健康认识的空前提高,以及精准医学快速布局发展,通过精确地测量影响健康和疾病的分子、环境和行为因素,重新定义疾病发生、预后及治疗反应, 从而产生更精准的诊断、更合理的疾病预防策略和更佳的治疗选择, 并开发新型治疗方案,是实现精准医疗的重要指导原则。


近年来,我国在组学技术、数据收集、存储技术、信息分析、移动医疗等方面已经取得了长足的进步, 创建大规模精准医学队列迎来了前所未有的机遇。当然,我们也要清醒地意识到,在我国大型人群队列研究中还有很多问题需要迫切解决,包括:如何有效分析影响因素并针对性地开发相关干预策略、如何保证不同医疗系统资源高效共享、如何解决健康相关数据所有权归属问题、如何解决组学测序、分子影像等研究的巨大支出问题、如何解决人群队列代表性不足及保障公众参与性问题等等。


比如,在人群队列的设计上,以一些地方性特色疾病为例,需建立区域性强的自然人群队列,尽量涵盖不同年龄阶段,并尽可能考虑不同环境因素的影响,并根据发病几率合理设计队列体量,同时建立科学的分析策略以确定影响因素与疾病的关联性,并确定干预措施;在采样方面,应尽可能地收集不同类型的样本(包括外周血、尿液、粪便等),并建立标准化的样本储存与备案系统,建立定期随访取样制度;在政策方面,人群队列建设是我国全民健康的大事,国家层面应给与资金、政策等方面的大力支持,同时在还应在国家层面鼓励地区人群积极参加队列研究,提供相应福利等。



(图5:北京基因组所组学原始数据存储系统(Genome Sequence Archive, GSA)正式上线, 致力于建立中国自主的国际组学数据存储体系



5依赖规范化生物样本库的高质量生命数据


精准医疗的基础是对来源于患者样本的精确分析。只有规范地采集和管理临床样本,保证生物样本及其注释信息的质量,才能最终保证疾病样本分析结果的质量。另外,收集和保存完好的样本资源,能够节约重大研究成果产出时间,从而提高研究的竞争力。因此,在精准医疗时代,作为重要资源基础的生物样本库建设理应受到重视。


目前国外一些商业公司(比如:Fisher和Biostorage公司)在进行生物样本库运行和维护上都有相应的综合管理体系,且这些公司都非常重视通过美国病理学家学会样本库和国际标准化组织认证等相关认证。这些认证对于我国一些生物样本库来说还是很有挑战性的。


近年来,我国也非常重视生物样本库的建设,2015年10月,全国生物样本标准化技术委员会在上海成立。各个医院规范的样本库已陆续建立,比如北京大学肿瘤医院与上海交通大学医学院附属瑞金医院的胃肠道肿瘤生物样本库、中南大学湘雅医院皮肤黑素瘤等不同类型疾病的生物样本库等。


以北京肿瘤医院生物样本库为例,该样本库的功能现在已经很全面,包括通过样本库软件整合临床数据、按流程收集样本、监控样本库运行整个过程等,并初步实现了样本库的样本收集、储存等过程的质量管理,且已通过了ISO9000认证,使样本库管理更加规范化、制度化,全面提升了生物样本库的管理质量。


根据我国生物样本库当前的现状,建设规范化且符合精准医疗标准的生物样本库,还需要国家层面顶层设计,鼓励支持有条件的医疗机构建设生物样本库,并向规范化、自动化、规模化方向发展,样本的规范采集管理,以及相关临床病理数据的收集是我国样本库规范化建设当前的重点。


当然,生物样本库的建立与运行还需要培育更多的专业技术人才,除确保规范完整的样本临床信息外,还应注意保护患者个人隐私与信息安全,建立共享机制,真正让我国珍贵的临床生物样本资源高效有序运作,普惠精准医疗。


在“十三五”期间,我国人类遗传资源样本库建设的整体目标是:建设统一标准与规范的人类遗传资源样本库、共享网络与信息化平台,支持我国人类遗传资源样本可管、可控和可溯源。


具体实施方案是:建立我国人类遗传资源样本库的标准规范、质量控制等管理共享体系,包括省(市)级中心样本库、卫星样本库等实物资源库,以及人类遗传资源信息管理、分析、与共享应用的开放平台。至少覆盖3省以上多家法人主体建立的中心样本库,每个中心样本库辐射由若干法人主体建设的卫星样本库;中心样本库保藏不少于500万份符合质量标准的样本,每个卫星样本库保藏不少于100万份符合质量标准的样本。人类遗传资源信息管理和分享平台具有管理亿级样本信息的能力,支持千人以上并发访问,实现海量人类遗传资源信息的表述、索引、存储、集成与可视化。





首个数字健康行业信息数据库










行业分析师/互联网产品运营/商务拓展 (深圳)

info@genonet.cn








点击“阅读原文”,更多干货内容。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存