查看原文
其他

英国宣布将启动500万人基因组计划,精准医疗大数据的分水岭

基因慧 Mark 基因慧 2022-04-23



关键词/基因组测序  大数据   文/基因慧


北京时间2018年10月3日,英国政府宣布将在未来五年内开展五百万人基因组计划,并表示从2019年起,全基因组测序将被作为标准之一辅助重病患儿、患有难治愈或罕见疾病成年患者的治疗。作为迄今为止全球最大规模的人群基因组计划,这标志着精准医学研究进入大数据阶段的分水岭。基因慧邀请行业4位专家简要分析如下。


各国兴起数以万人计的基因组计划


进入21世纪,全球逐渐开始兴起万人级别基因组计划,以基因组学为基础的精准医学加快发展,这些计划为后续癌症和罕见病等疾病的研究和药物研发提供了理论和数据基础。


图,全球兴起的精准医学计划



1英国:从1万、10万到500万人基因组计划




2010年,英国提出10K基因组计划,由Wellcome Sanger Institute牵头,英国卫生部参与,该研究成果于2015年发表在《Nature》。2012年,英国政府宣布开展10万人基因组计划,由Illumina、Genomics England和英国国家医疗服务体系合作开展,英国政府投资5.23亿美元,所获得的基因大数据用于癌症和罕见病的研究,推动产融发展和公众认知,并为该国的基因组医学服务(GMS)—— 将基因组测序纳入标准治疗提供数据支持。截至2018年10月1日,10万人基因组计划完成了87,231个全基因组测序。五百万人基因组计划的开展也将对现有成果进一步扩展,这个人口仅六千多万的国家,再一次以大型基因组计划的开展走在世界前列。



2美国:从精准医学计划到百万基因组计划



作为精准医学的倡导者,2015年美国宣布精准医学计划,并将1.3亿美元用于百万基因组计划,占总投入(2.15亿美元)的60.5%,经过三年多的规划和试点,“All of US”百万基因组计划从今年5月开始,面向全美18岁以上居民招募志愿者,从2017年5月进入测试阶段到今年6月,已有 4.5 万人参与实验。整体项目计划运行十年,美国国会的预算高达 14.55 亿美元。



3中国:国家重点专项“精准医学研究”



2016年,我国启动精准医学国家重点研发计划“精准医学研究”专项,计划在2016-2020 年对全国各地区近百万人群展开以基因测序为核心技术的队列研究。其中除了单细胞组学、表观组学等技术研究外,绝大部分项目围绕心血管疾病、癌症等重大疾病的分子分型以及自然人群队列研究,涵盖临床、健康及公共卫生等方面的转就及转化。


2017年末,我国启动“中国十万人基因组计划”,这是我国在人类基因组研究领域实施的最大规模的国家计划,整个项目将在四年内完成全部测序与分析任务。此计划的特点是全部采用全基因组测序,由国家人类基因组南方研究中心主任赵国屏院士牵头,项目首席科学家为哈尔滨工业大学软件学院院长王亚东教授。


就在前不久的10月4日,华大基因在国际顶级学术期刊《细胞》上发布14万余中国人无创产前基因检测的研究成果,是迄今最大规模的中国人基因组学大数据研究,覆盖31个省、36个少数民族在内孕妇基因组数据。这也是目前从单个企业层面构建中国人群精细遗传结构,形成包含约900万个多态性位点的中国人群基因频率数据库。



精准医学大数据阶段的分水岭


百万级人口基因组计划将给基因组学和临床应用带来无限价值,快速推进精准医疗大数据时代的到来,海量数据对基础设施和数据分析等软硬件条件、以及匹配的规范条例、伦理学、新技术的快速应用产生巨大挑战和新要求,同时也会深刻地推动行业进步发展。



4精准医学的竞赛终究是大数据的竞赛


从单基因单位点Sanger一代测序,到多基因多位点的Panel获NMPA批准上市,到全基因组测序逐渐进入常态,精准医学的研究和转化回归到大数据的生产和利用。GeneDock CEO李厦戎从大数据角度谈到,假设单个数据规模60GB,500万个全基因组数据则要占据约2.9EB存储空间,考虑到分析中间数据存储,以及为保证数据安全的3副本存储策略,则数据存储空间需求可能达到15EB。需要巨大的存储基础架构,需要压缩技术实现减少数据占用空间,以节约成本。


PathForward Technologies技术总监王丙强表示,这样的项目仍有相当大的挑战,需要关注基础架构、算法研发和人手准备这三个方面。原始数据量即已达到百PB规模,存储分析平台在成本预算和工程运行上都需要仔细规划,云端和超算各有优缺点,混合云平台和超算的某种形式的私有云可能是合适的解决方案,这也是该平台上要运行的现有和未来算法类型来决定。深度学习或者人工智能虽然最近很火热,但更多注意力应该投向相对传统的算法和方法,多样化一直是科学前进的重要动力,如同进化本身。现有的软件架构很少有为如此规模的数据挖掘而设计的,需要提早建立团队、培训相关技能、研发相关软件方案。



5从基因数据到临床应用,标准化是关键


国家罕见病注册研究体系执行总监弓孟春认为,在大规模获取高可信度基因组学数据越来越容易的今天,表型数据的采集、结构化及标准化成为关键的技术难点,这对于基因组层面个体差异的临床意义的标注也是不可或缺的。在医疗信息化技术水平较高的国家,临床服务系统生产的数据在结构化和标准化方面具有较高的水平,既在一定程度上满足了互操作性的需求,也为临床数据的高通量表型化奠定了良好的基础。其中,符合精准医学研究需求的数据模型、颗粒度足够细的语义控制系统、具备增量学习能力的自然语言处理技术及医学遗传学家的深度介入是关键的技术及管理难点。



6基因数据经过智能化解读才有意义


我们知道基因数据生产成果以超摩尔定律下降,从1998年的30亿美元、2014年1000美元到如今的600美元,未来可以预见几乎免费。这正是基因科技展现出20年前互联网技术一样甚至更高的魅力所在。互联网产业从早期门户网站竞争,最终分化到如今的细化到内容、场景和智能化。类似,基因产业的大数据累计和各企业的固守,已经带来数据冗余,而数据挖掘的信息价值尚有大量“金矿”,其中“挖矿”的核心是对基因数据的解读能力,包括基本的数据信息整合和专业的遗传咨询。GeneDock CEO李厦戎认为,该项目每年需要注释和解读100万份临床基因组数据,然而目前依赖人工解读,专业遗传解读人员存在巨大缺口,基因信息解读的方式必须革新,使用机器学习模型辅助临床解读人员可进行更高效率的数据解读。



7基因隐私或将成为“达摩克利斯之剑”


在国内绝大部分基因企业基本处于亏损的现状下,不少企业将商业的出口转向数据的变现。而在数据的信息管理、数据隐私条款法规、生命伦理体系尚不健全前提下,基因隐私或将成为“达摩克利斯之剑”。弓孟春博士表示,在大量意义未明的变异的临床意义被逐步阐释的过程中,患者的知情权、隐私保护等都将成为有可能影响公众态度进一步决定工作成败的重要因素。欧美国家的经验需要借鉴,也需根据我国国情进行相应的调整。一个严格执行、有效监管的知情同意制度及数据管控体系也是技术上的重中之重。



8AI和区块链将深入转化精准医学大数据


海量数据最终将应用于辅助疾病的诊疗,如何对数据进行高效分析和利用,机器学习成为正是这一大数据落地应用的试金石,通过AI技术可以建立疾病与基因组之间的联系,进一步用于辅助诊断和药物研发,针对这其中存在的挑战,GeneDock CEO李厦戎认为,建立深度神经网络模型后,如何满足医学研究要求的可解释可验证,将是从技术到认知的巨大挑战。


基因价值链HGBC创始人郝向稳表示,5百万人占英国总人口的7.7%,渗透率已经比较高,相关的基因组测序费用由英国卫生部门承担,按照现在一个全基因组测序的成本为600-800美元,大约每年需要6-8亿美元,如果中国启动相应比例人口的基因组计划,每年需要支出120-140亿美元,显然政府无法承担,可以考虑类似DTC众筹的模式,鼓励个人用户付费获取自己的基因数据,而区块链技术的应用可以在这一过程中解决基因组数据的归属权、处置权和收益权的问题,同时也解决了知情同意相关的隐私、伦理、安全问题。


最后,关于基因测序能否按照英国政府的计划顺利纳入标准治疗流程中,为每位患者带去便利,可能需要从技术创新和成本降低、医疗政策完善、生信分析和遗传咨询人才的培养等多方位去推动。



编者:Candice   校对:Eric   审核:Mark


  基因慧招聘  


新媒体编辑/行业分析员/互联网产品经理

和我们一起:使连接产生价值,用数据预见未来

简历投递邮箱:info@genonet.cn


 

文章推荐

临床基因测序规范共建:陈润生/于军/康熙雄/李金明等建言专业委员会筹备大会

会议推荐 | 首个精准医学政策专题峰会来袭,政策研究分会成立




▼  点击阅读原文,进入精选文章目录

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存