后疫情时代的第二曲线:群体基因组和队列研究及转化
数字生命健康产业创新服务
基因慧
全球新冠核酸筛查投入百亿级成本,服务公共卫生的同时,在隐私保护及数据安全基础上如何合规利用,为预防、诊疗及产业划定“基线”?2016-2020年,我国投入百亿元到百万级队列研究,近年数个十万级基因组计划启动,而全球又有哪些代表性的群体基因组项目可对标?基因慧简析如下,更多详情将收录到《2022基因行业蓝皮书》,继续开放合作。
文章 | 基因慧 编辑 | Kathy 审核 | Mark
关键词 | 群体基因组
插图,经网络授权
■ 有史以来最大规模的核酸检测在疫情后的使命?
据国新办公开数据,截至2020年7月底,全国已累计进行1.6亿人份核酸检测。到2021年,据广东卫生在线报道,仅广东省一个月(5月21日至6月21日)累计主动核酸检测超1.59亿人次。预计全国累计新冠核酸检测超10亿人份,而这个数字在全球范围预计超过44亿人份(根据美国CDC公布阳性检出率9%预估)。
我们知道,大规模核酸检测数据除了快速诊断新冠病毒及其变异株的感染情况外,还可以为新冠病毒的溯源、防控、疫苗研发及治疗等提供有效的信息,也可以同时检测其他病毒(例如流感病毒)的感染及防控等。
在全球范围,目前的新冠核酸检测来源于三个出处:
第三方核酸检测机构
临床医院
疾病预防控制中心(CDC)
图:美国新冠检测实验室结果传递流程
(来源:covidtracking.com)
其中,临床医院和CDC的检测实验室通量及检测人员均有限。第三方检测机构承担了绝对主力检测的角色(采样依赖医院及社区等联动)。
我国卫健委在2022年1月底公布的第一批合格的核酸检测机构约700家,其中具备持续生产、研发的不重复法人机构不及1/3。同时头部的IVD机构也出海服务全球新冠检测,例如九安医疗获得美国81亿元新冠家用试剂盒订单,华大的“火眼实验室“累计服务于全球30余个国家和地区。
新冠病毒检测(包括核酸检测、抗原检测等)数据生产和分析大部分来自于第三方检测机构,数据管理在政府等相关监管机构,储存以本地居多。
在疫情结束后,面对这些数以十亿级规模、分散、极其珍贵且高度敏感的核酸数据(以及其他数据),如何有效整合及合规利用?是摆在监管、公卫前的难题,也是基础研究、公共卫生部署以及基因产业发展的重要参考数据和期望。
■ 2016-2020年精准医学队列研究的成果
2016年,在奥巴马政府提出“精准医学(Precision Medicine)”的理念和计划后(此计划后更新为 All of Us 全民健康计划),我国相关部委推动发布精准医学重点专项研究,历时年,涉及近百万人群队列,以病种、地区等专题来划分到不同子项目,每个项目约1-5万人不等。在有限的经费下,由各科研及临床PI牵头的项目与第三方合作,原计划在2020年结题。
由于新冠疫情对周期的影响,以及分别于2019年、2021年公布施行的《中华人民共和国人类遗传资源管理条例》和《中华人民共和国数据安全法》的监管环境的变化,大部分项目成果仍等待后续公布及转化。
■ 近年十万级的专项基因组计划启动
近年数个十万级的专项基因组计划启动,包括哈尔滨工业大学牵头的 “中国十万人基因组计划”,四川大学华西医院牵头的“中国十万例罕见病患者全基因组测序计划”,复旦大学附属儿科医院牵头的“中国新生儿基因组计划”等。
这些计划的核心整体设计,包括样本采集、测序、数据分析和转化,尤其是数据分析后的数据库建立、对应本土的基因型与表型的建模,对于优化迭代当前分析工具及流程,建立基础研究、临床诊断及产业规范的”基线“极其重要。
“泰州队列”,复旦大学牵头:2007 年起,在泰州市政府指导和支持下,复旦大学牵头建设以泰州全市 500 万居民为样板人群的”泰州队列“,截至目前,是目前国内最大的自然人群队列之一。其中”高通量基因分型芯片检测服务项目“中标单位为WeGene(微基因)。
“中国十万人基因组计划”,哈尔滨工业大学牵头:2017年12月28日启动,预计四年内完成。参与单位包括复旦大学、中国科学院北京基因组研究所、华中科技大学、中国科学院上海生命科学研究院等。通过绘制中国人精细基因组图谱,来研究疾病健康和基因遗传的关系。
“中国十万例罕见病患者全基因组测序计划”——华西医院牵头:将为十万例罕见病患者进行全基因组检测,建立罕见病遗传变异数据库,为未来公共卫生管理、罕见病防治提供科研思路和临床经验。据华大基因公告,其中测序采购的中标单位为武汉华大医学检验所有限公司,中标金额为人民币1348元/例,服务例数不低于十万例。
“中国新生儿基因组计划”——复旦大学附属儿科医院牵头:2016年8月7日,中国遗传学会遗传咨询分会联合复旦大学附属儿科医院发起“中国新生儿基因组计划”,计划五年内完成10万例新生儿基因组测序,构建中国新生儿基因组数据库。
在以上提出问题后,分析问题的核心——群体基因组的方法学和转化——目前仍在探索中。
早期的群体基因组研究方法,类似GWAS等基于SNP位点甚至更早期的微阵列数据,在新的全基因组测序数据条件下,方法学需要进一步迭代和研发,例如WeGene陈钢提出的从PheWAS(全表型组关联分析)为代表的相关性研究走向以PRS(多基因风险评分)为代表的预测性研究。而面对数以十亿级的新冠PCR基因数据,方法必然需要新的研发和尝试。
而群体基因组大数据的转化尚未真正开始。近两年初步渗透的药物研发合作,包括靶点发现、临床试验入组、伴随诊断试剂联合新药上市等,一方面以药企为主体,未发挥大数据基线在预防、临床诊断、健康预测方面的核心价值,同时当前的合作模式遇到新的环境影响而波动。
在群体基因组的宝藏矿山下,寻找具备创新的、合规的、通用的方法学和转化路径将是后疫情基因行业的第二曲线的“基线“。
HOW:优秀的群体基因组项目参考
图1 各国正在启动的国家级群体基因组研究
(来源/Zornitza Stark et al. AJHG. doi:10.1016/j.ajhg.2018.11.014
基因慧制图)
以下,基因慧遴选两个代表的群体基因组,以作参考,由于篇幅有限,文末罗列更多群体基因组、队列项目研究,抛砖引玉,更多详情将在《2022基因行业蓝皮书》中讨论。
《2022基因行业蓝皮书》启动
招募联合发布单位及产业创新案例单位
■ 全球首个群体基因组研究——冰岛基因组计划(Genomes of Icelanders)
1. 研究简介
冰岛人口相对较少,且处于隔离的地理环境,研究冰岛人的遗传特点对于深入了解基因变异和疾病诊疗非常有意义。1998年,刚成立两年的冰岛基因组学公司deCODE genetics开创先河,经冰岛政府授权后开展了冰岛基因组计划,Illumina公司也参与其中。
基于此计划获取的数据,deCODE在癌症、糖尿病等疾病研究中取得了一定的进展。2012年,生物药企Amgen收购deCODE Genetics;2013年,NextCODE Health公司从deCODE独立,并在两年后被药明康德收购,成立明码生物科技(WuXi NextCODE)。
2. 样本采集与处理
(1)招募104,220 名冰岛志愿者,抽取血液样品进行基因分型;
(2)通过表型,整合志愿者一级与二级亲属的基因型,获知志愿者家族史;
(3)对参与deCODE疾病项目的 2,636 名冰岛人进行全基因组测序。
3. 主要成果
2015年3月25日,deCODE公司在Nature Genetics上发布了四篇文章,报道了冰岛基因组计划,以及基于此计划数据的3项研究结果:
欧洲人ABCA7基因功能缺失变异会增加阿尔茨海默病患病风险;
估计Y染色体序列的点突变率,有助于确定人类进化和迁移中关键事件的日期;
超过8000名冰岛人携带有1171个“淘汰基因”,其中的许多基因可能是多余的,或者对健康没有影响。
■ 大规模开放数据库的建立——英国生物样本库项目(UK Biobank)
图2 UK Biobank数据的主要组成部分
(来源/Bycroft, C. et al. Nature . doi:10.1038/s41586-018-0579-z)
1. 研究简介
UK Biobank 由英国维康信托基金会(Wellcome Trust)、英国医学研究委员会(MRC)等机构共同建立,旨在为疾病的预防和诊疗提供遗传与健康相关的数据资源,推动现代医疗进一步发展。该医学研究项目是一个非营利性慈善机构,已获得约 1.33 亿英镑的核心资金。核心资金除了发起机构,还收到来自英国癌症研究中心、国家健康研究所、威尔士政府、英国心脏基金会、和英国糖尿病协会等的资助。
官方网址为:https://www.ukbiobank.ac.uk
2. 样本信息
(1)时间:2006年至2010年;
(2)范围:50万名40岁至69岁的志愿者;
(3)类型:基本健康情况、医疗史、生活方式、体液样本、医学影像。
3. 样本收集与处理
(1)样本采集:志愿者到达英国各地的22个招募中心,进行人工采集;
(2)数据分析:参与的机构与企业包括剑桥大学威康信托桑格研究所、Affymetrix、Regeneron、 葛兰素史克、AbbVie等;
(3)样本管理:体液样本一式两份,储存于超低温恒定管控系统,由AI机器人全自动化数据分类管理。医学影像样本储存于影像扫描中心。
4. 主要成果
(1)数据发布:截止至2021年12月,UK Bioban已公布超过30项数据,包括基因组数据、健康问卷数据、癌症与死亡记录数据、心理健康数据、新冠病毒核酸检测数据等,自2020年4月开始,UK Biobank每6个月会公布最新的英格兰、苏格兰和威尔士地区新冠病毒核酸测试结果;
图3 UK Biobank发布的部分数据(来源/UK Biobank官网,基因慧整理)
(2)科研成果:据官网,目前已批准2407个项目使用UK Biobank数据,研究主题涉及疾病基因位点鉴定、确定候选药物靶点、基因变异对药物反应的影响、端粒长度与疾病风险的联系等内容,代表性科研成果列举如下:
RPL3L 基因和 MYZAP 基因的编码变异会增加心室颤动患病风险;
超32万个人全基因组关联分析(GWAS)确定了116个影响神经质的基因变异位点;
1650 万个体全基因组关联分析(GWAS)确定了 9 个与骨关节炎相关的新基因座。
■ 其他有代表的万人队列研究(以癌症为主)
■ 群体基因组研究的启发
基于最新数据类型和框架设计的群体基因组研发和转化还在探索中。基于以上队列研究的优势,基因慧简要总结以下几点启发,抛砖引玉,欢迎讨论补充。
数据采集的多元化:特别是多种基因变异,结合NGS和单分子测序的优势覆盖SNP、InDel、CNV、SV、基因融合、甲基化等变异,同时收集广义的表型(包括个人基础信息、临床电子病历、生活习惯等),并尽可能地将基因型和表型对应,更新和更正现有数据库。
专业、集中的项目管理:群体基因组研究涉及大量人群的数据,需要多方协调的高效管理方式。UK Biobank采用了集中的管理方式来处理、储存样品,并与基因检测公司和高校机构等合作,完成测序工作。此外,项目团队中包含流行病学、临床、管理、法律和通信等不同专业的成员,负责项目工作的正常运行。其中专业的项目管理团队及体系不可或缺,特别是对于数据安全控制、过程协调及结果整合。
隐私、数据安全和生命伦理保护机制:生物科技中,数据安全不仅与技术机密相关,还涉及到个人隐私保护。而包括基因技术在内的新科技,其发展往往伴随着对伦理道德的冲击和影响。设立专业的数据安全员和伦理审评监督人员,是降低风险的基础保障。
用户参与和利益共享:冰岛基因组计划中deCode公司发现,约2000名志愿者出现BRCA2基因突变现象,会增加乳腺癌患病几率。对于“能否告知志愿者他们具有较高的患病风险”可能引发复杂的医学伦理问题,基于当时的法律规定与道德障碍,deCode公司没有将上述情况告知志愿者。而在UK Biobank中建立的道德咨询委员会,吸纳了社会学和哲学等非生物学科专家,负责定义和识别项目中的道德与伦理问题。
【声明】为了服务基因及数字生命健康科技推广、产业创新及产学研用连接,基因慧秉持专业、赋能、中立的立场收集、分析、发布信息或专家见解。但由于时效性及行业特殊性,所刊登内容仅供研究参考,不作为决策依据;本文相关信息不代表基因慧的观点;基因慧平台刊登的原创内容的知识产权为“基因慧”商标拥有者及相关权利人所有;欢迎转载,转载请申请并注明来源。欢迎个人及机构投稿及合作。
关于我们 基因慧是一家数字生命健康产业创新服务平台,创立于 2016 年。创始团队深耕行业十余年,创建了产业信息数字化平台YourMap®,为政府、研究机构及企业提供产业咨询及科技推广服务,践行“使连接产生价值,用数据看见未来”的理念,与90%知名基因机构建立了合作,逐步拓展生命科技及产业创新服务。
☆ 中国遗传学会生物产业促进委员会委员
☆ 连续四年发布基因行业蓝皮书
☆ 主办数字健康私董会、大湾区生命健康创新论坛
☆ 广东省精准医学应用学会政策研究应用分会常委
▼ 点击“阅读原文”,查看精选产业分析