医学基因组学大数据与数据库的发展趋势与特色
数字生命健康产业创新服务
基因慧
基因组大数据应用医学已有至少10年历史,正是井喷式发展的前夕。如何安全、规范、有益地推动医学基因组学大数据与数据库的应用,体系化的了解是基础。因此,本文简析了医学基因组学大数据及其数据库的功能、作用和特点,欢迎讨论指正。
高通量基因检测和IT技术加持,医学基因组学快速发展
医学基因组学在本世纪获得了快速的发展,主要是依赖于基因测序技术的发展和IT技术的加持,由于BI和IT的互相渗透和协同,在算法、算力及软件的支持下,基因组学技术的成本在过去十几年的时间内以超摩尔定律的速度下降,使得过去需要几天时间才能完成的全基因组测序数据分析(WGS),现在几个小时就能完成。
由于成本及速度的极大改善,全球基因组大数据每年正以EB级的数量级快速生产和积累。如果再将每个生命个体的基因型和表型匹配和整合,数据量就更大。
医学基因组学数据的特点不仅是体量大,而且数据整合复杂、数据分析需要至少具备分子生物、医学遗传学、数学和计算机等跨学科人才,涉及的技能包括大规模数据存储、计算、生物统计、数学建模、信息安全、数据库、数据挖掘等多个方面,远非个体或小范围人所能完成,需要多学科、跨产业的团体去完成的系统性的大科学工程。
图:各国正在启动的国家级群体基因组研究
(来源/Zornitza Stark et al. AJHG. doi:10.1016/j.ajhg.2018.11.014
基因慧制图)
因此,各个国家和地区正在组织前所未有的力量,“抢夺”人才资源、抢占知识产权、工具和资源制高点,掌握主动权,例如:
英国在2010年提出万人基因组计划(UK10K),由知名的Wellcome Sanger Institute牵头,英国卫生部参与,2015年Nature刊发了该研究多篇成果。
2012年,英国政府进一步开展十万人基因组计划(UK 100K),截至2018年10月1日,UK 100计划完成了87,231个全基因组测序,并于当年宣布启动500万人基因组计划,这是迄今为止由政府主导的最大的基因组学研究项目。
各个国家也在跃跃欲试要建立自己国家的基因组项目:
2015年,美国奥巴马政府宣布启动精准医学计划,经过三年多的规划和试点,拓展为全民生命健康(All of US)项目,面向全美18岁以上居民招募志愿者,整体项目计划运行十年,预算高达14.55亿美元。包括冰岛、法国、韩国、沙特阿拉伯等也纷纷启动万人级基因组学项目。
2016年,我国启动精准医学国家重点研发计划“精准医学研究”专项,后续陆续开展了少数几个大型基因组计划,例如华西医院的10万人罕见病基因组计划等,以高校与医院领衔的科研项目居多,目前还没有启动国家级大规模、产学研合作的基因组学项目。
由于医学等领域个体化医疗的需求、技术的逐步成熟和成本的降低,医学基因组学的研究和应用正快速发展,但研究尚不满足临床需求,其中医学基因组学大数据是核心要素,是构成精准医学大工程的基石,将推动在分子层面认识、干预疾病健康的范式,造福人类。
医学基因组学大数据(big data)是指需要用特别软件工具进行捕捉、管理和处理的数据集合,用新范式才能实现具有更强的决策力和洞察力的数据信息源,是具有海量、高增长性和多样化的信息资产。
医学基因组数据的规模越大,越利于抽象群体特征,利于细分人群特征、聚类发现未知特征,这对复杂疾病病因机制研究,新药研发的靶点发现、健康管理和疾病预防具有重要价值。
医学基因组学大数据非常复杂。人的基因组是由30亿个碱基对构成,随着地域、人种、时空变化而变化。除了需要分析这30亿对碱基对机体健康、生育等产生的影响,还要对应临床表型的进行关联分析,其复杂程度是普通计算机都无法实现的,需要借助大规模计算集群甚至超算中心,这决定了这项工作的效率、成本、准确度。
为了更快地应用大规模医学基因组学数据,建议选取种群单一的群体,满足基础研究和临床转化需求。但单一的群体,对同一群体的价值远大于其他群体,需要建立每个群体的数据集或数据库,结合临床表型和医疗信息化形成研究和转化资源,具有开发和研究的价值,可以产生巨大的经济和社会效益。
大数据资源也可以交换,甚至像商品一样流通。在这个过程中,需特别注意,医学基因组数据是遗传资源,安全关乎个人隐私和生物安全。因此,亟需体系化的标准和规则来指导实践。
农耕时代土地是资源,工业革命时代矿产是资源,互联网时代信息是资源,那么人工智能时代大数据就是资源。通过大数据分析可以得到许多有价值的东西,指导医疗健康活动。
大数据的分析仅仅是数据应用的一个方面,更为深层次的是通过大数据的汇集,统一基本的要素,把不符合要求的数据剔除,保留同一信号的数据,可以比较、甄别,以此建立数据库,成为一个可应用的工具。
数据库(database)是统一管理的相关数据的集合。有结构的、集成的、可共享的的数据集合,具有最小冗余度,数据间联系密切,而又有高度的独立性,是个应用工具。数据库来源于数据的积累和集中管理,数据库管理需要有序、有规则、有类别才能便于研究和使用,因此应用而生了各类数据库。
从大类区分,数据库分为以存储为主要功能的数据库,就是把收集的数据根据其类别、相同性、相似程度归集起来,便于查找、系统分析,类似仓库一样,这也可以根据差别分为许多小类。
此外就是具有查询检索能力的数据库,这类数据库需要应用特别的数据库查询语言、查询算法以及数据库底层软件,是建立在这基础之上的数据、数据结构、方法、算法通过专门设计去解决特定问题,具备分析功能,能产生分析结果。
前者是后者的基础,后者是前者的智能化应用。这类数据库是未来发展的主要方向,各个高科技公司都在这方面使出浑身解数,主要是改善成本和效率,追求稳定性和准确性。
在医学基因组学数据库中,有根据其作用、功能、使用场景而分类。比如WGS(全基因组测序数据)、WES(全外显子组测序数据)、Panel(基因集合)等数据库,也有根据疾病类别而区分,例如地中海贫血、唐氏综合征等,基于专门场景的需求和规范来解决特定的问题,需要严格的确认和规范化设计。
数据库的建立是个复杂工程,就像建一栋楼一样,要论证、可行性分析等,同样数据库建立起来,能很好应用也需要有目的的开发,专业的人才,专门的设备。数据的完整性和准确性、数据的规范化和结构化,建立数据结构,优化算法效率,建立数据之间的正确关联关系与数据库的质量息息相关。就数据类型而言,增加可信度高的参考序列,能增加数据库的灵敏度;数据格式标准化、统一化的要求使数据库更稳定、可靠、减少了人为因素的影响。
以某公司建立的PETA(Pan-cancer Encyclopedia of Trans-omics Atlas,泛癌症跨组学百科全书)数据库为例,在基于大量真实数据研究的基础上,通过提取、分拣,在算法、算力及软件的基础上而形成的自主的数据库产品工具,有产品特点,而更多是工具,是解决问题的工具。PETA数据库是基于大数据库的肿瘤科研和临床的应用平台,是建立了肿瘤大数据的生态系统。随着计算机和IT技术的进步,数据库的使用会更激动人心,将改变医疗服务的方式。
数据库除有产品和工具的属性,也具有流通的特点,因此数据库的交易是未来一个无形资产的交易,数据库的资产属性就自然形成了。数据库的质量和品质怎么去评价?这是个系统集成问题,工程品质有赖于各个部分的品质,好的部件才能产生好的产品;还要合理的集成;提升算法、算力及软件底层的鲁棒性,保证临床试验的可靠,才能成为一个优质的数据库。
医学基因组学大数据及数据库推动精准医学发展,将改变我们的认知,或颠覆我们的认知,它甚至是魔幻的。数据库将向更加专业,更加智能,更加普遍的方向发展。
根据工作或专业要求建立数据库。比如,单个疾病的数据库,通过这个数据库,可以查到个体疾病的特征、疾病转归、用什么药合适等等。肺癌数据库、肝癌数据库…为应用而生,服务于临床和医患。同样,今后对医师的要求,不仅需要基本的医学知识,也需要使用专门的医学基因组学数据库,因此要学会和掌握数据库。数据库到AI又是一个更广阔的应用场景。当然,数据库本身也有AI的部分或全部功能。
建设数据库中,我们需要搭建人文伦理框架,即要为人的目的服务。比如在人类基因组学的数据库中,把杰出人类的基因组学作为数据库,定义到天赋基因来应用,就把人的不平等从遗传学上作了划分,显然对人类发展是有害的。除了坚持共享、共为、共有外,还要平等、无歧视、不伤害,才有利于人类进步与发展。因此数据库的安全、规范、有益就尤其重要。
作者丨深圳华大基因科技有限公司 许四虎、晋向前、彭智宇、肖棉文、李敬宇、潘荣、李雪香
编辑丨Kathy 首发丨基因慧
关键词 | 医学基因组学大数据
扩展阅读月
代表性大型基因组计划简介
群体基因组和队列研究转化
基因组医学专家演讲
【声明】为了服务基因及数字生命健康科技推广、产业创新及产学研用连接,基因慧秉持专业、赋能、中立的立场收集、分析、发布信息或专家见解。但由于时效性及行业特殊性,所刊登内容仅供研究参考,不作为决策依据;本文相关信息不代表基因慧的观点;基因慧平台刊登的原创内容的知识产权为“基因慧”商标拥有者及相关权利人所有;欢迎转载,转载请申请并注明来源。欢迎个人及机构投稿及合作。
关于我们 基因慧是一家数字生命健康产业创新服务平台,创立于 2016 年。创始团队深耕行业十余年,创建了产业信息数字化平台YourMap®,为政府、研究机构及企业提供产业咨询及科技推广服务,践行“使连接产生价值,用数据看见未来”的理念,与90%知名基因机构建立了合作,逐步拓展生命科技及产业创新服务。
☆ 中国遗传学会生物产业促进委员会委员
☆ 连续四年发布基因行业蓝皮书
☆ 主办数字健康私董会、大湾区生命健康创新论坛
☆ 广东省精准医学应用学会政策研究应用分会常委
▼ 点击“阅读原文”,查看精选产业分析