遗传资源数据库专题-EXAC
ExAC数据库的全称是(the Exome Aggregation Consortium,外显子组整合数据库),该数据库旨在汇总和协调各种大规模测序项目的外显子组测序数据,并为更广泛的科学界提供摘要数据。
为了增加可读性与趣味性,本文以该数据建立者的视角,带你一起回顾ExAC的建立与发展的历程,还有其未来的展望。
首先回顾一些相关的背景
外显子组测序是一种非常具有成本效益的方法,它使我们能够以高分辨率在人类基因组的1-2%编码蛋白质-这是我们所了解最完全的部分,也是绝大多数发现了严重的致病性突变的地方。因为外显子组测序功能非常强大,所以已经应用于成千上万患有肌肉萎缩症和癫痫等罕见严重疾病的患者。然而,对患者进行测序时,一个严峻的挑战是每个人都携带数以万计的遗传变化,我们需要一个“正常”变异的数据库,告诉我们哪些变化在健康人群中出现过,以及这些变化有多常见。
这个项目的目标是大规模地创建这样一个数据库。简而言之,我们将来自世界上最大的人类收集的DNA测序数据汇集在一起,超过二十多个不同的疾病项目,由世界各地的研究人员慷慨捐赠,总共有六万多人参与了遗传变异的分布跨越外显子组,并公开提供给任何人使用。这个项目被称为Exome Aggregation Consortium,或ExAC。
这个项目涉及汇总几千兆字节(千兆兆字节)的原始测序数据,并将所有这些数据通过相同的处理流程生成一组在整个项目中相同的变体调用。在这个过程的最后,我们制作了一个汇总文件,这个文件基本上是我们在项目中发现的所有1000万个变种的列表,以及他们在不同人群中的共同点 - 并在2014年公开发布。目前已经被世界各地的研究人员收到了超过520万的浏览页面,主要是为了解释稀有疾病患者的基因改变。
ExAC是如何建立的?
主人公,MacArthur是Broad研究所医学和群体遗传学的联合主任,麻省总医院和哈佛医学院的助理教授。他表示,研究人员和临床医生需要数据库告诉他们,哪些在患者中发现的基因变异在健康人中也出现,以及这些基因变异有多普遍,以便研究人员根据这些信息识别那些真正导致疾病的基因变异。
在2012年,我新建立的实验室开始对稀有肌肉疾病患者的外显子组测序。但很快,我们马上意识到的两件事:(1)我们迫切需要在大量的“正常”人群变异的背景下解释变体。(2)现有的资源根本不足以完成这项工作。 1000基因组和外显子变异型服务器都是非常好的资源,但都不足以提供对我们患者看到的极为罕见的变种的更深入的了解。
在同一时间,我们发现了几个重要的信息。首先,Broad研究所的Mark DePristo的GATK团队看中了一个新的软件,至少在理论上,这个软件可以在数万个样本中生成统一的变体进而调用。其次,Broad研究所的同事中有相当多的人结合了2万多个外显子组,并且愿意把这些数据用于大量的共同努力。最后,一个非常有才华的博士后Monkol加入了我的实验室,Monkol拥有协调和分析大规模测序信息资源的背景。因此,我们决定着手建设一个新的数据库。
在接下来的18个月中,我们与Broad的序列制作团队密切合作,至少生产了5个呼叫集,从试运行的样品超过13,000个开始。在每种情况下,我们都遇到了难以解决的计算缩放问题,或者最终呼叫集中的质量控制问题。与此同时,样本数量持续增长,每次失败都越来越雄心勃勃。在2013年底,我们尝试了近5.7万个样本的变种,花了好几个月的时间;令人沮丧的是,它产生了一个错误率很高的产品。2014年初,我真的不确定这个项目是否会成功。幸运的是,2014年6月,我们突然接到了一个通话,通过了我们所有的质量控制测试。虽然技术上的延误令人痛苦,但是这18个月的云集已经变成了一线希望:在这段延迟期间,我们可以获得的外显子组数量增长到惊人的90,000个样本。今年六月份的电话会议,除去了将近三分之一的样本(出于充分的理由,下面简述),现在成为了现在公开发布的ExAC的数据库。
发表于公众
因此,2014年6月,我们收集了迄今为止收集的最多的外显子组测序数据。有一件事从来没有怀疑过,我们希望尽快将这些数据提供给公众,这也是ExAC的建立目的。所以我们把这一任务设定在十月份的人类遗传学会议,我也准备在那里发言并公布我们的数据库于公众。在接下来的几个月里,Monkol和其他团队成员越来越严格的质量控制使我们相信,在即将到来的十月份的一切都会到位。
到2016年,我们建立的数据库网站已经稳定了近两年,页面浏览量达到了520万次。在2015年,BenWeisburd添加了一项新功能,允许用户查看单个变体的原始阅读支持,这深刻地改变了我对数据集的体验,并在用户中广受好传。
接下来是什么?
ExAC的工作远未结束。今年晚些时候,我们将宣布释放这个资源的第二个版本,我们希望将超过12万外显子。我们还将发布资源的全基因组版本,提供对蛋白质编码区域以外变体的深入了解。最重要的是,这项科学将继续下去:我的团队,我们的合作者,以及世界各地的研究人员和临床医生将继续使用这一资源来诊断罕见病患者,了解变异在人群中的分布,探索人类生物学和疾病。
本文需要带回家的信息
ExAC 是一个免费的、具有高分辨率的人类遗传变异数据库,包含了上千万个DNA变异-很多都是罕见变异,而且大多数为首次发现,它对易患病的临床研究和诊断具有重大意义。如果你是一个人类医学遗传病的研究者,请你一定不要错过使用ExAC数据库!
References
该故事原文
EXAC所发的nature paper (在原文链接里)
还有更多文章,请移步公众号阅读。
如果你生信基本技能已经入门,需要提高自己,请关注上面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师
如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。