模式生物体的研究几乎对生物学的包括基因组的组织和功能的方方面面都产生了重要的影响,因此,除了对于人类基因组研究的ENCODE—人类基因组DNA元件百科全书计划—还增加了对于模式生物尤其是小鼠方面的信息以及在果蝇和线虫等进行的模式生物调控网络百科全书(model organism Encyclopedia of Regulatory Networks, modERN)的相关内容。 在ENCODE计划的第二阶段,通过小鼠ENCODE计划对成年小鼠组织和细胞系的表观遗传特征以及转录特征进行了绘制【1】。该工作是小鼠ENCODE联盟大规模努力的结果,提出了一幅宏大的小鼠基因调控和转录图谱。小鼠ENCODE计划共鉴定出了21,978蛋白编码区域、32,168蛋白质非编码区域、1,192,301染色质开放区域以及722,334个被H3K4me1、H3K4me2、H3K4me3以及H3K27ac组蛋白修饰的区域以及686,294被转录因子结合的区域。 在ENCODE计划的第二阶段,还开展了模式生物ENCODE计划【2,3】,分别在果蝇和线虫的不同发育阶段以及细胞系中对转录组、表观遗传组以及转录因子结合位点等信息进行了检测和整合。这些生物提供了发育过程中详细的基因组特征和转录组图谱的研究机会,这是很难在人类中完成的内容。对这些物种的空间和时间转录组图谱的深入探究,极大地增强了对这两个模式生物基因组的注释。而且对果蝇和线虫基因调控网络的详细绘制为基因组组织和功能的一般原理提供了见解。模式生物ENCODE计划目前为止已经确定了果蝇中超过262个转录因子以及秀丽隐杆线虫中的217个转录因子的相关组学数据【4】。 图1 ENCODE计划第三阶段的在小鼠以及其他模型生物中的工作模式图 在ENCODE计划的第三阶段,科学家们在小鼠胚胎发育的8个阶段以每个阶段多达12个组织的样本中进行了实验,以确定动态组蛋白标记和可及性图谱、DNA甲基化图谱和转录组图谱(图1)。这些潜在调控元件的人类同源基因显著富集于与常见疾病相关的基因变异,为研究人类疾病的分子基础提供了信息。ENCODE计划第三阶段中小鼠相关的数据还包括对于转基因小鼠中两个不同发育时期的三种胚胎组织中调控元件相关的400多个实验。这些系统性的研究结果对于预测体内顺式调控元件的功能与活性大有裨益。除此之外,转录组与表观遗传组学的跨物种比较可以对转录区域以及调控区域的进化信息给出可能的参考数据。顺式调控元件区域的组蛋白修饰模式以及其他的基因组特征在多细胞动物中进化上高度保守。以下将对ENCODE计划第三阶段中小鼠以及其他模式生物与方法学方面的进展进行介绍。 一、小鼠发育过程动态染色质景观动态图谱 美国路德维希癌症研究所任兵研究组与美国劳伦斯伯克利国家实验室Len A. Pennacchio、Axel Visel研究组合作发文题为An atlas of dynamic chromatin landscapes in mouse fetal development,揭开了小鼠胎儿时期不同发育阶段的动态染色质景观。目前ENCODE计划已经建立了哺乳动物发育的相关基因组资源,描绘了从孕期10.5天到出生的8个发育阶段的小鼠组织的包括转录组、甲基化组和染色质状态在内的组学信息。在该工作中,作者们系统性地检测了发育过程中小鼠胎儿期染色质可及性与状态。作者们对组蛋白修饰共进行了1,128次ChIP-seq检测,另外还用ATAC-seq对72个不同组织以及不同发育阶段进行了染色质可及性分析。作者们建立了统一的标准对这些数据进行整合以及注释,描述了在发育基因调控过程中染色质状态和可及性之间的关系。作者们还利用这些数据将增强子与假定的靶基因联系起来,证明了与人类疾病相关的序列变异的组织特异性丰度存在相关性。小鼠ENCODE计划为生物医学研究人员提供了重要参考资源以及在哺乳动物胎儿发育期间染色质动力学方面最全面的观点。 二、小鼠胚胎全组织、单细胞分辨率转录组图谱 美国加州理工学院Barbara J. Wold研究组与Brian A. Williams研究组合作发文题为The changing mouse embryo transcriptome at whole tissue and single-cell resolution,对小鼠胚胎中全组织、单细胞分辨率水平对转录组的动态变化过程进行检测。在哺乳动物胚胎发生过程中,不同的基因表达逐渐建立了各组织和器官系统的同一性和复杂性。在该工作中作者们系统地量化了17个不同的组织和器官从胚胎发育第10.5天到出生的小鼠polyA-RNA,由此产生的发育转录组图谱是由动态细胞分化、体轴和细胞增殖基因构成的全局结构。作者们利用单细胞RNA-seq对组织水平转录组进行解析,发现神经发生和造血过程相关的基因在基因和细胞水平上均占主导地位。进一步地,作者们聚焦于发育中的肢体,使用单细胞RNA数据识别了包括祖细胞和分化细胞在内的25种细胞类型并通过计算推断谱系关系。这些参考数据、计算网络组件和顺式调控元件染色质片段是匹配表观基因组发育矩阵的重要资源,可供研究人员进一步挖掘和整合。 三、小鼠胎儿发育过程的DNA甲基化组图谱 美国萨尔科生物研究所Joseph R. Ecker研究组发文题为Spatiotemporal DNA methylome dynamics of the developing mouse fetus,揭开了不同时空分辨率下小鼠胎儿发育过程中的动态DNA甲基化图谱。胞嘧啶DNA甲基化对哺乳动物的发育至关重要,但对其在发育胚胎中的时空分布的了解仍然有限。作为小鼠ENCODE计划的一部分,作者们从12个小鼠组织或器官中分析了168个DNA甲基化组图谱,这些图谱分别解析了处于从胚胎发生到成年的9个不同发育阶段。通过比较不同发育阶段不同组织或器官的DNA甲基化组,作者们鉴定出1,808,810个基因组区域显示出DNA甲基化的差异。这些时空表观基因组图谱为研究组织或器官进展中的基因调控提供了资源并为与人类发育障碍有关的调控元件的研究提供了起点。 四、小鼠伪基因数据库 美国耶鲁大学Mark Gerstein研究组发文题为Transcriptional activity and strain-specific history of mouse pseudogenes,揭开了小鼠伪基因(Pseudogenes)的转录活性和细胞系特异性历史。伪基因是基因组重塑的标记。随着最近的细胞系测序和转录组数据的可用性大大扩展,小鼠逐渐成为研究伪基因的理想平台。在该工作中,作者们提供了小鼠中伪基因的全基因组注释(可通过网站mouse.pseudogene.org获取相关资源)。另外作者们还对165个小鼠和303个人类的单一伪基因进行了注释。在大小、生物型分布和家族组成方面,小鼠的总体伪基因库与人类相似。该数据库为进一步揭开基因组功能和基因调控信息提供了伪基因方面的资源。 五、ENCODE“定制版”癌症基因组资源 美国耶鲁大学Mark Gerstein 研究组、芝加哥大学Kevin P. White研究组、丹娜-法伯癌症研究所与哈佛大学公共卫生学院X. Shirley Liu 以及美国西北大学Feng Yue研究组合作发文题为An integrative ENCODE resource for cancer genomics,介绍了癌症基因组的ENCODE整合数据库。ENCODE包含数千个功能基因组数据图谱,涵盖数百种细胞类型,为基因组解释提供通用注释。但是,对于特定的研究领域使用特定的注释可能会更有益处。先前,作者们通过利用一些数据丰富对于不同细胞类型的注释,如eCLIP、Hi-C和全基因组STARR-seq来开发这样一个“定制版”注释。癌症作为一种全系统失调的疾病正是这种基于网络的注释的理想应用场景。使用siRNA敲除、基于CRISPR的基因编辑以及荧光素酶分析对相关重要调节因子、调节元件以及基因变体进行有针对性的验证,证明了ENCODE“定制版”资源的重要价值。 六、ENCODE计划注释纠错工具 美国Broad研究所Noam Shoresh研究组发文题为Detecting sample swaps in diverse NGS data types using linkage disequilibrium,使用连锁不平衡对不同高通量测序数据类型中的样本进行检测。随着基因组数据图谱数量的极速增长,样本标签误贴已经成为一个高风险的问题。为此作者们提出了一种量化样本相关性和检测不同来源数据库的的工具称为交叉指纹检验技术(CrosscheckFingerprint, Crosscheck)。通过对8851个ENCODE计划中ChIP-seq、RNA-seq和DNase-seq数据库进行的交叉检验,可以识别并纠正几十个误标记样本和模糊元数据注释。该检验技术为进一步优化、纠正基因功能和基因调控元件的注释提供了重要工具。 七、增强子预测模型 美国耶鲁大学Mark Gerstein研究组发文题为Supervised enhancer prediction with epigenetic pattern recognition and targeted validation,开发出了一种新的增强子预测实验模型。增强子是重要的非编码元件,但是一直以来增强子很难进行定性实验。大规模平行检测实验技术首次允许对大量增强子进行表征。在该工作中作者们开发了一个使用黑腹果蝇的STARR-seq技术来创建基于表观遗传特征的框架。作者们将这些表观遗传特征与学习算法相结合可以用于预测增强子。进一步地,作者们确认该模型可以转移到对哺乳动物中的增强子进行预测。该技术对于进一步丰富了ENCODE计划中对基因调控元件的检测的工具。 如今,ENCODE计划的第三阶段获得的数据以及实验方法已经全面向大家开放,该整合数据库对于人类以及多种模式生物的基因组、转录组、表观遗传组、染色质状态组以及顺式调控元件等方面的数据进行了大规模扩充。该数据库并非至善至美,虽然已经发现了许多新的调控元件,但对特定细胞类型或状态具有高度选择性的调控元件的注释仍然落后。此外,虽然许多开放染色质区域已经被绘制出来,但是结合这些序列的转录因子大部分是未知的并且目前少有关于重复序列的分析。最后,尽管转录本异质性和不同亚型已经在许多细胞类型中被描述过,但也仅是在少数细胞类型略见报道。因此,作为ENCODE计划第四阶段的一部分,将会有更多工作投入到对不同细胞类型和组织的分析之中以及对更多转录因子和RNA结合蛋白的结合区域进行描述和注释,看来对人类基因组的全面注释以及功能的全面解析指日可待。 原文链接:https://doi.org/10.1038/s41586-020-2093-3https://doi.org/10.1038/s41586-020-2536-xhttps://doi.org/10.1038/s41586-020-2119-xhttps://doi.org/10.1038/s41467-020-17157-whttps://doi.org/10.1038/s41467-020-14743-whttps://doi.org/10.1038/s41467-020-17453-5https://doi.org/10.1038/s41592-020-0907-8 制版人:MENG
参考文献
1. Yue, F. et al. A comparative encyclopedia of DNA elements in the mouse genome. Nature 515, 355-364, doi:10.1038/nature13992 (2014).2. Gerstein, M. B. et al. Integrative analysis of the Caenorhabditis elegans genome by the modENCODE project. Science (New York, N.Y.) 330, 1775-1787, doi:10.1126/science.1196914 (2010).3. Roy, S. et al. Identification of functional elements and regulatory circuits by Drosophila modENCODE. Science (New York, N.Y.) 330, 1787-1797, doi:10.1126/science.1198374 (2010).4. Kudron, M. M. et al. The ModERN Resource: Genome-Wide Binding Profiles for Hundreds of Drosophila and Caenorhabditis elegans Transcription Factors. Genetics 208, 937-949, doi:10.1534/genetics.117.300657 (2018).