查看原文
其他

Epiview | 超详细的「4D 核体计划」解读

Epiview Epigenetics表观遗传学 2022-06-07

9 月 14 日,Nature 上发表了一篇关于 4D 核体的 Perspectives 文章。文章第一作者和通讯作者均为马萨诸塞大学医学院教授、HHMI 研究员 Job Dekker。作者中,还有小编熟知(我认识大牛,大牛们不认识我)的索尔克生物研究所(Salk Institute for Biological Studies)的 Clodagh C. O’Shea 以及 UCSD 的 Bing Ren 教授和 Sheng Zhong 教授。

 

 

4D 核体计划是指从空间(三维)和时间(第四维度)角度来研究细胞核结构形成原理,探索细胞核组织对基因表达、细胞功能,以及发育和疾病发生发展的影响。早在 2015 年 10 月 5 日,美国国立卫生研究院共同基金(NIH Common Fund)就宣布资助包括 4D 核体计划在内的四个生物医学项目,其中 4D 核体计划资助经费约 2500 万美元。

 

Nature 最近的这篇 Perspectives 文章详细解读了 4D 核体计划的实施背景、目标与策略、具体的研究计划、潜在的挑战和机遇、数据共享与标准构建等,为深入了解 4D 核体计划提供了一个全景式的了解。

 

小编对全文进行了翻译和整理,期待能够为读者提供一份详实的参考资料。全文约 9400 字,建议收藏。

 

项目背景

 

人类基因组中包含 2 万多个基因以及大量的调控元件。在过去十多年的时间里面,大量的研究已经对我们基因组以及细胞中的基因和调控元件进行归类。ENCODE 计划、Roadmap 表观基因组计划、国际人类表观基因组联盟(IHEC)、EpiGeneSys 以及哺乳动物基因组功能注释计划(FANTOM)已经对成千上万的基因以及数百万的候选调控元件进行了标注。然而,这些调控元件如何跨越数千碱基(有时候甚至跨越百万碱基)的距离对其特定的靶基因进行调控,这背后的机制并不清楚。

 

在细胞核中,染色质的空间折叠和组装对基因表达具有重要影响。例如,增强子与其靶基因靠的很近对其调控靶基因的表达非常有必要;核纤层附近的染色质簇与基因沉默以及复制时间具有相关性。此外,基因范围内的相关性研究已经鉴定了大量与疾病相关的位点,其中大多数的位点位于具有一定的调控潜能的远端非编码区域。在肿瘤细胞中,基因组重排频繁发生,部分由于核的三维组织导致的。这些数据强调了远端元件对基因调控的重要性,暗示可能通过长范围的染色质相互作用以及三维基因组装来揭示一些本质的分子机制。因此,为了弄清楚基因是如何运作的,我们不仅需要理解染色质的线性信息,还要理解随着时间的变化,染色质的三维结构以及动态变化,这也就是 4D 核体。与此同时,我们必须鉴定出那些决定基因组结构(genome organization)的生物物理因子和生物因子,以及这种染色质结构如何参与基因表达调控以及其他核功能。本文中,我们阐述了我们的目标以及 4DN(4D Nucleome)Network 的策略,这个 Network 建立在其他专注于表观基因组分析的联盟之上,并且要添加空间和时间的维度,来探索细胞内的基因组是如何组装的,以及它们是怎样与基因功能关联的。

 

细胞核并不是均质的,而是包含了很多不同的核结构和明确的染色体区域,比如中心体、端粒和绝缘子(insulator bodies),它们之间以及与其他的基因组区域成簇聚合,定义了独特的核隔室。核结构(nuclear structures)方面的例子包括核纤层和核孔,而核隔室(nuclear compartments)的例子是异染色质隔室,以及核体(nuclear bodies)的例子包括核仁、核小斑、旁斑、Cajal 体以及 PML(promyelocytic leukaemia,早幼粒细胞白血病)体。通过在千碱基的分辨率上表征基因组范围的染色质折叠的染色质构象捕获(3C)技术现在已经有了新的发现。在细胞核尺度,这些研究发现基因是区隔化的,它们处在那些活跃或不活跃的隔室中,并且在每个隔室内,染色质纤维的折叠将基因座和那些因为较长基因间距而分隔的调控元件结合在一起。CTCF、黏连蛋白复合物(cohesin complex)、其他的 DNA 结合蛋白以及 RNA 在组装形成染色质域和在 DNA 位点间的远程相互作用上发挥一定的功能。这些研究表明,基因组复杂地组织在细胞核中,并且在基因调控和活性上发挥关键作用。

 

在过去的十年间,很多染色体和核结构分析方面的突破性技术已经出现。绘制染色质相互作用的遗传学技术,比如 3C、4C(环状 3C 或者 3C-on-chip)、5C(3C-carbon copy)、Hi-C 以及配对末端标签测序的染色质相互作用分析(ChIA-PET),正在以前所未有的分辨率绘制基因组范围内的染色质互作图谱。活细胞超分辨显微技术与其他新技术(比如基于 CRISPR-Cas9 的系统)的应用相结合以实现基因位点和亚细胞核结构的可视化,这些技术的应用将逐渐提供开始提供细胞内染色质结构和动力学的详细信息。此外,在染色体结构数据分析以构建染色体折叠的结构模型方面也取得了重要进展。然而,尽管有了这些进展,我们仍然缺乏对 4D 核体的全面理解。部分原因是,使用了不同的实验体系以及不同的实验手段,缺乏检测实验操作的共同基准,这造成了实验结果间不能直接比较。另外,我们整合不同类型的数据(比如染色质互作数据和基于成像的距离测量)的能力还十分有限,也缺乏能测量和解释不同细胞在染色体和核结构上差异的手段。最后,我们也缺乏染色质构象和细胞核内生物过程(包括转录、DNA 的复制和染色体的分离)间关系的分子机制。我们知识间的鸿沟可以通过高度协同、多学科和整合的方式填补,其中需要擅长成像、基因组学、计算机科学以及物理学的课题组之间通力合作,优势互补,研究同一细胞体系。

 

目标与策略

 

4DN Network 将会发展出一系列绘制基因组结构和动力学图谱的方法,并将这些(基因组的)特性与其生物学活性联系起来。这个 Network 的目标是,在不同的细胞类型和条件下(包括在单细胞)构建核结构的定量模型。总的来说,我们期待这些工作能对正常生理条件下或疾病情况下基因组是如何组织,维持以及复制等问题带来新的见解。

 

4DN Network 将会做以下工作:(1)开发、基准化、验证以及标准化一系列分析4D核体的方法;(2)对用上述各种方法获得的数据集进行分析,整合和建模,以得到一个对 4D 核体全面综合的认识;(3)探寻染色体的多种结构特征在转录、DNA 复制和其他核相关进程中的具体功能。见图1。

 


图1. 计划包含三点:a,用实验图谱的方法测定基因组空间组织的各个方面,包括染色质环、域、核体等。b,用计算和建模的方法去解释实验现象以及构建核的动态时间模型。c,干扰实验,例如使用 CRISPR-Cas9 介导的基因组工程技术进行功能验证。在这些实验中,染色质的结构是在改变的,例如,通过去掉染色质环,在特定的位置构建新环,或者在特定的区域内栓留调控因子,来测试它们的结构功能。这些干扰实验要与功能研究互补,比如,分析基因的表达情况来探寻其与染色质折叠之间潜在的关系。图 a 显示了活细胞内用 CRISPR 标记人类1和13号染色体上特定位点的核成像照片。

 

为了实现这几个目标,我们已经确定了以下的关键步骤。

 

首先,研究一系列常见的细胞系,确保用不同方法得到的数据可以交叉验证(表1)。一些重要的指标包括稳定的、单倍体、正常的染色体组型,以及生长良好,可进行基因组编辑和活细胞成像。此外,考虑到不同的细胞群在不同的生物学状态(比如细胞周期)有细胞间差异,那么应用克隆的细胞群就显得格外重要,因为这些细胞群可以以一种可控的方式进行同步化处理,激活,诱导或分化。



 其次,建立数据类型和质量的标准,以保证数据可以被广泛共享。这包括定义重复性的指标和评估敏感性、特异性、分辨率、精确度等,这样才可以测定 4D 核组。

 

第三,开发计算和分析工具以分析单个数据集,并整合,比较,交叉验证用不同的技术得到的数据。重要的是,它们可以不同数据集的整合,以建立 4D 核组的全面综合模型。

 

第四,开发遗传学、生物化学和生物物理学方法,来测定和干扰 DNA 序列和反式作用因子(蛋白质、RNA)在 4D 核体局部和全局的形成过程的功能,以及明确它们对转录和其他核功能的影响。

 

第五,发展描述核特征和引导染色质折叠的生物物理原理的通用词汇。这其实非常重要,因为目前利用不同的技术,甚至是同一技术得到的特征,都是用不同的结构表述和理解去描述的。我们需要更好更精确的描述以理解 4D 核体的结构特征,比如环(loops)和域(domains),并且开发出一致的术语,以便描述用不同的技术手段获得的核体特征。在Network 的发展中,这一目标需要对从多种技术手段中获得的数据进行整合分析实现。

 

4D 核体计划的核心目标是比较和整合从 Network 中获得的丰富信息,这既能确定实验和计算方法的基准,也能保证更好地理解每个数据类型(例如一方面是染色体构象捕捉数据,另一方面是成像数据)揭示的关于结构、动力学以及细胞间染色体折叠差异方面的信息。 Network 将会分析常见细胞系中的一小部分,并选择一组子集,用 Network 中目前大部分已经应用的,或者在开发中的技术去研究它们。来自于 Network 的联合分析小组的成员,将会整合并分析这些不同的数据集,为每个方法设立基准,构建代表染色体折叠状态以及其实时动态变化的模型,并且确定染色体折叠状态与基因调控的关系。

 

最后,为了促使数据能够快速地共享至更大的科学团体,将会建立一个共享的数据库和公共的 4DN 数据浏览器,将包括所有的数据、详细的 protocols、基因工程细胞系以及所有涉及的试剂。

 

4DN 网络结构

 

4DN Network 包含几个相关的内容 (http://www.4dnucleome.org/)。首先,由六个中心组成核结构与功能跨学科联合会(Nuclear Organization andFunction Interdisciplinary Consortium,NOFIC)。这些中心将开发基因组学与成像的技术,并利用计算机模型去理解4D核体。NOFIC 的各个中心将会与 NOFIC 其他部门共同合作,为实验和计算机工具设立基准,并且确定研究 4D 核体最合适的方法目录。这些研究将模型的结构和功能验证相结合。从根本上说,NOFIC 致力于运用多种途径得到 4D 核组的第一个模型草图。

 

第二,4DN Network 将在三个方面开发现有的技术:(1)为了分析RNA在染色质结构以及介导新的染色质相互作用中的功能,将在单细胞水平开发新的基因组相互作用技术来研究 4D 核组;(2)在活细胞或者组织层面开发新的,与基因组活性相关的成像和标记技术,以期以更高的分辨率实现基因组可视化。此外,也将会以更高的分辨率在时间尺度上分析染色体的动态,比如从秒到分钟(有丝分裂、转录),小时(细胞周期)以及数天(分化);(3)开发标记 DNA、RNA、蛋白质以及亚细胞结构(比如核被膜和核仁)的新探针。

 

第三,数据协调与集成中心 (Data Coordination and Integration Center,DCIC;http://dcic.4dnucleome.org/)储存了所有 Network 产生的数据以及协调数据分析产生的数据。DCIC 将会保留一个网站,它含有由 Network 和更大的科学社群所共享的数据和模型。一个组织中心(Organization Hub, OH) 协调 4DN 的各个中心和团队,管理 4DN 基金的 Opportunity Pool,也有一个 4DN Network 的门户网站 (https://www.4dnucleome.org/),上面有所有的 4DN network 的信息,包括数据、实验protocols、数据分析 protocols、软件、细胞系信息以及教育资源。OH 也会在门户网站上公开 4DN-OP 的机会和申请程序。最后,还有一个 4DN Network 的外延/教育工作小组与 OH 协作,提高 4DN Network 的关注度和附属资源,并促进与生物医学界的合作与交流。

 

研究计划

 

Network 将会开发和使用大量的实验技术去研究基因组和核仁的组织形式,也会用计算机分析数据,并开始构建 4D 核体的模型。更深入的实验包括检测染色体折叠相对于基因组调控的因果关系和功能性结果等。以下将详细介绍。

 

用基因组学技术揭示 4D 核体

 

3C 技术已经被用于检测跨基因组的长距离交互。基因组范围内的 3C 技术,例如 Hi-C 已经在不同分辨率上揭示了决定基因组结构的相互作用,比如环和拓扑关联域(TADs)。TADs 长度可达几百 kb,常包含数个基因和多个增强子,它们中至少有一些会倾向于通过成环的机制而实现相互作用。ChIA-PET 为我们研究结构性蛋白(architectural proteins,比如 CTCF 和黏连蛋白,与 RNA 聚合酶 II 相关的增强子-启动子,以及其他转录因子)如何影响结构提供了更好的分辨率。更进一步,在基因组范围内以单碱基的分辨率绘制图谱以检测单倍体型特异的相互作用,这项工作正在进行中,这将把染色体拓扑学与大量的遗传信息联系起来。Network 将继续开发基于 3C 的技术,包括在基因组范围内探寻更高级(除了配对以外)的 DNA 接触方式,探测在(数千个)独立细胞内染色体的相互作用,以及 RNA-DNA 相互作用作图谱(表2)。

 

目前的 3C 技术限制在于依赖单一的交联剂——甲醛,它在结合不同残基时是有偏好性的。而且甲醛具有使分子多聚化以及长距离交联的属性,这个方法就无法得到准确的距离信息。Network 将会探索能根据特定长度和灵活性的 linker 分离的二价光激活(bivalent photo-activated)交联剂。

 

 

4D 核体成像

 

4DN 的研究者将会开发和整合成像平台,并以前所未有的时空分辨率对细胞核动态、相互作用以及组织结构进行可视化(表 3)。每个方法都能独特地,而且彼此互补地分析基因组结构的不同方面。特别地,能进行活细胞成像的平台可以用于实时(数秒到数小时)研究染色质域和核特征的动态变化。

 

 

在固定细胞(Fixed cells)中利用寡核苷酸探针或者 guide RNA 介导的荧光标记的dCas9(CASFISH)的招募,标准和高通量的荧光原位杂交(FISH)将用于对不同细胞类型和不同细胞状态下不同空间距离的基因组的相互作用进行成像。这些成像的工具在设立基准,基因组和蛋白质组数据的互补验证上发挥重要作用。活细胞内的 CRISPR-dCas9 FISH 及其他成像技术将会用于实时分析特定的染色质域和/或核结构的动态行为。

 

标记那些出现在特定核体邻近位置的 DNA、RNA 和蛋白质的新技术将会被开发出来。这些近距离成像技术包括使用辣根或氧化酶(HRP)标记的抗体以用于酪氨酸信号扩增测序(TSA-seq)技术,用于电镜的 APEX(工程化的抗坏血酸过氧化物酶)技术,活细胞的蛋白指纹图谱技术光敏剂 Killer Red 用以使核微环境无自由基产生的技术。基因组编辑技术也用于为基因组内的关键位点,比如环、TADs 以及潜在的新结构区加上标签,以便于我们看到这些模块并记录它们在活细胞内与其他核隔室的相互作用。

 

超分辨显微成像,单分子追踪技术以及多重荧光/化学标签也将在活细胞中用于研究动态相互作用,包括荧光标记的蛋白的扩散和移动,非编码 RNA 以及基因组位点之间的相互作用等(表3)。这些活细胞成像技术将用于研究蛋白质和 DNA 之间的相互作用机制、结合和停留在DNA上的时间,另外也能证实和补充 Network 的基因组学方法。


软 X-射线反演成像(SXT)将用于在自然状态下(冷冻固定)细胞核中染色质的3D结构的观察。SXT 可直接用于测定染色质的凝缩,例如通过观察与亚细胞定位有关的各种时期,如细胞周期的不同阶段以及不同类型的细胞分化期等。相关的显微技术可利用分子的定位信息得到更多的超微结构的数据。低温荧光断层扫描技术(CFT)可在自然态下,利用 SXT 得到的完整的三维重建的细胞模型中,精确定位分子的位置。

 

Network 的成员也会开发新的电镜技术,使得在分裂期或者间期的细胞中以Mb尺度的分辨率看到局部或全部的染色质组织结构。一个叫 Chrom-EMT 的技术,与新的遗传标记和纳米粒子标签技术相结合,可以开发出等同于“多彩”荧光的电镜技术。(Chrom-EMT技术的原理在我们此前的文章中详细介绍过,点击此处阅读。)

 

自动成像分析流程和数据标准的发展对于从数据集中最大化提取结构信息具有重要意义。

分析,注释和归档成像数据软件的进一步发展,与协同成像和基因组数据集的应用一起,是 4DN Network 的主要目标。

 

核体与非染色质结构

 

细胞核由不同的核结构组成,比如核纤层和核孔、染色质相关体,例如在基因组特定位点起始的核仁,还有非染色质体的核体,比如核小斑以及 PML 体。有越来越多的证据表明,与这些结构有关的基因组区域在调控基因组功能上可能发挥一定的作用。

 

4DN Network 的深远目标包括发展新的图谱绘制方法,以测定基因组范围内的分子间相互作用频率以及染色体位点与主要核成分(包括核纤层、核孔、核小斑、核仁以及边周的异染色质)的细胞生物学距离(表2)。同时,也会开发新的技术或对原来的技术进行优化,包括可定位的 APEX 介导的蛋白质生物素化、通过低温粉碎组分、反义 RNA 纯化(RAP),以记载和测定这些核隔室的蛋白质和 RNA 成分,也会使用基于降解决定子(degron)或者光遗传学的方法来改变或干扰这些亚细胞核体和核隔室。基于复制 DNA 测序(Reli-seq)和数千报告子并列整合(thousands of reportersintegrated in parallel, TRIP)的图谱将会提供基因组范围内DNA复制时间与染色体在转录中的位置,以及与可以跟这些结构图谱产生关联的RNA过程等之间的相关性(表2)。此外,也将开发新的成像方法,来构建染色质和核组分动态(包括 DNA 复制时间、转录激活和其他功能状态的变化)之间的关联(表 3)。用于从不同类型细胞中获得的基因组图谱数据的计算分析,其目的在于找到细胞核区隔化过程中可能存在的顺式和反式决定因子。

 

4D 核体建模

 

在实验方法日益强大的同时,用于基因组空间结构建模的计算方法也快速发展。至少有两种基于实验数据的,用于基因组结构建模的计算方法:数据驱动和从头方法(de novo approaches)(图 2)。数据驱动的方法直接使用实验数据(Hi-C、成像或其他数据)来产生与实验观察到的一组互作概率和距离最相符的构象集合。另一方面,从头建模产生由已知或假定的物理或生物过程产生的构象集合,并测试这些集合是否与实验的相互作用频率图谱和成像数据的特征相一致。这种从头模型可以提出染色体组织的具体分子机制和原理,并且可以预测染色体动力学,因此比实验数据走的更远。

 

图2. 4D 核体的建模

 

目前的建模方法有几些挑战和预兆。第一种是技术太多元化,这些方法分别捕获基因组结构的多个互补的方面:接触(也即相互作用)频率、距离、接近各种核体等。这些数据之间的关系可能很复杂,例如,接触频率与平均空间距离不同,可能在 Hi-C 和 FISH 之间产生看似矛盾的关系。然而,目前的建模方法可以系统地整合各种数据,以产生 4D 核体的综合结构和动态模型。这样的模型可以针对不用于模型选择的数据进行验证,例如,从静态数据预测动态以及使用实时成像进行测试。

 

第二,目前的大多数基因组方法产生数千到数百万个细胞的数据,掩盖了存在于单细胞之间的染色质结构异质性。Network 中的一些团体正在开发用于从大量单个细胞生成数据的方法,这将使得当前建模方法的集成遇到新的计算挑战。其中一些方法将会从这些相同的单个细胞(即来自许多单个细胞中的每一个的 Hi-C 和 RNA-seq)中产生功能性数据,这也暗示了直接将结构和功能连接起来的机会。

 

第三,目前的大多数模型不能解释哺乳动物细胞是二倍体,也就是说,它们不区分或单独地模拟同源染色体,这对于基于单细胞数据的建模尤为重要。由联盟选择的常见细胞类型的单倍型分辨率(haplotype-resolution)的基因组将有助于实现这一目标。

 

第四,用于构建基因组结构模型的现代方法通常是静态而不是动态的,这反映了 Hi-C 数据和大多数成像数据的静态特性。由于我们越来越能够可视化(通过直接成像)或推断(通过单细胞或者或大量 Hi-C 数据的时间序列分析)染色质动力学,例如在分化和细胞周期进程期间,非常关键的是这些观察结果可以整合到计算模型中。两类建模方法都可以追踪染色质动态(但途径不同)。数据驱动建模可以使用从不同时间点(例如分化阶段或细胞周期阶段)获得的 Hi-C 数据,为每个点构建构象集合,然后假设导致观察到的结构重组的可能机制。从头建模可以测试首先是否需要规定特定的机制,可能会导致观察到 Hi-C 数据发生时间上的变化。聚合物模型(Polymer models)可以进一步显示观察到的时间重组是否可以反映一般非平衡染色体的缓慢平衡过程。此外,从头建模可以通过活细胞成像实验的动态数据进一步验证,例如通过在实验和模拟中检查不同染色体位点的平均位移与时间的关系。

 

第五,新数据和未来模型应该有助于连接基因组结构和基因组功能的其他方面,例如,通过提示转录因子结合或表观遗传修饰如何导致活性/非活性染色质区室形成的分子机制。推断的机制可以产生序列--结构--功能关系(即核结构与核功能如何联系起来)的可检测的预测。如果早期时间点的某些功能特征预示着较晚的染色体状态,而且反之亦然,那么可以利用不同时间点的 Hi-C、功能数据和染色质组织和动力学模型来确定因果关系,然后可以通过实验进一步测试这种关联和推断的因果关系。

 

将结构与功能联系起来

 

首要目标是鉴定在健康和疾病中基因组结构和染色质构象如何调控基因组的功能。为此,4DN Network 将尝试用实验方法来操纵和扰乱 4D 核体的不同特征。

  • 首先,使用 CRISPR-Cas9 技术,可以改变,重新定位或删除参与特定染色质结构的 DNA 元件,例如染色质域边界或染色质环。

  • 第二,定义的染色质结构(如染色质环)将通过靶向可与其配体成环蛋白二聚化的蛋白进而实现基因工程化。

  • 第三,其他 CRISPR-Cas9 方法将用于将酶(例如组蛋白修饰酶和结构性蛋白)或 ncRNA 靶向到基因组中的特定位点。

  • 第四,通过开发用于将染色质区域重新连接(rewiring)到不同核间隔的方法,或通过将某些蛋白质束缚在这些基因座上,或通过整合可自发靶向基因座到不同核区隔的特定 DNA 序列,或通过让某些蛋白质的这些位点来完成类似的重新定位,4DN Network 中的一些小组将扰乱核区隔化。

  • 第五,产生新的细胞系,用以核体或者候选的结构蛋白(比如 CTCF 和 cohensin)或 RNA 的条件性或时间性消融。

  • 第六,将开发另外的方法在特定染色体位点对核体成核化。

  • 最后,将开发生物物理学方法以微机械扰动细胞核和染色体,然后在特定基因座直接成像。

尽管建立直接因果关系仍然具有挑战性,但是分析这些扰动对于生物学过程(如基因表达和 DNA 复制)的影响可以为染色体结构和核组织在基因组调节中的作用提供更深入的机制性见解。

 

数据共享与标准构建

 

该网络将为数据格式、元数据(如何获取数据的描述)、标准、质量控制措施和其他关键数据相关问题制定指南。另一个目标是使这些数据在网络和整个科学界都能快速访问。这些努力对于尚未建立共享数据和评估数据质量标准的新技术将特别重要。这些标准将大大提高数据集在更广泛的科学界中的作用,而不局限于那些产生数据的人。

 

对于基于测序的技术,长期以来存在表示序列和比对的数据格式标准(比如 FASTQ 和BAM / SAM)。然而,用于表示三维相互作用的通用格式尚待开发。这些格式需要考虑到大数据的大小和不同的计算机体系结构所施加的限制。对于 Hi-C 数据,例如,全基因组接触相互作用图是 N矩阵,其中 N 是空间分辨率(对于10-kb 分辨率,N = 300,000),其中大多数条目是空的。有多种方式表示这种稀疏矩阵,分别适用于不同的分析和存储方法。对于成像技术来说,由于所使用的显微镜类型变化很大,因此数据格式和分析工具往往取决于制造商,因此这种情况更具挑战性。统一不同制造商的数据和元数据的标准,例如开放显微镜环境(Open Microscopy Environment, https://www.openmicroscopy.org/site)正在开发中。这些标准还需要适应超分辨率显微镜的快速发展。

 

一个相关的问题是定义一组适当的元数据字段和最小元数据要求,以便网络外的其他研究人员可以使用足够和有用的详细信息。虽然并不是所有的信息都可以从实验中捕获,但收集相关信息将增加实验的重复性,以及其他研究人员重新使用数据的可能性。4DN Network 已经建立了正式的工作组,包括 4DN 数据分析组(4DN Data Analysis Group)、组学数据标准组(Omics Data Standards Group)和成像数据标准组(Imaging Data Standards Group),它们将定义这些 4DN 标准和数据分析的 protocols。

 

制定一套评估数据质量和确定适当的阈值指标对于确保高质量的 4DN 数据至关重要。新技术的对数据质量和可靠性的重要指标是重复性实验之间的结果的可重复性。重复性可以在多个层次上进行评估; 例如,技术重现性测量技术对相同起始材料的效果如何,而生物再现性也应该捕获所有其他变化,包括样品之间的异质性。4DN 数据分析小组将计算并提供质量控制指标,并提供有关预期质量标准阈值的建议,以便调查人员就特定数据集的实用性作出决定,以解决具体问题。

 

最后,为了确保 4DN Network 与更大的科学界的快速传播,Network 采用了透明和公开的出版政策,Network 支持的所有工作都提交给 BioRxiv 等公共预印服务器,然后提交给同行评议期刊。

 

展望

 

在确定人类基因组的完整 DNA 序列和大多数基因和潜在调控元件图谱之后,我们现在处于可以被认为是人类基因组计划第三阶段的位置。在这个阶段,它建立并扩展了上述其他表观基因组图谱的作用,阐明了基因组的空间组织,揭示了它的功能性意义。这需要来自成像、基因组学、遗传工程、生物物理学、计算生物学和数学建模领域的广泛技术。如本文所述,4DN Network 提供了一种解决这一独特跨学科挑战的机制。此外,Network 内部和更广泛科学界的开放透明政策,以及公开共享各种方法、数据和模式,将确保新知识的快速传播,进一步增强工作的潜在影响。这也将需要促进与世界各地的其他相关工作的合作和建立联系,例如,目前正在开发欧洲 4DN 项目(https://www.4dnucleome.eu)的倡议。这些整合研究将致力于从一维的基因组表示推进到一个空间的,动态的活细胞中功能基因组的三维结构。


翻译、整理:尚仁杰、徐鹏

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存