Hi-C和ATAC又发Genome Biology啦
2019年7月在Genome Biology 杂志(IF=14)发表一篇利用RNA-seq、ATAC-seq和Hi-C互作技术,产生了TNFα处理前后的人类内皮细胞的表达谱、开放染色质区域、三维互作图谱,发现AIDA是一种冠心病候选基因。
Hi-C一出手就知关联有没有,你和高分文章之间也许只差一个Hi-C!
还是老规矩,小编先一句话概括一下:
作者分析了血管内皮细胞的转录组、表观基因组、三维染色体构象,并将这些结果与GWAS研究中的冠状动脉疾病(CAD)与高血压病(BP)相关的遗传变异整合,最后用CRISPR/Cas9基因组编辑系统验证了一个CAD的位点,并评估了该位点对于AIDA基因表达的影响。
详细解读来啦~~文章底部还有Hi-C知识的延伸阅读哦
测序材料
样品
1. 人永生的人主动脉内皮细胞teloHAEC(Immortalized human aortic endothelial cells),用TNFα(Tumor necrosis factor-α)处理4小时和24小时的teloHAEC细胞;
2. 人冠状动脉内皮细胞HCAEC (Human coronary artery endothelial cells)及用TNFα处理的HCAEC;
由于特定于特定的病理状态会调控遗传变异的影响,因此同时研究静态的内皮细胞特征,和炎症细胞因子TNFα激活的细胞。
测序
1.对TNFα不同时间处理前后的toloHAEC和HCAEC的细胞的两个生物学重复分别进行RNA-seq(HiSeq 4000,每个样品测序10-12G不等)和ATAC-seq(HiSeq2500,每个样品测序9.5G-10.7G不等)测序;
2. 对TNFα处理前后的toloHAEC进行H3K27ac的CHip-seq测序(NovaSeq),每个样品3个生物学重复,以noIP的input DNA作为对照,每个样品测序30G。
3. 对未处理和TNFα处理4h的toloHAEC的两个生物学重复样品进行Hi-C测序,每个样品2个生物学重复,每个重复测序144G-176G不等;
公共数据集
1. ENCODE数据库中27个组织的ATACseq数据
2. ENCODE数据库中人脐静脉内皮细胞(HUVEC)的CTCF及组蛋白修饰的CHIPseq数据
研究结果
1.内皮细胞活化后的转录组和表观基因组改变
采用TNFα来活化teloHAEC细胞来产生鲁棒的可再生的免疫反应。在未处理和处理的不同时间节点共识别到1316个差异表达基因(FDR<0.001,FC>2,下图a),且许多上调基因都是内皮功能障碍的已知标记,并且由于TNFα处理的大部分转录变化都是炎症通路如TNFα信号,细胞因子间受体互作,NF-kB信号。同时也用TNFα刺激HCAEC细胞,发现两种细胞的转录回应在所有时间点高度一致(下图b),暗示了teloHEAC是研究血管内皮细胞活化的好模型。
对teloHEAC样品进行ATACseq,在TNFα处理的不同时间节点识别到95491个peak,其中3138个peak是差异开放或者闭合的(FDR<0.001, FC>2,下图c)。在转录反应方面,ATACseq定义的开放染色质区域的大小在teloHAEC和HCAEC之间高度一致的(下图d)。作者进一步去找TNFα处理后差异开放的toloHEAC peak中富集的转录因子结合motif。结果发现许多转录因子富集在炎症反应中。CHIPseq实验发现,70-74%的ATACseq的peak与H3K27ac的peak相交。而H3K27ac标记是转录活跃的区域,富集在增强子和启动子上。
大多数与复杂性状相关的遗传变异都是在非编码区域。从近期大规模的meta分析中获得了175个CAD(冠状动脉疾病)和357个BP(高血压病)的SNP,并采用97个与BMI(体重指数)相关且与心血管表型无关的SNP作为对照的遗传变异。结果发现在teloHAEC和冠状动脉中包含CAD关联SNP的开放peak比例相似,尽管食管肌层粘膜和右心房耳廓区域更富集一些。关于BP相关的SNP,teloHEAC相比于其他组织有着最强的富集。同时,包含CAD或者BP相关SNP的teloHAEC的开放区域的比例是显著高于BMI变异的。
2.内皮细胞的三维染色体结构
为了获取内皮功能紊乱下的基因和调控元件关联,用Hi-C技术产生了未处理和处理TNFα四小时的teloHEAC样品的基因组互作图谱。对于每个条件下的样品,生物学重复之间的相关性都很高(所有重复样品的10Kb分辨率下的皮尔森相关系数大于0.95)。识别样品的A和B compartements,处理前后样品具有高度相关性,且只有2.1%的基因组发生转换(下图a和b)。比较在TNFα处理前后的teloHAEC的基因表达和开放染色质区域的变化与A/B转换的区域,发现上调的基因富集在B->A转换区域,下调的基因富集在A->B转换区域(下图c)。TNFα刺激后的ATACseq的peak在B->A转换区域富集(下图d)。
注:A Compartment为常染色质,B Compartment为异染色质。TAD,拓扑相关域是由非相邻染色体区域之间的高密度相互作用定义的,它代表基因组组织中对基因调控非常重要的功能单元。
在TNFα刺激和未刺激下的teloHAEC中分别识别到了4078和4148个TAD,处理前后样品间TAD高度相关,只有7.7%的TAD边界发生变化。先前研究发现TAD的边界富集表达基因的启动子和CTCF转录因子的结合motif。结合公共数据的HUVEC细胞的CTCF CHIPseq数据发现CTCF的peak富集在teloHAEC的TAD边界,同时转录组数据定义的TSS也富集在TAD边界(下图a)。考虑到TAD对基因表达调控的核心作用,作者接下来判断是否TAD位于增强子区域上。相比于TSS,发现用公共数据库的CHIPseq数据定义的增强子区域更均匀的分布在TAD上而不是边界上。比较CAD和BP关联SNP与非关联的SNP距离了临近TAD边界的距离。发现SNP在TAD边界上的分布并不均匀,这可能由于关联的SNP数目较少所致,但相比于对照变异,关联的SNP依然更趋向于临近TAD边界(下图b,c)。
3. GWAS的SNP和调控元件关联基因
采用Hi-C互作矩阵来识别包含CAD或者BP关联SNP的调控元件和基因启动子的Loop。这里采用严格的筛选策略,保留大于20个read支持的3D loop,排除不表达或低表达基因(表达值最低的10%),并优先处理包含CAD或BP关联SNP的开放染色质区域,同时这些SNP在GTEx数据集中是关联基因的eQTL(表达数量性状位点)。按照该标准过滤后,识别到991个开放染色质区域和基因的互作,定位到38个CAD和92个BP的GWAS位点。这些调控元件和基因启动子区域的平均物理距离了是154±158kb。
作者尝试验证一个预测的分子,关注于TNFα处理所介导的开放染色质区域和关联的基因互作并且变异是强关联的eQTL(GTEx Pvalue < 1x10-5),最后锁定了2个互作分别位于AIDA和TRAF1基因上。选择与CAD相关的AIDA位点进行功能验证(如上图)。采用CRISPR/Cas9系统,在MIA3内编辑1022个碱基对缺失,该基因包含了TNFα敏感的开放染色质元件与差异表达的AIDA基因互作。这个缺失包含rs17163363,与CAD的标记SNP rs67180937强相关。尽管没有获得缺失的纯合子,但也获得了三个独立的杂合子,并且用2种不同的qPCR实验检测TNFα处理后的AIDA表达。然而,TNFα可以在没有缺失的细胞内诱导鲁棒的AIDA表达反应,AIDA表达量增加了杂合teloHAEC诱导水平的近一半,这可能是因为一个等位依然起作用(下图b,c)。这个结果与我们的模型一致,通过该调控元件和它所包含的遗传变异可以控制内皮细胞激活时AIDA的表达。
参考文献:
Lalonde, S., et al., Integrative analysis of vascular endothelial cell genomic features identifies AIDA as a coronary artery disease candidate gene. Genome Biol, 2019. 20(1): p. 133.
文献下载链接:
https://international.biocloud.net/zh/article/detail/31287004
延伸阅读:
前沿|Hi-C多组学&CRISPR-Cas9鉴定前列腺癌风险相关抑制性CTCF loop