查看原文
其他

NAR | 斯坦福大学Wing Hung Wong/清华大学江瑞课题组发布全基因功能注释HiChIP数据库

测序中国 2023-06-05

HiChIP是一种利用原位Hi-C原理和转座酶介导构建文库来解析染色质构象的方法。HiChIP技术为斯坦福Howard Chang课题组于2016年开发[1],由于HiChIP结合了Hi-C技术和ChIA-PET技术,可以用更小的数据量获取更高分辨率的染色质三维结构信息,从而在探索DNA三维结构在基因调控中的作用中具有重要应用。迄今为止,HiChIP技术已经被广泛用于研究细胞分化、组织稳态和疾病发展等生物过程中捕获染色质构象的重要工具。

2022年10月10日,美国科学院院士、斯坦福大学统计系Wing Hung Wong教授课题组联合清华大学自动化系江瑞长聘副教授课题组Nucleic Acids Research杂志(IF=19.16)上在线发表文章“HiChIPdb: a comprehensive database of HiChIP regulatory interactions”[2]。研究团队发表了首个附带全基因组功能注释HiChIP数据库(http://health.tsinghua.edu.cn/hichipdb/)。数据库收录了截止于2022年5月份上传至GEO数据库的人类HiChIP约200个样本。HiChIP数据库采用了统一的数据处理流程(pipelines),从原始Fastq测序原始数据统一处理至不同分辨率的HiChIP相互作用数据。HiChIP数据库覆盖了超过100个人类细胞类型下总计2.62亿条HiChIP相互作用(interactions)

图1. 文章发表于Nucleic Acids Research

HiChIP数据库具有丰富的可视化功能,首页即可通过人体器官的交互式动态展示页面快速地选择对应的细胞类型数据进行访问。在浏览页面,HiChIP相互作用数据以“器官-组织-细胞系”的树状结构进行呈现,还有可交互式的饼状图来提供不同器官或者组织下HiChIP相互作用数据的数量分布。另外,HiChIP在不同染色体上的分布以及HiChIP环(loop)距离的分布也以柱状图的方式进行呈现。

图2.  HiChIPdb的可视化功能
此外,与已有的三维基因组数据库最大的不同点在于HiChIP对全基因组上每一条相互作用都提供了丰富的功能性注释,包括anchor最近基因的详细信息注释、GWAS SNP信息的注释等。对于注释的基因以及变异SNP信息,均提供详细的位置信息以及NCBI等外部链接。更重要的是,对于每一条HiChIP相互作用,都提供类似于基因浏览器的可视化的窗口,用于可视化全基因组上某个区域中的HiChIP相互作用以及基因等注释信息。另外,用户也可以选择同时加载不同细胞系下同一个基因组区域中的HiChIP相互作用,从而方便研究HiChIP相互作用的细胞特异性。

图3. HiChIPdb的功能性注释

为了方便广大用户使用HiChIP数据,该网站提供多种方式供用户下载所需的数据。例如,在搜索页面限定特定的ChIP类型、器官、组织、细胞系、基因或者SNP,搜索出来满足条件的HiChIP相互作用数据可以直接以文本的形式进行下载。另外,在下载界面,用户可以选择按照ChIP类型、器官类型、组织类型、细胞型等进行全基因组规模的数据下载。用户下载数据中每一条相互作用都包含了相应的注释信息
具有完善功能注释的HiChIP数据库对研究致病基因、调控网络等具有重要的作用。例如,在指南(Tutorial)页面,该网站提供了利用HiChIP数据来注释致病基因的样例。在具体的一个HAEC心脏相关的细胞系中,所找到的可能的致病基因NOS1AP, KCNH2均和已有文献报道相一致,这说明HiChIP数据能够促进传统GWAS对致病基因的研究。另一个角度,研究基因组三维结构对基因调控、疾病发生发展的影响一直是研究人员最关心的问题之一,对此,研究团队之前开发的DC3[3]借助单细胞数据将bulk水平HiChIP调控关系解卷积到单细胞水平,DeepExpression[4]DeepExpression+[5]利用不同细胞系的远端调控HiChIP数据更精确地预测基因表达。HiChIP数据库将进一步促进研究人员对此类远端基因调控算法的开发,加深研究人员对三维基因的认识

斯坦福大学统计系Wing Hung Wong教授与清华大学自动化系江瑞长聘副教授为该论文共同通讯作者。斯坦福大学统计系博士后曾婉雯、刘桥,清华大学自动化系博士研究生鄞启进为该论文的共同第一作者。

点击下方“阅读原文”访问HiChIP数据库

参考文献:

[1] Mumbach M R, Rubin A J, Flynn R A, et al. HiChIP: efficient and sensitive analysis of protein-directed genome architecture[J]. Nature methods, 2016, 13(11): 919-922.

[2] Zeng W, Liu Q, Yin Q, Rui J and Wing H W. HiChIPdb: a comprehensive database of HiChIP regulatory interactions[J]. Nucleic Acids Research, 2022.

[3] Zeng, W., Chen, X., Duren, Z., Wang, Y., Jiang, R. and Wong, W.H. (2019) DC3 is a method for deconvolution and coupled clustering from bulk and single-cell genomics data. Nat Commun, 10, 4613.

[4] Zeng, W., Wang, Y. and Jiang, R. (2020) Integrating distal and proximal information to predict gene expression via a densely connected convolutional neural network. Bioinformatics, 36, 496-503.

[5] Zeng, W., Xin, J., Jiang, R. and Wang, Y. (2021) Reusability report: compressing regulatory networks to vectors for interpreting gene expression and genetic variants. Nature Machine Intelligence, 3, 576-580.

·END ·

热文推荐


GRAIL公布Galleri多癌症早期检测筛查研究最终结果,检测到的71%癌症类型没有常规筛查

NIH拨款5亿美元启动BICAN计划,绘制有史以来最详细的人类、灵长类动物脑细胞图谱

朱正纲/陈红专/于颖彦/韦朝春团队合作发表中国人群胃癌泛基因组分析成果

沈洪兵/胡志斌团队发表迄今最大规模中国人群NSCLC全基因组测序成果,揭示肺癌罕见易感变异


喜欢就点个“在看”吧

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存