查看原文
其他

Nat Commun | 40个物种,1万多套植物调控组数据!南京大学陈迪俊组发表植物调控组学综合分析平台ChIP-Hub

生信宝典 生信宝典 2022-09-16
植物基因组中包含大量的调控元件,确定调控元件在基因组上的位置和解析其功能一直是生命科学领域的研究热点。2003年,全球科学家联手发起ENCODE计划,旨在绘制人类及小鼠基因组功能元件的综合图谱。在第二阶段的ENCOD计划中引入了基于高通量测序的组学技术,如ChIP-seq、DNase-seq等。随着高通量测序技术的迅猛发展,调控组学数据呈爆炸式增长。如今,ENCODE官网已经更新至第五版,为研究人员提供宝贵的数据资源。然而,植物研究领域还没有类似于ENCODE计划的数据资源库,极大限制了植物功能基因组学的研究和应用。越来越多的研究表明,植物基因组调控区富集大量的农艺性状和作物驯化关联位点,靶向编辑调控元件可以精准改变重要农艺性状基因的表达变化,因此,建立植物调控基因组参考图谱将为作物遗传精准改良提供重要的资源。
为了给广大植物研究学者提供一个系统全面的调控基因组资源数据库及分析平台,南京大学陈迪俊课题组收集了超过40个物种,总量大于10,000套植物调控组学数据,其中包括ChIP-seq、DAP-seq、DNase-seq和ATAC-seq等。我们采用ENCODE计划推荐的数据分析标准,对来自世界各地不同实验室的数据进行人工注释并统一分析处理,系统评估数据质量,并将数据资源和分析结果整合到ChIP-Hub(https://biobigdata.nju.edu.cn/ChIPHub/)在线数据库中。

图1.a-d 所收集的植物调控组学数据概览;e 调控组学数据分析流程示意图
此外,我们还将收集到的数据进行整合分析。首先使用模式植物拟南芥的转录因子(TF)ChIP-seq数据分析后发现,尽管这些数据产生于不同的实验条件,但是仍能观察到不同TF之间存在协同作用模块进而共同调控下游靶基因。在此基础上,进一步构建并分析了miRNA和转录因子协调作用的大尺度基因调控网络和网络基序,通过文献调研对预测的调控关系辅以验证。
接着使用拟南芥10种不同组织的染色质可及性数据(ATAC-seq或DNase-seq),鉴定到了一系列的组织特异性的启动子和增强子,总体上讲,增强子的组织特异性要高于启动子。与此相对应,基于比较调控基因组学的分析发现增强子序列的进化速率比启动子要快
最后通过整合不同层次的调控组学数据,发现由多种组蛋白修饰数据(HM ChIP-seq)定义的染色质状态在染色质开放性(ATAC-seq或DNase-seq)、转录因子结合位点富集(TF ChIP-seq)、基因表达(RNA-seq)以及序列保守性等方面存在很强的相关性;同时,通过比较拟南芥、水稻、玉米、大麦和小麦等不同基因组的染色质状态,发现具有较高转录活性的染色质状态在不同物种之间更加保守。以上分析表明,植物基因组中可能存在一套由调控序列决定的精准控制基因表达时空特异性的“调控密码子”。
总的来说,该研究不仅能够帮助植物科研学者快速定位植物基因组上潜在的调控元件,并提供了便利的信息检索和数据分析可视化平台,为作物精准改良提供了宝贵的参考资源。
南京大学生命科学学院陈迪俊副教授为最后通讯作者,德国柏林洪堡大学Kerstin Kaufmann教授为共同通讯作者。南京大学生命科学学院傅靓彧,博士研究生祝涛,硕士研究生周欣恺于冉冉为该论文的共同第一作者。特别感谢浙江大学生命科学学院陈铭教授和张霈婧博士对本研究的帮助。本研究得到了国家自然科学基金和南京大学登峰人才支持计划的资助。
论文链接:https://doi.org/10.1038/s41467-022-30770-1
网站链接:https://biobigdata.nju.edu.cn/ChIPHub/ (访问人多,打开会有些慢,静静等待)
顺带打个小广告:陈迪俊团队诚邀优秀博士后研究人员加盟!欢迎具有数学、统计、计算机或基因组学等背景的有识之士来共同探讨调控基因组学方面的研究。有意者请邮件联系:dijunchen@nju.edu.cn

往期精品(点击图片直达文字对应教程)

机器学习

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存