查看原文
其他

2018 升级版Jaspar数据库

lingludi 生信宝典 2022-03-28

R包ggseqlogo 绘制seq logo图Seq logo 在线绘制工具—Weblogo介绍了如何用R脚本和在线工具绘制seq logo图,用于展现转录因子或修饰酶等结合序列的偏好性。

JASPAR数据库 (http://jaspar.genereg.net/) 提供了转录因子与DNA结合位点motif最全面的公开数据,共收集了脊椎动物、植物、昆虫、线虫、真菌和尾索动物六大类不同类生物的数据。

2018年更新发布的Jaspar中,新增322种新物种的Position Frequency Matrix (PFMs),更新33个物种的PFMs。引入316个物种的TF flexible models (TFFMs), 对每个物种和物种内TF家族的结合PFM进行相似性聚类。基于这些收集的PFMs预测了人全基因组范围的TF结合位点,以UCSC track hub的形式供大家使用。

界面介绍

如下是Jaspar主页面,左边是工具栏;中间显示的是数据库中收录的六大类生物,可点击查看每个大类中收集的数据总量;右侧是用户使用导航,第一次使用的用户可以点击JASPAR interactive tour ,可跟随该导航一步步学习网站的使用方法。


Jaspar中有9个子数据库,CORE, CNE, FAM, PBM等,关于什么时候使用哪个数据库,在About下有详细介绍。

DBDescription
JASPARCORESeeking models for specific factors orstructural classes.
CNECharacterizing of regulatory inputs in long-rangedevelopmental gene regulation in vertebrates.
FAMSearching large genomic sequences with no prior knowledge. For classificationof new user-supplied profiles.
PBMCharacterizing of regulatory inputs in long-range developmentalgene regulation in vertebrates. All the PBM s are built by using new in-vitrotechniques, based on k-mer microarrays.
PHYLOFACTSChraacterizing other factors mightdetermine promoter characteristics, such as structural aspects and tissuespecificity.
POLIIInvestigating core promoters from multicellulareukaryotes.
SPLICEAanalyzing splice sites and alternativesplicing.

根据所研究的物种,选择对应的库,这里以Nematoda(线虫纲)为例,点击进入。


Scan序列输入框中输入我们想要查找的启动子区域序列或增强子区域序列或其它关注的区域,注意需要输入FASTA格式


在左侧列表中勾选待预测结合的转录因子,或者将同一物种的转录因子都勾选上,点击SCAN即出现结果展示。Score评分越高,表示该转录因子与输入序列结合的可能性越大。

基本搜索

点击左侧工具栏中search,查找感兴趣的数据。可以通过TF名称或ID、物种、分类单元、uniprot ID或任何其他关键字进行搜索。我们以Gata3(GATA binding protein 3)为例,下方可选框中选择筛选要求,快速锁定目标数据。


搜索结果被展示在一个列表中,可选择感兴趣的数据添加至右侧购物车中下载,然后自行分析。


点击ID号,跳转至Gata3 motif详情,包括文件摘要、序列logo图、PFM矩阵(文件可下载)、TF-binding信息(FASTA格式为该motif在基因组范围的结合区域的序列,bed格式为该motif在基因组范围的结合位点,可点击下载)、外部链接、版本信息、ChIP-seq centrality、TFFM和其它信息。

可在详情页Frequency matrix下载Gata3各类型矩阵信息,如下图。


jaspar tools 输入序列或矩阵搜索

  • 点击Profile Inference,可预测用户输入的蛋白序列的潜在结合motif。

  • 点击Matrix Align输入PFM矩阵,预测其相似性motif。常用于鉴定新发现的motif是否为某类转录因子的结合motif的变种。

蛋白序列的输入格式

MSDNDDIEVESDEEQPRFQSAADKRAHHNALERKRRDHIKDSFHSLRDSVPSLQGEKASR AQILDKATEYIQYMRRKNHTHQQDIDDLKRQNALLEQQVRALEKARSSAQLQTNYPSSDN SLYTNAKGSTISAFDGGSDSSSESEPEEPQSRKKLRMEAS

PFM矩阵的输入格式

A [13 13 3 1 54 1 1 1 0 3 2 5] C [13 39 5 53 0 1 50 1 0 37 0 17] G [17 2 37 0 0 52 3 0 53 8 37 12] T [11 0 9 0 0 0 0 52 1 6 15 20]


矩阵聚类工具

具有类似DNA-binding domains的TFs具有相似的序列偏好性,为了便于在Jaspar数据库中寻找相似的TFs,该数据库使用矩阵聚类工具对PFM进行了层级聚类分析。聚类结果以径向树的形式展示,可以点击每个logo图做进一步研究。



ChIP-seq专题

更多阅读

画图三字经 生信视频 生信系列教程 

心得体会 癌症数据库 Linux Python 

高通量分析 在线画图 测序历史 超级增强子

培训视频 PPT EXCEL 文章写作 ggplot2

海哥组学 可视化套路 基因组浏览器

色彩搭配 图形排版 互作网络

后台回复“生信宝典福利第一波”获取教程合集

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存