查看原文
其他

批量下载 starBase 数据库查询信息

JunJunLab 老俊俊的生信笔记 2022-08-15


学无止境

1介绍

starBase 现在叫做 ENCORI(The Encyclopedia of RNA Interactomes),文章引用次数超 8000 次,由 中山大学杨建华 团队建设的。

功能:

主要关注 miRNA - target 相互作用。ENCORI 是用于研究 miRNA-ncRNAmiRNA-mRNAncRNA-RNARNA-RNARBP-ncRNARBP-mRNA 与来自 CLIP-seqdegradome-seq 和 RNA-RNA 互作的数据库。

ENCORI 从多维测序数据中识别了超过 410 万 miRNA-ncRNA, 290 万 miRNA-mRNA, 410 万 RBP-RNA 和 150 万 RNA-RNA 相互作用。

含有 32 种类型的癌症的 基因表达数据,其衍生自 10882 RNA-seq 和 10546 miRNA-seq 数据,ENGORI 允许研究人员对 RNA-RNA 和 RBP-RNA 相互作用进行泛癌分析。Encori 还提供平台,以进行 miRNA,lncRNA,假基因和 mRNA 的 生存差异表达分析

统计信息:

网址:https://starbase.sysu.edu.cn/index.php

首页:

2引言

有时候我们有几十个甚至上百个基因需要查询其结合的 RBP 或者 miRNA 或 lncRNA 等情况时,一个个查询效率肯定会非常慢,我们的需求是可以批量下载查询的数据。

假如我们查询 mRNA Tbx2 基因可以结合的 miRNA,最后 submit 即可:

选择好物种基因组版本筛选置信度靶基因名字

可以看到有很多 miRNA 会有 Tbx2 基因结合:

点击右边即可下载:

查看下载结果:

那么我们怎么批量下载呢?肯定不可能一个个查询下载。

3批量下载结果

我们先复制下载链接看看:

https://starbase.sysu.edu.cn/moduleDownload.php? \
source=agoClipRNA&type=xls&value=hg19;mRNA;all;3;0;0;1;None;TBX2

根据最后一个基因名进行替换生成批量替换地址:

# 查询基因
gene <- c('Gnai3','Cdc45','Scml2','Apoh','Narf',
          'Cav2','Klf6','Scmh1','Cox5a','Tbx2',
          'Tbx4','Zfy2','Ngfr','Wnt3','Wnt9a')

# 地址
root <- 'https://starbase.sysu.edu.cn/moduleDownload.php?source=agoClipRNA&type=xls&value=hg19;mRNA;all;3;0;0;1;None;'

# 粘贴
url <- paste(root,gene,sep = '')

# 查看
head(url,3)
[1"https://starbase.sysu.edu.cn/moduleDownload.php?source=agoClipRNA&type=xls&value=hg19;mRNA;all;3;0;0;1;None;Gnai3"
[2"https://starbase.sysu.edu.cn/moduleDownload.php?source=agoClipRNA&type=xls&value=hg19;mRNA;all;3;0;0;1;None;Cdc45"
[3"https://starbase.sysu.edu.cn/moduleDownload.php?source=agoClipRNA&type=xls&value=hg19;mRNA;all;3;0;0;1;None;Scml2"

批量下载:

# 创建文件夹
dir.create('D:/mRNA-miRNA-data')

# 批量下载
lapply(1:length(url), function(i){
  download.file(url = url[i],
                destfile = paste('D:/mRNA-miRNA-data/',gene[i],'_res.xls',sep = ''),
                mode = 'wb')
})
## 试开URL’https://starbase.sysu.edu.cn/moduleDownload.php?source=agoClipRNA&type=xls&value=hg19;mRNA;all;3;0;0;1;None;Gnai3'
## downloaded 35 KB

## 试开URL’https://starbase.sysu.edu.cn/moduleDownload.php?source=agoClipRNA&type=xls&value=hg19;mRNA;all;3;0;0;1;None;Cdc45'
## Content length 480 bytes
## downloaded 480 bytes

## 试开URL’https://starbase.sysu.edu.cn/moduleDownload.php?source=agoClipRNA&type=xls&value=hg19;mRNA;all;3;0;0;1;None;Scml2'
## downloaded 42 KB
## ...

# 查看下载结果
list.files('D:/mRNA-miRNA-data')
[1"Apoh_res.xls"  "Cav2_res.xls"  "Cdc45_res.xls" "Cox5a_res.xls" "Gnai3_res.xls"
[6"Klf6_res.xls"  "Narf_res.xls"  "Ngfr_res.xls"  "Scmh1_res.xls" "Scml2_res.xls"
[11"Tbx2_res.xls"  "Tbx4_res.xls"  "Wnt3_res.xls"  "Wnt9a_res.xls" "Zfy2_res.xls"

然后还可以对数据做一个批量合并操作:

# 批量读取
library(plyr)

info <- list.files('D:/mRNA-miRNA-data/',pattern = '.xls')
head(info,3)
[1"Apoh_res.xls"  "Cav2_res.xls"  "Cdc45_res.xls"

# 合并信息
ldply(1:length(info),function(x){
  # 读取结果
  da <- read.csv(paste('D:/mRNA-miRNA-data/',info[x],sep = ''),
                 skip = 3,header = T,sep = '\t')
  return(da)
}) -> res

# 查看合并结果
head(res,3)
                miRNAid     miRNAname          geneID geneName       geneType chromosome
1 No Available results.          <NA>            <NA>     <NA>           <NA>       <NA>
2          MIMAT0000070 hsa-miR-17-5p ENSG00000105971     CAV2 protein_coding       chr7
3          MIMAT0000070 hsa-miR-17-5p ENSG00000105971     CAV2 protein_coding       chr7
  narrowStart narrowEnd broadStart  broadEnd strand clipExpNum degraExpNum              RBP PITA
1          NA        NA         NA        NA   <NA>         NA          NA             <NA>   NA
2   116147157 116147162  116147157 116147162      +         14           0 AGO1-4,AGO2,AGO3    1
3   116147477 116147484  116147477 116147484      +          1           0             AGO2    1
  RNA22 miRmap microT miRanda PicTar TargetScan pancancerNum
1    NA     NA     NA      NA     NA         NA           NA
2     0      0      0       0      0          0           13
3     0      0      0       0      0          0           13

可以看到有些 NA 值,说明 查询结果是没有的,去除掉这些结果:

library(tidyverse)
# 去除没有信息的基因
fil_res <- res %>% dplyr::filter(miRNAid != "No Available results.")

# 保存数据
write.csv(fil_res,file = 'D:/mRNA-miRNA-data/filter_mRNA_info.csv',row.names = F)
write.csv(res,file = 'D:/mRNA-miRNA-data/all_mRNA_info.csv',row.names = F)

最后希望对大家有所帮助!



欢迎加入生信交流群。加我微信我也拉你进 微信群聊 老俊俊生信交流群 哦,代码已上传至QQ群文件夹,欢迎下载。

群二维码:

老俊俊微信:



知识星球:



所以今天你学习了吗?

欢迎小伙伴留言评论!

今天的分享就到这里了,敬请期待下一篇!

最后欢迎大家分享转发,您的点赞是对我的鼓励肯定

如果觉得对您帮助很大,赏杯快乐水喝喝吧!



 往期回顾 




MeRIP-seq 数据分析之 peak 热图可视化

EnrichedHeatmap 之花样玩法

EnrichedHeatmap 之基本用法

MeRIP-seq 数据分析之 homer 富集 motif

MeRIP-seq 数据分析之 homer 注释 peaks

MeRIP-seq 数据分析之 m6A 分布特征可视化

MeRIP-seq 数据分析之 callpeak 及 peak 可视化

质控 + 接头过滤一步走: fastp 软件

MeRIP-seq 数据分析之质控、过滤、比对

MeRIP-seq 数据分析之数据下载

◀...

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存