查看原文
其他

下载所有芯片探针序列并且写成fasta文件

生信技能树 生信技能树 2022-06-06

选择在GEO官网的GPL平台下载 : https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL21827

rm(list = ls())  ## 魔幻操作,一键清空~
options(stringsAsFactors = F)
# 注意查看下载文件的大小,检查数据 
f='GPL21827_eSet.Rdata'

library(GEOquery)
# 这个包需要注意两个配置,一般来说自动化的配置是足够的。
#Setting options('download.file.method.GEOquery'='auto')
#Setting options('GEOquery.inmemory.gpl'=FALSE)
if(!file.exists(f)){
  gset <- getGEO('GPL21827', destdir="." )       ## 平台文件
  save(gset,file=f)   ## 保存到本地
}
load('GPL21827_eSet.Rdata')  ## 载入数据
class(gset)
length(gset)
gset 
colnames(Table(gset))
probe2seq=Table(gset)[,c(1,4)]

可以看到探针ID及其对应的序列已经成为了一个数据框啦。

只需要简单的技巧就可以写成fasta文件:

all_recs=paste(apply(probe2seq,1,function(x) paste0('>',x[1],'\n',x[2])),collapse = '\n')
temp <- tempfile()  ## 编程技巧,把变量写入临时文件~
temp
write(all_recs, temp)

理论是这个教程适用于所有在GEO数据库有GPL平台信息的芯片。

之所以写出到fastq文件,是因为它可以拿去走比对流程。

其它探针序列没有什么区别,当然,也可以去芯片官网下载探针序列。

■   ■   ■

生信基础知识大全系列:生信基础知识100讲   

史上最强的生信自学环境准备课来啦!! 7次改版,11节课程,14K的讲稿,30个夜晚打磨,100页PPT的课程。   

如果需要组装自己的服务器;代办生物信息学服务器

如果需要帮忙下载海外数据(GEO/TCGA/GTEx等等),点我?

如果需要线下辅导及培训,看招学徒 

如果需要个人电脑:个人计算机推荐

如果需要置办生物信息学书籍,看:生信人必备书单

如果需要实习岗位:实习职位发布

如果需要售后:点我

如果需要入门资料大全:点我

点击下面的阅读原文直达

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存