查看原文
其他

(伪)从零开始学转录组:读文章拿到测序数据

2017-07-12 徐洲更 生信媛

往期回顾:

(伪)从零开始学转录组:软件安装

本系列课程学习的文章是:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034
很容易在文章里面找到数据地址GSE81916 这样就可以下载sra文件

数据下载部分

第一步:在PubMeb上查找文献

第二步: 根据文献的method部分找到RNA-Seq是如何存放的

第三步: 在GEO上查找GSE81916
GEO站点: https://www.ncbi.nlm.nih.gov/geo/

找到了NCBI的SRA工具下载所需要的SRR编号。

GEO网址: https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE81916 分为两个部分:

  • 共同部分:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=

  • 变动部分:GSE81916

FTP网址ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747 可以分为以下几个部分

  • 所有SRA数据的共同部分: ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant

  • reads表示存放reads数据,在FTP可以看到另一个选项是analysis,表示分析结果

  • ByStudy表示根据Study进行分类,其他还可以根据实验ByExp,根据Run,ByRun.

  • sra/SRP/SRP075/SRP075747: 后面部分都是为了便于检索。

第四步:通过循环,分别用prefetch下载数据

for i in `seq 48 62`; do    prefetch SRR35899${i} done

prefetch下载的数据一般存放在~/ncbi/sra文件下,prefecth在下载前会先查找该文件下是否已经存在该文件。

sratoolkit的其他软件,比如说fastqdump 在没有根据你给的路径找到文件,也会先进行下载。

知识点:如何用循环批量下载数据
: 数据很大,需要下载很久,这段时间去看文章所用的分析方法。

除了用prefetch之外还存在其他下载方案。

文章所用方法:

内容主要在Bioinformatic analyses部分
比对

  • 比对软件:TopHat (v2.0.13)

  • 参考基因组:human reference genome (GRCh37/hg19)

  • GTF文件: GTF version GRCh37.70

  • 只保留MQ >30的map结果

  • Picard-tools (v1.126): 计算平均插入大小(mean insert sizes)和标准差

read count: 软件:HTSeq v0.6.0

差异表达分析: DESeq (v3.0)

差异外显子使用分析: DEXSeq (v3.1)

GO富集分析:DAVID (http://david.ncifcrf.gov/).

实验设计
样本9-15为mRNA-Seq测序结果,用于分析人类293个细胞(9-11)和小鼠ES细胞(12-15)d的AKAP95敲出影响。

原文链接是我简书地址,欢迎加入我的小密圈和我交流。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存