解读SRA数据库规律一文就够

Original jimmy 生信技能树 2022-06-06

收录于合集 #一文就够 10个

做数据分析的朋友都知道NGS测序数据一般会上传到SRA数据库里面，而这个数据库是可以免费无限制下载的，所以对它有基本的了解是一个生物信息学工程师的基本素养。下面就跟着我一起来掌握它吧。

一般的文章里面会给出数据地址，如下：根据文章的GSE号进入GEO数据库里面，就可以看到其对应的SRA数据库ID号。

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE84498 看到如下：

层级结构是：SRP(项目)—>SRS(样本)—>SRX(数据产生)—>SRR(数据本身)
伴随数据库是project，层级是PRJNA —> SAMN
链接如下：

https://www.ncbi.nlm.nih.gov/sra?term=SRP078156 查看样本列表
https://www.ncbi.nlm.nih.gov/Traces/study/?acc=SRP078156 下载样本ID表格
https://www.ncbi.nlm.nih.gov/bioproject/PRJNA327548
https://www.ncbi.nlm.nih.gov/sra?term=SAMN05341212

首先是SRP开头的ID

一般的文章如果提到其数据上传到了SRA数据库，那么就会给出SRP开头的ID，比如：

The sequencing data have been deposited in the NCBI Sequence Read Archive (SRA) database under the accession code SRP078156.

第一步就是去SRA数据库里面查询：https://www.ncbi.nlm.nih.gov/sra?term=SRP078156

可以看到这个数据集有276个数据。

然后查看该project有哪些数据

链接：https://www.ncbi.nlm.nih.gov/Traces/study/?acc=SRP078156

可以看到该项目包含的数据多少，以及下面的信息：

BioProject:PRJNA327548

BioSampleModel:Human

Consent:public

InsertSize:0

Organism:Homo sapiens

SRA Study:SRP078156

总共有 1.53 Tb 的数据，有点大。

然后看PRJNA开头的ID

进入链接：https://www.ncbi.nlm.nih.gov/bioproject/PRJNA327548 等同于 SRP开头的

可以看到发表的文章，以及涉及到的样本。

这个实验共50个样本

然后进入每个样本

链接：https://www.ncbi.nlm.nih.gov/sra?term=SAMN05341212 等同于SRS开头的ID

可以看到每个样本都有6个不同的数据，如下：

RNA-Seq of OSCC patient: OSCC

1 ILLUMINA (NextSeq 500) run: 35.5M spots, 10.7G bases, 3.9Gb downloads

Accession: SRX1922019

RNA-Seq of OSCC patient: adjacent normal

1 ILLUMINA (NextSeq 500) run: 37.9M spots, 11.5G bases, 4.3Gb downloads

Accession: SRX1922018

Whole-exome sequencing of OSCC patient: OSCC

1 ILLUMINA (Illumina HiSeq 2000) run: 123.6M spots, 25G bases, 10.2Gb downloads

Accession: SRX1969884

Whole-exome sequencing of OSCC patient: PBMC

1 ILLUMINA (Illumina HiSeq 2000) run: 114.1M spots, 23G bases, 9.5Gb downloads

Accession: SRX1969883

Targeted gene sequencing of OSCC patient: OSCC

1 ION_TORRENT (Ion Torrent Proton) run: 20.5M spots, 2.3G bases, 1.2Gb downloads

Accession: SRX1923057

Targeted gene sequencing of OSCC patient: PBMC

1 ION_TORRENT (Ion Torrent Proton) run: 20.1M spots, 2.3G bases, 1.2Gb downloads

Accession: SRX1923056

接着进入SRX开头每个数据描述

每个样本有6个数据，还可以再进入每个数据，查看详情：https://www.ncbi.nlm.nih.gov/sra/SRX1922019

最后进入以SRR开头的数据本身

链接是：https://trace.ncbi.nlm.nih.gov/Traces/sra/?run=SRR3820386

有些样本数据缺失

我根据构造的ftp链接下载了一个项目，共276个数据，但是有2个数据是缺失的，我仔细检查了一下：

https://trace.ncbi.nlm.nih.gov/Traces/sra/?run=SRR3943893

https://www.ncbi.nlm.nih.gov/sra/SRX1969880

ftp://ftp-trace.ncbi.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR394/SRR3943893

发现的确是没有，但是另外的274个样本又都没有问题，看样子根据构造的ftp链接下载sra文件的方法可能要过时了，wget本来就慢，现在还出错，好尴尬。

但是，还好有prefetch

 ~/biosoft/sratoolkit/sratoolkit.2.8.2-1-centos_linux64/bin/prefetch SRR3943893

prefetch下载的数据一般存放在~/ncbi/public/sra/文件下，prefecth在下载前会先查找该文件下是否已经存在该文件。

本文太多超链接，点击下面的阅读原文均可跳转，而且体验更佳！

常德悲剧：让谴责无差别杀戮之声更加响亮一点

2024【公共营养师】培训报名通道已开启，不限学历，23岁及以上可报！还能领2000补贴

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

国内突然宣布，将大规模调整经济布局！又一朝阳行业悄然崛起，新一轮机会出现了！

解读SRA数据库规律一文就够

首先是SRP开头的ID

然后查看该project有哪些数据

然后看PRJNA开头的ID

然后进入每个样本

接着进入SRX开头每个数据描述

最后进入以SRR开头的数据本身

有些样本数据缺失

您可能也对以下帖子感兴趣

常德悲剧：让谴责无差别杀戮之声更加响亮一点

2024【公共营养师】培训报名通道已开启，不限学历，23岁及以上可报！还能领2000补贴

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋 华人崩溃大哭 连空姐都吐了; 客机颠簸盘旋3小时

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

国内突然宣布，将大规模调整经济布局！又一朝阳行业悄然崛起，新一轮机会出现了！

生成图片，分享到微信朋友圈

解读SRA数据库规律一文就够

首先是SRP开头的ID

然后查看该project有哪些数据

然后看PRJNA开头的ID

然后进入每个样本

接着进入SRX开头每个数据描述

最后进入以SRR开头的数据本身

有些样本数据缺失

您可能也对以下帖子感兴趣

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时