查看原文
其他

whh 2018-06-04

SNP相关知识

  1. 定义 snp是Single Nucleotide Polymorphism的英文简称,其中文译为“单一核苷酸多型性”,意思是“DNA序列中的单一碱基对(base pair)变异”,也就是DNA序列中A、T、C、G的改变,即基因组的一个特异和定位的位点出现两个或多个的核苷酸可能性,它是人类可遗传的变异中最常见的一种。占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,平均每500~1000个碱基对中就有1个,估计其总数可达300万个甚至更多。目前科学界已发现了约400万个SNPs 。

  2. 类型 SNP所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转换(transition)或颠换(transversion)所引起,也可由碱基的插入或缺失所致。但通常所说的SNP并不包括后两种情况。

  3. SNP 的命名 关于snp位点的命名其实并不统一,大家在文献中一般用的都是习惯或者说惯用名称。这里只介绍NCBI的rs号。 NCBI里对所有提交的snp进行分类考证之后,都会给出一个rs号,也可称作参考snp,并给出snp的具体信息,包括前后序列,位置信息,分布频率等,应该说用这个rs号是比较容易确定搞明白的。 一般写法是这样: dbSNP后面跟featureID. featureID一般是rs/ss后跟7-8位数字, 比如: rs12345678或者dbSNP|rs12345678。

dbSNP: database of SNP

单核苷酸多态性数据库dbSNP(http://www.ncbi.nlm.nih.gov/SNP/)是由NCBI与人类基因组研究所(National Human Genome Research Institute)合作建立的,它是关于单碱基替换以及短插入、删除多态性的资源库。因为开发dbSNP 是为了补充和辅助 GenBank, 所以它包含了来自任何生物体的核苷酸序列。

dbSNP数据库有哪些数据?查询方式?

SNP数据库的数据内容分为两类:一类是提交数据,即观察所得的原始序列变异;另一类是计算内容,即通过对原始提交数据的计算在每个“build”周期中产生的内容。

dbSNP现已并入NCBI的Entrez系统,能使用与其他Entrez数据库(如PubMed 和GenBank)相同的查询方式来查询数据。

  • dbSNP批量查询方式:使用一组变异IDs(包括RefSNP (rs) IDs, Submitted SNP (ss) IDs和Local SNP IDs)来生成各种SNP报表。

  • 标记间查询方式:如果你对两个STS(sequence tagged site ,序列标签位点)标记间的特定基因感兴趣,可以使用这种方式。

  • 位点信息查询方式:现已被Entrez Gene方式所取代。

dbSNP数据库数据存储目录结构

完整的数据以多种格式存于ftp站点:


ftp.ncbi.nih.gov/snp/

数据库结构以“中心和辐条”为模型,其中dbSNPmain表格为车轮的中心,其存储着数据库的主要表格,而车轮的辐条是具体生物体的数据库,其包含着具体生物体的最新数据。使用标准的SQL DDL(Data Definition Language)为表格和索引创建模式表(schema tables)、视图,SNP的模式实体联系图位于ftp://ftp.ncbi.nih.gov/snp/database/b124/mssql/schema/erddbSNP.pdf。

ftp://ftp.ncbi.nih.gov/snp/ 包含了许多目录,其中最有用的是:

  • organisms/ : 目录包含了一列有SNP数据的生物体目录,其按通用名后接NCBI分类id号来组织的。

  • database/ :包含模式(schema)、数据、创建表格和索引的SQL语句。

  • sharedschema (ftp://ftp.ncbi.nih.gov/snp/database/sharedschema/)子目录包含dbSNPmain中表格的模式DDL(SQL Data Definition Language)。 shareddata(ftp://ftp.ncbi.nih.gov/snp/database/shareddata/)子目录包含所有生物体共享的dbSNPmain的数据。 organismschema (ftp://ftp.ncbi.nih.gov/snp/database/organismschema/)子目录包含每种生物体具体数据库的模式DDL的链接。每种生物体具体数据库的表索引位于organismschema子目录中的organismtaxIDconstraint.sql.gz 和organismtaxID_index.sql.gz文件。

  • specs/ 目录包含重要的文件的格式,内容及其基本介绍。



实例

点击特定的生物体子目录即可访问其中的ftp报表文件,你还可以选择同一个物种的不同版本。比如你点击了human9606 目录,那么你会发现人体组织子目录包含以下子目录:ASN1bin/、ASN1flat/、XML/、VCF/、chrrpts/、genereport/、Genomereport/、rsfasta/、ssfasta/、genotypebygene/、genotype/、haplotypes/、database/、misc/、Enterz/

/ASN1bin : ASN.1 二进制格式的RefSNP文档综述 (.bin)

/ASN1flat :从ASN.1 二进制格式而来的按染色体排序的RefSNP docsum(.flat)

/XML: 提供refSNP簇的具体查询信息以及NCBI SNP交换格式的簇成员(.xml)

/chr_rpts :包含特定染色体上的RefSNPs 的完整列表(.txt)

/genotype :以基因型交换XML格式提供提交的SNPs的submitter和基因型信息(.xml)

/genome_reports :包含生物体SNP密度分布的概要报告以及每个基因中的SNPs的概要报告(无后缀或.rpt或.log)

/ss_fasta :包含FASTA格式的生物体的所有可用的submitted SNP(ss)序列数据(.fas)

/rs_fasta :包含FASTA格式的人类所有可用的参考SNP (RS)序列数据(.fas)

  • /chr_rpts 中的txt文件具体信息解释如下:

1 RefSNP id (rs#)rs代号

2 mapweight where 匹配个数

1 = Unmapped

2 = Mapped to single position in genome

3 = Mapped to 2 positions on a single chromosome

4 = Mapped to 3-10 positions in genome (possible paralog hits)

5 = Mapped to >10 positions in genome.

3 snp_type where snp类型

4 Total number of chromosomes hit by this RefSNP during mapping 匹配到的染色体个数

5 Total number of contigs hit by this RefSNP during mapping 匹配到的conting个数

6 Total number of hits to genome by this RefSNP during mapping 匹配到基因组的个数

7 Chromosome for this hit to genome 匹配到的染色体

8 Contig accession for this hit to genome 匹配到conting 序号

11 Position of RefSNP in contig coordinates 在conting中匹配到突变的位置

12 Position of RefSNP in chromosome coordinates (used to order report) 在染色体中匹配到突变的位置

Locations are specified in NCBI sequence location convention where:

x, a single number, indicates a feature at base position x

x..y, denotes a feature that spans from x to y inclusive.

x^y, denotes a feature that is inserted between bases x and y

13 Genes at this same position on the chromosome 匹配到的基因名字

18 Genotypes available in dbSNP for this RefSNP 基因型是否可知

1 = yes

0 = no

  • gene_report/中有各个基因的突变信息

  • bed/中包含各个染色体上的snp

  • ASN1_flat /中包含了各个染色体的SNP的详细信息(包含以下9个信息):rs, ss, SNP, VAL, CLINSIG,GMAF,CTG,LOC,SEQ。

  • VCF/: 具体信息查看:http://www.ncbi.nlm.nih.gov/variation/docs/humanvariationvcf/#table-1

主要的突变与临床的关系的文件包含的内容:染色体,突变的位置,rs代号,突变过程,info。其中info包含了突变是否为同义突变?突变实在coding 区还是内含子或UTR?也包含了CLNSIG(0 - Uncertain significance, 1 - not provided, 2 - Benign, 3 - Likely benign, 4 - Likely pathogenic, 5 - Pathogenic, 6 - drug response, 7 - histocompatibility, 255 - other);CLNDSDB(Variant disease database name);CLNDBN(Variant disease name)

参考: http://blog.sina.com.cn/s/blog_751bd9440102w6rm.html


还有更多文章,请移步公众号阅读


生信技能树公众号二维码


如果你生信基本技能已经入门,需要提高自己,请关注上面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。

如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。


生信菜鸟团公众号二维码



    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存