生物信息学基本概念及常用数据库介绍

Original 分析技术部美格基因 2021-03-10

嗨，各位小伙伴大家好，我们又见面了，在本期内容我们将一起来学习一些生信基础概念、常用数据库，同时也欢迎各位小伙伴留言，或提问或分享，我们一起学习、一起成长、一起进步。

生物信息学基本概念

高通量测序

（High-throughput sequencing，HTS）

对传统Sanger测序（称为一代测序技术）革命性的改变, 一次对几十万到几百万条核酸分子进行序列测定, 也称其为下一代测序技术(next generation sequencing，NGS )足见其划时代的改变。高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能，所以又被称为深度测序（Deep sequencing）。

De novo 测序

即从头测序，其不需要任何现有的序列资料（不依赖于参考基因组）就可以对某个物种进行测序，利用生物信息学分析手段对序列进行拼接，组装，从而获得该物种的基因组图谱。

基因组重测序

（Genome Re-sequencing）

对基因组序列已知的个体进行基因组测序，并在个体或群体水平上进行差异性分析的方法。

Paired-end sequencing

即双末端测序，将基因组随机打断成固定范围大小（如5 k/10 k/350 bp/500 bp）的片段进行文库构建，再对文库片段的两端测序。

reads

高通量测序平台产生的序列就称为reads。

Contig

基于reads之间的overlap区，拼接获得的序列称为Contig（重叠群）。

scaffold

基于Contig之间的顺序关系，将Contig进一步组装得到的更长的序列，称为scaffold。

Contig N50

所有的Contigs按照从长到短进行排序，将排序后的contig长度依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50。举例：Contig 1+Contig 2+ Contig 3+Contig 4=Contig总长度*1/2时，Contig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。

k-mer

k-mer是指将reads分成包含k个碱基的字符串，一般长短为m的reads可以分成m-k+1个k-mers。举例：假设reads序列（当然实际比这个长）：AACTGACTGA，如果k-mer的k=3，就是reads切割为AAC ACT CTG TGA GAC ACT CTG TGA，我们将这些k-mers放入计算机中拼接，假设第一个为TGA ,那么下一个应该为GA-,.……

基因组组装策略，除了基于序列overlap关系进行拼接，另一种就是基于de Bruijn图进行组装。该方法是把reads打断成一定长度的k-mer，然后根据k-mer之间严格的碱基配对关系构建de Bruijn图，最后通过对图形的解读找出最合理的序组装结果。

de Bruijn组装原理

测序深度和覆盖度

测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M，测序深度为10X，那么获得的总数据量为20M。覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在，测序最终拼接组装获得的序列往往无法覆盖有所的区域，这部分没有获得的区域就称为Gap。例如一个细菌基因组测序，覆盖度是98%，那么还有2%的序列区域是没有通过测序获得的。

SNP 和 SNV

单核苷酸多态性（singlenucleotide polymorphim, SNP），单核苷酸位点变异（single nucleotide variants, SNV），两者都指的是在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。SNP是各种生物都有的，是一个群体性概念，SNV仅针对单个基因而言。

INDEL

插入缺失变异（insertion-deletion, InDel），指的是基因组中有一定数量的核苷酸插入或缺失导致的亲本与其它亲本在基因组中的差异。

常用数据库和资源介绍

NCBI

http：//www.ncbi.nlm.nih.gov/

美国国家生物技术信息中心（National Center for Biotechnology Information，NCBI ），建立于1988年，已成为全球最具影响力的网站，集数据库、数据检索与分析工具多功能和资源于一身。

NCBI所有功能介绍与指引：

https://www.ncbi.nlm.nih.gov/guide/all/

NCBI-Genbank

是一个开放的数据库，提供所有可公开获得的DNA序列，与日本的DNA数据库（DDBJ），欧洲核苷酸文库（ENA）每天交换数据共享。

NCBI-RefSeq

提供非冗余转录本、基因组和蛋白质的参考标准序列，RefSeq标准序列为基因组注释、基因鉴定、基因表达研究、突变分析和多态发现提供了一个稳定的参考点。

NCBI-SRA（Sequence Read Archive）

用于存储二代测序的原始数据，包括 454，Illumina，SOLiD，IonTorrent，Helicos 和 CompleteGenomics。除了原始序列数据外，SRA现在也存在raw reads在参考基因的比对信息。

序列提交手册：

https://www.ncbi.nlm.nih.gov/books/NBK47529/

NCBI-Genome

收录真核生物完整基因组数据（包括基因组组装数据及注释数据）以及动物、绿色植物和真菌的染色体信息。原核生物、病毒和真核生物细胞器的基因组则可以链接到专门的页面和BLAST页面。

NCBI-NR（NonRedundant Protein Database）

由NCBI创建并维护的非冗余的蛋白质数据库，其特点是内容全面，注释结果同时包含物种信息，可以作为物种分类时的参考，缺点是并不是所有的功能描述都特别准，数据未经过验证，可靠性有待提高。

KEGG

（Kyoto Encyclopedia of Genes and Genomes）

http://www.kegg.jp/

KEGG数据库是一个综合数据库，大致分为系统信息、基因组信息、化学信息和健康信息四大类，共包含了17个主要的数据库。在网页上主要用颜色区分数据库分类。

其中最核心是KEGG Pathway数据库，其分为3个层级。

第一层级是将生物代谢通路分为7个大类，新陈代谢、遗传信息加工、.环境信息加工、.细胞过程、生物体系统、人类疾病、药物开发，第二层级把这7个功能分类划分成更精细的子分类，第三层级直接对应KEGG 的pathway，每一类pathway均标识参与该过程的基因，基于KEGG的注释结果可以方便的寻找行使某一类功能的基因，同时可以构建相关代谢通路图。

KEGG不仅提供了所有可能的代谢通路，还对催化各步反应的酶进行了全面的注解，包含其氨基酸序列、到PDB数据库的链接等。因此，KEGG是进行生物体内代谢分析、代谢网络分析等研究的强有力工具之一。

ExPASy

（Expert Protein Analysis System）

https://www.expasy.org/

ExPASy，SIB生物信息学资源门户网站，提供生命科学不同领域的科学数据库和软件工具（即资源），包括蛋白质组学，基因组学，系统发育学，系统生物学，群体遗传学，转录组学等。主要专注的领域是蛋白质分子和蛋白质组学。

ExPASy所有资源介绍和入口

https://www.expasy.org/resources

以上就是本期的全部内容，由于各大数据库功能强大而篇幅有限，因此未能详尽介绍使用方法，大家可以参考官网使用手册进行操作。

欢迎大家在下方留言区踊跃发言，交流心得！

更多干货，就在——

美格基因生信交流群，

长按二维码，立即加入！

技术热线:020-22119611转802

咨询邮箱:support@magigene.com

地址:广州国际生物岛螺旋四路7号402单元

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…