最全生信数据库使用攻略,轻松实现完美复现!
生信学习入门不易,网上能够找到的资料支离破碎,需要耗费大量时间自学才能领悟一二,这显然不符合医生科研精力不足的现状。为此,小编特意为大家整理了常见生信数据库的使用合集!(资源领取方式见文末)
【生信数据库最强汇总目录-2021最新版】
canEvolve | UCSC Cancer Genomics Browser | |
MethyCancer | ||
UniProt✬ | ||
01. TCGA数据库
TCGA 计划由美国 National Cancer Institute和 National Human Genome Research Institute于 2006 年联合启动,目前包括36 种肿瘤。TCGA 利用大规模测序为主的基因组分析技术,呈现出一套与所有肿瘤基因组改变相关的图谱、研究肿瘤的组学机制
TCGA数据库包括了病例临床基本信息,如基本资料,治疗进程,临床分期,肿瘤病理及生存状况,但相对比较简单,其基因相关信息比较全面,包括mRNA、microRNA、Copy Number、Mutation、Protein、Methylation信息等,数据也包括了原始数据、处理(标准化)的数据和部分分析的结果数据。
02. TCIA数据库
TCIA 是癌症研究的医学图像的开放获取数据库。该网站由国家癌症研究所(NCI)癌症影像计划资助,合同由阿肯色大学医学科学院管理。TCIA存储了TCGA病人的影像学资料,如MRI,CT等,以DICOM文件格式存储,还提供与患者结果,治疗细节,基因组学,病理学和专家分析等图像相关的信息。
01. Oncomine数据库
Oncomine是大型的肿瘤基因芯片数据库,致力于收集、标准化并分析肿瘤样本的基因表达谱芯片数据。
它可提供基因在肿瘤样本和正常样本间、肿瘤样本和肿瘤样本间、正常样本和正常样本间的差异表达、基因表达谱、预测共表达基因等信息,并可根据肿瘤分期、分级、组织类型等临床信息进行分类。
02. GEO数据库
Gene Expression Omnibus(GEO)是一个储存高通量功能基因组学数据的数据库,这些高通量功能基因组学数据来自芯片和新一代的测序仪得到的试验数据。GEO除了收录基因表达数据之外还收录其它数据,例如基因组拷贝数变异数据、基因组-蛋白相互作用数据以及基因组甲基化数据等。
GEO数据库被分为两个部分收录在Entrez中,分别是GEO Profiles数据库(它负责收录一个基因在一次试验中的定量基因表达数据)和GEO DataSets 数据库(收录整个试验的数据)。目前,GEO数据库共收录了由世界各地的实验室提交的超过1871121个样本试验数据,16088个芯片平台记录,71339种实验项目以及3848种研究类型的基因表达谱数据。
03. UALCAN数据库
这个数据库可以对TCGA数据的RNA-seq进行深入研究,主要是mRNA和miRNA(及其靶基因),十分方便。该数据库还可以做甲基化分析,是GEPIA不具备的功能。
01. Cancer Hotspots数据库
Cancer Hotspots数据库由Memorial Sloan Kettering癌症中心的Kravis分子肿瘤学中心维护,提供大规模癌症基因组学数据中发现的在统计学上有显著复发突变的信息。
目前,Cancer Hotspots里面包含有24592个肿瘤样品中鉴定的单残基和框内indel突变热点。用户还可按照gene、residue、type、variants等对其内容进行排列查看。
01. ClinVar数据库
ClinVar是NCBI主办的与疾病相关的人类基因组变异数据库。它的强大在于整合了dbSNP、dbVar、Pubmed、OMIM等多个数据库在遗传变异和临床表型方面的数据信息,将变异、临床表型、实证数据以及功能注解与分析等四个方面的信息,通过专家评审,逐步形成一个标准的、可信的、稳定的遗传变异-临床表型相关的数据库。
02. dbSNP数据库
由NCBI与人类基因组研究所(National Human Genome Research Institute)合作建立的,收录了SNP 短插入缺失多态性、微卫星标记和短重复序列等数据及其来源、检测和验证方法、基因型信息、上下游序、人群频率等信息。
01. MethBank数据库
一款甲基化综合数据库,整合有跨物种的共识参考甲基化组(Consensus Reference Methylome,CRM)、全基因组单碱基分辨率甲基化组(Single-base resolution methylome,SRM)、单细胞甲基化图谱和表观遗传组关联分析(EWAS)数据,并提供DNA/RNA甲基化研究工具查询(MeTools)和甲基化基因组信息可视化功能。目前MethBank 4.1版本涵盖了,来自12个年龄组的5,687,344个健康人类样本的163个CRM,来自5种植物不同发育阶段和/或组织中336个SRM,以及人和小鼠的从配子到早期胚胎发育阶段的18个SRM,并能够系统识别基因甲基化谱,并提供差异性甲基化启动子(DMP)、差异性甲基化区域(DMR)、差异性甲基化位点(DMC)及与年龄密切相关甲基化位点和跨不同年龄的恒定甲基化水平位点等信息。
02. m6A2Target数据库
该数据库精选了人、鼠m6A有关的94篇文章和78份数据集,通过手动整理将m6A相关的WERs分为3类,经过实验验证的、比较可靠的,归类为Validated,有1034个;由RIP-seq等初步预测获得的DNA-protein、RNA-protein、Protein-Protein不同类型的binding(结合)关系,归类为Potential-binding,达12万+;由m6A-Seq、Ribo-Seq等通过基因敲除方法初步筛选的,则归类为Potential-perturbation,高达33万+。
01. STRING数据库
String 数据库是一个搜索已知蛋白质之间和预测蛋白质之间相互作用的数据库,该数据库可应用于五千多个个物种,包含两千四百万种蛋白的,大于2000万种蛋白质之间的相互作用连接。
02. Uniprot数据库
Uniprot数据库是资源最广、信息最丰富的蛋白质数据库,是查询蛋白功能的首选数据库。Uniprot数据库由Swiss-Prot、TrEMBL和PIR-PSD三大子数据库构成,数据主要来自于各物种基因组测序完成后得到的全基因蛋白质序列,并包含了很多来自文献中的蛋白及其功能信息。尤其是swiss-prot 子数据库,库中蛋白质信息都是手工核对过的 ,非冗余, 有详细注释信息的蛋白数据。
01. OncoKB数据库
OncoKB收集了肿瘤发生发展相关的,具有临床意义的基因组变异信息,对于每个变异,提供了其对应的生物学效应,药物互作,预后和治疗意义等详细信息
01. KEGG数据库
信号通路是基础科研的精粹所在,而掌握通路浩瀚数据的钥匙就是KEGG。KEGG是日本京都Kanehisa Laboratories根据文献证据手工整理的一个庞大数据库(包括信号通路、基因、疾病、药物等等)。
KEGG有别于其他数据库的一个显著特点就是具有强大的图形功能,它利用直观图形而不是繁缛的文字来介绍众多的代谢途径以及各途径之间的关系,简单明了。但初见KEGG也不是这么好用的,因为日本人清奇的脑回路,很(sang)贴(xin)心(bin)的(kuang)在网站里放了16个子数据库。
02. Reactome数据库
Reactome是一个包含细胞代谢和信号通路的通路数据库。冷泉港实验室(Cold Spring Harbor Laboratory,)、欧洲生物信息学研究所(EuropeanBioinformatics Institute)和基因本体联合会(Gene Ontology Consortium)是该项目的主要开发者。虽然人类是被分类的主要生物,但它有22种其他物种的数据,比如老鼠(mouse)和大鼠(rat)。Reactome的通路和反应可以观看,但不能通过网页浏览器编辑。虽然存储格式是专有的,但大量的通路可以以多种格式获得。
如何获取以上生信资料?
①将本文分享到朋友圈(不屏蔽好友)+一句好评,保留15分钟;
②扫描下方二维码,在公众号内回复关键词“小编”,添加小编微信,截图获取!
赶快来领取吧!
解锁2个神级论文写作工具,学渣也能快速发Paper!
最实用!Origin绘图与数据处理:XRD、XPS、Raman...
没数据也能发10分?protocol竟这么火,标书/论文实验都可用!
Tips:点击“阅读原文”领取最新更新资源包!