COSMIC:最大的【癌症基因突变】的数据库
当你研究一个基因或蛋白时,研究到功能和应用阶段,你需要知道这个基因在癌症中是否存在突变,这个时候该怎么查?
今天给大家安利一个超强的数据库:COSMIC。
Cosmic [ˈkɑ:zmɪk] 本意为"宇宙的;极广阔的",然而这里为 Catalogue Of Somatic Mutations In Cancer 的缩写,即「肿瘤中体细胞突变的目录」。
该数据库主要由英国威康信托基金会桑格研究所(Wellcome Trust Sanger Institute)开发和运作,2004 年发布第一个版本,2017 年 2 月 13 日发布了最新的第 80 个版本(v80),以后每 3 个月更新一次。这个数据库有专门的团队维护,不可以自己上传数据,如果你希望上传,可以联系他们的团队。
网站对 2016 年 9 月的第 78 版(v78)的数据量统计如下:
这是目前最大最全的关于肿瘤中基因突变的数据库!
下面简要介绍一下 COSMIC 的用法和亮点:
COSMIC 菜单栏,核心包括 Resources、Curation(精选)、Tools、Data四个部分
▲ COSMIC 的整体页面,其中上面提到的最核心的 4 个板块也被单独列出来
1. Home
Home 里面包含有 Cell Lines Project 和 COSMIC,其中 Cell Lines Project 是对最常使用的 1000 多种肿瘤细胞系的深入分析的数据,而标准的 COSMIC 版本中,包含的数据更多,但是分析没有 Cell Lines Project 深入,可以理解为网站的两种模式。
在标准的 COSMIC 模式下,网站的主色调是蓝色的,而一旦选择 Cell Lines Project,网站主色调变为绿色。以下我们在标准的 COSMIC 模式下讲解。
▲ 1000 多种最常用的肿瘤细胞系清单
2. Resources
Resources 里面包括 Cell Lines Project 、COSMIC、Cancer Gene Census、Drug Sensitivity、Mutational Signatures、GRCh37 Archive,其中 Cell Lines Project 、COSMIC 跟 Home 中的完全一样,最后的 GRCh37 Archive 指的是以此前版本的人类基因组数据为参考,因此这里重点介绍 Cancer Gene Census、Drug Sensitivity、Mutational Signatures。
2.1 Cancer Gene Census(癌基因统计)
2.1.1 Census
这里又分为三个子菜单 Census、Breakdown(统计分析)、Abbreviations,其中 Census 菜单,显示目前所有的癌基因,而且这个数据表可以搜索,导出(需要先注册)。
注意:搜索的时候,只能在当前的页面搜索,比如我在第一页搜索 DNMT3A,显示是没有匹配的,但翻到第二页,再次搜索就有了。
▲ 导出的格式有CSV和TSV,据导出的表格显示,目前一共有 616 个癌基因。
以 DNMT3A 为例,点击基因名,可以进入详细的页面:
▲ 最右边的灰色条可上下拉动,以控制页面中峰的显示幅度。鼠标落在一个突位点上,显示该突变点的位置以及突变数。
▲ 根据结构信息,分析该突变位点是否落在具有功能的结构域。
其他的功能,比如 Tissue、Distribution、Drug Resistance、Variant 等也非常重要,这里不逐一介绍。
2.1.2 Breakdown(统计分析)
▲ 这里是对所有癌细胞中的突变进行了整理
2.1.3 Abbreviations:对表格中的缩写进行解释。
2.2 Drug Sensitivity
▲ 鉴定肿瘤的分子特征,预测抗肿瘤药物的响应
(Identifying molecular features of cancers that predict response to anti-cancer drugs.)
这里主要包括 Compound、Cancer Feature、Cell Line 三种数据。
▲ 一共有265个小分子化合物,可以靶向不同的癌基因和信号通路
Cancer Feature 和 Cell line 的内容小伙伴可以自己去探索哦~
2.3 Mutational Signatures(突变特征)
导致体细胞突变的原因很多,比如 DNA 复制的失真、暴露到内源性或外源性的诱变源、 DNA 酶修饰、DNA修 复的缺陷。不同的突变过程会产生不同的突变组合,这里定义为“突变特征”。
▲ 一共归纳了 30 种“突变特征”
3. Curation(精选)
这里又细分为 Cancer Gene Census、Genes、Gene Fusions、Genome Screen、Drug Resistance,其中 Cancer Gene Census 与前面介绍的完全一样,不再赘述。
这里的 Genes 与上面的 Cancer Gene Census 有一定差别,其中 Genes 是 Cancer Gene Census 中筛选出来的,此前没有现成的数据库的。(From this list we are selecting genes for COSMIC expert curation with an emphasis on genes for which there are no existing databases.)
▲ 这里的 Genes 一共有 192 个,远比 Cancer Gene Census 中的 616 个基因少
Gene Fusions、Genome Screen、Drug Resistance 也留给小伙伴们去探索。
4. Tools
Tools 中主要包括 Cancer Browser、Genome Browser、CONAN、Beacon,前两者很容易理解,CONAN 是指拷贝数分析(Copy Number Analysis)
▲ 这里需要输入基因名称或基因区间
Beacon,这里理解为“界标”,即根据在基因组中的位置来查找突变
▲ Beacon 的操作界面
Highlight
在首页的 Tools 工具栏中,新增了 COSMIC-3D,这个功能非常酷炫!
以 Kras 为例,输入后按 enter 键,得到以下界面:
▲ 这个功能超级好玩!可以放大,缩小,旋转,截图……
▲ 继续往下拉,可以看到各种错义突变的位置,炫酷的是,右上角的蛋白结构还在转个不停。
……
以上只是 COSMIC 的冰山一角
小编抛砖引玉而已
更多有意思的,有用的功能
还有待小伙伴们自己挖掘!