TCGA是不错的癌症研究数据资源(TCGA数据库在线使用),但癌症研究不只是有TCGA。ICGC国际癌症基因组联盟,有亚洲、澳大利亚、欧洲、北美和南美17个行政区的89个项目,包括25,000个肿瘤基因组。目的是To obtain a comprehensivedescription of genomic, transcriptomic and epigenomic changes in 50 different tumor types and/or subtypes which are of clinical and societal importance across the globe.
数据库的在线使用比较简单,根据提示输入想要查询的内容即可TP53依然是突变频率最高的基因。与TCGA不同的是,ICGC里面有多个国家的人群的数据突变整体比较的经典图,每个点表示每个个体外显子区每MB区域体细胞突变的数目,不同区域的不同癌症归位一组展示。澳大利亚的皮肤癌(MELA-AU)整体突变率最高,英国的慢性骨髓病(CMDI-UK)突变频率最低。这里面有地域差异,也有疾病差别。R语言学习 - 箱线图一步法R语言学习 - 箱线图(小提琴图、抖动图、区域散点图)
ICGC可以做在线富集分析,队列比较分析,集合分析和利用OncoGrid展示数据。不同疾病或地域之间共有或特有的突变位点。轻松绘制各种Venn图 R语言学习 - 韦恩图搜索基因后的详情页基因突变频率分布突变位点分布所在基因组区域的展示BRAF最频繁突变位点突变位点影响注释靶向突变位点的小分子化合物(伊马替尼,格列卫),对于药物设计有重要意义小分子格列卫的属性IMATINIB格列卫的其它靶点正在开展的临床试验某一疾病的信息展示OncoGrid,在上一篇文章已经讲过,TCGA数据库在线使用,500个突变最多的个体和50个最高突变的基因,顶部柱状图代表每个个体中这50个基因的突变位点数目,右侧柱状图表示含有每个基因突变位点的个体数目,热图不同颜色代表不同的突变类型,下方2个颜色条代表临床信息和数据类型,右侧的第一个颜色条代表该基因是否是Cancer Gene Census (The Cancer Gene Census is a list of genes with substantial published evidence in Oncology.),第二个颜色条代表突变影响到的个体数。
OnCoGrid是一种形式的热图,有专用工具来绘制;但有时也可用普通热图工具来展示这些信息,具体见 R语言学习 - 热图简化R语言学习 - 热图美化R语言学习 - 热图绘制 (heatmap)突变和未突变基因的生存分析比较年龄与疾病关系分析突变基因所在通路分析 (富集分析泡泡图绘制 富集分析DotPlot,可以服)COSMIC又一个癌症突变数据库
主状图展示突变位点在不同疾病中的分布,R语言学习 - 柱状图
还有突变位点的蛋白结构,研究Docking 来一场蛋白和小分子的风花雪月换个风格,人蛋白表达数据库,不同人体组织的蛋白质组和转录组数据。