不用做实验,挖掘TCGA数据库,就发表了这篇cell文章,作者怎么做到的?
The following article is from 生信之家 Author 七师兄
导语
TCGA数据库是研究癌症数据最常用的数据库之一。目前pubmed上发表的基于TCGA生信分析的文献非常多,今天给大家推荐一篇发表在cell上面的文献:
《Oncogenic Signaling Pathway in The Cancer Genome Altas》
1.TCGA数据库简介
TCGA数据库收录了33种癌症,超过20000个样本的数据信息。这些数据包括转录组(mRNA,lncRNA和miRNA)、基因组(突变、CNV)、表观组(DNA甲基化)、蛋白组及临床信息数据。
数据库的优点是:数据质量高,组学数据丰富,样本量大以及临床信息全面。
缺点是:癌症方向偏少,数据下载权限高以及分析难度高。
2.文章使用的数据
这篇文章使用了TCGA数据库中的33个癌症的9125个样本,包括Somatic mutations (whole-exome sequencing), gene expression levels (RNA-Seq), DNA copy-number alterations (Affymetrix SNP arrays), and DNA methylation (Infinium arrays)的几种组学的数据。每种癌症还有亚型数据。
这些数据可以通过GDC数据库或firebrowse数据库或UCSU或cbioportal或R语言下载。
3. 针对10条通路进行分析
研究重点关注有频繁基因突变的10条典型信号通路中的癌症驱动基因或治疗靶点基因。通过合并跨多个TCGA的通路基因,构建了10条通路中每个候选基因的整合表。
这10个基因的信息可以在KEGG数据库获得。
这10个经典通路的名称及调控网络如下图所示,通路基因的改变分为激活事件和失活事件,前者包括热点突变、扩增突变或致癌基因融合突变等特异性复发错义突变;后者有截短突变、特异性复发错义突变或整码突变、缺失,以及抑癌基因的融合和启动子甲基化。
4. 肿瘤通路突变频率分析
针对每种肿瘤类型和亚型,计算10条通路中每条信号通路至少有一个突变的样本比例。如通路中一个或多个基因中有一个复发或已知的驱动基因突变,则认为肿瘤样本在给定通路中有改变。
分析结果如下图所示,RTK-RAS信号通路突变中位数频率最高,占样本的46%。肿瘤亚型突变比例依次为:黑色素瘤94%、基因组稳定亚型结直肠癌88%、Her2-富集乳腺癌82%、胰腺癌78 %、IDH1野生型胶质瘤82%、肺腺癌74%和甲状腺癌84%。某些类型肿瘤在PI3K通路变化大,如肺鳞状细胞癌68%、EB病毒阳性食管癌80%和非高频突变子宫内膜癌(高CN 为86 %,低CN为 95 %)。
TCGA癌症的基因突变信息统计可以基于cbioportal获得。
5. 关键通路RTK-RAS
突变频率最高的通路我们重点分析。RTK-RAS通路中KRAS是最频繁改变的基因,占所有样本的9%;其次是BRAF基因的7%和EGFR基因的4%。KRAS基因突变最常见于胰腺癌(72%)、基因组稳定型结直肠癌(69%)和肺腺癌(33%)。
通路map图我们可以基于KEGG mapper工具进行作图。
6. 基因突变的通路的交互分析
肿瘤通常具有多个功能改变,影响不止一条通路。某些通路有一个以上突变位点的靶点,或在同个肿瘤中的不同通路一起发生突变。在大型患者队列中,突变的互斥与功能冗余相关;另一方面,肿瘤样本中的同现模式代表功能协同作用。本研究在410个特征化突变中,鉴别出156对互斥突变和117对同现突变。下图与步骤3里的图有相同也有区别。
7. 突变对基因的影响
根据不同的基因突变类型,会造成不同的功能变化。编码NRF2蛋白的NFE2L2基因获得性功能突变和扩增明显与PIK3CA基因扩增共发生,也常见于PIK3CA突变和PIK3CB扩增。另外,NFE2L2扩增与STK11缺失互斥,但后者又与NFE2L2的负调控因子KEAP1的功能性突变共现。在肺鳞癌和腺癌、食管癌、头颈部鳞状细胞癌和子宫癌中,同现的Nrf2-PI3K通路突变最常见,同样在这些肿瘤中,NFE2L2和KEAP1的突变几乎完全互斥。
8. 讨论
文章提供了一个详尽的关于癌症相关通路的数据库分析。
思路报告:突变基因→差异基因→ KEGG →
通路基因匹配 → 打分(p-value, 数目) → 可能参与的通路排名
9. 总结:
全文几乎没有试验验证,以生信分析为主。
关于文献里用的一些数据库、在线工具及本地软件如下图所示,难度不等;
这是一篇cell级别文章,工作量及难度极大,不过里面有很多地方是值得我们借鉴,甚至可以为我们所有的。
比如,我们分析时可以以某个癌症为主要目的,并非要像该文章把所有癌症都下载分析。
文章里面的TCGA数据使用及下载,cbioportal数据库、KEGG 数据库等,以及做差异表达基因分析、差异甲基化分析、基因突变类型/数量/对应样本名称分析、突变热图分析、临床预后分析、通路富集分析等,还有本地软件构建聚类热图、网络图等,这些都可以帮助我们更好的获得结果结论。
因此我们针对TCGA数据库的操作开设了培训学习班,计划如下:
要点预览
全国TCGA,GEO生信高通量数据挖掘专题学习班
第8期广州班:2019/8/8-9(7号报到)
广州南洋长胜酒店
第7期北京班:2019/8/24-25(23号报到)
北京金泰绿洲酒店
培训简介
癌症是临床医学中非常重要的疾病方向。TCGA数据库中包含了常见了40种癌症方向(含30000个样本)的高通量数据及临床信息。大家对TCGA数据库的使用近几年也在逐渐增加!如图1所示。
图1 基于 pubmed数据库检索的包含“TCGA”发表的SCI 文章数量(2018年11月7日)
关键靶标分析是指基于生信的方法从高通量数据中挖掘到与研究方向最相关的靶标基因(mRNA,miRNA,lncRNA或蛋白)。
因此,需要我们自己掌握高通量数据挖掘的能力以及逻辑性的生信分析思路,从海量信息中获得自己想要的关键基因!
培训预期:
1. 通过整整两天的培训,掌握TCGA,GEO数据库的使用、下载及分析思路和实用操作技能。
2. 可以独立完成一篇基于公共数据库的高通量数据挖掘分析。
3. 课后还可以赠送1小时的全场串联视频,用于学员的复习。
4. 赠送一份最近5年的高价值国自然标书(医药加高价值标书库里面选择)
5. 讲师团队赠送TCGA数据库甲基化,基因表达谱整合分析报告与疾病mRNA+lncRNA分析报告。
讲师简介
宋伟博士
研究成果:参与完成了近百篇软件著作权和发明专利的撰写和申请;肺癌、胰腺癌、骨肉瘤、胃癌等数据库的分析和构建;完成个体基因检测流程和无创唐筛流程的开发。
研究方向:有近十年的生信分析经验,擅长方向有转录组测序分析、芯片数据分析、疾病机理研究分析、疾病预后与基因关联分析、项目分析思路设计以及个性化分析等,精通perl、R等编程语言。
培训经历:在上海、沈阳、济南、武汉等城市举办过十几场培训班。培训的对象有:医生、学生、科研工作者、生信爱好者等。
培训方向:《测序与芯片数据分析》、《生物信息学的魅力》、《生信文章实例解读》、《生信与实验的密切关系》、《生信与临床医学的关系》、《生信实用工具培训》、《多组学整合分析流程》、《R语言培训》等
课程安排
分析示例图
示例图 通路富集分析结果图
示例图 聚类热图分析
示例图 GO富集分析结果图
示例图 蛋白互作网络图
示例图 pathway map图
示例图 关键基因的KM生存曲线图
学习费用
2800元/每位(学习费包含电子版教材、午餐,住宿费自理,保证学员完全掌握。)
优惠政策:
1. 提前支付转账的可提前拿到学习资料
2. 三人组团报名,每人收费2700元
3. 四人组团报名,每人收费2600元
4. 五人组团报名缴费,额外带一人免费注册!
可以开正规会务发票,纸质邀请函(盖红章)。
注意事项:携带windows系统的电脑,苹果电脑请务必提前做好双系统。现场不得录音录像。
报名咨询
报名咨询可联系 金老师 18917745941 王老师 13818765978
报名方式一:
2017-2018年,医药加金牌学习班已经在全国举办了几百期学习班,已经培训出4000+学员,许多学员通过医药加精品课程的学习,快速发表了sci文章或者拿到了国自然等项目基金。医药加学习班深受学员们的热烈欢迎,主讲老师的专业水平与实操能力,也让学员们绝口称赞。
医药加金牌讲师团会在现场给学员们面授科研策略与技能。
咨询报名:请加学习班秘书微信yiyaojia01
7.13-14 | 成都金玉阳光酒店 | 第7期TCGA/GEO高通量公共数据库挖掘学习班 |
7.13-14 | 成都金玉阳光酒店 | 第11期中药网络药理学的研究策略与实用技能研讨班 |
7.13-14 | 成都金玉阳光酒店 | 第8期肠道菌群与代谢组学课题设计及研究策略专题学习班 |
7.12-14 | 成都金玉阳光酒店 | 第43期循证医学与meta分析(含网状meta分析)三天精讲学习班 |
7.13-14 | 上海中兴和泰酒店 | 第13期实用医学统计与GraphPad作图学习班 |
7.27-28 | 上海中兴和泰酒店 | 第5期全国临床预测模型构建与基于R语言统计分析学习班 |
7.27-28 | 上海中兴和泰酒店 | 第31期非编码RNA与外泌体研究策略与基金申请学习班 |
7.27-28 | 上海中兴和泰酒店 | 蛋白质/代谢组学实验设计与数据分析学习班 |
7.25-26 | 上海中兴和泰酒店 | 第8期R语言数据分析实战技术培训班 |
7.27-28 | 上海中兴和泰酒店 | 2020国自然基金标书课题构思辅导班(含有个性化点评辅导) |
8.2-4 | 吉林大学第一医院 | 第45期循证医学与meta分析(含网状meta分析)三天精讲学习班 |
8.3-4 | 长春海航长白山宾馆 | 高通量数据库挖掘与网络图构建分析培训班 |
8.10-12 | 上海中兴和泰酒店 | 第15期基因编辑技术学习班 |
8.10-11 | 上海中兴和泰酒店 | 全国第10期临床研究设计学习班 |
8.8-9 | 广州南洋长胜酒店 | 第12期中药网络药理学的研究策略与实用技能研讨班 |
8.8-9 | 广州南洋长胜酒店 | 第8期TCGA/GEO高通量公共数据库挖掘学习班 |
8.8-9 | 广州南洋长胜酒店 | 第35期非编码RNA与外泌体研究策略与基金申请学习班 |
8.10-11 | 广州南洋长胜酒店 | 2019全国AI科研作图高级学习班 |
8.10-11 | 广州南洋长胜酒店 | 非编码RNA数据分析及ceRNA网络构建学习班 |
8.16-18 | 广州南洋长胜酒店 | python语言零基础学习班 |
8.17-18 | 广州南洋长胜酒店 | 第6期全国临床预测模型构建与基于R语言统计分析学习班 |
8.23-25 | 上海中兴和泰酒店 | 第45期循证医学与meta分析(含网状meta分析)三天精讲学习班 |
8.24-25 | 北京金泰绿洲酒店 | 膜片钳光遗传技术及该领域国自然构思写作学习班 |
8.24-25 | 北京金泰绿洲酒店 | 第7期肠道菌群与代谢组学课题设计及研究策略专题学习班 |
8.24-25 | 北京金泰绿洲酒店 | 第9期TCGA/GEO高通量公共数据库挖掘学习班 |
8.24-25 | 北京金泰绿洲酒店 | 第13期医学SCI论文写作及发表技巧学习班 |
医药加精品资源推荐
利用R软件对GEO芯片进行数据处理、差异分析、热图绘制,你只需要看这些视频(免费领取)
做非编码RNA研究,避免走弯路,全套非编码RNA相关研究资源下载!
2019执业医师(助理)考试通关视频、秘籍、资料(共135GB)