查看原文
其他

从GDC下载TCGA肿瘤数据库的数据

果子学生信 果子学生信 2023-06-15

我们之前演示了如何在自己有数据的情况下,借用别人的代码画图。

乱花渐欲迷人眼,偷得浮生半日闲

虽然简单,但是真的需要一点R语言基础技能。要不然再好的教程也是白费。比如这个

来完成你的生信作业,这是最有诚意的GEO数据库教程

看看底下的留言就能判断,这个是干货,是可用的。我还专门录制了一个导学视频,告诉大家如何把这个代码化为己有,但是依然有很多同学,无法流程运行,因为需要一点R语言基础。

这完全比不上另外一个GEO教程,

无代码芯片分析图文教程:每个人都可以做一做的生信第1题

当时想了很多方法,终于跌跌撞撞地实现了无代码的分析,最终学生们也没有多大疑问,因为基本上没有bug。而两年过后,出现了很多自动分析的网站,但我已经没有动力再去制作无代码教程。

回到今天的主题,作图的前提是要有数据,对于TCGA,已经有很多工具可以使用,但用别人开发的工具,意味着比别人慢一步。每一次,我都会讲最原始,也是最可靠的方法(专门录制了一个25分钟的视频)。

在浏览器中输入TCGA,一般第一个就是我们需要的,网址如下

https://cancergenome.nih.gov/

点击进去,是这个界面: 

再点击就进入了TCGA超市 

在这里面,通过患者以及样本的选择,就可以选取自己想要的数据。说他是超市,因为他有个购物车。 选好数据后,加入到购物车

购物车里是这个样子的: 

最后通过他提供的GDC工具,就可以实现数据下载(我录制了视频演示教程)。

除此以外,还有一个地方可以下载数据,十分便捷。

https://xenabrowser.net/hub/

这里面实际上是个数据库,有很多其他数据,我们点击TCGA hub后是这样的 

点击任意肿瘤就进入下载界面,里面有甲基化,CNV,外显子,转录组等,假如下载的是转录组数据就往下翻。 

点击进去: 

这个数据是已经是整理好的行列式了,在download那里可以直接下载,我要注意的是,这个数据是log化后的,如果想要用Deseq2等接受counts数据的R包分析的话,需要把所有数据都去log化。

因为图片描述起来不方便,我录制了一个的视频,需要的朋友,回复"下载TCGA" 即可获得。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存