Y叔推荐的这个图有毒!
接下来的日子就是为暑期的课程做准备,
其中一个设计的练习项目是这个样子的。 下载TCGA的癌症数据,把他调整成ggplot2想要的样子,大概是这个样子的, 列是基因的名称,行代表的是每一个独立样本。
要达到ggplot2的喜欢的格式,需要经过转置,增加癌和癌旁信息,增加亚组信息,虽然很简单, 但是包含了很多数据框的操作,所以很适合拿来作为练习材料。
当我们做好了之后,可以查看任意基因在癌和癌旁的表达,以及在亚组中的表达。
举个例子: 看BRCA1基因的是癌和癌旁的表达
library(ggplot2)
ggplot(exprSet,aes(x=sample,y=BRCA1))+
geom_boxplot()+
theme_bw()+
theme(panel.grid.major = element_blank(),
panel.grid.minor = element_blank())
library(ggplot2)
ggplot(exprSet,aes(x=Call,y=BRCA1))+
geom_boxplot()+
theme_bw()+
theme(panel.grid.major = element_blank(),
panel.grid.minor = element_blank())
方便是方便,但是好像距离发表文章还差2小时Graphpad的打磨,直到有一天我看了Y叔的这条推送。
他介绍了一个包叫“ggstatsplot”,这个搞起来真是盛世美颜!请看!: BRCA1基因的是癌和癌旁的表达
library(ggstatsplot)
ggbetweenstats(data = exprSet,
x = sample,
y = BRCA1)
library(ggstatsplot)
ggbetweenstats(data = exprSet,
x = Call,
y = BRCA1,
xlab = "subgroup")
完全不一样,对吧!上面还自动加入统计数据,每组的样本数以及均值。
所以,感谢Y叔的推荐,这个系列也正式加入暑期课程的练习套餐。 由此,我讲一下我对R语言的理解:
我的数据是去年的,但是因为多了一个R包,呈现方式完全不一样。
R包是R语言的重要组成部分,我们这些普罗大众是依靠R包而活的,多学一个好的R包就多一个技能,就像手机里多一个APP,手机功能就被拓展一样。
而我们能做的事情就是,把自己的数据调整到R包所需要的格式,输入,就可以了。
而这种调整数据格式的能力就是R语言的基本功,很简单,但是需要练习。