想学画图、数据处理,先学哪些R包?看哪些书?
需求描述
今天有小伙伴问:现在大家觉得最好的R画图包是哪个呀?我现在主要用ggplot2。
小丫答:这是个有趣的问题,我提取152个FigureYa里用到的R包,看40位画图高手都用了哪些R包,哪些R包最常用。
解题思路
用R包之前要先用library(R包的名字)加载,我们提取library后面括号里的包的名字就好啦~
FigureYa的文件目录如下,文件夹里的*.Rmd文件里是画图代码。
输入文件
用shell命令提取R包的名字
#
提取Rmd文件中包含“library(”的行
grep 'library(' FigureYa*/*.Rmd >library.txt
# 提取包的名字
sed 's/ //g' library.txt | sed 's/"//g' | sed 's/(/ /g' | sed 's/)/ /g' | awk '{print $2}' | sort > libraryName.txt
开始统计
用R计算R包出现的频率,并输出能排序的表格
df <- read.table("libraryName.txt")
freq <- data.frame(table(df$V1))
colnames(freq)[1] <- "Library"
DT::datatable(freq)
结果如下:
结论
最常用的画图包就是ggplot2。152个FigureYa用到165个R包,其中ggplot2用到52次;其次是pheatmap,用到18次;complexHeatmap用到8次。
用来处理数据的dplyr用到25次;其次是stringr和data.table,分别用到19次和17次;plyr和tidyverse各用到14次;
配色的RColorBrower用到19次;
拼图的cowplot用到13次;
做生存分析的survival用到16次;
做富集分析的clusterProfiler用到8次;
下载TCGA数据的TCGAbiolinks用到10次。
学画图/处理数据,就从标红的这几个包开始吧~
学习ggplot2画图推荐此书:
《R数据可视化手册》,在线看英文原版:https://r-graphics.org/
学习pheatmap,看看?pheatmap就好;
学习complexheatmap,看在线电子书:https://jokergoo.github.io/ComplexHeatmap-reference/book/
学习dplyr和stringr推荐此书:
《R数据科学》,在线看英文原版:https://r4ds.had.co.nz/
学习clusterProfiler,在线看电子书:https://yulab-smu.github.io/clusterProfiler-book/,看作者公众号biobabble(点击蓝字关注)
回复“群公告”,拉到底看7个群的介绍,纯画图、数据处理、医学统计、动植物微生物,剩余名额不多,按需加入。
加入小丫画图群,我们一起画美图~