其他
TCGA的样本id里藏着分组信息
大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~
就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~
这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!
用R语言解决一下TCGA的小问题。
图中展示的是TCGA样本id,分组信息是在这个id的第14-15位,01-09是tumor,10-29是normal。我拿了一个示例数据,请在生信星球公众号回复0129获取。
根据这个生成一个分组信息它是一个向量形如
如果在id的14-15位在1-9之间就标记tumor,10-29之间就标记normal。这里面涉及到字符串截取、数据类型转换,%in%函数以及ifelse函数(if-else循环的变体)
将示例数据放到你的工作目录
load(file="id.Rdata")
table(substring(id,14,15)) #table看有多少重复值
num <- as.numeric(substring(id,14,15)) #截取出来是字符串,要转为数字
#屡试不爽的ifelse
group_list=ifelse(num %in% 1:9,"Tumor","Normal")
如果你要用自己的数据试试,就把样本编号命名为id,来跑一跑就ok。这一列信息后面作图会用。
简书:小洁忘了怎么分身
隔壁生信技能树公益视频合辑(学习顺序是linux,r,软件安装,geo,小技巧,ngs组学!) 国内看B站,教学视频链接:https://m.bilibili.com/space/338686099
国外看YouTube,教学视频链接:https://m.youtube.com/channel/UC67sImqK7V8tSWHMG8azIVA/playlists友情链接:
点击底部的“阅读原文”,获得更好的阅读体验哦😻
初学生信,很荣幸带你迈出第一步。
我们是生信星球,一个不拽术语、通俗易懂的生信知识平台。由于是2018年新号,竟然没有留言功能。需要帮助或提出意见请后台留言、联系微信或发送邮件到Bioplanet520@outlook.com,每一条都会看到的哦~