查看原文
其他

TCGA的样本id里藏着分组信息

豆豆花花 生信星球 2022-06-07

 今天是生信星球陪你的第291天


   大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~

   就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~

   这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!

用R语言解决一下TCGA的小问题。


图中展示的是TCGA样本id,分组信息是在这个id的第14-15位,01-09是tumor,10-29是normal。我拿了一个示例数据,请在生信星球公众号回复0129获取。
根据这个生成一个分组信息它是一个向量形如

如果在id的14-15位在1-9之间就标记tumor,10-29之间就标记normal。这里面涉及到字符串截取、数据类型转换,%in%函数以及ifelse函数(if-else循环的变体)
将示例数据放到你的工作目录

load(file="id.Rdata")
table(substring(id,14,15)) #table看有多少重复值
num <- as.numeric(substring(id,14,15)) #截取出来是字符串,要转为数字
#屡试不爽的ifelse
group_list=ifelse(num %in1:9,"Tumor","Normal")

如果你要用自己的数据试试,就把样本编号命名为id,来跑一跑就ok。这一列信息后面作图会用。

非常开心公众号粉丝到了2000
最近忙于毕业论文,为了不断更中午不休息了,上班时间继续写论文,豆花在加油。

简书:小洁忘了怎么分身

隔壁生信技能树公益视频合辑(学习顺序是linux,r,软件安装,geo,小技巧,ngs组学!)

国内看B站,教学视频链接:https://m.bilibili.com/space/338686099 
国外看YouTube,教学视频链接:https://m.youtube.com/channel/UC67sImqK7V8tSWHMG8azIVA/playlists 

友情链接:

生信工程师入门最佳指南
学徒培养

资料大全


点击底部的“阅读原文”,获得更好的阅读体验哦😻

初学生信,很荣幸带你迈出第一步。

我们是生信星球,一个不拽术语、通俗易懂的生信知识平台。由于是2018年新号,竟然没有留言功能。需要帮助或提出意见请后台留言、联系微信或发送邮件到Bioplanet520@outlook.com,每一条都会看到的哦~

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存