查看原文
其他

学徒作业-在CCLE数据库里面根据指定基因在指定细胞系里面提取表达矩阵

生信技能树 生信技能树 2022-06-06

看到发表在 Cell. 2020 Mar 4. 的文章的研究项目里面有 4个10X样本,题目是:Complement Signals Determine Opposite Effects of B Cells in Chemotherapy-Induced Immunity. (PMID:32142650,DOI:10.1016/j.cell.2020.02.015) ,我没有细看文章的生物学故事,不过注意到附件有一个图表很有趣:

指定基因在指定细胞系的表达量热图

适合作为学徒作业,你需要去搜索了解一下CCLE数据库,下载它的RNA-seq表达矩阵,然后根据图里面的基因名字和细胞系名字,取出需要的表达矩阵,然后热图可视化即可。

详细的图例是:The relative expression of complement regulatory proteins (CD55, CD46, CRIg, CR1, Factor H, Factor I, FHL1, C4BP, Properdin and C1INH) in BT474, BT549, MDA-MB-231, HCC1937, MDA-MB-361, MDA-MB-436, MDA-MB-468, AU565, SK-BR-3, MCF-7 and MDA-MB-453 cells were evaluated by using mRNA data from the Barretina Cell Line database.

CCEL数据库介绍

需要简单注册后才能下载:https://portals.broadinstitute.org/ccle/users/sign_in  

下载到需要的数据文件后可以先看看CCLE里面收集的细胞系表型信息,大家可以自由统计。

options(stringsAsFactors = F)
a=read.table('data/CCLE_sample_info_file_2012-10-18.txt',sep = '\t',header = T)
as.data.frame(sort(table(a$Source),decreasing = T))
##                       Var1 Freq
## 1                     ATCC  437
## 2                     DSMZ  221
## 3                    HSRRB  121
## 4                     KCLB   66
## 5                    RIKEN   66
## 6                    ECACC   62
## 7  Academic Lab / Achilles   42
## 8             Academic Lab   12
## 9                     ICLC    7
## 10                NCI/DCTD    7
## 11                            5

其它细胞系药物作用数据库

提到细胞系药物作用数据库,最出名的是 Cancer Cell Line Encyclopedia (CCLE) 和    Cancer Genome Project (CGP) / Genomics of Drug Sensitivity in Cancer (GDSC) 这两个:
  • CCLE (www.broadinstitute.org/ccle/)
  • GDSC/CGP (www.cancerrxgene.org/)
其实还有broad的 CTRP和Roche的geneTech公司的数据库也类似。
其中 GDSC 也就是 CGP,包含着4种数据。

文末友情宣传

强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存