查看原文
其他

什么,你要测近百个样品的单细胞

生信技能树 生信技能树 2022-08-15

一篇还算是比较新的CELL文章;《Spatiotemporal analysis of human intestinal development at single-cell resolution》

17个  individual embryos 的 77 个intestinal 样品,但是最后只有76,592 cells,因为他们采用了 ligonucleotide- tagged antibodies 这样的个性化的单细胞混合技术,数据在:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE158702

可以看到,确实是只有10个混合的表达量矩阵文件 :

GSM4808339 Fetal epithelium sample pool 1 - Gene Expression
GSM4808340 Fetal epithelium sample pool 2 - Gene Expression
GSM4808341 Fetal epithelium sample pool 3 - Gene Expression
GSM4808342 Fetal stromal sample pool 1 - Gene Expression
GSM4808343 Fetal stromal sample pool 2 - Gene Expression
GSM4808344 Fetal stromal sample pool 3 - Gene Expression
GSM4808345 Fetal epithelium sample pool 4 - Gene Expression
GSM4808346 Fetal stromal sample pool 4 - Gene Expression
GSM4808347 Fetal stromal and epithelium sample pool 5 - Gene Expression
GSM4808348 Fetal stromal and epithelium sample pool 6 - Gene Expression 

符合我们的认知,因为一个单细胞表达量矩阵通常是8000个左右的单细胞数量,而10个文件,恰好跟文章提到的 76,592 cells 相呼应。

其配套的文件供下载是:

GSM4808339_EPI1_RUN3.tar.gz 101.1 Mb
GSM4808340_EPI2_RUN3.tar.gz 141.9 Mb
GSM4808341_EPI3_RUN3.tar.gz 190.7 Mb
GSM4808342_STR1_RUN3.tar.gz 211.5 Mb
GSM4808343_STR2_RUN3.tar.gz 185.6 Mb
GSM4808344_STR3_RUN3.tar.gz 224.5 Mb
GSM4808345_EPI_run2.tar.gz 85.0 Mb
GSM4808346_STR_run2.tar.gz 130.6 Mb
GSM4808347_Run1_pool1.tar.gz 156.4 Mb
GSM4808348_Run1_pool2.tar.gz 102.1 Mb

GSM4808349_HTO1.tar.gz 4.1 Mb
GSM4808350_HTO2.tar.gz 4.4 Mb
GSM4808351_HTO3.tar.gz 4.0 Mb
GSM4808352_HTO4.tar.gz 3.9 Mb
GSM4808353_HTO5.tar.gz 3.5 Mb
GSM4808354_HTO6.tar.gz 4.0 Mb
GSM4808355_HTO_epi_4.tar.gz 3.2 Mb
GSM4808356_HTO_stromal_4.tar.gz 3.1 Mb
GSM4808357_Pool5_HTO.tar.gz 1.2 Mb
GSM4808358_Pool6_HTO.tar.gz 855.9 Kb

GSM4808359_ADT1.tar.gz 4.7 Mb
GSM4808360_ADT2.tar.gz 4.6 Mb
GSM4808361_ADT3.tar.gz 4.5 Mb

可以看到表达量矩阵文件里面有 antibody-derived tags (ADT) 和 HTO (A distinct Hashtag oligonucleotide) 的后缀,下面就让我们来认识一下这两者的区别吧!

有一个技术是 CITE-seq ,可以同时拿到普通基因的表达量矩阵,以及几十个蛋白质(通过antibody-derived tags (ADT))的表达量矩阵,该技术的全称为cellular indexing of transcriptomes and epitopes by sequencing。而Cell Hashing是在CITE-seq的基础上改进,是给需要混合的样品提前加上HTO (A distinct Hashtag oligonucleotide) 标签,这样即使混合后也可以提供不同的HTO标签进行区分。

它的分析方法肯定是不一样的,但是最开始的降维聚类分群没有差异,因为也不需要知道细胞的来源,虽然是17个  individual embryos 的 77 个intestinal 样品。但是本来就是需要混合起来进行第一层次降维聚类分群。

这76,592 cells,第一层次降维聚类分群得到了9个大的单细胞亚群:epithelial, fibroblast, endothelial (EC), pericytes, neural (ENS), muscularis, mesothe- lium, myofibroblast, and immune,降维聚类分群,参考前面的例子:人人都能学会的单细胞聚类分群注释

如下所示:

9个大的单细胞亚群

可以看到,上皮细胞是与其它细胞完全分开的, 本来取样的时候也是如此。

如果细分的话,足足有 101个子亚群 :

101 sub-populations

原文也有详细的描述:We identified 78 non-epithelial cell clusters across 8 compart- ments, classified based on their transcriptional, temporal, and locational profiles (16 fibroblast, 4 myofibroblast, 2 mesothelial, 12 EC, 8 pericyte, 13 neural, 12 immune, and 11 muscle)

如果你打开具体的HTO (A distinct Hashtag oligonucleotide) 的后缀文件,也可以看到其实是 1个10x的单细胞转录组数据里面混合了9个不同来源的样品,后续分析如果是需要看细胞比例变化,就需要把每个数据里面的近万个细胞分解给不同的样品 :

A_Ep_AAU1_10_TI_85-GTCAACTCTTTAGCG
B_Ep_AAU2_10_Proxcolon_76-TGATGGCCTATTGGG
C_Ep_AAU3_10_Distcolon_72-TTCCGCCTCTCTTTG
D_Ep_AAQ1_15_TI_84-AGTAAGTTCAGCGTA
E_Ep_AAQ2_15_Proxcolon_81-AAGTATCGTTTCGCA
F_Ep_AAQ3_15_Distcolon_92-GGTTGCCAGATGTCA
G_Ep_AAP1_22_TI_90-TGTCTTTCCTGCCAG
H_Ep_AAP2_22_Proxcolon_83-CTCCTCTGCAATTAC
I_Ep_AAP3_22_Distcolon_87-CAGTAGTCACGGTCA

这个数据分析就有技巧了哦!

写在文末

我在《生信技能树》,《生信菜鸟团》,《单细胞天地》的大量推文教程里面共享的代码都是复制粘贴即可使用的, 有任何疑问欢迎留言讨论,也可以发邮件给我,详细描述你遇到的困难的前因后果给我,我的邮箱地址是 jmzeng1314@163.com

如果你确实觉得我的教程对你的科研课题有帮助,让你茅塞顿开,或者说你的课题大量使用我的技能,烦请日后在发表自己的成果的时候,加上一个简短的致谢,如下所示:

We thank Dr.Jianming Zeng(University of Macau), and all the members of his bioinformatics team, biotrainee, for generously sharing their experience and codes.

十年后我环游世界各地的高校以及科研院所(当然包括中国大陆)的时候,如果有这样的情谊,我会优先见你。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存