查看原文
其他

一文解决单细胞亚群注释的所有问题

Immugent 生信宝库 2023-06-15

      好久没更新了,上来小编得写一个有分量的推文暖暖场。其实细想一下,不能全归因于平时太忙(还是太懒了),因为最近看到同时期创建公众号的另外几个小伙伴做的很好且都在不断更新。其实抽出时间写一写推文对个人整理知识和练习写作能力都是很有帮助的,Immugent在这里欢迎大家通过后台投稿哦! 





     小编最近一直在做单细胞的课题,期间收集了各种细胞注释的marker基因,本次分享主要就针对这个主题展开。


      单细胞测序技术是近十年最火爆的生物学技术之一,它赋予我们在单个细胞水平研究科学问题的能力。虽然单细胞技术目前已经发展的很成熟,商业化的10X平台让很多科研团队有自己做单细胞测序的能力,但是并不是每一项通过单细胞测序得到的结果都能成功发表。小编身边就有很多认识的朋友做了单细胞测序,但是没有分析出任何可用的结果,最终砸手里了。

      单细胞测序既然是在单个细胞研究科学问题,那就引出了其分析流程中很关键一步--细胞亚群的注释。别小看这简单的一步,它可以说是单细胞测序研究成败的最关键因素之一,因为后续的分析都是基于这一步开展的,如果开头都是错的,那后续分析出的任何结果都是没有意义的。


      理论上来说,每一类细胞都有自己独特的标志基因,就像我们做流式一样,根据表达的蛋白来对细胞进行定义,而且既然是单个细胞水平的测序结果,这应该没有什么难度。但和其它技术一样都会有自己的不足,而单细胞测序(10X)同样也有自身解决不了的问题:    

1. 基因转录组水平的表达代表不了蛋白水平的情况   

       最明显的就是对用流式分选出的细胞进行单细胞测序后发现注释出的细胞群比例和起初不同;

2. 测序深度不够,导致很多droupout的现象

       最明显的反应是CD4这个分子的表达,跑流式时我们可以清楚的将T细胞分为CD4+和CD8+的两群细胞,而在单细胞测序中我们发现CD4阳性的细胞明显减少;

3.单细胞测序技术具有基因的偏好性

       目前主流的10X单细胞测序平台主要是对具有polyA尾的基因进行捕获并进行测序,这样也就抓取不到没有polyA的基因,而且对于一些分泌性蛋白基因的捕获效果也不尽如人意,如具有免疫抑制功能的细胞因子IL10,在小编分析的很多单细胞数据都没有检测到它的表达。

  

      这样看来有一部分人可能就会对单细胞测序技术产生质疑,觉得它不能代表真实情况,但是试问一下,现在有哪一项生物技术真正做到毫无瑕疵呢?出现问题肯定就会有解决的办法,上面也说了只是对一部分基因具有偏好性,那么只要能够找到足够多的细胞标志基因,综合多个基因一同考虑,那这些也就不再是问题了。


如下图是一篇做正常肾组织单细胞文献中用到的标志基因:



如下图是对肿瘤组织中常用的标志基因进行的总结:

      

      这两个表已经总结的相当全面了,但是在实际进行细胞亚群注释时应当遵循一定原则,小编提供以下思路来进行参考:1. 首先应根据免疫细胞的marker(PTPRC)在全局上定义出免疫细胞和非免疫细胞,因为相对于非免疫细胞,免疫细胞的种类不仅多而且功能各异;2. 其次就是对这两类再细分群,非免疫细胞可分为上皮细胞(EPCAM),内分泌细胞(PECAM1),纤维细胞(FAP)等;免疫细胞可首先区分为天然免疫细胞:NK(NCAM1),Mac(CD68),DC(XCR1),中性粒(MNDA)和肥大细胞(TPSAB1)等;适应性免疫细胞:B细胞(CD19,CD79A)和T细胞(CD3D,CD3E),到这非免疫细胞和天然免疫细胞差不多说完了,下面进一步说下更为复杂的适应性免疫细胞亚群;3. 适应性细胞中的B细胞相对好区分,就是在B细胞群基础上再多区分一群浆细胞(IGKC,MZB1); 最后就说一下这个T细胞,T细胞群的注释可谓是最复杂的,第一步可以简单在大群上区分出3种:CD4 Tconv(CD40LG,MAF), Treg(FOXP3,IL2RA)和CD8 T(GZMB,NKG7)细胞;接下来就需要根据功能状态把CD4 TconvCD8 T分为Naive(SELL,CCR7),  Effector(PRF1,CCL5),Effector-memory(IL7R,EOMES), Exhausted(LAG3,TIGIT)了。


       其实这里由于篇幅问题,小编只是列举了一部分细胞的标志基因,事实上每一种细胞的细胞的marker基因在随着单细胞测序的使用每年都在不断增加,小编已经把总结好的marker基因Excel表格传到百度网盘了,并且把一些经典文献用到的marker基因做成了PPT,关注”生信宝库”公众号,在后台回复“markers”即可获得,具体内容如下图所示:




      在对各种细胞亚群进行注释的过程中T细胞的注释是最复杂的,而最最复杂的是对各种CD4 T细胞的注释。正如上面抛出的一个问题所介绍的,因为CD4基因的表达不太容易像CD8A/B那样容易被捕捉到(最新的解释可能是因为CD4分子在实验过程中有内吞现象),因此对CD4 T细胞的亚群注释是难上加难的。但是小编这里根据自己免疫学知识来给大家介绍另一种比较靠谱的解决方式,那就是通过各种CD4 T细胞的转录因子来注释。


首先原始的CD4 T细胞在受到TCR信号刺激的情况下会朝着各种CD4 T细胞亚群的方向分化,而这每一种不同亚群的命运是由各种转录因子来决定的,其中最重要的就是Signal transducer and activator of transcription (STAT)。从下图我们也可以看到,正是由不同的STAT来诱导CD4 T细胞朝着不同的方向发育,并且相对于其它种类的基因,转录因子的表达更加稳定保守,所以就比较容易被单细胞测序平台所捕获,因此,利用各种CD4 T细胞亚群的表面蛋白联合关键转录因子就能对CD4 T细胞亚群进行更准确的注释。



      好了,本次的分享到这就结束了,下次小编将继续这篇推文的内容,介绍一下如何利用生信软件,同时利用多种标志基因的综合评分对细胞亚群进行注释,敬请期待!


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存