文献分享——SingleR包来源
原文来自微信公众号:生信小知识
内容目录
前言背景小知识肺中2种巨噬细胞端粒相关基因——TRF1ssGSEA分析条件培养基(conditioned medium)正文PART1:前言PART2:关于SingleRPART3:在本文中利用SingleR找到过渡态的DCPART4:其他模型中也发现C1、C2和C3PART5:C2位于纤维化niche中PART6:表达CX3CR1的巨噬细胞促进肺纤维化进展一些小问题关于SingleR工具安装新单词后记
前言
今天和大家分享一篇文献:《Reference-based analysis of lung single-cell sequencing reveals a transitional profibrotic macrophage》
下载地址:https://www.nature.com/articles/s41590-018-0276-y.pdf
也有比较多的推文中介绍过这个工具的用法,今天我就先读读这个文献,看看情况怎么样,好用的话以后单细胞数据也可以先拿这个工具来做个注释!!
先简单看看文献吧!
背景小知识
肺中2种巨噬细胞
肺组织中有2种巨噬细胞:
有自我更新能力的巨噬细胞——alveolar macrophages
存在于大气道和肺间质间的巨噬细胞——interstitial macrophages
根据肺损伤纤维化模型,我们认为单核细胞来源的巨噬细胞具有促进纤维化的作用。但是这些巨噬细胞具有异质性,而且我们不知道其背后的具体机制。
端粒相关基因——TRF1
端粒具有稳定染色体的功能,端粒长度是细胞衰老、死亡和癌变的重要标志。
端粒是一种真核细胞中非常保守的结构,位于染色体的末端,由端粒和端粒蛋白组成。
典型的端粒序列是一些串联排列的富含GT的重复序列,对于人是(TTAGGG)n。
端粒的重复序列具有极性,即端粒的3'末端由TTAGGG链(称为G链)构成,而5'末端由CCCTAA链(称为C链)构成。
端粒并不是以平末端终止的,其末端的G链比C链要长,形成3'端悬突,这种3'端悬突结构具有保守性。
端粒蛋白能够与端粒双链或单链DNA上的特异序列结合。
端粒酶和端粒蛋白能够调节端粒长度。克服序列的丢失,从而使端粒长度处于一种动态的平衡状态。
到目前为止,已知的永生化细胞全部呈现端粒酶活性,端粒酶可能是永生化细胞生长所必需的。
在诸多端粒蛋白的研究中,端粒结合因子1(TRF1)和端锚聚合酶对端粒长度的调节功能日渐引人注意。
TRF1可以强化端粒的有序结构,使其处于一种“关闭”状态,导致端粒酶无法靠近端粒末端发挥作用同时它在端粒酶阳性细胞中的长期过表达能够使端粒长度逐渐缩短,它是端粒长度的负调节因子。
ssGSEA分析
这里有个讲解,反正我是听懂了,大家可以自己去看看
https://www.bilibili.com/video/av75562717
关于GSEA其实我已经写好了一个非常详细的原理讲解和结果怎么看的推文,只不过还没发,再等等后面的应该也会发出来的。
大致写下我的理解吧:
因为只有一个样本,所以我们没法做差异分析,但是我们可以根据某种算法对基因表达的高低做一个排序,例如根据mean值或者其他之类的。
然后后面就和GSEA思路有点像了,根据gene set的排序,对每一条通路进行计算得分就行了吧。
条件培养基(conditioned medium)
将培养过细胞的培养基除细胞取其上清液,直接用于培养其他细胞或作为其他细胞培养基的添加成分,即形成条件培养基它里面含有许多由细胞分泌的细胞因子如生长因子等、在冷冻细胞、细胞克隆和培养某些有特殊需要的细胞时常采用条件培养基以增加细胞因子的含量,促进细胞的生长。
正文
整篇文章,作者就是说他开发了一个新算法——SingleR ( Single-cell Recognition)。利用这个算法完成了他的实验分析(虽然看完后我发现其实算法不是重点,实验才是重点)。
通过对博来霉素诱导的肺纤维化小鼠肺部标本进行单细胞测序,然后找到了一群介于和疾病相关的巨噬细胞,这群细胞从转录组上来看介于单核细胞和肺泡巨噬细胞(有自我更新能力)之间。并且发现CX3CR1+SiglecF+ 巨噬细胞位于纤维化的niche中,且会促进肺纤维化的进展。并在患者人的样本中也发现了这个情况。
PART1:前言
SingleR工作的原理:
将不同类型、但是纯度高的细胞,做bulk测序或者芯片测序,然后将数据作为reference,用我们的单细胞数据来映射,从而得到单细胞中的细胞类型。
文章都做了什么:
使用SingleR来识别正常状态下和博来霉素诱导的肺纤维化小鼠的巨噬细胞。
使用基于SingleR的一种新聚类方法,来找出单核细胞来源的和肺泡巨噬细胞之间的过渡态细胞。
文章结论:
找到了起源于单核细胞、和疾病相关的一类巨噬细胞,会向纤维化niche中转移定居,并向肺泡细胞转变,发挥促进纤维化的作用。
PART2:关于SingleR
关于这个工具的具体思想也是非常的简单易懂:
step1:找出reference里的高变基因(为了降低计算量)。
step2:计算单细胞和reference之间的相关性。
step3:一个迭代的过程,最终得到匹配度最高的细胞类型。
SingleR的数据来源:
Immunological Genome Project (ImmGen) database ,用于注释小鼠数据
Encode13 and Blueprint Epigenomics14 transcriptomes ,用于注释人的数据
验证SingleR的方法的可靠性1:
用已发表的文章数据——小鼠关于骨髓DC细胞和成纤维细胞单细胞数据。用ImmGen数据库作为reference,结果原文中认为是有48个BMDC,但是SingleR认为其中33个是巨噬细胞。
作者认为,在原文中描述了这些细胞是在有GM-SCF的培养基中培养,然后拿去根据CD11c的表达做流式分选出来的。而有报道称这种方法得到的细胞不是非常纯的DC细胞,而会有一部分细胞表达有巨噬细胞的marker。
验证SingleR的方法的可靠性2:
用已发表的文章数据——人关于PBMC单细胞数据。用Blueprint and Encode数据库作为reference。
可以看到SingleR注释的结果还不错,许多T细胞的亚群也可以做一定的注释。
而且这个可以和seurat完美匹配,seurat的结果直接可以用SingleR来做注释。
PART3:在本文中利用SingleR找到过渡态的DC
接下来作者开始了自己的实验,用了6个正常小鼠和3只肺损伤小鼠(灌注博来霉素诱导)来做单细胞分析:
b图中是利用SingleR以ImmGen数据库为reference做的注释。
a中发现其实巨噬细胞在肺损伤的细胞中有更多的数目。
因为考虑到DC和巨噬细胞都来源于单核细胞,所以他们的转录组profile很相似,所以作者用了一组已发表的文章数据对图中我圈起来的那些细胞(DC和巨噬细胞)进行进一步的注释:
alveolar macrophages (AM)
CD11c+ interstitial macrophages (IM)
innate lymphoid cell (ILC)
natural killer T cell (NKT)
这在里,主要把这些细胞分成了2群:肺泡巨噬细胞AM和肺间质巨噬细胞IM。
从t-SNE上来看,可以认为这是一个分化的连续过程:
因为SingleR会计算出一个注释得分,于是作者就用这个来做一个层级聚类,其实和计算相关性后用相关性得分来做聚类有点相似的感觉:
这里一共分成了3类,可以发现:
C1中正常和肺损伤的细胞数目相当,而且注释上为AM
C2和C3中主要是肺损伤的细胞,而且高表达Cx3cr1,Ccr2, Mafb,MHCII genes,也说明了起源于单核细胞。
作者还发现,C2细胞群会表达C1和C3细胞的基因,如下图所示,45%的C2细胞会表达至少33%C1和至少33%C2的基因:
这说明了C2应该是C1和C3之间的一个过渡态。
同时作者还用2个已发布的文章数据验证了肺泡巨噬细胞AM基因的表达水平:
C1>C2>C3
知道了C2是一个中间态,但是具体方向性是C1→C3,还是C3→C1呢?
根据前面我们知道,C2和C3都是高表达MHCII genes,而C1则不是,所以作者分别从肺损伤小鼠中分选出2组细胞:
SiglecF+CD11c+MHCIIlo 作为C1
SiglecF+CD11c+MHCIIhi 作为C2
把这2组细胞拿去做bulk RNA-seq测序。
SiglecF+CD11c+MHCIIhi 这组细胞在肺损伤第2周时有更高的C2、C3基因表达,然而在第4周时,这些基因的表达水平会下降,并且和正常的SiglecF+CD11c+ 肺泡巨噬细胞相似:
这说明C2是在向正常肺泡巨噬细胞转向过程的中间态。
这里给我们一个提示:如果想在实验层面了解细胞的分化方向,可以在不同时间点收集细胞做测序,看转录组变化趋势。
PART4:其他模型中也发现C1、C2和C3
作者在其他小鼠模型中也去检查了他的结论——上皮细胞端粒功能失调引起的肺损伤模型。
SPC-CreERT2mice 和 floxed Trf1 进行杂交。
Trf1是一个可以保护端粒稳定性的蛋白,如果给敲出了,就会引起端粒的不稳定,从而诱导出肺损伤模型。
这种模型会随着年龄的增长,因为端粒变短不稳定,从而出现衰老、肺纤维化等。
作者收集了模型小鼠3、9月的样本以及Trf1fl/fl 而没有诱导敲除的control小鼠9月的样本,拿去做了芯片:
发现C2、C3相关基因表达增加,在9月更高。而从表型来看,9月时肺纤维化程度最重。
作者接下来想看在老鼠中找到基因模式在人样本中是否也可以找到。作者用一个发表的文章数据(167个肺纤维化和50正常对照)做了ssGSEA来确定同源性。
我们可以看到C1相关基因,也就是AM相关的基因在肺纤维化后明显下降,而MHCII相关的基因则明显上调!!
其实这里我不知道为什么他要做ssGSEA,毕竟是可以直接做GSEA分析就行了呀?!有想法的同学可以和我讨论下,我们共同探讨下关于ssGSEA和GSEA的区别和联系。
而且作者还做了个免疫荧光来看:
可以看到在正常和肺纤维化的样本之间,C2、C3细胞明显在肺纤维化的样本中聚集。
这也就验证了在人和鼠中,C2、C3细胞都是在肺纤维化中存在的。
PART5:C2位于纤维化niche中
接下来作者想知道这3群细胞在解剖上的空间位置。根据前面我们知道:Cx3cr1在肺损伤的C2、C3中表达,于是用Cx3cr1-CreERT2和Rosa26-loxp-STOP-loxp-TdTomato报告小鼠进行杂交,得到的子代小鼠细胞中,如果有Cx3cr1表达,则TdTomato基因会表达,荧光就会亮了。
TdTomato荧光强度的基线用control小鼠14天来确定:control小鼠没有肺损伤,所以Cx3cr1的表达没有那么强,但是有一定的基础表达。
通过右边的统计数据来看,所有活细胞中TdTomato+的细胞比例是越来越高,而且SiglecF+的细胞也是越来越多。说明随着肺纤维化的进展,Cx3cr1的细胞数越来越多,C2、C3细胞越来越多。
接下来就做了个免疫荧光来看:
SiglecF+是所有巨噬细胞,TdTomato/Cx3cr1+是C2、C3中的细胞,Pdgfrb+代表着成纤维细胞群
可以看到dTomato+SiglecF+(C2、C3)的细胞和成纤维细胞群是直接接触的。
而C1群细胞TdTomato–SiglecF+分布在除有纤维化损伤的区域外的所有肺组织中。
在发表的数据中可以看到CX3CR1的mRNA水平在人纤维化组织细胞的确更高!说明不仅仅在鼠中,在人中也是一样的。(个人感觉其实逻辑上有缺陷)
PART6:表达CX3CR1的巨噬细胞促进肺纤维化进展
考虑到C2细胞和成纤维细胞在空间的临近位置关系,作者考虑CX3CR1+的巨噬细胞是不是会促进成纤维细胞的生长。
已经有研究报道巨噬细胞来源的Pdgf可以促进成纤维细胞的生长,在作者的single cell数据中,Pdgfa只在C2和C3细胞群里有表达,而且在第二周的时候C2中表达比C1中要高的非常明显:
C1:SiglecF+CD11c+MHCIIlo
C2:SiglecF+CD11c+MHCIIhi
用免疫荧光来看:
Pgdfa的同源二聚体Pgdf-aa仅仅只在TdTomato+的细胞中高表达,而且TdTomato+的细胞在Pdgfra+成纤维细胞(Pdgfra是Pgdf-aa的受体)的附近表达。
提示了可能是TdTomato+的细胞表达Pgdf-aa,通过和Pdgfra+成纤维细胞相互作用。
为了看C2细胞群是否通过表达Pdgf-aa而支持成纤维细胞的迁移和增殖,作者进行了体外实验:
通过收集SiglecF+CD11c+MHCIIhi (C2细胞群)的条件培养基,然后加入3T3成纤维细胞系进行培养,同时收集SiglecF+CD11c+MHCIIlo (C1细胞群)的条件培养基,然后加入3T3成纤维细胞系进行培养:
图中CM是条件培养基,Ab是抗Pdgf-aa的抗体,用来中和Pdgf-aa的作用。图中我圈起来的地方充分说明了问题!!
这就说明了,成纤维细胞依赖于SiglecF+CD11c+MHCIIhi细胞分泌的Pdgf-aa来产生反应。
当然了,只有上面一个实验还是显得证据不足,于是作者又做了共培养实验:
发现用了抗Pdgf-aa的抗体后,共培养中的成纤维细胞增殖能力降低了!
作者用肺部单细胞数据(有正常和肺损伤模型小鼠的混合细胞),用SingleR注释后找到3群细胞,然后看了他们的细胞周期方面的数据:
Cluster A中的细胞周期最为活跃,而且主要是由肺损伤小鼠来源的细胞组成。
当然了,前面的实验都是体外实验,要想理直气壮,必须要有体内实验的!
体内实验:用Cx3cr1-CreERT2/Rosa26-loxp-STOP-loxp-Diphteria Toxin A杂交,于是得到的小鼠中表达有Cx3cr1的细胞就被表达的白喉毒素给杀死了,也就是没有了Cx3cr1+细胞的小鼠。
实验发现这些没有Cx3cr1+细胞的小鼠其巨噬细胞数目大大减少,而且 Pdgfra+和Pdgfrb+的成纤维细胞数目也大大减少:
同时用hydroxyproline assay验证了肺部沉积的纤维化也降低了!
在人的特发性肺纤维化中,有个特点:在肺的胸膜下区域,纤维化病灶区域附近存在有正常组织。作者在3个肺移植物种发现,PDGF-AA +巨噬细胞与纤维化而不是非纤维化区域相关。
一些小问题
其实我觉得这个文章中有些地方逻辑上有些问题,当然也可能是我看的比较粗糙,没有仔细体会的原因。
例如:
根据PART3中的热图来看,其实CX3CR1这个基因是在C2中有表达,而在C3中高表达的,但是作者整篇文章最后似乎都默认为CX3CR1+的就是C2,然后用CX3CR1+的细胞当做C2来分析。
Pdgfra在A群细胞中没有检测到,作者认为是单细胞数据深度不够。为什么不补测数据到一定深度来验证呢?
当然也许还有其他问题,但是由于我是快读完了才想起来把这些问题总结到最后,所以也就没有全部记录下来了,如果有新的想法,欢迎大家和我讨论。
关于SingleR工具
SingleR的方法是利用了每个cluster与已知细胞类型的表达谱的相似性来定义细胞类型。
安装
地址:https://github.com/dviraran/SingleR
1devtools::install_github('dviraran/SingleR')
新单词
fibrosis 纤维化
etiology 病因学
idiopathic 特发性、先天性
alveolar 肺泡
ablation 消除
diphtheria 白喉毒素
介绍为什么用单细胞可用的句子:
However, the diversity of these cells and the mechanisms by which they mediate the profibrotic effect are incompletely understood, in part because the study of specific transcriptomic subsets has been limited by bulk sequencing approaches. In particular, the kinetically evolving heterogeneity inherent to disease cannot be parsed with the limited range of flow cytometric markers used to study populations in bulk. Because scRNA-seq can resolve diversity within cellular populations, we reasoned that it should enhance understanding of macrophage heterogeneity and specify subsets for functional analysis in fibrosis.
后记
和我想的不太一样,我以为这篇文章会主要介绍SingleR这个工具,结果基本上是在介绍他的研究,也许,SingleR这个工具也就一般般??又或者难道我找错了文献??不太清楚,毕竟我没用过。
欢迎用过的同学来和我讨论交流!
如果你对单细胞转录组研究感兴趣,但又不知道如何入门,也许你可以关注一下下面的课程
看完记得顺手点个“在看”哦!
长按扫码可关注