胃癌前病变和早期胃癌的单细胞转录组研究
呐,等你关注都等出蜘蛛网了~
当你的才华还撑不起你的野心时,请潜下心来,脚踏实地,跟着我们慢慢进步。不知不觉在单细胞转录组领域做知识分析也快两年了,通过文献速递这个栏目很幸运聚集了一些小伙伴携手共进,一起成长。
文献速递栏目通过简短介绍,扩充知识面,每天关注,希望你也能有所收获!
摘 要
肠型胃癌以癌前病变为主,包括慢性萎缩性胃炎和肠上皮化生。在这项研究中,使用单细胞RNA测序,从胃癌前病变和早期胃癌(EGC)级联的患者胃窦粘膜活检中提取了32332个高质量细胞,构建了单细胞图谱。然后,构建了一个基于细胞和分子特征的单细胞网络。发现在上皮化生过程中,腺体黏液细胞趋向于获得肠样干细胞表型,将OR51E1作为早期恶性病变中独特内分泌细胞的标记。还发现,HES6可能标记杯前细胞簇,可能有助于早期化生的鉴定。最后,研究者们确定了一组EGC特异性标记,对EGC的准确诊断具有临床意义。研究者们的研究提供了无与伦比的见解,以了解人类胃细胞组在癌前和早期恶性病变。
样品
为了明确胃窦粘膜在癌前及早期病变中的单细胞分布,研究者们对9例患者进行了13次活检,包括3次野生型浅表性胃炎(NAG)活检、3次CAG活检、6次IM活检和1次EGC活检,这些活检组织范围从胃炎到EGC(图1A、S1、S2和S3;表S1)其中2例感染幽门螺杆菌,其余均未检测到幽门螺杆菌感染(表S2)。
测序
每次活组织检查,研究者们在没有预先选择细胞类型的情况下分离单细胞,并使用10x Chromium平台生成RNA-seq数据。在去除低质量的细胞(方法细节)后,总共保留了32,332个通过质量控制的细胞进行后续分析,平均每个细胞检测到1,941个基因。
图1
1
文库准备和测序
10X Chromium single-cell kit.
HiSeq4000
数据分析方法
1
质控和数据预处理
Cell Ranger Single-Cell Software Suite (release 2.0)
hg19
去除低质量细胞:
表达基因数低于400或大于7000;
20%以上的UMIs被定位到线粒体或核糖体基因。
研究者们还排除了在多个样本中出现带有条形码的细胞。最后共检测了32332个细胞中的22,882个基因
然后,利用Seurat包中的函数对单细胞基因表达数据进行归一化和标度。
首先通过“NormalizeData”函数对其进行归一化,并将归一化方法设置为“LogNormalize”。
然后,通过“ScaleData”函数批量实现了对驱动的基因表达、检测到的UMI数量、线粒体基因表达以及核糖体基因表达的细胞-细胞变异的回归,从而去除无意义的变异来源。
最后,将修正后的表达式矩阵作为进一步分析的输入。
1
降维、细胞聚类和注释
Seurat package
利用jackstraw R包的permutationPA函数(https://cran.r-project.org/web/packages/jackstraw)的确定主效成分的数量。利用在Seurat package 的‘‘FindClusters’’ 函数分群,设置参数resolution 为2,得到38个群。TSNEPlot’ 函数分析使用默认参数。
1
统计分析
Differential Expression Analysis
Gene Set Enrichment Analysis
Inferring High-Risk Genes for Gastritis and Gastric Cancer
利用之前研究者们开发的CIPHER (Wu et al., 2008)生物信息学算法推断出胃炎或胃癌的高危基因,CIPHER算法根据疾病表型与相应基因之间的网络相关性,在全基因组范围内对疾病相关基因进行优先排序。
构建单细胞转录组网络
STRING database (version 10, https://string-db.org/cgi/input.pl) (Szklarczyk et al., 2015)
1
分析代码地址
分析的R代码:http://bioinfo.au.tsinghua.edu.cn/member/pzhang/scstomach.r
数据分析结果
1
癌前胃窦粘膜和EGC的单细胞图谱
如图所示利用t分布随机邻居嵌入(t-SNE) (van der Maaten and Hinton, 2008),得到NAG、CAG、IM与EGC的细胞分布,最终共识别出17个主要细胞群(图1B及S4),研究者们将其定义为人胃粘膜在癌前及早期的病变的单细胞转录组图谱。
图1 B
除了典型的细胞类型标记外,研究者们还发现了其他的基因,这些基因对每个主要的细胞群体都有很强的特异性标记(图1C;数据S1)。
图1C
接下来,研究者们分别绘制了细胞因子和核因子kB (NF-kB)信号通路中的一些介质的细胞来源,这些介质已知涉及到胃粘膜组织诱导的胃肿瘤发生(Coussens and Werb, 2002)(图1D)。
图1D
研究者们发现,胃上皮对幽门螺旋杆菌感染的反应包括表达谱的改变和细胞固有的程序和细胞比例的改变(图1E和S10)。
图1E
例如,抗菌蛋白LTF和BPIFB1在H. pylorio感染的组织切片的GMCs中被特异性上调(图1F)。
图1F
1
建立基于单细胞的网络来表征不同病变的胃上皮细胞
然后研究者们关注上皮细胞从胃炎到GC的变化(图2A)。研究者们观察到胃高分化细胞类型的比例,PMCs,沿NAG到EGC下降。而IM病变中出现的MSCs比例在化生过程中明显升高,EGC病变中MSCs比例最高(图2B,图S11)。与之前的发现一致,在不同上皮细胞类型中,TFF1、TFF2和肠道特异性TFF3的表达模式之间存在明显的分离(图2C)。
图2
此外,研究者们系统地分析了不同病变中上皮细胞的基因表达谱。利用Wilcoxon秩和检验,研究者们确定了每个病变中每个细胞类型的差异表达基因(DEGs) (FDR <0.01, >1.5的倍数变化;数据S1)。然后,研究者们将同一病变中多种细胞类型的DEGs与损伤相关信号合并,观察到与这些信号不同病变处粘膜细胞的明显区别(图2D)。
bulk 数据验证
研究者们观察到,这些与病灶相关的特征显示出与来自体转录组数据集(GSE2669)以及由现有技术的疾病基因预测算法CIPHER (Wu et al., 2008)推断的胃炎或胃癌的高危基因的那些特征明显重叠(图S12)。
进一步解剖其中标记病灶相关优先表达的细胞类型(图2D)。虽然两者(PMCs,GMCs)都被认为是CAG病变的分子特征,但参与矿物吸收的基因优先表达在PMCs中,而参与TNF信号通路的基因,包括CXCL2和CXCL3,则倾向于表达在GMCs中。在EGC病变中,细胞D增殖相关基因几乎在所有细胞类型中都有高表达,提示细胞增殖是EGC病变中胃粘膜上皮细胞的共同特征。
为了系统地了解从胃炎到EGC的级联反应中的细胞和分子转移,通过描述每一上皮细胞类型之间的系统关联,并在每个病变中识别代表性上皮细胞类型的标记基因,构建了一个单细胞转录组网络。研究者们通过蛋白-蛋白相互作用将每个代表性细胞类型的标记基因连接起来,以显示其潜在的异质性(图2E)。
图2E
研究者们还展示了每个病变所涉及的整体分子标记的动态变化。研究者们的单细胞转录组网络提供了人胃上皮细胞在癌前病变和EGC病变中的系统变化,包括分子和细胞两个方面。
1
胃粘膜分泌细胞系在不同病变间单细胞表达谱特征
从图2E的单细胞网络可以看出,胃粘膜分泌细胞是病变间的“保守”细胞类型(图3A),主要由表达MUC5AC的PMCs和表达MU6C的GMCs组成(图3B和3C)。研究者们发现这两类细胞表达模式明显不同,其中PMCs主要表达肌动蛋白骨架和细菌侵袭相关基因,GMCs主要表达免疫应答和转化生长因子b (TGF-b)信号通路(图3D;数据S1)。对于PMC,研究者们发现之前涉及到的每个病变的分子标记也反映在不同病变的PMC中(图3E和S8A-S8E),包括CAG病变中矿物质吸收的上调、IM病变中代谢的上调、EGC病变中氧化磷酸化的上调。值得注意的是,研究者们发现在IM条件下,包括FABP1和LIPF在内的脂质代谢相关基因在胃上皮细胞中也是活跃的。
图3
研究者们还观察到IM病变中以MUC6为标志的胃腺细胞具有高度的细胞异质性。将这些表达MUC6的腺体细胞投射到二维主成分分析(PCA)空间中,可以清楚地分为两个亚簇(分别为cluster 1和cluster 2;图3 f)。聚类1的表达富集于免疫相关基因和抗菌相关基因,在正常胃窦腺细胞中符合分子特征,而聚类2的表达签名主要由肠干细胞或发育相关基因组成,包括OLFM4、PHLDA1和LEFTY1(图3G和S8F-S8H)。MUC6和OLFM4的共表达模式,以及LEFTY1,由免疫荧光(IF)染色在同一IM切除标本上确认(图3H和3I)。OLFM4已被报道在正常和化生环境中标记肠道干细胞。因此,研究者们推测在IM病变中,GMCs倾向于获得肠干细胞表型。
图3
接下来,研究者们检查了不同病变中单个GMCs中OLFM4和MUC6的共表达模式的变化。随着胃粘膜进一步肠化,表达OLFM4的GMCs比例逐渐增加。如图3J所示,在CAG病变中很少检测到表达OLFM4的GMCs(0.4%),而野生型IM病变中GMCs的数量(显著)增加(8%),在重度IM病变中达到峰值(26%)。在EGC病变中,GMCs消失,表达OLFM4细胞比例达到高峰,这两种情况均已被既往的免疫组化研究证实。
1
肠内分泌细胞系在不同病变中的单细胞表达谱特征
从图2E所示的单细胞网络来看,肠内分泌细胞是另一种跨越不同病变的保守细胞类型(图4A)。研究者们观察到细胞簇内部存在高度的异质性,通过重新聚类这些细胞,研究者们一共得到了8个子簇,如图4B所示。然后研究者们检测了不同样本中典型肠内分泌细胞标记物的表达分布。研究者们观察到胃内分泌细胞标志物主要在胃炎病变中表达,在IM进展过程中表达水平下降(图4C)。
图4
为了在每个病变中定义肠内分泌细胞亚型,研究者们量化了每个簇中表达典型肠内分泌细胞标记物的细胞比例,如图4B所示。研究者们发现,不同的肠内分泌细胞标记物在同一簇中表达(图4D),这与以前结肠上皮样本的结果一致(Haber et al., 2017)。研究者们用典型细胞标记的显性表达模式(方法细节)来注释这些细胞群。
值得注意的是,研究者们观察到EGC病变中有少量内分泌细胞表达典型的肠内内分泌细胞标志物(图4C和4D)。因此,研究者们确定了标记EGC内分泌细胞群的基因。通过比较EGC病变中内分泌细胞与其他细胞系的表达谱,研究者们发现了一组EGC病变中内分泌细胞中唯一表达上调的基因,其中OR51E1表达最高。(FDR <1e-10; Figure 4E).
图4
研究者们分别通过IM和EGC标本的IF染色分析了典型内分泌细胞标记物OR51E1和CHGA的表达。研究者们观察到,OR51E1表达在EGC样本(图4F)中检测到,而在IM样本中没有检测到(数据未显示)。在EGC样品中,OR51E1一般与CHGA共表达(图4F)。尽管OR51E1已被报道表达于神经内分泌癌和肠嗜铬细胞(Cui et al., 2013;Leja等,2009),但其在EGC病变中内分泌细胞中的作用尚未被证实。因此,OR51E1可能是EGC内分泌细胞系的新标记。
1
HES6标志着早期的杯状细胞
如图2C所示,杯状细胞从IM病变的网络中出现,是临床对胃IM病理诊断的必要条件(Correa et al., 2010)。在研究者们的研究中,共有565个细胞被归类为“杯状细胞”簇(图5A),其中与杯状细胞相关的一些典型标记物,如MUC2和ITLN1,表达上调最为显著(FDR <0.01;图S6;数据S1)。研究者们还观察到杯状细胞内的高度异质性(图5B)
图5
通过把这些杯状细胞重聚簇成五亚群和分析共表达的标记基因,研究者们观察到有两个主要的模式,在一个特征(P1) 中上调基因参与代谢相关的基因通路,而另一个(P2)为特征的上调基因参与细胞增殖(图5 c;数据S1)。
在P2中,研究者们还发现了一些与杯状细胞无关的基因,包括Hes家族的BHLH转录因子6 (HES6)。在不同上皮细胞中,HES6在杯状细胞中表达独特(p < 1e-16; Figure 5D),在IM标本中半数以上的杯状细胞中与SOX4和PROX1共同转录表达((p < 1e-3; Figure S14E)
图5
此外,研究者们还发现HES6在杯状细胞中与分化的杯状细胞标记物MUC2相互排斥表达。HES6主要表达于0簇,MUC2表达较少。具体来说,表达MUC2和/或HES6的细胞的定量表明,仅69%的杯状细胞表达MUC2,而表达MUC2或HES6的杯状细胞比例达到96%(图5E和5F)。
为了验证这一点,研究者们在结肠样本中对HES6进行了IF染色。观察到HES6+细胞倾向于位于隐窝的下半部分,这提示早期分化的分泌细胞(图5G)。然后,研究者们在IM样品中进行了HES6和增殖标记物KI67以及分化的杯状细胞标记物MUC2的去除。形态学上,研究者们发现HES6+细胞多为圆形、未成熟细胞,胞浆少,细胞核深(图S14F)。此外,在表达MUC2的杯状细胞周围也有表达HES6的细胞,其中部分细胞与杯状细胞重叠(图5H)。HES6+细胞也主要与增殖的Ki67+细胞混杂,但很少有细胞共表达Ki67(图5I)。此外,HES6标记上皮细胞(图S14G)。
图5
1
单细胞转录表达可以识别EGC细胞的特定标记
EGC是一种局限于粘膜和粘膜下层的病变,与淋巴结无关,5年生存率为>90%,这对于识别潜在的胃癌早期检测标志物至关重要。在此,研究者们重点研究假定的“癌细胞”簇(图6A),它从图2C所示的网络中出现在EGC病灶中,并对其表达谱进行了表征。
图6
首先,研究者们证实了胃肠道肿瘤标记基因CEACAM6、BAX和CCND2在癌细胞簇中的特异性上调(图6B)。研究者们发现了一长串细胞簇的标记基因(FDR <0.01, fold change >1.5), KEGG富集分析表明,这些标记基因在癌症相关术语中显著富集,包括p53信号通路(数据S1)。研究者们还在癌症基因组图谱(TCGA)中证实了这些识别的标记基因的失调,其中大多数(60/80;与邻近的非恶性组织相比,恶性组织中的数据S1显示了持续显著的上调(图6C)。
其次,研究者们关注的是癌细胞群和其他细胞群之间的转录相关性。研究者们计算了不同上皮细胞类型之间的相关分数,并将它们可视化在一个网络中(图6D)。结果显示,癌细胞簇与间充质干细胞簇和肠上皮细胞簇具有最大的转录相似性(图6E、S15C和S15D),这与肠道型GC的特征一致。
图6
在临床实践中,癌前转化位点通常位于肿瘤粘膜周围,由于癌细胞与肠上皮细胞在转录上的相似性,使肿瘤细胞相关基因谱的准确识别变得困难。研究者们发现之前报道的一些与GC相关的早期诊断标志物如FABP1、CEACAM5、CDH17等基因在肠上皮细胞或其他细胞类型中广泛表达,提示其在癌细胞中的非特异性表达(图6F)。因此,基于单细胞图谱,研究者们可以通过选择那些在癌细胞中显著上调但在其他类型细胞中表达量最低的基因,来定义一组高可信的EGC相关标记基因,(FDR <1e16; Method Details)因此,这组基因由6个基因组成(图6G);在这6例中,SLC11A2和KLK7未被报道参与胃肿瘤的发生。研究者们分别通过人IM、EGC和晚期胃癌(AGC)活检的IF染色,验证了KLK10基因表达上调最多。
总结
Zhang等人对来自癌前病变和早期胃癌患者的胃窦活检进行了单细胞转录组研究。他们为上皮病变的细胞构建了单细胞网络,并分析了每个病变中代表细胞类型的分子特征。
构建了恶性肿瘤前病变和早期胃癌的单细胞网络
观测了不同类型细胞在病变中的转录动力学
描述了肠上皮化生过程中杯状细胞的早期特征
鉴定胃早期恶性细胞的生物标志物
往期精彩
如果你对单细胞转录组研究感兴趣,但又不知道如何入门,也许你可以关注一下下面的课程
全国巡讲全球听(买一得五)(第3期) 你的生物信息入门课
数据挖掘线上班来袭(两天变三周,实力加量)医学生/医生首选技能提高课
生信技能树的2019年终总结 你的生物信息成长宝藏
单细胞天地欢迎你