文献精读|单细胞转录组测序和单细胞ONT全长转录组揭示听觉和耳聋生物学见解
前面为大家阐述过ONT全长转录组测序相关产品介绍:ONT全长转录组测序系列一:初识篇,以及B细胞全长转录本测序应用篇:文献精读|nanopore全长转录组测序揭示B细胞表面受体广泛的转录变异。本期小编为各位介绍最新ONT全长转录组测序应用于听觉相关细胞isoform分析案例。
材料方法
单细胞RNA测序是一种强有力的工具,通过它可以表征低丰度细胞类型的转录特征,但它在内耳的应用受到了骨迷路、感觉细胞在组织分布稀疏和难以分离膜性耳蜗超稀少细胞的困难。
1、从p15、p30、p70和p228雄性和雌性C3-Heb/FeJ小鼠(Mus musculus)收获耳蜗组织,倒置显微镜下鉴定并使用显微操作吸管法分离目的细胞:IHCs、OHCs和Deiters细胞(Deiters’ cells,DCs)。(内毛细胞(inner hair cells,IHCs)和外毛细胞(outlier hair cells,OHCs);Deiters细胞是哺乳动物耳蜗内的一种支持细胞,与外毛细胞(OHC)的关系非常密切。)
2、SmartSeq2单细胞扩增,IHC (n = 42), OHC (n = 127), and DC (n = 39)进行二代Illumina平台转录组测序;12个p15小鼠OHCs进行ONT全长转录组测序。
研究结果
1、耳蜗非感觉细胞丰度估计与单细胞分离
与哺乳动物耳蜗中的各种支持细胞类型相比,听觉HC的丰度较低。为了估计小鼠耳蜗膜迷路中可用于单细胞分离的HC数量,据报道在成熟的小鼠耳蜗中约765个IHCs,通过对小鼠颞骨中心切片,细胞核计数,估计小鼠膜性迷路中的细胞数为415,395,其中IHC和OHC比例仅为0.19%和0.59%。
为了研究占比极低的目的细胞,作者进行了细胞分离,详细方法见文章。本研究主要关注具有明显不同形态特征的IHC (n = 42), OHC (n = 127), and DC (n = 39),同时他们来自于不同发育时期:p15(过滤后n=132)、p30(n=6)、p70(n=54)和p228(n=6)。该设计有利于时间和tono-topic差异表达分析。(听觉系统对语音的基本表达方式是“音调拓扑的”(tono-topic),即基底膜及毛细胞都具有频率选择及分解作用,可以把进入耳蜗的声波分解为一组不同的频率成分,或者说用这组频率成分来表达原声波信号。)
2、质控、无偏聚类及表达谱分析
去除有表达的基因(count值>0的)少于2000个的细胞,接下来进行主成分分析PCA分析和tSNE聚类分析。由于在所有细胞类型中Top 100高表达基因表达水平不一致,去除了7个细胞数据;由于未与形态学分组聚类到一起,去除3个细胞数据。剩余的一组高质量细胞数据,在每个细胞转录组的总reads中含有低百分比的线粒体转录本,这是值得注意的,因为每个细胞线粒体reads数百分比增加表明细胞死亡增加。
使用Seurat进行基于主成分1和2的无偏差聚类(图1E)。得到的tSNE clusters显示IHC、OHC和DC分离明显,形成与其形态学分组一致的无偏细胞特异性组(图1F)。为了鉴定每种细胞类型的特征性表达模式,在AUC分类器下为每种细胞类型提取了前100个cluster定义基因(图1G)。
为了比较细胞类型之间表达谱,计算各cluster内所有细胞中每个基因平均表达水平。通过维恩图对平均表达谱比较,每种细胞类型约表达700个特异基因(OHC-753; IHC-655; DC-713;归一化后counts>10)。且发现IHCs和DC具有高比例重叠(共享750个基因,与OHC和DC共享564个基因相比),但是IHC和OHC共享771个基因表达(图2A)。为了更严格地测试每种细胞类型的转录相似性,使用所有基因进行Pearson相关和R2回归分析,所有3组间比较中发现了强相关性,OHCs和IHC之间的相关性最高,OHCs和DC之间的相关性最低。OHC和DC表达谱最不相似可能反映了OHC高水平特化(图2B)。
为了定义每种细胞类型的特征性表达谱,通过cluster内各个细胞的标准化表达水平对所有基因进行排序。每种细胞类型的表达谱通过少量高表达基因(对数平均表达水平在2和7之间)和大量低表达基因(对数平均表达水平<2)来表征(图2C,2E和2G)。在按细胞类型排名前50的最高表达基因中,一些基因,如Fbxo2和Skpa1,在所有3种细胞类型中高度表达;而其他基因,如Ocm和Fgfr3,主要仅在一种细胞类型中表达。使用AUC排序,提取每组的cluster定义基因以鉴定特定细胞类型特异性marker基因(图2D,2F和2H)。前10个cluter定义基因的小提琴图揭示了众所周知的marker基因OHC(Ocm和Slc26a5)、IHC(Otof和Atp2a3)和DC(Bace2和Ceacam16)。可以通过scRNA-Seq浏览器工具(Web资源:https://morlscrnaseq.org/)访问小提琴图对应的完整基因列表。
图2-向下滑动显示更多图片
3、差异表达分析
已知细胞类型marker基因高度差异表达,例如prestin(Slc26a5),其在OHCs中稳健且差异表达。与公布的OHC和IHC转录组数据进行比较,搜索具有不一致排名的基因,假设通过AUC而不是表达水平对基因进行排序将在更广泛的表达水平上鉴定细胞类型定义基因。按AUC分类排名时,两个钙相关基因Ocm和Sri在OHC定义基因列表中排名第一,甚至超过Slc26a5,排名第三(上图2F)。先前已在OHC中报道了Ocm的表达。编码蛋白质oncomodulin(癌调蛋白)是钙结合蛋白家族成员之一,它是耳蜗听力扩增所必需的。Sri编码sorcin(可溶性耐药相关钙结合蛋白),一种在心肌细胞中表达的蛋白质,是钙介导的兴奋-收缩偶联所必需的,通过抑制Ryr通道(Ca2+释放通道/RyR受体)进行钙离子介导的钙离子释放 (CICR)。在肌细胞中,Ryr通道介导CICR,能够从肌质网中快速释放Ca2+离子,从而产生对于肌肉收缩必不可少的时空限制性钙火花。
图3-向下滑动显示更多图片
免疫荧光仅将sorcin仅定位于OHC(图3A,3B),假设类似的机制可以调节基于prestin的运动(图3C和3D,动力蛋白 Prestin是一种高度专业化的蛋白质,可以起到驱动耳蜗中外部毛细胞的作用,使耳蜗可以让人们和动物听到声音)。与此可能性一致,作者确定了在OHCs中表达sorcin介导的兴奋-收缩途径的基本组分,包括(1)电压门控钙释放通道,(2)促进CICR的通道,(3)终止CICR的机制(sorcin),和(4)钙泵使释放的Ca2+返回Ca2+储库(图3E)。本数据集和他人数据集中检测到的第一个组分是耳聋基因Cacna1d,一种在OHCs中高表达的电压门控钙释放通道,参与心动过缓有关的综合征性耳聋;第二个组分,即促进CICR的通道,包括Ryr1、Ryr2和Ryr3。在通过Ryr通道诱导CICR后,sorcin的作用可能是通过在Ca2+存在下阻断Ryr受体来快速终止CICR,这是先前在心肌细胞中报道的途径。已知定位于OHC表面下池的Ca2+ ATP酶泵可从细胞溶质中除去Ca2+。附着蛋白质(Ocm)等结合并缓冲Ca2 +的辅助蛋白质可能有助于这一过程。
4、转录本结构分析
大多数耳聋相关基因在IHC和OHC中表达,但它们在这些细胞中的isoform结构仍未得到很好的解析。SmartSeq2单细胞转录组测序,可克服细胞异质性和低丰度表达,以定义听觉HC中的基因产物结构,比如可变剪切。小鼠Myo15中检测到已报道的3个事件:(1)可变转录起始位点TSS事件:mm10 chr11:60,480,418-60,480,621;(2)位于chr11的6bp外显子:60,486,893-60,486,898;(3)剪接受体位点导致在位置chr11:60,497,434-60,497,576的提前终止。另外,检测到3个新的未报道注释的features:包括未报道的OHC特异性可变剪接受体位点(chr11:60,483,616-60,483,806),其中包含移码和提前终止,表明可能的功能作为调控元件,与报道位于chr11位置的剪接受体位点:60,497,434-60,497,576类似,以及位于chr11的剪接位点:3'UTR中的剪切位点:60,527,450-60,527,710。
鉴定孟德尔耳聋的基因中未注释的feature,在12个听力丧失基因中鉴定出20个高度保守的未注释外显子(表1;图4和5)。鉴定的编码和非UTR含有外显子的平均大小为55bp,这些外显子位于小鼠外显子的最小十分位数中(33%的小鼠外显子<100bp; 6.9%<50bp)。
图4-向下滑动显示更多图片
图5-向下滑动显示更多图片
5、全长isoform鉴定
为了解决全长isoform结构,进行了ONT全长转录组测序,并使用Illumina短reads序列数据作为确认的scaffold,用于nonopore长读长数据比对。与150-800bp片段大小的Illumina reads不同,Nanopore测序不需要片段化文库,并且可以产生跨越mRNA转录本长度的单一reads(图6A和6B)。对p15时间点的12个OHC细胞加barcaod以在4个MinION R9.4 flow cell上测序所有样品,同时保持单细胞分辨率(图6A)。因为OHCs是最多和最差异的Illumina数据集,这有助于跨平台比较以验证长reads和isoform定量。
长读长ONT全长数据显示出惊人的isoform异质性。例如,检测到445个reads比对到耳聋相关基因Cabp2。通过Mandalorion pipeline鉴定了14种不同isoform。但当高度相似的isoform configurations(构型)组合去冗余时,该数量下降至5(图6B)。通过量化每种isoform的丰度,在每个单独的细胞和更广泛的OHC组中鉴定了主要的isoform configurations(构型)(图6C-6E)。最常检测到和大量表达的configurations是isoform1。查询了公开可用的鼠注释数据库(RefSeq,GenBank,GENCODE和UCSC基因)和数据集(来自GenBank和UCSC基因组浏览器的mRNA),但未发现该isoform的注释。除了它在小鼠中的缺失外,还无法在RefSeq,GenBank,GENCODE和UCSC人类数据库中鉴定出与isoform1结构上直系同源的转录本。
图6-向下滑动显示更多图片
小结
Highlight
单细胞RNA-seq可鉴定内毛细胞(inner hair cells,IHCs)和外毛细胞(outlier hair cells,OHCs)定义基因;
Sorcin是心脏兴奋-收缩的关键因子,是OHCs的top marker基因;
对耳聋相关基因的分析鉴定了迄今未被识别的外显子;
Nanopore长读长RNA-seq(全长转录组测序)揭示剪接多样性和isoform丰度。
文献原文下载地址:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6424336/pdf/nihms-1523867.pdf
参考文献:
Ranum P T, Goodwin A T, Yoshimura H, et al. Insights into the Biology of Hearing and Deafness Revealed by Single-Cell RNA Sequencing[J]. Cell reports, 2019, 26(11): 3160-3171. e3.