珍藏版:万字长文教你设计CNS殿堂级单细胞文章框架
各位老朋友们,大家新年好,我是下沙小何!希望大家在新的一年里发大文章,拿大基金!
在这篇干货满满的文章开头,让我发自真心的问问大家:2020年,什么最火?
什么都不用猜,当然是单细胞测序啊!那么今天让最专业的联川单细胞技术团队手把手地教你如何用CNS级别的思路来整理单细胞文章!
俗话说的好,“站在风口上,猪都可以飞起来。”那么想必大家也都已经乘着这波东风,all in 单细胞测序了。
相信很多朋友已经在假期前拿到自己的单细胞数据了,并且雄心壮志的给自己立了个flag要在这个寒假期间利用这批数据讲述一个好故事。
3月即将到来,一年一度的过自然申请季已经拉开序幕,空白的标书上还等着留下你精彩绝伦美轮美奂惊心动魄的一笔,但作为“编剧”的你是否已经干货满满地准备好了呢?还是说你仍然无法下笔?
英雄有一个弱点,只有在大难临头的时候才登场救人。别怕,在你最手足无措的时候,性感的联川老司机,在线教你如何快速厘清单细胞数据。
我们查看了大量高分文章,想要告诉大家CNS级的单细胞套路是怎么样的,话不多说,上干货。
写标书写文章,犹如讲故事,好的故事在开头会将背景和起因娓娓道来,交代得清清楚楚,否则就像无头苍蝇一样嗡嗡嗡乱飞。相类似的,作为一篇优秀的文章,开篇需要告诉读者我们来进行这个研究的出发点是什么?这个出发点可能是我们发现了临床症状或者某一种生理表型的改变。这种临床表型可以是患了一个特定疾病(比如癌症)后,组织发生了变化(有了肿瘤块,免疫浸润情况的变化,组织纤维化情况的变化);也可以是动物经过处理(喂药或者基因编辑后)后,组织发生了生理表型的变化(肿瘤细胞迁移能力的变化,药物代谢能力的变化)。那以上这些症状或者生理表型的变化可以用多种形式来表示,包括免疫荧光,染色切片,甚至还可以通过图表直接告诉大家肿瘤大小发生了变化。下面我们举几个典型的例子吧!
2020年11月份发表在“扫地僧“神刊ELife上的一篇单细胞文章,作者通过免疫荧光染色发现,和正常成年小鼠相比,幼年小鼠具有更多的真皮乳头结构并且具有更强的皮肤损伤修复能力。因此,作者猜测出现修复能力差异的原因是不是由于幼年小鼠的这些真皮乳头结构中有一部分特定的细胞会随着年龄的成长而减少。那么如果想要找到这一类特定的细胞,第一要务是要知道组织中每个细胞是什么,目前做到以上这一点的,单细胞测序技术无疑是最佳选项(注意:流式也能进行细胞的鉴定,但只能根据现有抗体去进行细胞的鉴定,并且存在分类不够细致,且能分的种类受荧光通道数量的限制等问题)。作者是位说做就做、丝毫不犹豫的宝宝,因此他立刻开展了单细胞实验,想挖掘随着年龄的增长过程中真皮乳头状结构的数量为什么会发生变化,并且这个结构中的每种细胞比例是不是也发生了变化(Phan et al., 2020);
2020年1月份发表在cell上的一篇单细胞文章,作者通过HE染色在石蟹猴体内发现,和老年的卵巢相比,年轻的卵巢具有更多的毛囊结构和更低的纤维化程度。这位作者是一个好奇的宝宝,他想知道这年轻的和老年的卵巢之间毛囊结构数量不一样以及纤维化程度具有差异的原因,是否是由于两者具有不一样的细胞比例,以及某一类细胞他的基因表达模式在衰老过程中发生了改变,并进一步导致了生育能力的衰退。那么目前能精确的分辨出每个细胞内基因表达水平的技术,单细胞最优秀了。因此他开展了针对年轻卵巢和老年卵巢的单细胞测序(Wang et al., 2020);
2020年6月份Cell Immunity上对于表型的描述,也是非常的“老道”,作者一句废话也没有,直接甩出一张表格曲线图,告诉大家敲除了肿瘤中NK细胞的Hif1a基因后,肿瘤的体积奇迹般地缩小了,amazing,并且顺带着还调节了肿瘤组织内的免疫微环境,表现为炎症因子水平的上调。这个时候,和上面两位作者一样,这位作者也是好奇宝宝,他想知道Hif1a敲除,是如何导致肿瘤细胞的突然变小的,并且Hif1a敲除是如何调节NK细胞对免疫应答的改变。当然通过流式直接筛选NK细胞后通过普通转录组测序也是一个了解NK细胞在Hif1a敲除后基因表达模式的变化的好方法,但转头一想,NK细胞数量少,肯定达不到普通建库的标准,那么如何对细胞占比少的微量细胞进行探究呢?单细胞测序无疑是扛把子了,因此作者这边也通过单细胞测序来探究这其中的奥秘(Ni et al., 2020);
表型的选择多种多样,大家的出发点可以是服药或者基因敲除后肿瘤的变大变小,或者是模式动物的死亡率变高变低。那么对于表型的展现形式也是多种多样的。除去我们这次展示的免疫荧光数据和HE切片染色,还可以是单纯的一张数据的统计表格(肿瘤重量,肿瘤体积,甚至是死亡率的统计等),只要你敢想,并把它凑成数据,那么他就是你文章中的一张图。
好了,开篇的主题已经有了,可谓好的开头是成功的一半,现在的心情可能如下图:
别得瑟,万里长征才刚刚开始,难的还在后面呢!背景交代完是第一步,接下来就要就要开始挖掘单细胞数据了。
那么在挖掘数据之前,先让我问问大家,为什么有了普通的转录组测序,我们还要有单细胞转录组测序呢?我们看到前面列举了很多生理表型,那以上这些症状或者生理表型的变化并不是由于整个组织同时发生病变的,肯定是由于一个组织中的某一种细胞先发生功能的变化,才会引起整个组织出现病理现象。那么普通转录组我们只能测定一个组织大致的基因变化,并不能精确知晓具体某一个或者几种细胞的基因表达谱改变情况。但由于单细胞测序是单个细胞建库,单个细胞进行数据的测定,因此我们能够知道单个细胞或者特定的一群细胞的基因表达水平的变化情况。所以如果单细胞数据挖掘的好,能让文章更上一层楼。
单细胞数据的纵览,其实就是交代下我们采样的具体信息,以及交代下细胞的大致情况,比如你的样本是如何采集的,用什么方法进行单细胞测序,根据表达模式的不同可以被分为多少类(cluster)?每个类群细胞在不同样本间的占比是如何,以及每个类群细胞相较于其他细胞高表达的基因是什么,以及每个cluster可能是什么细胞?等等,展示花样多姿多彩。当然很多老师可能会说,说的再多都是抽象的,那么让我们通过几个例子让这个纵览由抽象的概念变得具体化。
还是那篇“扫地僧”神刊Elife上的文章,作者的思路大致是这样的,在单细胞数据的纵览部分上先是交代了样本的处理方法(刚出生和成年的小鼠进行划伤处理7天后采样),以及单细胞平台(当然是我们神奇的10X平台);接着对收集到的细胞进行简单的按样本进行聚类(图f)并对这些细胞进行注释(也就是告诉大家测到的那一群是什么细胞);并进一步用已经典型的marker进一步进行验证。此外,由于前面说了,作者宝宝想看是不是有一部分特定细胞的比例是不是会随着年龄的成长而发生变化,因此他又对每群细胞进行了数量的统计,发现成纤维细胞是随着年龄的变化比例发生变化最明显的(Phan et al., 2020)。
关于石蟹猴卵巢的这篇文章,我们也可以看到相似的单细胞数据的纵览。先是交代了单细胞样本的采集部位以及测序平台;随后便对收集到的样本进行细胞类型的注释;并进一步用已经典型的marker进一步进行验证注释的准确性。此外,还通过了热图的形式展示了差异基因(Wang et al., 2020)。
2020年11月份的Science上关于心脏单细胞的文章采用了异曲同工的方法对单细胞数据进行了纵览。他先是交代了心脏的来源,取样部位(左心室、右心室、左心房、右心房),以及样品制备方法和上级方案后,对获得单细胞数据进行了聚类和简单的注释(Litviňuková et al., 2020)。
想必大家这个时候要问了,我们要怎么样从测好的单细胞数据中获得以上这些图呢?Don't worry, be happy! 让万能小川川来告诉你:对于单细胞数据的纵览呢,有很多数据其实已经在我们的报告中展示出来了,比如说:各样本中各亚群细胞的数量,按照样本进行和按照cluster进行的降维聚类分布图,以及各个cluster高表达的基因等,那么对于这些图,大家可以直接把报告中的图片稍加调整便可利用。
OK,那也就是说,到目前为止,对于纵览图来说,大部分从单细胞数据中来的图就已经有的差不多了,只缺一张细胞的注释图片了。那如果我们要进行细胞注释,我们当然要先知道这是什么细胞,也就是要进行细胞鉴定。
正如前面所说的,单细胞转录组和普通转录组的差别在于普通转录组测定的是组织内所有细胞的平均表达谱,而单细胞可以针对一个细胞或者样本中特定的一群细胞进行基因表达谱的测定。因此为了能充分利用手上的这批数据,在对单细胞测序数据进行进一步数据分析前,我们需要做的是鉴定细胞,明确每个cluster是什么细胞,这一步可以说是整个数据分析中的重中之重!
那么如何鉴定细胞呢?最好的方法是找某一类细胞内特异性表达的或者高表达的基因!也就是我们所说的marker genes。那么问题又来了,marker怎么找?一方面,可以从文献中找,看是不是有相类似组织的文章发表,如果有,那么congratulations!你找到捷径了,你就可以直接借用相似组织中的marker进行细胞鉴定;当然很多情况下,你可能没有那么幸运了,这个组织的单细胞测序可能是你开了先河,那么这个时候也别觉得麻烦,大家都没做过,你肯定是第一个吃螃蟹的人。但这个时候,细胞怎么鉴定呢?联川独家秘籍,三步法鉴定新型组织内的细胞类型:
第一步,了解组织内的大致细胞类型分布。也就是说我们要清楚我们的组织可能有什么细胞,比如说皮肤组织,它大致由上皮细胞,内皮细胞,成纤维细胞以及免疫细胞等组成。当然为了方便进行细胞类型的大致排查,我们非常贴心的为大家先用自动化注释软件singleR进行了智能化的细胞定义。机器方便了你我他,但有时人工智能一不留神就变成了人工智障。因此,大家需要注意的是,singleR注释的原理是根据细胞的基因表达模式进行比对,一旦一种细胞的表达模式和singleR数据库中收录的细胞类型非常相似,那么就会被注释为数据库中的细胞名,因此便会出现由于肾脏细胞具有较高的代谢强度而被误注释为也具有高线粒体强度的肝脏细胞,因此啊!singleR的结果,只能作为参考,辅助鉴定,不可全信!
第二步,借助文献或已知数据库进行marker确定。确定好大致细胞类型后,我们就去看,其他文章中含有这些细胞类型的组织上,这个细胞使用什么marker鉴定的,然后反向在我们的组织中进行验证;当然,流式抗体也是一个不错的选择,但这边需要注意的是,流抗测定的是蛋白层面,而我们单细胞转录组测的是RNA层面,RNA和蛋白可能存在时空不一致性,导致蛋白表达,但RNA水平并没有在目标细胞群体中特异性表达。当然这都是后话,marker好不好,用的只有实践出真章,找到marker,后如何看效果呢,可以通过联川自研单细胞marker基因注释平台:https://www.omicstudio.cn/tool/ten_x/index?id=47,那么肯定有宝宝会问,这个平台怎么用呢?传送门给大家,往期推送对这个工具进行了非常详细的介绍:听说单细胞数据可以在线绘图啦!!!| 单细胞专题
但是吧,肯定有人要问了,万一有一种细胞是我这个组织特有的,之前没人做过,而且还没有报道的特异性marker,怎么办,不要慌!我们还有至尊第三步;
第三步,根据差异基因富集(KEGG或者GO)的功能通路来看确定细胞类型。打个比方,我们想要在睾丸组织内鉴定成熟精子,但由于某些原因,导致现有的marker可能没办法很好的区分。那么这个时候,我们对每个cluster中特异性高表达的基因进行富集分析后发现,有一个cluster高表达鞭毛蛋白相关基因。结合精子的特点,精子有鞭毛,并且通过鞭毛来进行游动,那么恭喜你,这一群高表达鞭毛蛋白相关的cluster就是你找的精子细胞了!
通过以上三步,你就可以轻轻松松的做完细胞鉴定工作,并且把纵览这张图给做完了。
小说在开始的几章交代完背景后,就开始要进行剧情的层层递进了。相似的,你的文章在纵览结束后是不是也需要开始铺陈数据,将“剧情线”进行铺开了呢?那对于单细胞数据的铺陈来说,最常见的数据铺陈是对不同的细胞群进行进一步分析,也就是我们所说的subcluster,也就是告诉大家,一个大类细胞可以分为几个小类细胞,例如:
扫地僧Elife选择对皮肤组织中的成纤维细胞进行数据铺陈。比较四个处理的细胞比例变化后,作者可以发现,其他组分变化变化不明显,唯独成纤维细胞变化特别明显,因此作者就猜测,成纤维中的一类细胞在伤口修复过程中变化起着决定性作用。因此,作者对这群细胞进行了在分群,企图从中找到奥秘(Phan et al., 2020)。
2020年11月份的Science上关于心脏单细胞的文章选择对心肌细胞、血管细胞和免疫细胞进行了细胞再分群(Litviňuková et al., 2020)。
2018年8月份的nature medicine发表的关于肺癌的单细胞文章,对上皮细胞、内皮细胞和免疫细胞进行了再分群。具体的方案如下:对上述三类细胞再分群后,区分来自肿瘤的和非肿瘤组织的细胞并比较肿瘤和非肿瘤细胞内的差异基因主要富集在那些通路上。随后,比较同一个cluster内,肿瘤和非肿瘤细胞的marker基因表达水平是否具有明显差异(Lambrechts et al., 2018)。
细胞再分群的意义在于进一步厘清细胞的组成成分。细胞已经总的分群中进行了定义,知晓了组织的细胞组成类型和比例,但是,这种分群方法是比较粗糙的,并不是精确的、细致的分群方式。很多疾病的发生通常是由于少量亚群细胞的变异或突变所导致的,而通过再分群来探明大类细胞中亚群有哪几类,以及亚群在疾病发生过程中的变化情况,这对于研究正常的生理过程以及疾病的进展具有重要的意义。那可以对哪些细胞进行再分群操作呢?其实只要是种细胞我们都可以进行再分群,但是我们更推荐大家有选择性的或者结合实验目的去进行再分群操作。我们发现目前很多单细胞实验都是是在探究肿瘤发生的机制,那么在单细胞测序中,肿瘤组织的再分群的切入点是什么呢?
上皮细胞:很多实体瘤或者癌症细胞都是从上皮细胞转化过来的。因此对于很多肿瘤来说,上皮细胞的再分群是非常有意义的。比如说,一般来说,肿瘤组织相较于非肿瘤组织中的上皮细胞具有更高的上皮间质转化现象(EMT),更高的增殖能力(或者cell cycle)。那么通过再分群,我们便有机会知道正在进行间质转化的以及不同细胞周期(resting,cycling)的细胞比例在癌症发生过程中是否发生改变;以及是否正常的上皮细胞和具有更高增殖能力或者具有更高EMT现象的上皮细胞之间是否有分化的前后关系(该部可由monocle的拟时序分析实现);
内皮细胞:由于肿瘤组织相较于其他组织,代谢能力更高,因此需要更多的氧气消耗,那么便会促进肿瘤内的内皮细胞生成更多的毛细血管。再分群分析使得我们有机会知道肿瘤组织中血管内皮细胞的比例是否发生变化;当然,也有部分肿瘤细胞是从内皮细胞转化过来的,因此增殖能力也是一个可以深入的研究指标(也可以用monocle的拟时序分析功能来进行肿瘤细胞转化的方向);
免疫细胞:一方面,免疫细胞作为机体的哨兵,能检测到发生变异的肿瘤细胞,并招募其他免疫细胞进攻肿瘤细胞,也就是免疫浸润;另一方面,为了塑造肿瘤组织内更适合肿瘤细胞生长的环境,肿瘤细胞会分泌一些因子使得免疫细胞失去或者减弱作为哨兵的能力,也就是降低免疫反应。因此对于肿瘤组织来说,通过单细胞检测免疫细胞表型的变化,是一个很好的指标;
组织内特有的功能细胞:肿瘤组织内的功能细胞也是一个非常值得关注的角度,因为肿瘤的发生必然会导致组织原本的功能发生变化,或更活跃,或抑制,但具体通过什么机制来造成组织功能的扰动,却暂未知晓,而单细胞则可以更好的让大家进行探究这一角度。
此外有很多的朋友肯定会想问了,如何来进行单细胞再分群呢?
给力的联川工程师推出了一站式的自动化再分群云分析功能,网址为https://www.omicstudio.cn/analysis/ten_x/create?analysis_id=5, 为了方便大家更好的使用这个云分析功能,我们也特地给大家介绍了这个工具的使用小说明,传送门送给大家:单细胞亚群重新分析云平台操作指南 | 单细胞专题
当然,可能有些朋友会觉得,如果单纯只是单细胞数据是不是会略显单调,还是需要加点实验的数据进去,用来丰富内容?没事,免疫荧光或者HE切片就是一个很好的选择。这两种实验图片更多地是为了配合我们单细胞挖掘出来的实验数据:例如通过切片或者免疫荧光来前后印证marker在不同组之间的表达差异,从另一个维度来证明单细胞的数据挖掘是正常的,例如下图就是一个很好的例子:作者在将心肌细胞分为4类后,从单细胞数据可以看到心室心肌细胞群2(vCM2)高表达PRELID2,vCM2高表达FHL1,在荧光染色中,也可以看到这两个基因的高表达(Litviňuková et al., 2020)。
一个好的故事会在故事剧情进行到高潮时,进行收网,也就是交代结果。相类似的,单细胞数据铺陈了那么多,是时候给大家一个结论,也就是将这些分散的数据前后联系起来。那目前联系的方法主要有哪些呢?细胞间的pathway crosstalking,也就是cell-cell interaction。我们知道,每个细胞都能通过分泌细胞因子或者激素,这些细胞因子能够被周围细胞的质膜上受体所接收并用于调节相应的生理活动。目前有一款软件可以用于自动化计算cell-cell interaction,他的名字叫做CellPhoneDB,他可以研究不同细胞类型间的细胞通讯网络如何使生理过程得以进行的,是一个配体、受体及其相互作用的数据库。当我们将单细胞数据进行输入后,可以得到一大串显著的受体和配体信息,最终的结果如下图,也就是告诉大家,这些细胞并不是孤立存在,而是相互调控的:
那么通过以上这么一套数据挖掘的方法和思路,我们差不多就构成了一篇标准的用单细胞探究肿瘤发生机理的文章了,也就是说到这里大家一篇文章的图就已经齐了,可以开始着手码字写文章了。
当然,可能有些老师,并不想止步于此,想通过后续的验证实验进一步升华研究主旨,那也是可以的。正如本文中出现的Elife关于皮肤再生的文章一样,作者通过差异基因的富集,发现Lef1基因可能在皮肤再生过程中扮演着重要的作用,因此特异性的将该基因进行敲除实验,来进一步探究lef1的敲除是不是抑制了皮肤的再生能力(Phan et al., 2020)。
行文到了最后,下沙小何还有一句话想跟各位唠叨唠叨,写文章就是写故事,要发好文章,一方面要靠实验立意的新颖和前瞻性,另外一方面,也讲究故事的张力和前后衔接性。邓爷爷曾经说过“解放思想实事求是”,他还说过:“不管白猫黑猫,会捉老鼠就是好猫”。因此在对数据进行挖掘和文章进行撰写的时候。不要害怕故事是否离奇或者是否符合常理,只要这个思路你能够把它完整的述说出来,并讲出了你要讲的意义,并且能够发表在杂志上,那么就没事。
当然还有一点:“空谈误国,实干兴邦”。作为社会主义的接班人,祖国新一代的科研事业还等着你去添砖加瓦。不要再犹豫了,国自然的申报马上就要结束了,还不趁着单细胞这波东风搞一波大的?快把我们的小工具云平台用起来!
当然在挖掘数据时,你可能会遇到困难,或者遇到疑惑,没关系,身经百战,百战沙场的联川技术天团可以随时给你解疑答惑。
Lambrechts, D., Wauters, E., Boeckx, B., Aibar, S., Nittner, D., Burton, O., . . . Thienpont, B. (2018). Phenotype molding of stromal cells in the lung tumor microenvironment. Nat Med, 24(8), 1277-1289. doi:10.1038/s41591-018-0096-5
Litviňuková, M., Talavera-López, C., Maatz, H., Reichart, D., Worth, C. L., Lindberg, E. L., . . . Teichmann, S. A. (2020). Cells of the adult human heart. Nature, 588(7838), 466-472. Retrieved from https://doi.org/10.1038/s41586-020-2797-4. doi:10.1038/s41586-020-2797-4
Ni, J., Wang, X., Stojanovic, A., Zhang, Q., Wincher, M., Bühler, L., . . . Cerwenka, A. (2020). Single-Cell RNA Sequencing of Tumor-Infiltrating NK Cells Reveals that Inhibition of Transcription Factor HIF-1α Unleashes NK Cell Activity. Immunity, 52(6), 1075-1087.e1078. doi:10.1016/j.immuni.2020.05.001
Phan, Q. M., Fine, G. M., Salz, L., Herrera, G. G., Wildman, B., Driskell, I. M., & Driskell, R. R. (2020). Lef1 expression in fibroblasts maintains developmental potential in adult skin to regenerate wounds. Elife, 9. doi:10.7554/eLife.60066
Wang, S., Zheng, Y., Li, J., Yu, Y., Zhang, W., Song, M., . . . Liu, G. H. (2020). Single-Cell Transcriptomic Atlas of Primate Ovarian Aging. Cell, 180(3), 585-600.e519. doi:10.1016/j.cell.2020.01.009
点击下方图片进入OmicStudio资料汇总(整合了B站和公众号中的精品资源,及时更新,永久有效)
云平台网址:https://www.omicstudio.cn
云平台特点:
免费免费免费
所见即所得
生信人员直接开发
可下载PPT格式
绘图带数据处理功能
分析参数多样(结合多年售后经验提供)
一键分析
联川生物云平台OmicStudio至今已帮助28000+科研伙伴处理各类组学数据,点击量累计超77000+。目前提供多种云工具、生信分析流程以及各种干货资料和用户文章,已被Theranostics,Bioresource Technology Reports等杂志的多篇文章引用。
用于植物单细胞核RNA测序的根细胞核分离方法 | 单细胞专题
植物单细胞核测序-让植物scRNA-seq不再受困于原生质体制备 | 单细胞专题
用户文章:PNAS-单细胞测序揭示哮喘加重小鼠肺部免疫细胞特征 | 单细胞专题