单细胞测序数据处理关键是对细胞进行聚类分群,而进一步对细胞类型的鉴定,也就是细胞注释,目前已经有了比较实用的singleR实现了自动化注释。SingleR自带参考库中提供了各类细胞的转录组表达量信息,但是对于参考数据库marker基因集的不足,或者没有相应物种参考数据库,这时候就需要进行人工注释校正,提高细胞注释的准确性。今天给大家分享一篇关于单细胞数据细胞手动注释的方法,一起来看看scTyper如何实现手动细胞注释。英文题目:scTyper: a comprehensive pipeline for the cell typing analysis of single-cell RNA-seq data
发表时间:2020年8月发表期刊:BMC Bioinformatics单细胞RNA测序(scRNA-seq)技术的进展使得本文能够识别单个细胞类型,如上皮细胞、免疫细胞和成纤维细胞。细胞类型的确定往往是单细胞测序成功的关键,其通常的做法是通过估计细胞标记基因的表达来识别其细胞类型,而这往往有很大的局限性。
本文开发了一个用于单细胞RNA-seq测序分析和细胞分型的软件包(scTyper),还收集了213篇文献中提取的细胞类型标记物。scTyper提供了三种自定义的模型来估计细胞标记物的表达方法:最近模板预测(NTP)、基因集合富集分析(GSEA)和平均表达值。DNA拷贝数变异对推导方法(inferCNV)进行了改进,可进行恶性细胞的分型。该包还支持来自10X Genomics的cell ranger和Seurat包的数据预处理途径。
scTyper有着默认模式和自定义模式两种流程来对scRNA-seq数据进行细胞类型的预测;该包已被FASTQC和Cell Ranger的包装器函数的原始数据预处理管道所支持,该预处理包括质量控制、序列比对和原始测序数据的量化(Fig1)。log转换、归一化和集群的数据处理步骤是由Seurat的包装器函数执行的,生成的Seurat对象是用作后续流程中的输入文件。数据处理之后,可以使用pre-pool的单元执行单元分型标记数据库,sctype .db,以及先前报告的细胞标记数据库,用户可以从这些数据库中选择感兴趣的细胞类型标记,将它们应用于随后的细胞分型。细胞标记的表达可以最接近模板预测(NTP),预排序基因集合富集分析(GSEA),平均基因表达值。对于恶性细胞分型,用户可以利用推断的DNA拷贝数使用inferCNV R包修改。
2、scTyper.db,一个手动注释的细胞标记的数据库scTyper.db是随着软件一起安装的,它包括213个细胞标记基因集合。本文收集了癌症相关纤维的细胞标记物原细胞(n = 21),肿瘤浸润淋巴细胞(n = 33),肿瘤相关巨噬细胞(n = 4),不同组织类型的恶性细胞(n = 13)。149个免疫细胞标记物也被纳入数据库。例如,有62个T细胞不同细胞过渡状态的标记集,如CD4+, CD8+,调节和耗尽的T细胞(Fig2)。 本文使用统一的命名法来标记数据中的标记基因集。例如,一个细胞标记标签“Puram.2017.HNSCC”。使用这个术语,用户可以轻松地搜索细胞类型感兴趣的标记。本文还实现了由2867个细胞类型标记集和467个细胞类型标记集组成来自1764项研究的细胞类型。
在scTyper的当前版本中,实现了三种不同的方法来进行估算细胞标记集的表达,包括NTP,预先排序的GSEA和平均表达值。NTP是一种估计接近度的类预测方法。通过使用一系列基因集并计算其与测试的距离来确定细胞类型模板数据。浓缩分数(ES)是通过预先排名的GSEA方法计算的(https://www.gsea-msigdb.org/gsea/index.jsp)。用户可以通过将参数level的值分别设置为cell或cluster,从选项、cell-level或cluster-level中选择用于单元类型的级别。
对于恶性细胞分型,推断DNA拷贝数是由inferCNV R包的改进修改。这组基因相同的功能可以定位在染色体上的邻近,导致基因簇的构建。接下来,本文对不同细胞分型方法的性能进行了基准测试,在scTyper中使用测试数据集(GSE103322,5902个来自头部和颈部的细胞鳞状上皮癌细胞)。结果表明,采用推断CNV方法可鉴别另外529个恶性细胞,在最初的Puram研究中被分配为非恶性细胞(Fig3)。在推断CNV时,筛选出5个基因簇(包括180个基因);这些通过基因集合富集分析在邻近染色体区(1mb) (P< 0.05)。这些结果表明,结合分析细胞标记物表达和CNV推断对正确解释细胞分型结果有很大帮助。
在本研究中,本文采用了一个全面而灵活的途径来进行scRNA-seq数据的细胞分型,通过提供手动管理的,预先安装的细胞标记数据库还有三种不同的细胞分型方法。可以通过将extdata目录中的sigtype .db.txt文件替换为新的文件,轻松地完成单元格标记数据库的定制或更新,该包允许用户使用和比较不同的细胞分型方法。管道的模块化设计使用户能够在每个步骤中修改管道,有助于对数据进行适当的解释。。在单细胞数据分析的准确性和高效性趋势下,百迈客不仅将自动话细胞注释纳入单细胞转录组分析的标准分析内容,同时还提供手动细胞注释的个性化分析,一方面高效给老师提供自动化细胞注释的信息,另一方面为老师提供更精准的手动注释,让单细胞数据分析更高效精准。https://international.biocloud.net/zh/article/detail/32753029(复制链接到浏览器获取原文,如果没有云平台账号需要先注册)单细胞聚类分析之resolution选择
10x单细胞免疫组库VDJ数据分析就看它
空间转录组数据可视化介绍--loupe browser
利用Seurat处理空间转录组数据
百迈客:10x单细胞转录组与空间转录组联合分析一睹为快
空间转录组-在生长发育中的应用2
空间转录组-在癌症中的应用1
单细胞转录组应用4——结直肠癌研究
单细胞&空间转录组应用3-动植物研究“遍地开花”
百迈客生物基于高通量测序技术、生物信息分析技术和生物云计算技术,为广大科研工作者提供以综合技术服务、生物云分析、三代高通量测序以及试剂、仪器等科研周边业务。
公司拥有Nanopore、PacBio、Illumina、Waters、10XGenomics等主流服务平台,以及基于云架构的生物云计算平台—百迈客云,提供涵盖人重外显子、三维基因组、单细胞与空间转录组、基因组组装、转录调控、微生物、群体遗传、质谱及表观遗传等研究方向的技术服务。目前百迈客云平台拥有200多款基因分析工具,分析结果可直接用于文章发表,更有近百部科研相关视频和8大基因数据库助力科研工作者深度数据挖掘。
自公司成立起先后在《Cell》、《Nature》、《Nature Genetics》、《Nature Communications》、《Plant Cell》等学术刊物发表论文数千篇,拥有国家发明专利技术40余项,软件著作权近200余项。
我们一直秉承”生物科技创新,服务社会,造福人民”的企业使命,致力于打造“生物科技创新中心”的发展愿景,让生物科技更快,更好的提高人类生活质量。