单细胞测序—细胞类型注释
数据处理是单细胞测序最重要的环节之一,其中细胞类型注释关乎后续研究的准确性。细胞类型注释是将未知的细胞聚类结果与已知的细胞类型进行相似程度的比对分析。伯豪生物根据多年的项目经验发现,细胞类型注释的准确性,取决于已知数据库的准确性以及注释前聚类分析的算法阈值。本文将针对单细胞测序数据分析环节中细胞注释部分,分享伯豪生物的一点心得。
细胞注释常用方法
使用Single R进行细胞类型注释(Single R教程)
下载地址:
https://www.bioconductor.org/packages/release/bioc/vignettes/SingleR/inst/doc/SingleR.html
1. 计算测试集(没有注释的转录组数据)与参考集(已注释的转录组数据)的相似度(spearman correlation);
2. 以参考集细胞类型为单位,计算per-label score;
3. 对所有的label重复这个过程,选取最好的分数的细胞类型标签作为测试集中某类细胞的身份;
其它类型R语言脚本程序:Garnett(Garnett教程)
下载地址:
https://cloud.tencent.com/developer/article/1606016
根据经典marker基因进行细胞类型注释
如何提高细胞注释的准确性?
一、合适的数据库可以提高细胞注释的准确性。
随着单细胞测序技术的发展,科学家们公开分享的数据库呈递增趋势,如何选择合适的数据库作为参考,关乎着后续研究的的准确性。伯豪生物收录统计了两大类单细胞数据库(按照物种区分:人,小鼠)可用作单细胞测序注释的参考集,其中人相关的单细胞测序数据库包含约48种组织,100种细胞的数据信息;小鼠相关的单细胞测序数据库包含约43种组织,90种细胞的数据信息。针对种类繁多的数据库类型,伯豪生物给出的建议:首先,根据样本的组织部位来源选择相同组织的单细胞测序数据库,或相近部位样本的单细胞测序数据库作为参考数据库;若没有小范围合适的参考数据库,可以按照物种进行划分(值得注意的是随着数据库的逐渐丰富,样本的地域性因素也将逐渐纳入参考数据库的选择指标)。
表1. 伯豪生物已收录整理的数据库(部分)
二、借鉴经典marker基因可提高数据库的注释精度
尽管已有R包针对大部分数据可以进行兼容性注释分析,然而在一些研究中,由于聚类阈值的设置导致细胞聚类准确性出现偏差,或者根据现有算法无法与高分研究的细胞分型匹配,此时为保证研究的延续性及可溯源性,需要手动对无法精准注释的细胞类型进行调整。在这一过程中,伯豪收集整理大量的经典细的marker信息(来源于历史项目经验及高分文章发表数据),表2列出了,伯豪生物收集的部分数据供大家参考。
表2. 通用经典的marker基因(部分展示)
详情咨询:17702139967
邮箱:Market@shbio.com
推荐阅读
服务科技创新
护航人类健康
长按扫码关注我们
我知道你在看哟
本文为伯豪生物原创
欢迎转发朋友圈
转载请注明来自伯豪生物