凌波微课|如何消除数据的批次效应?选对工具很重要
凌
波
微
课
BatchServer批次效应评估和校正实操
实验设计过程中,我们经常会遇到各种各样的原因,使得样本数据无法一次性收集完成,这样必然会产生数据分析背景的差异,即批次效应(batch effects)。今天,我们就和大家来聊一聊批次效应。
一个实验的数据在不同时间收集完成; 一个实验的不同部分由不同的人完成; 试剂用量不同、实验仪器不同、测序平台不同; 将自己测的数据与从网上下载的数据混合使用;
批次效应是一种不必要的数据变化,它可能掩盖生物信号,导致后续数据分析的偏差或错误,并以高假阳性率误导下游分析。如何有效的对组学数据的批量效应进行有效评估和消除,特别是在具有不同实验平台的数千个样本的大样本群的情况下,是分析大规模组学数据的关键。
PART1
批次效应评估方法
1、PVCA(Principal Variance Component Analysis)
2、UMAP(Manifold Approximation and Projection)
UMAP是一种新兴的非线性降维方法,在运行时间、重现性和单细胞簇的组织方面,可视化单细胞细胞计和转录组数据的最先进工具。
PART2
批次效应的校正
批次效应校正的目的在于减少batch之间的差异,尽量让多个batch的数据重新组合在一起,这样下游分析就可以只考虑生物学差异因素。
BatchServer网站概述
BatchServer的体系结构由三层组成(图1)。首先,提供数据输入层,用于上传数据文件和样本信息文件的输入文件,并交互选择批量和协变量名称;其次,数据处理负责批次效应的估计、可视化和校正;最后,数据输出层,用于显示和下载数据处理结果。BatchServer提供了易于使用的交互式用户界面。
图1 BatchServer网站主界面
由于技术或生物学问题,组学数据集中的缺失值是很常见的。BatchServer提供了四种计算效率高的方法来将缺失的值替换为' 1 '、' 0 '、' 10% of minimum' 或 'minimum',其中极小值是上传数据矩阵中的最小值。
BatchServer网站使用
图2 数据处理流程
网站读取、处理和存储文件以供后续使用。建议用户使用在线服务器使用PVCA或UMAP来评估数据是否具有批次效应。这两种方法都将显示批次效应的可视化。
图3 PVCA评估结果
图4 UMAP评估结果
图5 ComBat校正批次效应结果
BatchServer网站性能评估
使用NCBI下载的真实数据集来测试BatchServer网站的性能。数据是基于微阵列的转录组数据(GSE19804和GSE10072),数据包括女性不吸烟者227例肺癌(118例癌症和109例对照)。
图6 转录组数据(GSE19804和GSE10072)批次效应测试结果
总结
BatchServer批次效应处理的web服务器,可对大规模组学数据集的批次效应进行评估、可视化和校正。自动化ComBat 可以自动选择参数或非参数经验贝叶斯方法批量校准。它还集成了PVCA和UMAP来评估和可视化潜在的批次效应。BatchServer有一个R/Shiny的图形用户界面,增强了可用性,易于安装在个人电脑或服务器上,从而为群落数据批次效应的处理提供了方便的服务。
BatchServer在线网址:
BatchServer源代码:
PS:公众号后台回复“批次效应”,即可获测试的示例文件哦~
往期精彩
参考文献
BatchServer: a web server for batch effect evaluation, visualization and correction. bioRvix, 2020.
凌波微课,创意于2020年不平凡的春天,由高通量测序及组学研究领域从业近十年的技术团队精心打造。
凌波微课的讲师们,实战经验丰富,旨在通过在线微课程及线下交流,帮助科研学生及科研工作者们由简入繁,掌握科研思路及生信分析的实际操作。凌波微课,用心服务科研用户,打造专业培训品牌,助力科研提升。关注我
发现更多精彩
关注凌波微课公众号,回复“入群”,即可加入凌波微课课下交流群,更多干货等你呦!