查看原文
其他

凌波微课|如何消除数据的批次效应?选对工具很重要

Young 凌波微课 2023-06-15
学生信,做分析,就上


BatchServer批次效应评估和校正实操

 

实验设计过程中,我们经常会遇到各种各样的原因,使得样本数据无法一次性收集完成,这样必然会产生数据分析背景的差异,即批次效应(batch effects)。今天,我们就和大家来聊一聊批次效应。


一般批次效应可能在下述情形中出现:
  • 一个实验的数据在不同时间收集完成;
  • 一个实验的不同部分由不同的人完成;
  • 试剂用量不同、实验仪器不同、测序平台不同
  • 将自己测的数据与从网上下载的数据混合使用;
……


批次效应是一种不必要的数据变化,它可能掩盖生物信号,导致后续数据分析的偏差或错误,并以高假阳性率误导下游分析。如何有效的对组学数据的批量效应进行有效评估和消除,特别是在具有不同实验平台的数千个样本的大样本群的情况下,是分析大规模组学数据的关键。

 


PART1


批次效应评估方法

1、PVCA(Principal Variance Component Analysis)

PVCA利用主成分分析(PCA)、方差成分分析(VCA),拟合混合线性模型来估计各因素的变异比例。PVCA已被用于评价批量效应校正的有效性。

2、UMAP(Manifold Approximation and Projection)

UMAP是一种新兴的非线性降维方法,在运行时间、重现性和单细胞簇的组织方面,可视化单细胞细胞计和转录组数据的最先进工具。

 


PART2


批次效应的校正

批次效应校正的目的在于减少batch之间的差异,尽量让多个batch的数据重新组合在一起,这样下游分析就可以只考虑生物学差异因素。

纠正批次效应最直观的方法是标准化技术,它通过比较单个样本调整数据的全局属性。结合奇异值分解(SVD)、代理变量分析(SVA)、exploBATCHBatchIComBat等方法可以有效地消除批次效应。在这些方法中,基于参数或非参数经验贝叶斯策略的ComBat可以说是批量校正中应用最广泛的方法。
目前,西湖大学生命学院联合复旦大学计算机学院共同开发了一个开源的web服务器——BatchServerhttps://lifeinfo.shinyapps.io/batchserver/),它集成了PVCAUMAPautoComBat,为研究人员提供了易于使用的界面来评估和纠正大规模组学数据中潜在的批次效应。20203月,研究成果以“BatchServer: a web server for batch effect evaluation, visualization and correction”论文形式在线发表于bioRxiv

 




BatchServer网站概述



BatchServer的体系结构由三层组成(图1)。首先,提供数据输入层,用于上传数据文件和样本信息文件的输入文件,并交互选择批量和协变量名称;其次,数据处理负责批次效应的估计、可视化和校正;最后,数据输出层,用于显示和下载数据处理结果。BatchServer提供了易于使用的交互式用户界面。

图1 BatchServer网站主界面

 

由于技术或生物学问题,组学数据集中的缺失值是很常见的。BatchServer提供了四种计算效率高的方法来将缺失的值替换为' 1 '、' 0 '、' 10% of minimum' 或 'minimum',其中极小值是上传数据矩阵中的最小值。

 




BatchServer网站使用



BatchServer的详细说明在在线web页面的Readme部分提供。对于数据输入,需要一个数据文件和一个样本信息文件。这些文件的格式可以是制表符分隔、空格分隔、逗号分隔或Excel文件。BatchServerweb readme页面中提供bladderbatch包提供的测试数据文件。用户可以在“Data Input”菜单中上传这两个文件,然后点击“Submit”按钮。

2 数据处理流程

 

网站读取、处理和存储文件以供后续使用。建议用户使用在线服务器使用PVCAUMAP来评估数据是否具有批次效应。这两种方法都将显示批次效应的可视化。

3 PVCA评估结果

 

4 UMAP评估结果

 

一旦批次效应出现,它可以使用Correction中的ComBat进行校正。用户可以查看和下载批量效果评估的结果。修正后的数据也可以通过“getResult”下载。

5 ComBat校正批次效应结果

 




BatchServer网站性能评估



使用NCBI下载的真实数据集来测试BatchServer网站的性能。数据是基于微阵列的转录组数据(GSE19804GSE10072),数据包括女性不吸烟者227例肺癌(118例癌症和109例对照)。

我们将这两个数据矩阵合并,产生来自两个不同批次(bath1bath2)。图6显示了PVCA对各因素比例的估计。在使用ComBat (no correction)之前,71.57%的变异归因于批次效应,16.87%归因于生物信号(肿瘤和正常),0.73%归因于批次效应与生物类型之间的相互作用,10.84%归因于残留变异。经ComBat修正后,批次效应变异几乎为零,生物变异明显增强。

图6 转录组数据(GSE19804GSE10072)批次效应测试结果

 

总结

BatchServer批次效应处理web服务器,对大规模组学数据集的批次效应进行评估、可视化和校正。自动化ComBat 可以自动选择参数或非参数经验贝叶斯方法批量校准。它还集成了PVCAUMAP来评估和可视化潜在的批次效应BatchServer有一个R/Shiny的图形用户界面,增强了可用性,易于安装在个人电脑或服务器上,从而为群落数据批次效应的处理提供了方便的服务。

  • BatchServer在线网址:
https://lifeinfo.shinyapps.io/batchserver/
  • BatchServer源代码:
https://github.com/zhutiansheng/batch_server
更多精彩内容加入“凌波微课交流群”,满满的干货不容错过,独乐乐不如众乐乐哦~


 

PS:公众号后台回复“批次效应”,即可获测试的示例文件哦~

 




往期精彩



 


参考文献

BatchServer: a web server for batch effect evaluation, visualization and correction. bioRvix, 2020.

 

凌波微课,创意于2020年不平凡的春天,由高通量测序及组学研究领域从业近十年的技术团队精心打造。

凌波微课的讲师们,实战经验丰富,旨在通过在线微课程及线下交流,帮助科研学生及科研工作者们由简入繁,掌握科研思路及生信分析的实际操作。凌波微课,用心服务科研用户,打造专业培训品牌,助力科研提升。


关注我

发现更多精彩

关注凌波微课公众号,回复“入群”,即可加入凌波微课课下交流群,更多干货等你呦!


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存