干货!代谢组学数据分析常用软件和网站介绍|代谢组学专题
在质谱下机后,原始数据需用相关软件或者网站进行分析来得到代谢物的鉴定和定量结果。数据分析一般包括分为峰提取、过滤,不同样本保留时间的对齐,加合离子(同种物质不同的离子化形式)合并分析,代谢物的匹配鉴定以及数据质控和处理(如:偏离值过滤,缺失值过滤,缺失值填充、数据归一化处理等)等分析步骤。数据质控和处理,特别是数据的归一化方法会在下一章节详细叙述。
在得到代谢物的鉴定和定量列表后,使用R或Python、Perl等语言或者分析网站进行下游的生信分析和绘图,诸如:PCA分析、PLS-DA分析、OPLS-DA分析、heatmap图、Valcano图、KEGG富集分析、ROC分析等。
MZmine3软件的代谢离子信息分析和不同样本的对齐流程
一、常用分析软件和网站
常用的代谢组学商用分析软件有Thermo Fisher公司的Compound Discover、Lipidsearch,AB SCIEX的Analyst,Agilent的Masshunter,Waters公司的Progenesis QI等软件。一般来说,商用软件对本公司的质谱仪数据支持性最好,在分析稳定性、数据的算法、数据库等方面比开源分析软件更有优势,且商用软件一般界面优美、易操作,用户体验感较好。
商业公司积累的代谢物数据库,对代谢物鉴定帮助很大。如Compound Discover可调用mzCloud数据库的代谢物一二级谱图信息,该数据库是Thermo基于QE系列质谱仪建立的二级谱图库,包含19000+种化合物的二级谱图信息,且可基于Thermo开发的mzLogic算法,在匹配时挑选得分最高的代谢物。Lipidsearch同样是Thermo基于orbitarp质谱仪建立的脂质数据库。不过Compound Discover软件需要付费使用,但初次使用可申请60天免费试用期。Lipidsearch则是Thermo开发的分析脂质组专用软件,同样与QE系列质谱仪兼容性很好,包含超过150万张脂质离子及其预测碎片离子谱图。目前Lipidsearch也支持mzXML通用格式输入,可将其他公司原始数据转换进行分析,目前不需要收费。一般来说,公司自建的代谢物谱图库是使用自己品牌的质谱仪获得,使用对应公司的质谱仪、分析软件、数据库相对来说最好,拿其他公司的质谱仪下机数据来分析,鉴定结果质量较差,如AB SCIEX的QTOF6600下机的wiff和wiff.scan格式原始数据使用mzCloud数据库分析鉴定。
除了上述商用软件外,还有很多免费的开源软件可供代谢组分析。如第一章节提到的MS-Dial、XCMS、MZmine等。
MS-DIAL是由加州大学戴维斯分校的Oliver Fiehn 教授团队和日本理化学研究所可持续资源科学中心(RIKEN CSRS)Masanori Arita 教授团队共同开发,软件目前使用率相对较高,已被使用发表很多代谢组TOP期刊。在操作时,MS-Dial基本无需手动调参,对新手使用比较友好。MS-Dial官网整合了包括lipidblast数据库等很多有价值的代谢物的谱图信息,数据库质量较高且可很方便下载,用MS-Dial软件或者下载数据库后使用其他软件来分析。MS-DIAL 近年来有重大更新,来自日本、中国、美国、西班牙和捷克的研究团队在《Nature Biotechnology》杂志发表了题为“A lipidome atlas in MS-DIAL 4”的文章,从人体血液、小鼠组织、其他哺乳动物细胞、藻类和植物等一系列来源的1056个生物样本中分析了117个脂质亚类中的8051种独特脂质,其中6570种在分子物种水平上具有特征,并将此研究结果包装进MS-DIAL 4软件中,对脂质组的分析鉴定很有帮助。
MS-Dial(http://prime.psc.riken.jp/compms/msdial/main.html)
XCMS是是目前代谢物分析使用最广的开源分析软件,由美国斯克里普斯研究院开发,该研究院还同时建立了最大的代谢物二级质谱数据库METLIN数据库。XCMS的使用需要一定的R语言基础,且在分析前需将raw,wiff和wiff.scan等格式的各公司质谱下机数据转化为mzXML通用格式。XCMS可以与METLIN数据库无缝链接,代谢物的分析鉴定功能十分强大。此外开发者还开发了XCMS Online在线操作网站,支持windows界面操作,简单易上手,目前XCMS Online已支持raw、wiff和wifff,scan等数据格式,无需进行格式转化。XCMS长期霸占代谢组分析软件使用榜榜首,但随着METLIN数据库需要付费使用,目前多用于原始数据的代谢离子信息的提取分析,常与metaX软件搭配使用,进行代谢组原始数据分析、鉴定和下游生信分析。
XCMS Online(https://xcmsonline.scripps.edu/)
MZmine软件 由 Matej Orešič(芬兰 VTT 技术研究中心)和 Mikko Katajamaa(图尔库生物技术中心)于 2004 年发起,目前已更新至MZmine 3版本。MZmine 是基于Java环境工作,可在windows、macOS、Linux等系统下良好运行,适用性较强。但MZmine软件在调用KEGG、HMDB等数据库进行代谢物鉴定时,速度很慢,且该软件需要手动调整分析的各种参数,对新手不太友好。
此外还有一些功能强大的在线分析网站可支持代谢组学原始数据的分析,如MetaboAnalyst、MetDNA2等。
其中MetaboAnalyst网站是由加拿大麦吉尔大学Xia Lab开发,该网站功能十分强大,支持从原始数据解析,差异代谢物分析,PLS-DA分析,HMDB、KEGG等数据库库的富集分析,ROC、随机森林、SVM等分析,及与蛋白组、转录组等多组学关联的一整套流程。在使用时,需要将需将各公司质谱原始数据转化为mzXML通用格式并压缩成zip文件上传。MetaboAnalys无需注册即可使用,且分析速度较快,很少需要手动调参,对新手使用十分友好,后续会有单独章节来专门讲述该网站。
MetaboAnalyst(https://dev.metaboanalyst.ca/)
MetDNA2则是由中科院上海有机化学研究所生物与化学交叉研究中心的朱正江团队开发,注册邮箱可免费使用该网站。不过MetDNA2主要用途是代谢物的鉴定和后续差异分析,输入数据包括代谢离子信息表格、分组文件、原始数据,即需要原始数据解析并进行代谢离子定量后使用,因此必须搭配其他软件使用,如MZmine、XCMS等。MetDNA2网站已更新至2.0版本,目前仅支持从高分辨率飞行时间 (TOF) 和 Orbitrap 仪器获取的基于LC-MS 的非靶向代谢组学数据,暂不支持靶向代谢组学数据,例如 MRM 和 PRM。同时MetDNA 也不支持从 GC-MS 和 NMR 获得的代谢组学数据。
除了分析普通非靶向代谢组项目,上述软件和网站,一般也均支持脂质组项目分析。除了MetDNA2,也支持上传标准品数据和本地谱图库,进行靶向代谢组和广泛靶向代谢组项目的分析。此外,关于raw、wiff及wiff.scan等商用数据格式转化成mzXML格式,可以采用开源软件ProteoWizard(https://proteowizard.sourceforge.io/)中的MSConvert GUI工具进行。
MetDNA2(http://metdna.zhulab.cn/)
常用的代谢组分析软件和网站
参考文献
1. MS-Dial 4:Tsugawa H, Ikeda K, Takahashi M, Satoh A, Mori Y, Uchino H, Okahashi N, Yamada Y, Tada I, Bonini P, Higashi Y, Okazaki Y, Zhou Z, Zhu ZJ, Koelmel J, Cajka T, Fiehn O, Saito K, Arita M, Arita M. A lipidome atlas in MS-DIAL 4. Nat Biotechnol. 2020 Oct;38(10):1159-1163. doi: 10.1038/s41587-020-0531-2. Epub 2020 Jun 15. PMID: 32541957.
2. XCMS:Smith CA, Want EJ, O'Maille G, Abagyan R, Siuzdak G. XCMS: processing mass spectrometry data for metabolite profiling using nonlinear peak alignment, matching, and identification. Anal Chem. 2006 Feb 1;78(3):779-87. doi: 10.1021/ac051437y. PMID: 16448051.
3. metaX:Wen B, Mei Z, Zeng C, Liu S. metaX: a flexible and comprehensive software for processing metabolomics data. BMC Bioinformatics. 2017 Mar 21;18(1):183. doi: 10.1186/s12859-017-1579-y. PMID: 28327092; PMCID: PMC5361702.
4. MZmine:T. Pluskal, S. Castillo, A. Villar-Briones, M. Orešič, MZmine 2: Modular framework for processing, visualizing, and analyzing mass spectrometry-based molecular profile data, BMC Bioinformatics 11:395 (2010). PMID: 20650010
5. MetaboAnalyst 5:Pang, Z., Zhou, G., Ewald, J., Chang, L., Hacariz, O., Basu, N., and Xia, J. (2022) Using MetaboAnalyst 5.0 for LC-HRMS spectra processing, multi-omics integration and covariate adjustment of global metabolomics data Nature Protocols (doi: 10.1038/s41596-022-00710-w)
6. MetDNA2 (KGMN): Zhiwei Zhou†, Mingdu Luo†, Haosong Zhang, Yandong Yin, Yuping Cai, and Zheng-Jiang Zhu*, Metabolite annotation from knowns to unknowns through knowledge-guided multi-layer metabolic network, Submitted, 2022, bioRxiv preprint
相关阅读
用户文章|IF=10,代谢组+微生物组联合揭示黄酒多酚化合物对心脏的保护作用|代谢组专题
所见即所得,绘图高规格联川云平台,让科研更自由