云上的钱花到哪里去了?详细计算云端数据分析平台 TCO
学习了一下 Gigaom 2021年6月15日发布的报告 <Cloud Analytics Platform Total Cost of Ownership>。
报告是针对企业如今常见的场景:利用云计算资源,搭建供多种数据源的云端数据管理和分析平台。
云端数据分析平台 TCO 组成:
Dedicated Compute:因云上数据仓库的计算与存储资源分离,本项是指的计算资源;
Storage:存储部分;
Data Integration:通过 ETL 或 ELT 将数据从数据库移动到数仓;
Streaming:来自事件驱动和 IoT 源的数据流工作负载;
Spark Analytics:利用 Apache Spark 进行数据分析;
Data Exploration:各家的计费方式均不相同,基本包括数据扫描和计算;
Data Lake:独立于数仓的数据湖,一般存储海量冷数据;
Business Intelligence:BI 工具;
Machine Learning:基于数仓和数据湖之上的 ML 和数据科学平台;
Identity Management:IAM (统一身份认证服务),只有 Azure 的 AD 是收费的;
Data Catalog:数据治理和统一数据数据编目。
考虑到使用周期,还有一些其它方面的费用:
Data Migration:数据迁移;
ETL Integration:ETL 集成;
Analytics Migration:分析算法、代码等迁移;
On-going Support and Continuous Improvement:安装、维护、监控运维的复杂度涉及到的人力成本。
Microsoft Azure 是最便宜的平台,对大型企业场景,每年费用在 $4.7M;而 AWS 的费用高出 19%,Google 更高出31%,而 Snowflake 则差不多是 2.5 倍。
计算资源是费用的主要部分,对 AWS,计算费用占总费用的 43%,Google 的计算费用占比高达 79%。
按 3 年来算的话(要加上人力成本),对于中型企业场景,Microsoft Azure 仍是花费最低,为 $6M,AWS 为 $7M,Google 为 $11M,Snowflake 为 $15M;对大型企业场景,Microsoft Azure 为 $17M,AWS 为 $24M,,Google 为 $27M,Snowflake 为 $42M。
云上的费用很多坑。而公有云逐渐进入寡头垄断的格局,同时,混合云和多云的兴起,这必将引发混合云、多云场景下的资源管理、费用管理的矛盾冲突激化,从而激发混合云多云管理工具、资源自动化管理工具、云数据管理系统需求。