云计算正在成为新技术的主流推广渠道 — PolarDB Serverless论文读后感
阿里云2021年发表在SIGMOD ’21的这篇论文PolarDB Serverless: A Cloud Native Database for Disaggregated Data Centers, 其主要思想是, 数据库不仅可以把计算和存储分离, 还可以把计算和内存分离. PolarDB Serverless把所有内存数据都放在memory nodes上, 然后让compute nodes通过RDMA去读写memory nodes上的内存. 这种架构, 使得扩容能够更精细, 并且达到更好的recovery time.
从学术角度看, 论文有点平淡无奇, 没有提出让人兴奋的新理论, 也没有解决业界的难题.
但是对工业界来说, 我觉得这篇文章被低估了, 它传递了一个很重要的信息: 云计算正在成为新硬件的主流推广渠道.
Google在上世纪90年代带起来一股风潮: 抛弃高端设备, 使用不稳定但是廉价的PC服务器, 在软件层面实现可用性(Availability), 通过加机器数量实现扩展性(Scalability).
对他们来说, 服务器来自Dell或者HP或者浪潮, 几乎没有区别. 他们对硬件的期望本来就很低, 凡是硬件不能实现的, 都在软件层面实现.
这个技术选型模式的一个副作用就是硬件厂家变得无关紧要, 大多数服务器厂家沦为组装厂, 只比拼价格和售后服务, 以至于IBM把PC服务器部门出售掉. 另外一个副作用就是硬件创新的推广速度非常缓慢, 思科, EMC和Intel在过去二十年中, 几乎没有提出新产品形态, 只是在不改变原有产品形态的前提下, 提升产品的性能.
一个典型的新硬件的推广路径是这样的:
软件厂家做预研, 做可行性研究
软件厂家开发利用新硬件的新软件产品.
软件厂家和硬件厂家合作, 推出一个包含软件和硬件的解决方案.
厂家培训自己和渠道的售前/售后部门, 让他们掌握该技术.
厂家培训足够多的维护人员(比如上千个), 使得甲方能够雇佣到能维护该新产品的人员.
厂家向甲方推销.
甲方Poc, 做可行性研究.
甲方下单, 运输, 安装并且验收.
甲方自行维护该新硬件, 并购买售后服务保底.
可以看出, 这个路径的时间成本和财务成本都非常高, 而且如果在任何一步决策失误, 其沉没成本都非常高. 细心的读者已经看出了, 阿里云这篇论文提出的新架构, 其改进其实不显著, 覆盖不了这么高的推广成本, 因此这项技术走不了上述推广渠道, 很可能被抛弃.
但是云计算改变了这个推广渠道. 由于云平台的多租户特性, 硬件的任何贡献, 都可以快速的在客户那里看到投资回报, 同时由于云平台的超大规模, 运维成本被平摊到可以忽略的地步. 云计算时代的推广路径如下:
云厂家研发该技术,
云厂家做可行性研究
云厂家开发新产品.
云厂家向硬件厂家下单, 运输, 安装并维护.
用户直接在云平台上试用和放量.
可以看出, 这个路径里, 并不需要不懂硬件技术的用户去做技术决策, 他们只需要从自己的角度去评估新技术的优劣就够了, 技术决策是懂新硬件的云厂家产品部门做的. 同时维护成本也是厂家承担, 并且最终由数量众多的最终用户分摊的. 因此这条推广路径的成本有了数量级的下降.
以上是一个理论上的比较, 实际效果我们可以从下图看出. 一个可用的PolarDB集群, 只需要人民币1.2元/每小时. 而一个可用的Oracle RAC集群, 人民币40万起步, 一个DB2 Pure Scale集群, 也是和RAC同样数量级.
另外还有一个例子是Ampere的新ARM芯片, 它能显著的降低服务器能耗并提供更多的核数, 并且对用户来说, 几乎没有迁移成本, 但是目前, 如果你想用Ampere的arm芯片, 只能在阿里云, 甲骨文云, GCP, Azure和腾讯云上获取, 因为Ampere目前只在云平台上推广, 他们几乎不走成本巨大的云下渠道.
综上所述, 我认为云计算极大的降低了新技术的推广成本, 必然会成为新硬件的最佳推广渠道, 这是正在发生的事情. 我的论证过程可能有很大的问题, 但是我对这个结论非常有信心. 欢迎您的批评和讨论.