【数智化人物展】ASF Member郭炜：中美大数据技术新趋势

Original 郭炜数据猿 2022-08-26

郭炜

本文由Apache Software Foundation（ASF） Member郭炜投递并参与“数据猿行业盘点季大型主题策划活动——《2022中国企业数智化转型升级先锋人物》榜单/奖项”评选。

数据智能产业创新服务媒体

——聚焦数智 · 改变商业

2022年在全球动荡不安的一年，同时也是全球数据技术快速发展的一年。在这一年中，新一代中国互联网例如 TikTok，SheIn，Shopee等企业全球化布取得了阶段性进展，硅谷的新一代数据技术栈MDS（Modern Data Stack）蓬勃发展，源自中国的新一代云原生数据科技公司在OLAP引擎、DataOps引擎引起全球资本关注，数据技术全球化趋势越演越烈。

纵观大数据发展，从Hadoop，Spark到数据平台（中台）到新一代数据技术栈也进入了新的阶段。

大数据技术初期（2005-2015）

以Apache Hadoop、Apache Spark、Apache Oozie为主的大数据技术栈，将过去以Teradata，Greenplum为主的商业数据仓库技术栈逐步替换，以其分布式、高性能、开源免费的方式快速占领大部分市场。

那时候在中国，正是BAT开始创业崛起的时代，在美国Google、Amazon、AOL大量验证开源软件之后，国内互联网公司的开始自身的大数据之旅。于是，中国的大数据开源用户高速发展，后来带动传统行业大数据平台建设，也以Hadoop、Spark为主进行，大数据平台的建设以替换ODS层和非结构化数据存储和处理。

开放的代码，低廉X86硬件支持，简单易用的SQL生态，让Hadoop/Spark生态直到现在中国国内的大部分中型互联网公司，还是沿用这套体系来进行大数据管理和挖掘的。

云化大数据平台与数据中台时期（2010-2020）

随着互联网业务发展，数据驱动深入人心，越来越多的业务需求涌向大数据平台。此时，中国和美国发展了一些有趣的不同方向的发展。

此时的美国，大数据应用越来越多，数据量也越来越庞大。因为使用开源人力成本昂贵，实体机全球化运维成本高等原因，以硅谷Amazon、Netflix、Linked-in为代表的互联网公司大量使用公有云作为公司的基础设施。美国企业在使用公有云虚拟机的同时，大数据也全部上云进入存算分离时代。数据已经不存在线下的Hadoop、Spark集群中，而是存在公有云的廉价对象存储例如 S3，GC Storage，然后通过公有云的弹性的EMR来动态处理相关数据，用Apache Azkaban、Apache Airflow来调度大数据之间的任务。整体的开源生态，也进一步拥抱公有云时代。随着公有云的蓬勃发展，到2020年，美国公有云支出占平均IT预算的24％左右，私有云约为5％（来自麦肯锡《中国公有云：大挑战、大潜力》），整体上企业大数据上云已经完成大部分的数据迁移工作。

而国内，数据驱动也深入人心，新一代的互联网公司例如快手、头条、美团、京东开始采用除了Apache Hadoop/Spark之外的更多的开源大数据技术来满足企业数据分析需求，例如ClickHouse、Apache Doris、Presto来进一步拉近业务用户和数据之间的距离。同时，因为国内数据量巨大，原先的Apache Airflow/Azkaban等调度工具无法满足需求，各互联网公司开始自建自有调度引擎或者采用新一代调度分布式引擎Apache DolphinScheduler作为调度工具。同时阿里巴巴提出“数据中台（Data Middle Office）”的概念，将多种大数据工具集成至一个数据平台体系下快速满足企业用户的需求，在让数据更接近业务人员使用上进行进一步尝试。

此时，中美在技术路径上产生比较大的分歧，一个在云上快速发展，一个在私有化方式快速深入。

云原生与新一代技术栈 Modern Data Stack（2015-现在）

在2020年之后，随着云原生的发展，中美科技栈又开始走向云原生时代，各自有自有的特色。

在硅谷兴起新一代数据技术栈MDS，在原有的公有云服务之上，有更进一步的不同。

1、IT为中心走向以业务为中心

a.利用无需代码或者很少的语言代码技术降低技术门槛，让更多的数据处理和复杂流程变为更多人可用的服务；

b.通过云原生、公有云服务等让企业组织拥有更精简的数据团队，企业更专注于高价值的业务数据分析而不是性能优化；

c.把数据技术自服务作为核心功能，数据技术人员成为整体数据驱动的推动者，而不是分析瓶颈。

2、从一体化的整体解决方案，变为多个产品服务的组合

a.数据本地化变为部署在云化，根据使用的存储、计算来单独计算，节约整体公司成本；

b.利用现代数据技术栈，可以使用SaaS等开箱即用的工具快速使用DataOps/MLOps解决业务问题；

c.和中国提出的数据中台不同，在硅谷主流工具拆解复杂的一体化工具为多种专业产品服务组合来实现轻量级更专业的服务。

3、DataOps/MLOps兴起让分析师、工程师、数据科学家分析过程可以复用、开发更高效

a.相对复杂的中台和传统ETL开发过程，新一代数据技术栈融合DevOps相关流程，让开发更高效、严谨

b.DataOps/MLOps让工程师过去一次性分析变为可复用的数据分析、数据挖掘过程，提高整体企业的开发效率

c.DataOps/MLOps让数据治理成为现代数据栈当中的核心要素

以DBT，FiveTran，Airbyte，Airflow，DolphinScheduler，SeaTunnel，Prefect等工具为代表的的新一代MDS工具集合简化了数据使用人员的使用。

在中国，以TikTok，SheIn，Shopee新一代全球化互联网企业出现，直接使用新一代的云原生技术在全球公有云上直接使用云原生的K8s服务，例如 AWS AKS，Google Cloud GKE等，结合自身K8S管理与Spark on K8s, Flink on K8s，DolphinScheduler on K8s等工具，全面构建以云原生体系下的多云大数据混合云架构。新一代的全球化互联网公司，已经基于大数据K8S的架构的开发和全球化扩张：

中美大数据技术发展趋势

综上，纵观中美大数据技术发展的十几年，可以看到几个明确的行业趋势：

1、云原生化

随着人力成本上升，全球化布局发展，在没有特定行业合规要求的企业会逐步选择云化大数据基础建设。只不过中美的时间路径不同：在美国的企业是先选择上公有云，然后在公有云环境下通过MDS切换到云原生体系下；在中国的企业是选择现在本地做云原生，在逐步从本地云原生走向公有云云原生体系。整体趋势上殊途同归，因为最大限度利用资源，最高效的提高数据研发效率是所有企业的共同目标。

2、自助分析的兴起与数据能力的平民化

越来越多的企业业务人员开始直接使用数据工具来完成企业内部的分析：市场竞争越来越激烈，面对越来越多的数据引擎和技术，企业内部数据工程师越来越难满足科学家、产品经理、运营人员高频的“提取数据”需求。更多的企业采用新一代的工具例如Metabase, DolphinScheduler来满足企业内部数据分析、数据提取，定时数据任务封装。让企业内部更多的人，更高效的使用数据。

3、开源生态商业化

大数据生态经过十几年发展，出现了数百种各自不同的技术、接口，关键是这些技术还在快速的发展，如果采用过去传统的软件开发模式明显已经无法满足新一代大数据技术的发展。因此，在大数据领域中，中美共同的出现了一些基于新一代技术的开源商业公司，他们经营着卓越的开源技术社区同时以SaaS活商业化订阅的模式为企业提供最新的云原生服务，例如美国的DBT （DBTCore）、Astonomer（Apache Airflow），Airbyte（Airbyte）等，中国的SphereEX（Apache ShardingSphere），白鲸开源（Apache DolphinScheduler, Apache SeaTunnel）等。这些企业通过经营开源社区，来满足日新月异的大数据新技术接口迭代的需求，同时，以开源版本为基础提供商业版本的服务，持续对开源社区进行改进，形成开源-商业的飞轮效应。

数据技术依然在快速发展，我相信未来的一段时间，量级计算、脑机接口、人工智能应用会给大数据技术再次提供更多的发展空间和发展动力，同时，从数据使用用户感知层面，这几点将是每一个数据技术发展的目标：

平民化：“去专业化”，不仅仅为工程师而生而是让更多的企业内部用户将数据用起来；

从简单开始：“去中台化”，让组织和用户从当时需要使用的组件开始切入，避免不必要的成本和复杂性；

快速迭代：“极速体验”，让用户尽快看到数据操作结果而不是经过数天的复杂的程序编写、调试、上线最终验证结果如何；

成本有效：“随需随用”，无论采用私有化云原生技术或者公有云云原生技术，庞大的、闲置的大数据集群算力时代已经过去，随需随用的云原生大数据技术会替换企业现有的大数据计算体系。

前两年，经常有人说“Hadoop已死”，大数据技术发展停滞，其实大数据技术正在以云原生的方式，以新一代数据技术栈（MDS）方式快速结合企业实际场景，更高效、更简单、更便宜的方式让企业内部数据驱动落在实处。大数据技术还在快速发展，中国的科技管理者要放眼全球看如何利用好技术实现全球化的目标，而美国也在紧密看中国庞大的开发者基数下还有哪些新技术可以帮助到自身企业。

尽管此时此刻世界还在动荡，但是科技的发展往往是经历萌芽-发展-过热-冷静-崛起-高潮这几个周期的，相信经过这次动荡的洗礼，卓越的技术可以穿越周期，最终成为下一个经济周期当中的强者！

·关于郭炜

郭炜，Apache 基金会成员, Apache 孵化器导师，ClickHouse 华人社区创始人， Apache Dolphin Scheduler PMC，Apache SeaTunnel(incubating) 导师，中国开源社区最佳33人，中国2021年开源杰出人物。

郭炜先生毕业于北京大学，曾任易观CTO，联想研究院大数据总监，万达电商数据部总经理，先后在中金、IBM、Teradata任大数据方重要职位，对大数据前沿研究做出卓越贡献。同时郭先生参与多个技术社区工作，Presto, Alluxio,Hbase等，是国内开源社区领军人物。

郭炜先生也是中国软件行业协会智能应用服务分会副主任委员，全球中小企业创业联合会副会长，TGO鲲鹏会北京分会会长，虎啸十年杰出数字技术人物。作为国内开源领军人物，郭炜参与多个开源项目的发起和维护:

2017年开始建立ClickHouse中国社区，从0开始积累种子客户与开发者，每年数次Meetup，经过四年耕耘目前发展6000名用户，近千家企业使用，互联网大厂数据分析的标配，也让ClickHouse在国内成为OLAP引擎一只黑马。参与孵化的Apache DolphinScheduler在2021年成为Apache顶级项目，2021年成功孵化Apache SeaTunnel，成为SeaTunnel孵化导师，2021年被评选为Apache Software Foundation Member成员。

同时郭炜先生参与多个技术社区工作，Presto, Alluxio,Hbase等，是国内开源社区领军人物。

《2022中国企业数智化转型升级服务全景图/产业图谱1.0版》

☆条漫:《看过大佬们发的朋友圈之后，我相信：明天会更好！》

联系数据猿