查看原文
其他

对话杨哲轩 | 国内会出现 Fivetran 么?

杨哲轩 ITPUB 2023-05-11

国内会出现 Fivetran 么?



从抖音的流量扶持,到电商平台优惠券的分发,再到东数西算的国家战略,从这其中可以看到的是“数据”作为生产要素,在经济发展和社会发展中已经成了越来越重要的角色。

生产力发展是人类社会发展的决定力量。回顾历史,我们导致可以将过去几千年的历史分为三个阶段,分别是受土地、劳动力和技术进步要素制约的农业经济时代;在农业经济时代多了一个资本作为生产要素的工业经济时代;再过渡到现在增加数据作为生产要素的数字经济时代。

可以说,每一次新的生产要素的出现都会推动社会经济形态的变革,并带动社会生产力跃升。数字经济时代的序幕缓缓开启,“数据”作为新的生产要素也将对生产、流通、分配、消费活动,和经济运行机制、社会生活方式、国家治理模式等产生重要影响。

如同资本作为新生产要素会催生新行业、新物种、新机会样,数据成为新的生产要素之后也一样会催生很多新机会。这些新机会也将从数据产生,数据的存储,数据的消费,数据的交换,数据的移动等维度生长开来。

开头可能你会觉得讲的过于宏观、虚无缥缈,那我们来说点实际的。数据搬运这个细分领域里有没有新机会?

这里面一个简单的分类,可以是企业数据和用户数据。从开车,到读书,再到运动,无不在产生各式各样不同的数据,这些是用户数据,可能在你的手机上,也可能被企业采集形成了对于你的独特画像。

这里我们讨论的重点是企业数据,这一范畴下企业数据便跟行业属性息息相关,或者换句话说,数据跟业务系统的相关性很强。

• 银行的帐号(储蓄/信用卡)交易数据;

• 证券行业的股票买卖记录;

• 互联网企业的用户行为数据;

• 制造业的产线数据,物料数据等。

各行各业的数据是不一样的。

以抖音为例,通过用户在给定标签中停留的时长预测用户喜欢的内容,同时利用流量分发平台持续、准确地给用户推荐各自喜欢的视频。

再以滴滴为例,用户在给定地点的打车频次,涉及到的数据本身没有价值,但可以用来给滴滴用户以更便利的方式 提供常用地点的推荐。

数据并不意味着信息,只有形成了判断才能称之为有效信息。这其中便要求对数据进行处理和加工。这也是“数字经济”时代,数据成为生产函数中的一个生产要素的原因。数据本身没有价值,取决于业务如何利用数据那么,围绕的数据上下游究竟有哪些工序呢?按照最简单的制造业为例,假设数据本身是一件商品,从它被生产出来之后,就需要经过供应链的运输,到达分销商,最终以分销商销售为最终用户完成最后的一步。这里的供应链,不仅仅包含物流,还包含加工制造,为原有的商品(数据)添加额外附加值。 

通过这个具体而形象的例子,可以说明:围绕数据的生产、流转、消费,本质跟商品制造的内在逻辑是一样的。我们给这样从数据生产的地方搬运到其目的地的行为,称之为数据移动。我们给这些数据生产者和消费者一个具体的定义:端点。数据在端点之间的移动是有普遍的需求的。

那么围绕 "端点" 的处理工序都有什么样的种类呢?按照 Gartner 的定义,围绕数据的处理工序大概有 12 种。

  • 数据整合

    1. 数据搬运工具

  • 数据质量

    1. 类似于质检员,提升数据的准确性和质量(按照 DAMA 的定义,数据质量有很多内涵,这里就不展开了)

  • 数据目录

    1. 类似于生产制造企业中的物料表概念,通过元数据管理,了解企业内的数据资产情况

  • 数据治理

    1. 较为全面地包含围绕数据整合、数据质量、数据目录等全方位能力的供应商

  • 主数据管理

    1. 企业主数据管理方案供应商

  • 工业数据

    1. 海运、油气、芯片、制造业等细分行业数据方案供应商

  • 数据可观测性

    1. 观测数据链路供应商

  • CI/CD

  • 为分析准备

    1. 数据变形

  • 加速器

    1. Snowfalke 平台的 DataOps 产品 DataOps.live

    2. IBM InforSphere 的 DevOps 产品 MettleCI

    3. 微软和 Oracle 的 DevOps 产品 Redgate

  • 企业数据管理

    1. 接近于数据治理的分类,但是专注在企业内部的数据管理上

  • 隐私和访问控制


Fivetran 和 Aribyte 在上面的数据处理工序中,主要是数据整合领域,这也是数据移动领域的范畴。Fivetran 作为云数据行业的先驱,背靠 Snowfalke,依托为数据分析平台做数据准备跑通了自己的第一曲线,截止 2021 年,Fivetran 的营收大概是 8300 万美金,相较于 2020 年,有超过 142% 的增速。

作为后来者的 Airbyte,为了能够追赶先行者,在它融资计划里提到通过开源共创的方式,来增加连接器数量,进而快速在产品层面缩小跟 Fivetran 的差距。

按照不同的使用功能,Fivetran 给它的 150 种连接器,大概分成了 7 类。

  • 数据库

    1. Oracle, MySQL

  • 市场分析

    1. Saleforce

  • 销售分析

    1. Saleforce

  • 产品分析

    1. SendGrid

    2. Survey Monkey

  • 财务和运营分析

    1. Stripe

  • 技术支持分析

    1. Jira, Zendesk

  • 软件工程分析

    1. S3, Github

这种按照组织能力的分类,能让不懂技术的人也能迅速地知道应该如何选择具体的连接器。如果是做销售运营的,公司可能用了 Saleforce,邮件和一些项目管理的软件,通过 Fivetran 的数据中央化汇聚以后,能够在包括 Snowflake 在内的云上数仓中进行分析,产出区域销售预测,过往订单金额。
这些是典型的 BI 需求,云上数仓的考量点是:弹性和价格。实时性在这里能产生的业务价值有限。Fivetran 提供的产品选择最快也只支持 5 分钟级别的数据移动速度。

可以说,Fivetran 作为一个云上新物种存在的大的宏观变量是:整个海外市场,数据从原本的数据中心慢慢迁移到了云上。对于这个趋势贡献比较多的两个核心原因是:成熟的 SaaS 生态(HR、CRM、财务软件等需求)和云上展开分析的需求。

并购 HVR 之前的 Fivetran 主要战略方向是线上,主要做 SaaS 作为源头和 云上数仓作为目标端的数据分析,业务载体主要在云上和 SaaS 服务,不是传统数据整合工具领域里的同构/异构数据库间的数据搬运。并购 HVR 之后,增加了对于云上/云下的数据库的支持能力。

从公司的整体的竞争力和营收的角度而言,是一个非常好的并购。HVR 在并购前,已经在私有化环境中耕耘超过 15 年,积攒了较多数据库实时同步的经验,但在云战略为先的硅谷,这不是一个好的资本故事。HVR 和 Fivetran 是天赐良缘,互相补上了各自缺乏的一块短板。

美国出现了 Fivetran,并不完全意味这中国需要出现 Fivetran,比如美国的 Facebook 和中国的人人网之间的关系。Facebook 在美国蓬勃发展,人人网却有截然相反的走向。任何一个新物种之所以能出现,完全是因为市场对它存在需求。

中美的 SaaS 生态是不一样的,两国都有自己的问题需要解决。美国的经验不一定能在中国复用,这是所谓的不确定性。但不确定性中也有一些确定性,比如大家对于效率提升的追求,这可能是我们思考的起点。

这一次我们主要讨论的点是中国的 SaaS 生态。开始讨论之前,我们先后退一步,为什么美国市场需要 Fivetran?非常抽象且正确的废话是因为:美国市场产生了这个需求。那好,我们再往下看一层,为什么会产生这个需求?产生这个需求最直接的原因是两点: 

  1. 成熟的 SaaS 生态,产生了大量的孤立的“端点”,源源不断的生产数据;

  2. 三朵云之外的 Snowflake,需要将 1 中的“端点”数据搬运到此。

那么中国会产生这样的 SaaS 生态,并出现中国版的 Snowflake 么?

中国历史悠久的两家软件公司分别是金蝶和用友,都以企业 ERP 起家,但是大概分别在 2015 年前后的时间节点宣布进行云转型。 

以用友为例,云业务收入在 2017-2019 年实现了高速增长,云业务收入三年增长率分别为249.9%、108%、132%。另外一家国内大型软件公司金蝶,它的数字也是类似的,作为一家现金流基本为正的公司,自从 2013 年宣布云转型以来,已经有了 两个亏损年,但这丝毫没有动摇金蝶的“云转型”决心。

一些统计数字表明,金蝶正在尝到坚持“云转型”的甜头。2020年,金蝶云服务业务收入达到 19.12 亿元,相比2019年的 13.1 亿元增长 45.6 %,云服务收入在公司全部业务中的占比,也相应达到 57%,超过半数。 

此外,如果我们把目光放到组织所需要的软件的角度来考虑,一个有趣的事实是:围绕 CRM,人事,任务管理,财务,报销等 SaaS 公司的创业是层出不穷的。这也在助推数据开始从私有化慢慢迁移到云端(是,我们总是可以找到反例,比如大型公司的私有云方案,比如中国对于数据安全的不重视,但这些都是阻碍,并不能成为让变化不能发生的主要矛盾)。

我们可能没法准确地得到中国 SaaS 生态已经到达了一个成熟阶段的结论,但是这个加速度确实是能看得很清楚的。

至于中国的 Snowflake 能否出现,我觉得完全看用户对于多云的,便宜的,弹性的分析需求,是否会变得旺盛起来,同时外部环境,特别是法律层面的安全和合规问题能否即时出台。

回到 2015 年的文章[1],Snowflake 仍在强调自己是一个云原生的数仓方案,可以帮用户省掉 DBA 和维护成本,同时云上的对象存储还是很便宜的,通过存储计算分离的架构持续地给用户省钱。用户真的付费的部分,是自己真实使用的计算资源(当然不可避免的会有浪费,但记住那句警世恒言,过早的优化是没有任何意义的。)

而现在的 Snowflake,则关注在 Data Cloud,发力 Data Marketplace。通过激活已有用户之间的数据分享,进一步增加用户的粘性和生态建设,让数据不停留在分析,能进一步因为交换而继续产生价值。(如果把数据看作商品,那确实只有在交换过程中才能完成价值的流转和变现)

人类对于效率的提升是无穷无尽的,对于物美价廉的商品的追逐也是天性。这是基础假设,这是中国制造、中国供应链之所以能畅销全球,成为世界工厂的原因。从这一基础假设分析,结合目前分析上云的趋势,中国是否能出现 Snowflake,只是时间问题。

此外,我们可以到各路资本都已经在用钱投票,投出了像 OpenPie,StarRocks,SelectDB,HashData,Databend 等这些目标就是做云上数仓的基础软件的公司。这些资本催生了更多的就业机会的同时,也让供应商数量激增,让云上数据孤岛问题更加的复杂,这也进一步催发了“数据移动”工具的需求。只要中国的云上数仓开始陆续出现,那么围绕“端点” 之间的数据搬运工具就一定会出现。

最后说一点,虽然中国市场是和美国不一样的市场,但基础假设是一致的,都希望通过效率的提升来获得更多的利润空间。虽然受限于外部环境的限制,中国的这一物种的形态和成长路径,大概率和 Fivetran 不完全一样,但不妨碍“数据移动” 工具的出现。 


[ 文章引用 ]


[1] 《将数仓当作服务交付给客户(Delivering Data Warehousing as a Service )》:https://www.snowflake.com/blog/solution-as-a-service/?lang=ko


作者介绍






杨哲轩

Tapdata 运营合伙人&客户工程团队负责人

【作者介绍】毕业于明尼苏达大学-双城分校,后加入 PingCAP 担任基础架构研发工程师,深度参与TiDB、TiSpark 等项目,曾任 PingCAP 咨询&解决方案总监。为多家知名金融、互联网和制造业等行业企业,提供咨询和解决方案服务。对数据库、分布式原理、HTAP、DaaS、数据架构和数据治理等架构和管理领域,有独到的见解和丰富的实践经验。



 推荐阅读 

👇🏻

不想只做Cruder?实体、聚合根、还不快去了解下

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存