对话杨哲轩 | 国内会出现 Fivetran 么？

杨哲轩 ITPUB 2023-05-11

收录于合集

国内会出现 Fivetran 么？

从抖音的流量扶持，到电商平台优惠券的分发，再到东数西算的国家战略，从这其中可以看到的是“数据”作为生产要素，在经济发展和社会发展中已经成了越来越重要的角色。

生产力发展是人类社会发展的决定力量。回顾历史，我们导致可以将过去几千年的历史分为三个阶段，分别是受土地、劳动力和技术进步要素制约的农业经济时代；在农业经济时代多了一个资本作为生产要素的工业经济时代；再过渡到现在增加数据作为生产要素的数字经济时代。

可以说，每一次新的生产要素的出现都会推动社会经济形态的变革，并带动社会生产力跃升。数字经济时代的序幕缓缓开启，“数据”作为新的生产要素也将对生产、流通、分配、消费活动，和经济运行机制、社会生活方式、国家治理模式等产生重要影响。

如同资本作为新生产要素会催生新行业、新物种、新机会样，数据成为新的生产要素之后也一样会催生很多新机会。这些新机会也将从数据产生，数据的存储，数据的消费，数据的交换，数据的移动等维度生长开来。

开头可能你会觉得讲的过于宏观、虚无缥缈，那我们来说点实际的。数据搬运这个细分领域里有没有新机会？

这里面一个简单的分类，可以是企业数据和用户数据。从开车，到读书，再到运动，无不在产生各式各样不同的数据，这些是用户数据，可能在你的手机上，也可能被企业采集形成了对于你的独特画像。

这里我们讨论的重点是企业数据，这一范畴下企业数据便跟行业属性息息相关，或者换句话说，数据跟业务系统的相关性很强。

• 银行的帐号（储蓄/信用卡）交易数据；

• 证券行业的股票买卖记录；

• 互联网企业的用户行为数据；

• 制造业的产线数据，物料数据等。

各行各业的数据是不一样的。

以抖音为例，通过用户在给定标签中停留的时长预测用户喜欢的内容，同时利用流量分发平台持续、准确地给用户推荐各自喜欢的视频。
再以滴滴为例，用户在给定地点的打车频次，涉及到的数据本身没有价值，但可以用来给滴滴用户以更便利的方式提供常用地点的推荐。

数据并不意味着信息，只有形成了判断才能称之为有效信息。这其中便要求对数据进行处理和加工。这也是“数字经济”时代，数据成为生产函数中的一个生产要素的原因。数据本身没有价值，取决于业务如何利用数据。那么，围绕的数据上下游究竟有哪些工序呢？按照最简单的制造业为例，假设数据本身是一件商品，从它被生产出来之后，就需要经过供应链的运输，到达分销商，最终以分销商销售为最终用户完成最后的一步。这里的供应链，不仅仅包含物流，还包含加工制造，为原有的商品（数据）添加额外附加值。

通过这个具体而形象的例子，可以说明：围绕数据的生产、流转、消费，本质跟商品制造的内在逻辑是一样的。我们给这样从数据生产的地方搬运到其目的地的行为，称之为数据移动。我们给这些数据生产者和消费者一个具体的定义：端点。数据在端点之间的移动是有普遍的需求的。

那么围绕 "端点" 的处理工序都有什么样的种类呢？按照 Gartner 的定义，围绕数据的处理工序大概有 12 种。

• 数据整合

数据搬运工具

数据质量

类似于质检员，提升数据的准确性和质量（按照 DAMA 的定义，数据质量有很多内涵，这里就不展开了）

类似于生产制造企业中的物料表概念，通过元数据管理，了解企业内的数据资产情况

数据治理

较为全面地包含围绕数据整合、数据质量、数据目录等全方位能力的供应商

主数据管理

企业主数据管理方案供应商

工业数据

海运、油气、芯片、制造业等细分行业数据方案供应商

数据可观测性

观测数据链路供应商

CI/CD
为分析准备

数据变形

加速器

Snowfalke 平台的 DataOps 产品 DataOps.live
IBM InforSphere 的 DevOps 产品 MettleCI
微软和 Oracle 的 DevOps 产品 Redgate

企业数据管理

接近于数据治理的分类，但是专注在企业内部的数据管理上

隐私和访问控制

Fivetran 和 Aribyte 在上面的数据处理工序中，主要是数据整合领域，这也是数据移动领域的范畴。Fivetran 作为云数据行业的先驱，背靠 Snowfalke，依托为数据分析平台做数据准备跑通了自己的第一曲线，截止 2021 年，Fivetran 的营收大概是 8300 万美金，相较于 2020 年，有超过 142% 的增速。

作为后来者的 Airbyte，为了能够追赶先行者，在它融资计划里提到通过开源共创的方式，来增加连接器数量，进而快速在产品层面缩小跟 Fivetran 的差距。

按照不同的使用功能，Fivetran 给它的 150 种连接器，大概分成了 7 类。

• 数据库

Oracle, MySQL

市场分析

Saleforce

销售分析

Saleforce

产品分析

SendGrid
Survey Monkey

财务和运营分析

Stripe

技术支持分析

Jira, Zendesk

软件工程分析

S3, Github

这种按照组织能力的分类，能让不懂技术的人也能迅速地知道应该如何选择具体的连接器。如果是做销售运营的，公司可能用了 Saleforce，邮件和一些项目管理的软件，通过 Fivetran 的数据中央化汇聚以后，能够在包括 Snowflake 在内的云上数仓中进行分析，产出区域销售预测，过往订单金额。
这些是典型的 BI 需求，云上数仓的考量点是：弹性和价格。实时性在这里能产生的业务价值有限。Fivetran 提供的产品选择最快也只支持 5 分钟级别的数据移动速度。

可以说，Fivetran 作为一个云上新物种存在的大的宏观变量是：整个海外市场，数据从原本的数据中心慢慢迁移到了云上。对于这个趋势贡献比较多的两个核心原因是：成熟的 SaaS 生态（HR、CRM、财务软件等需求）和云上展开分析的需求。

并购 HVR 之前的 Fivetran 主要战略方向是线上，主要做 SaaS 作为源头和云上数仓作为目标端的数据分析，业务载体主要在云上和 SaaS 服务，不是传统数据整合工具领域里的同构/异构数据库间的数据搬运。并购 HVR 之后，增加了对于云上/云下的数据库的支持能力。

从公司的整体的竞争力和营收的角度而言，是一个非常好的并购。HVR 在并购前，已经在私有化环境中耕耘超过 15 年，积攒了较多数据库实时同步的经验，但在云战略为先的硅谷，这不是一个好的资本故事。HVR 和 Fivetran 是天赐良缘，互相补上了各自缺乏的一块短板。

美国出现了 Fivetran，并不完全意味这中国需要出现 Fivetran，比如美国的 Facebook 和中国的人人网之间的关系。Facebook 在美国蓬勃发展，人人网却有截然相反的走向。任何一个新物种之所以能出现，完全是因为市场对它存在需求。

中美的 SaaS 生态是不一样的，两国都有自己的问题需要解决。美国的经验不一定能在中国复用，这是所谓的不确定性。但不确定性中也有一些确定性，比如大家对于效率提升的追求，这可能是我们思考的起点。

这一次我们主要讨论的点是中国的 SaaS 生态。开始讨论之前，我们先后退一步，为什么美国市场需要 Fivetran？非常抽象且正确的废话是因为：美国市场产生了这个需求。那好，我们再往下看一层，为什么会产生这个需求？产生这个需求最直接的原因是两点：

成熟的 SaaS 生态，产生了大量的孤立的“端点”，源源不断的生产数据；
三朵云之外的 Snowflake，需要将 1 中的“端点”数据搬运到此。

那么中国会产生这样的 SaaS 生态，并出现中国版的 Snowflake 么？

中国历史悠久的两家软件公司分别是金蝶和用友，都以企业 ERP 起家，但是大概分别在 2015 年前后的时间节点宣布进行云转型。

以用友为例，云业务收入在 2017-2019 年实现了高速增长，云业务收入三年增长率分别为249.9%、108%、132%。另外一家国内大型软件公司金蝶，它的数字也是类似的，作为一家现金流基本为正的公司，自从 2013 年宣布云转型以来，已经有了两个亏损年，但这丝毫没有动摇金蝶的“云转型”决心。

一些统计数字表明，金蝶正在尝到坚持“云转型”的甜头。2020年，金蝶云服务业务收入达到 19.12 亿元，相比2019年的 13.1 亿元增长 45.6 %，云服务收入在公司全部业务中的占比，也相应达到 57%，超过半数。

此外，如果我们把目光放到组织所需要的软件的角度来考虑，一个有趣的事实是：围绕 CRM，人事，任务管理，财务，报销等 SaaS 公司的创业是层出不穷的。这也在助推数据开始从私有化慢慢迁移到云端（是，我们总是可以找到反例，比如大型公司的私有云方案，比如中国对于数据安全的不重视，但这些都是阻碍，并不能成为让变化不能发生的主要矛盾）。

我们可能没法准确地得到中国 SaaS 生态已经到达了一个成熟阶段的结论，但是这个加速度确实是能看得很清楚的。

至于中国的 Snowflake 能否出现，我觉得完全看用户对于多云的，便宜的，弹性的分析需求，是否会变得旺盛起来，同时外部环境，特别是法律层面的安全和合规问题能否即时出台。

回到 2015 年的文章[1]，Snowflake 仍在强调自己是一个云原生的数仓方案，可以帮用户省掉 DBA 和维护成本，同时云上的对象存储还是很便宜的，通过存储计算分离的架构持续地给用户省钱。用户真的付费的部分，是自己真实使用的计算资源（当然不可避免的会有浪费，但记住那句警世恒言，过早的优化是没有任何意义的。）

而现在的 Snowflake，则关注在 Data Cloud，发力 Data Marketplace。通过激活已有用户之间的数据分享，进一步增加用户的粘性和生态建设，让数据不停留在分析，能进一步因为交换而继续产生价值。（如果把数据看作商品，那确实只有在交换过程中才能完成价值的流转和变现）

人类对于效率的提升是无穷无尽的，对于物美价廉的商品的追逐也是天性。这是基础假设，这是中国制造、中国供应链之所以能畅销全球，成为世界工厂的原因。从这一基础假设分析，结合目前分析上云的趋势，中国是否能出现 Snowflake，只是时间问题。

此外，我们可以到各路资本都已经在用钱投票，投出了像 OpenPie，StarRocks，SelectDB，HashData，Databend 等这些目标就是做云上数仓的基础软件的公司。这些资本催生了更多的就业机会的同时，也让供应商数量激增，让云上数据孤岛问题更加的复杂，这也进一步催发了“数据移动”工具的需求。只要中国的云上数仓开始陆续出现，那么围绕“端点” 之间的数据搬运工具就一定会出现。

最后说一点，虽然中国市场是和美国不一样的市场，但基础假设是一致的，都希望通过效率的提升来获得更多的利润空间。虽然受限于外部环境的限制，中国的这一物种的形态和成长路径，大概率和 Fivetran 不完全一样，但不妨碍“数据移动” 工具的出现。

[ 文章引用 ]

[1] 《将数仓当作服务交付给客户（Delivering Data Warehousing as a Service ）》：https://www.snowflake.com/blog/solution-as-a-service/?lang=ko

▼

作者介绍

杨哲轩

Tapdata 运营合伙人&客户工程团队负责人

【作者介绍】毕业于明尼苏达大学-双城分校，后加入 PingCAP 担任基础架构研发工程师，深度参与TiDB、TiSpark 等项目，曾任 PingCAP 咨询&解决方案总监。为多家知名金融、互联网和制造业等行业企业，提供咨询和解决方案服务。对数据库、分布式原理、HTAP、DaaS、数据架构和数据治理等架构和管理领域，有独到的见解和丰富的实践经验。

推荐阅读

👇🏻

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

对话杨哲轩 | 国内会出现 Fivetran 么？

不想只做Cruder？实体、聚合根、还不快去了解下

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

生成图片，分享到微信朋友圈

对话杨哲轩 | 国内会出现 Fivetran 么？

不想只做Cruder？实体、聚合根、还不快去了解下

您可能也对以下帖子感兴趣