对话杨哲轩 | 国内会出现 Fivetran 么?
国内会出现 Fivetran 么?
从抖音的流量扶持,到电商平台优惠券的分发,再到东数西算的国家战略,从这其中可以看到的是“数据”作为生产要素,在经济发展和社会发展中已经成了越来越重要的角色。
生产力发展是人类社会发展的决定力量。回顾历史,我们导致可以将过去几千年的历史分为三个阶段,分别是受土地、劳动力和技术进步要素制约的农业经济时代;在农业经济时代多了一个资本作为生产要素的工业经济时代;再过渡到现在增加数据作为生产要素的数字经济时代。
可以说,每一次新的生产要素的出现都会推动社会经济形态的变革,并带动社会生产力跃升。数字经济时代的序幕缓缓开启,“数据”作为新的生产要素也将对生产、流通、分配、消费活动,和经济运行机制、社会生活方式、国家治理模式等产生重要影响。
如同资本作为新生产要素会催生新行业、新物种、新机会样,数据成为新的生产要素之后也一样会催生很多新机会。这些新机会也将从数据产生,数据的存储,数据的消费,数据的交换,数据的移动等维度生长开来。
开头可能你会觉得讲的过于宏观、虚无缥缈,那我们来说点实际的。数据搬运这个细分领域里有没有新机会?
这里面一个简单的分类,可以是企业数据和用户数据。从开车,到读书,再到运动,无不在产生各式各样不同的数据,这些是用户数据,可能在你的手机上,也可能被企业采集形成了对于你的独特画像。
这里我们讨论的重点是企业数据,这一范畴下企业数据便跟行业属性息息相关,或者换句话说,数据跟业务系统的相关性很强。
• 银行的帐号(储蓄/信用卡)交易数据;
• 证券行业的股票买卖记录;
• 互联网企业的用户行为数据;
• 制造业的产线数据,物料数据等。
各行各业的数据是不一样的。数据并不意味着信息,只有形成了判断才能称之为有效信息。这其中便要求对数据进行处理和加工。这也是“数字经济”时代,数据成为生产函数中的一个生产要素的原因。数据本身没有价值,取决于业务如何利用数据。那么,围绕的数据上下游究竟有哪些工序呢?按照最简单的制造业为例,假设数据本身是一件商品,从它被生产出来之后,就需要经过供应链的运输,到达分销商,最终以分销商销售为最终用户完成最后的一步。这里的供应链,不仅仅包含物流,还包含加工制造,为原有的商品(数据)添加额外附加值。以抖音为例,通过用户在给定标签中停留的时长预测用户喜欢的内容,同时利用流量分发平台持续、准确地给用户推荐各自喜欢的视频。
再以滴滴为例,用户在给定地点的打车频次,涉及到的数据本身没有价值,但可以用来给滴滴用户以更便利的方式 提供常用地点的推荐。
通过这个具体而形象的例子,可以说明:围绕数据的生产、流转、消费,本质跟商品制造的内在逻辑是一样的。我们给这样从数据生产的地方搬运到其目的地的行为,称之为数据移动。我们给这些数据生产者和消费者一个具体的定义:端点。数据在端点之间的移动是有普遍的需求的。
那么围绕 "端点" 的处理工序都有什么样的种类呢?按照 Gartner 的定义,围绕数据的处理工序大概有 12 种。
• 数据整合
数据搬运工具
数据质量
类似于质检员,提升数据的准确性和质量(按照 DAMA 的定义,数据质量有很多内涵,这里就不展开了)
数据目录
类似于生产制造企业中的物料表概念,通过元数据管理,了解企业内的数据资产情况
数据治理
较为全面地包含围绕数据整合、数据质量、数据目录等全方位能力的供应商
主数据管理
企业主数据管理方案供应商
工业数据
海运、油气、芯片、制造业等细分行业数据方案供应商
数据可观测性
观测数据链路供应商
CI/CD
为分析准备
数据变形
加速器
Snowfalke 平台的 DataOps 产品 DataOps.live
IBM InforSphere 的 DevOps 产品 MettleCI
微软和 Oracle 的 DevOps 产品 Redgate
企业数据管理
接近于数据治理的分类,但是专注在企业内部的数据管理上
隐私和访问控制
Fivetran 和 Aribyte 在上面的数据处理工序中,主要是数据整合领域,这也是数据移动领域的范畴。Fivetran 作为云数据行业的先驱,背靠 Snowfalke,依托为数据分析平台做数据准备跑通了自己的第一曲线,截止 2021 年,Fivetran 的营收大概是 8300 万美金,相较于 2020 年,有超过 142% 的增速。
作为后来者的 Airbyte,为了能够追赶先行者,在它融资计划里提到通过开源共创的方式,来增加连接器数量,进而快速在产品层面缩小跟 Fivetran 的差距。
按照不同的使用功能,Fivetran 给它的 150 种连接器,大概分成了 7 类。• 数据库
Oracle, MySQL
市场分析
Saleforce
销售分析
Saleforce
产品分析
SendGrid
Survey Monkey
财务和运营分析
Stripe
技术支持分析
Jira, Zendesk
软件工程分析
S3, Github
这些是典型的 BI 需求,云上数仓的考量点是:弹性和价格。实时性在这里能产生的业务价值有限。Fivetran 提供的产品选择最快也只支持 5 分钟级别的数据移动速度。
可以说,Fivetran 作为一个云上新物种存在的大的宏观变量是:整个海外市场,数据从原本的数据中心慢慢迁移到了云上。对于这个趋势贡献比较多的两个核心原因是:成熟的 SaaS 生态(HR、CRM、财务软件等需求)和云上展开分析的需求。
并购 HVR 之前的 Fivetran 主要战略方向是线上,主要做 SaaS 作为源头和 云上数仓作为目标端的数据分析,业务载体主要在云上和 SaaS 服务,不是传统数据整合工具领域里的同构/异构数据库间的数据搬运。并购 HVR 之后,增加了对于云上/云下的数据库的支持能力。
从公司的整体的竞争力和营收的角度而言,是一个非常好的并购。HVR 在并购前,已经在私有化环境中耕耘超过 15 年,积攒了较多数据库实时同步的经验,但在云战略为先的硅谷,这不是一个好的资本故事。HVR 和 Fivetran 是天赐良缘,互相补上了各自缺乏的一块短板。
美国出现了 Fivetran,并不完全意味这中国需要出现 Fivetran,比如美国的 Facebook 和中国的人人网之间的关系。Facebook 在美国蓬勃发展,人人网却有截然相反的走向。任何一个新物种之所以能出现,完全是因为市场对它存在需求。
中美的 SaaS 生态是不一样的,两国都有自己的问题需要解决。美国的经验不一定能在中国复用,这是所谓的不确定性。但不确定性中也有一些确定性,比如大家对于效率提升的追求,这可能是我们思考的起点。
这一次我们主要讨论的点是中国的 SaaS 生态。开始讨论之前,我们先后退一步,为什么美国市场需要 Fivetran?非常抽象且正确的废话是因为:美国市场产生了这个需求。那好,我们再往下看一层,为什么会产生这个需求?产生这个需求最直接的原因是两点:
成熟的 SaaS 生态,产生了大量的孤立的“端点”,源源不断的生产数据;
三朵云之外的 Snowflake,需要将 1 中的“端点”数据搬运到此。
那么中国会产生这样的 SaaS 生态,并出现中国版的 Snowflake 么?
中国历史悠久的两家软件公司分别是金蝶和用友,都以企业 ERP 起家,但是大概分别在 2015 年前后的时间节点宣布进行云转型。
以用友为例,云业务收入在 2017-2019 年实现了高速增长,云业务收入三年增长率分别为249.9%、108%、132%。另外一家国内大型软件公司金蝶,它的数字也是类似的,作为一家现金流基本为正的公司,自从 2013 年宣布云转型以来,已经有了 两个亏损年,但这丝毫没有动摇金蝶的“云转型”决心。
一些统计数字表明,金蝶正在尝到坚持“云转型”的甜头。2020年,金蝶云服务业务收入达到 19.12 亿元,相比2019年的 13.1 亿元增长 45.6 %,云服务收入在公司全部业务中的占比,也相应达到 57%,超过半数。
此外,如果我们把目光放到组织所需要的软件的角度来考虑,一个有趣的事实是:围绕 CRM,人事,任务管理,财务,报销等 SaaS 公司的创业是层出不穷的。这也在助推数据开始从私有化慢慢迁移到云端(是,我们总是可以找到反例,比如大型公司的私有云方案,比如中国对于数据安全的不重视,但这些都是阻碍,并不能成为让变化不能发生的主要矛盾)。
我们可能没法准确地得到中国 SaaS 生态已经到达了一个成熟阶段的结论,但是这个加速度确实是能看得很清楚的。
至于中国的 Snowflake 能否出现,我觉得完全看用户对于多云的,便宜的,弹性的分析需求,是否会变得旺盛起来,同时外部环境,特别是法律层面的安全和合规问题能否即时出台。
回到 2015 年的文章[1],Snowflake 仍在强调自己是一个云原生的数仓方案,可以帮用户省掉 DBA 和维护成本,同时云上的对象存储还是很便宜的,通过存储计算分离的架构持续地给用户省钱。用户真的付费的部分,是自己真实使用的计算资源(当然不可避免的会有浪费,但记住那句警世恒言,过早的优化是没有任何意义的。)
而现在的 Snowflake,则关注在 Data Cloud,发力 Data Marketplace。通过激活已有用户之间的数据分享,进一步增加用户的粘性和生态建设,让数据不停留在分析,能进一步因为交换而继续产生价值。(如果把数据看作商品,那确实只有在交换过程中才能完成价值的流转和变现)
人类对于效率的提升是无穷无尽的,对于物美价廉的商品的追逐也是天性。这是基础假设,这是中国制造、中国供应链之所以能畅销全球,成为世界工厂的原因。从这一基础假设分析,结合目前分析上云的趋势,中国是否能出现 Snowflake,只是时间问题。
此外,我们可以到各路资本都已经在用钱投票,投出了像 OpenPie,StarRocks,SelectDB,HashData,Databend 等这些目标就是做云上数仓的基础软件的公司。这些资本催生了更多的就业机会的同时,也让供应商数量激增,让云上数据孤岛问题更加的复杂,这也进一步催发了“数据移动”工具的需求。只要中国的云上数仓开始陆续出现,那么围绕“端点” 之间的数据搬运工具就一定会出现。
最后说一点,虽然中国市场是和美国不一样的市场,但基础假设是一致的,都希望通过效率的提升来获得更多的利润空间。虽然受限于外部环境的限制,中国的这一物种的形态和成长路径,大概率和 Fivetran 不完全一样,但不妨碍“数据移动” 工具的出现。[ 文章引用 ]
[1] 《将数仓当作服务交付给客户(Delivering Data Warehousing as a Service )》:https://www.snowflake.com/blog/solution-as-a-service/?lang=ko
▼
作者介绍
杨哲轩
Tapdata 运营合伙人&客户工程团队负责人
【作者介绍】毕业于明尼苏达大学-双城分校,后加入 PingCAP 担任基础架构研发工程师,深度参与TiDB、TiSpark 等项目,曾任 PingCAP 咨询&解决方案总监。为多家知名金融、互联网和制造业等行业企业,提供咨询和解决方案服务。对数据库、分布式原理、HTAP、DaaS、数据架构和数据治理等架构和管理领域,有独到的见解和丰富的实践经验。
推荐阅读