查看原文
其他

如何成为下一个300亿美元的数据公司

技术琐话 2022-07-13

The following article is from Y先生数据研习社 Author vinoyang

最近看了一篇文章,标题为《如何成为下一个300亿美元的数据公司》,作者跟最近一些初创的潜力数据公司(airbyte, lakeFS, or TerminusDB)的创始人一起聊了聊他们的理解,这篇文章提炼了一些“数据观点”。这里基于自己的认同程度,做一些摘录:

数据空间正在蓬勃发展,包括 mongoDB(价值 180 亿美元)、databricks(300 亿)或 Confluent 等公司。创业空间充斥着金钱的气味,许多创始人都想分一杯羹。

但在作者看来,数据空间将在不久的将来由开源解决方案主导。开源空间有一个非常明显的优势:最有活力,这使得它们非常难以竞争。

观点1:数据空间会被开源主导

coss.media 的顶级商业开源公司[1]名单及其估值。看看数据空间占比多少

作者认为数据空间中的几乎每个应用程序,无论是数据编排、机器学习、工作流管理、数据版本控制还是报告和仪表板,都必须处理两个简单的问题。

•数据来源的多样性。•用例/目标的多样性。

这是为什么?因为数据应用程序天然由至少三个步骤组成,从外部以某种方式摄取数据并以某种方式对其进行转换以增加价值并输出某种数据。而每个数据的输入和输出组件都是独一无二的,没有通用的解决方案适合。

观点2:开源意味着网络经济学进而导致赢家占据大多数市场

分布式版本控制系统市场是这样的,这并非巧合:

这是市场作用下的一个简单结果。产品依赖于开源,而开源又需要协作,越多越好,因此符合网络经济学的效应,每个参与者的边际价值都会上升,直到某个点。

但这意味着,正如在《信息规则:网络经济战略指南》一书中详细讨论的那样,市场将收敛到一两个解决方案。

观点3:一个关键问题:让人们参与进来!

Stitch 公司有一个名为“Singer”的开源项目。Singer 基本上是对数据连接器开放协议的尝试,这仍然是数据世界中的一个缺失部分。

商业案例:问题是,即使公司使用 Singer 将其集成到他们的 ETL 工具中,他们也没有设法围绕它建立一个充满活力的社区。事实上,它们使贡献者很难做出贡献。人们目前使用 Singer 的唯一原因是缺乏替代品。为什么这是个问题?它意味着他们不能使用开源项目的营销或开源开发者的力量。

因此,要运营开源项目,您需要围绕它建立一个充满活力的社区。如果项目成功,您可以专注于许多不同的用户群,但一开始,您必须只处理一类细分用户:想要自己使用该项目的人。

在考虑商业化之前,您必须拥有“广泛受众和主要可信度[2]”。两者对于使其背后的业务可持续发展都很重要。那么如何让人们使用你的项目呢?除了它本身足够棒以外?通过使其尽可能容易:

1.使用项目,2.为项目做出贡献。

让我们来看看另一家在这方面表现出色的公司。

商业案例:dbt 建立“广泛受众和主要可信度”。dbt 是一种基于 SQL 的仅转换工具,非常重视建立“主要可信度”。他们写博客、举办研讨会,甚至免费举办“dbt 101”活动。现在正在建立“主要可信度”。你会去找其他人了解如何构建 SQL 模型吗?我不会。

在项目的后期,您还可以专注于其他细分用户,尤其是融入您的生态系统的其他公司。让我们最后看看另一个确定这个组件的项目。

商业案例 :使用 Terraform 构建贡献者生态系统。Terraform 是一种用于管理云基础架构的开源工具。主要贡献者之一是 gruntworks 背后的团队,他们对该项目很感兴趣,因为他们自己在此基础上提供服务。这就是让贡献者参与进来的想法,因为他们实际上已经融入了生态系统。Terraform 背后的公司 HashiCorp 也在上面列出的 COSS 上上市。

观点4:数据世界动荡,你需要的不仅仅是产品愿景

告诉我现在和未来的态势将如何发展,并告诉我你(的产品)在其中的位置。

优秀案例,Dbt用以下几个词概括了 dbt[3]

“dbt 是一个开发环境,它使用各地数据分析师的首选语言——SQL。借助 dbt,分析师可以掌控整个分析工程工作流程,从编写数据转换代码到部署和文档。”

让我们看看为什么:

如果我想构建一个数据管道,dbt 告诉我 SQL 是建模的未来,而 dbt 是完成其中“转换”部分的最佳工具。我应该得到一些其他的东西来摄取和服务。这听起来很公平,如果我喜欢 SQL,我很可能会使用 dbt。

告诉我现在和未来的态势将如何发展,并告诉我你(的产品)在其中的位置。

观点5:不要过早商业化

商业案例——使用 TerminusDB货币化过早:TerminusDB/DataChemist 公司于 2017 年在爱尔兰成立,迄今为止筹集了约 600 万美元的资金。他们投入了大量精力来构建具有数据版本控制和文档存储功能的“始终开源”的图形数据库。这听起来很独特。为了通过他们的业务获利,他们还推出了“Terminus Hub”。位于 TerminusDB 之上的应用程序。然而现在的问题是,他们的开源项目 TerminusDB 没有起飞。但是该公司现在已经将他们的人力转移到建设 Terminus Hub 上并将其出售给人们......

观点6:让自己参与其中——一切都与激励有关

GitHub 和 GitLab 的成功展示了一个简单的事实:

在开源市场中,一切都与激励有关。激励与系统、开源社区和您创建的公司都有关。

GitHub 和 GitLab 以非常符合他们开源项目的模式打造他们的公司,他们有巨大的动力让自己整天参与这些项目。因此,开源项目也得到了大量来自外部的贡献,并且围绕它们形成了一个完整的生态系统。这是一种惊人的自我执行机制,只是通过为自己设置正确的激励措施来驱动的。

我并不是说这是建立数据公司的唯一方法,但我是说,你很可能必须参与开源,你很可能必须考虑为自己的公司或社区设计良好的激励措施。

观点7:在托管解决方案中脱颖而出

区别于开源版本,一个非常典型的选择是使用托管版本的图形用户界面。那么他们收取什么费用呢?一种方式是设法提供一堆分段托管包,所有这些都只是考虑了不同细分市场的“自托管成本”。这通常会给你带来这样的结果:

1.个人免费。2.小团队每月少量,5-10 个用户的额外好处3.更大的数量/更大的团队,添加单点登录,与活动目录的连接,自动缩放等。

那么您希望人们为哪种增值产品付费?是那些只在云中拥有的东西,无法自维护的东西。就 Automattic 而言,它是诸如 JetPack(他们仍然免费提供)之类的东西,以及诸如反垃圾邮件系统 Akismet 之类的东西。它是需要大量数据、机器学习等来训练的东西,或者它背后有某种规模成本的东西。托管是一种长期低利润的产品,增值产品可以带来更高的利润。

观点8:考虑数据混合模型

混合部署思想是一个重要的概念,可以应用于各种不同的上下文。在您自己的网络/架构中保留“某些东西”的原因有很多,而混合模型可以通过将该部分封装在 API 中来轻松实现这一点。混合部署至少会提高最终用户的数据安全性和数据隐私

业务示例:欧洲 GDPR 和 RudderStack:RudderStack公司提供托管服务,但默认情况下不处理任何这些安全与隐私问题。由于它本质上连接到许多与客户相关的资源,因此它将引导大量个性化信息。这意味着在欧盟内部,将导致 GDPR 出现问题,迫使公司不得不在欧盟内部转换数据。即使他们允许在欧盟内部托管,个人信息的规模也确实会带来更大的安全问题。因此,在这种情况下,“数据混合模型”听起来是个好主意。

观点9:数据公司的狂野

数据源和目标之间的连接器目前仍然处于等待好的解决方案的状态。目前还没有很好的协议级解决方案,开源空间还很不成熟。但是一旦我们获得了一个包含数据源和目标的通用层,我认为数据领域将发生巨大变化。

那么,一旦数据源和目标被包装,会发生什么?首先,构建将数据从 A 推送到 B 的解决方案将变得非常简单。因此,基本上任何目前通过使用主要由数据源和目标连接器组成的知识产权赚钱的公司都将陷入困境。这可能包括*Segment.io**、Stitch*或**Fivetran 等公司

这些公司能做什么?至少其中一些?大举进军开源市场!专门瞄准“数据连接器”市场并赢得竞争,从而围绕“数据连接器”创建生态系统。但这意味着反过来,开放并允许其他人在这些连接器之上自由创建 ETL 工具,据我所知,这将是一个重要的支点......

Prefect 背后的公司在很大程度上参与了开放源代码开发,但他们决定将“用户管理”这些功能剔除在开源之外。这似乎意味着他们的动机稍微偏向于在“付费云”版本上开发东西,而不是在开源版本上。考虑到他们三个在同一个市场(dagster、airflow、prefect)中竞争,我们可以得出结论,更好的选择是让云版本真正接近核心版本,以确保最大程度地参与 OSS,要么是最大程度的参与,要么是一个死掉的 OSS 项目。

如果您查看公司preset.io,他们的目标正是如此[4]

“我们从不分叉 Superset 代码,因此您永远不必担心供应商锁定。轻松将您现有的 Superset 工作负载迁移到 Preset Cloud,反之亦然。”

. 听起来有人仔细研究了他们在这里为自己提供的激励措施。




加入技术琐话粉丝群,可在公众号回复:技术群


  往期推荐:

技术琐话 


以分布式设计、架构、体系思想为基础,兼论研发相关的点点滴滴,不限于代码、质量体系和研发管理。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存