估值280亿美金,Databricks用开源创新推动数据智能民主化
我们只研究顶级创新公司
内容:kahei hong,penny
编辑:海外独角兽团队
排版:Lavida
数据是数字经济的煤炭——18世纪,对如何收集、处理和利用煤炭推动了工业革命,成为机械化经济的驱动力。
如今,数据库是企业 IT 领域最大的单一赛道之一(仅次于公有云厂商与操作系统),在 pre-cloud 时代,数据库市场多年的龙头 Oracle 市值高达 2,000 亿美金。
在全球数字化和云计算的大潮下,需存储的数据量和分析需求也在激增。德意志银行于19年曾估计,在2024年,对于数据仓(分析处理)的支出将增长到452亿美元,年复合增长率达到 13% 。
人工智能也在一定程度上推动了数据分析的发展,人工智能在整个历史上经历了磨合和启动,但在与大量数据结合时开始显示出显著的效率。
Databricks 是一家基于云的人工智能和大数据公司,基于一系列开源项目,为企业提供整套机器学习、商业智能分析平台。公司在今年2月刚完成G轮融资,估值达到280亿美元。过往投资人包括 a16z、T. Rowe Price、Tiger Global、BlackRock 和 Coatue 等知名投资机构,也包括微软、AWS 等云计算供应商。
2020年 Databricks 的ARR达到4亿美金,同比增长75%,是全球增长最快的云软件公司之一。不过,很多人可能不太了解 Databricks 的业务究竟是什么,本文将从多方面进行介绍。
以下是本文目录。建议结合要点进行针对性阅读。
👇
01. 数据结构发展简史
什么是数据仓
什么是数据湖?
什么是湖仓一体?
02. Databricks的产品
Apache Spark
Delta Lake
Redash
Managed MLflow
03. Databricks的商业模式
04. 竞争
与 Snowflake 的关系?
05. Databricks 的未来前景
01.
数据结构发展简史
Databricks 的核心产品之一是建立在湖仓一体基础上的,因此我们需要先了解一下数据仓的发展过程。
什么是数据仓(data warehous)?
数据仓的概念并不新鲜,在20世纪80年代末就已经存在。主要目的是为了支持日益激增的商业智能分析(BI analysis),以及如今复杂的大数据和机器学习等运算 。
大家熟悉的 Oracle 等公司主导的数据库,数据结构更偏向 OLTP(On-Line Transactional Processing,在线交易处理),更看重数据的 “增、删、改”。而今天介绍的数据仓,数据处理形式更偏向 OLAP(On-Line Analytical Processing,在线分析处理),更看重数据的 “分析、处理”,主要消耗是计算(Compute) 资源即 CPU 甚至 GPU。
从商业角度看,数据仓好比仪表盘,企业可以清楚知道自家产品是如何按地区、按 SKU、按地域销售,业绩如何。而从系统角度看,数据仓的初衷是为操作型系统过渡到决策支持系统提供一种工具或整个企业范围内的数据集成环境,并尝试解决数据流相关的各种问题。比如,如何从传统的操作型处理系统中提取与决策主题相关的数据,如何经过转换把分散的、不一致的业务数据转换成集成的、低噪声的数据等。
传统数据仓有一些明显缺陷:
只能存储数字、excel表格等结构化数据(比如金融交易,游戏中玩家的登陆信息),无法存储视频、音频、图片(比如社交产品中用户发送的图片)等非结构化数据;
实体硬件限制了和计算容量,扩大或缩小规模成本昂贵;
通常没有内置实现机器学习和人工智能的能力(即利用数据解决更多预测性问题的能力,例如哪些客户会流失、哪些产品更易销售、应该向谁提供哪种促销活动)。
在2000年以前,企业会购买一台超级计算机,来解决绝大部分这些问题。Databricks 的创始人&CEO Ali Ghodsi 在伯克利曾与 Twitter 有过合作,Twitter 通过一台超级计算机存储、处理所有用户的推文。
但是,在2005年左右,电脑 CPU 的处理速度停滞不前,数据量和对计算能力的要求却越来越高。因此,企业不得不将数据分配到不同的电脑上,于是有了分布式数据中心。然而,让每家企业都内部管理数以千计的机器是不可行的,所以云计算革命开始了。
云数据仓库解决了低价储存的问题,但还是没能解决管理高多样性、高容量数据的问题,并且没有用AI辅助商业决策的能力。
什么是数据湖?
大约在10年前,数据湖(Data Lake)这样的存储结构开始普及,它可以存储任何类型的数据,包括图片、文档这样的非结构化数据;能够提供低价的存储空间;并实现商业智能、人工智能。
储存数据湖的方式包括 Apache Hadoop 分布式文件系统, Azure 数据湖或亚马逊云 Lake Formation 云存储服务,以及诸如 Alluxio 虚拟数据湖之类的解决方案。
但数据湖缺乏一些关键功能:不支持事务管理,不执行数据质量监控,而且缺乏一致性/隔离性,因此几乎不可能混合追加和读取,以及批处理和流式作业。
而且,由于什么结构的文件都会被丢到数据湖中,数据湖有时像一个垃圾场:
难以像数据仓库一样,对存储在其中的数据进行轻松管理
为了进行机器学习、智能分析,用户可能在数据湖上安装大量第三方产品,造成管理困难
不支持执行任何形式的数据质量标准、和事务管理的概念(事务是一个计算机术语,指访问并可能更新数据库中各种数据项的一个程序执行单元,具体可以是一行代码、一串代码、或一整个程序)
由于数据仓和数据湖各有优缺点,企业通常将两者搭配使用——一个数据湖,几个数据仓,以及其他专门的系统,如流媒体、时间序列、图形和图像数据库。
拥有众多系统会带来复杂性,更重要的是会带来延迟,因为数据专业人员总是需要在不同系统之间移动或复制数据,导致数据管理混乱,增加了额外的成本和安全问题。
什么是湖仓一体(Lakehouse)?
数据结构演变;来源:Databricks
ACID 事务管理
过去三到四年,湖仓一体(Lakehouse)的概念出现了,结合了数据仓和数据湖的有点,能够直接在数据湖的低成本存储上实现类似于数据仓中的数据结构和数据管理的功能。将数据湖和数据仓库合并到一个系统中意味着数据团队可以更高效地行动,因为不需要访问多个系统来获取数据。湖仓一体还确保团队有最完整和最新的数据可用于数据科学、机器学习和商业分析项目。
性能是湖仓一体(Data Lakehouse)成为当今企业使用的主要数据架构的关键。过去使用低成本对象存储的数据湖的访问速度很慢,如今新的查询引擎设计能够实现高性能的 SQL (一种数据库编程语言,用于数据处理、分析),具体优化步骤包括在 RAM/SSD 中缓存热数据(可能转码为更有效的格式)、优化数据布局、辅助数据结构如统计和索引等。将这些技术结合在一起,使数据湖在大型数据集上的处理、管理性能可以与流行的数据仓库相媲美。
湖仓一体有以下主要特点:
· 支持事务管理:在湖仓一体的数据结构下,许多数据管道能够并发地读写数据;此外,支持 ACID 事务确保了多方同时读取或写入数据时的一致性。
· 执行与管理架构(Schema):湖仓一体支持执行和更新数据架构,同时能够兼容如 Snowflake 的第三方数据架构。
· 支持商业智能(BI):企业可以直接在源数据上使用商业智能工具,这缓解了数据更新不及时、延迟,并降低了在数据湖和数据仓库迁移数据的成本。
·分离存储与计算:在湖仓一体中,存储和计算使用独立的集群,因此这些系统能够容纳更多并发用户和数据规模,一些现代的数据仓库也具有这种特性。
· 具有开放性:湖仓一体支持的存储格式是开放和标准化的(如 Parquet,它提供了一个 API,这意味着各种工具和引擎,包括机器学习和 Python/R 库,可以有效地直接访问数据)。
· 支持多种数据类型:湖仓一体可用于存储、完善、分析和访问不同的数据类型,包括图像、视频、音频、半结构化数据和文本。
· 支持多样化的工作:湖仓一体支持数据科学、机器学习、 SQL 以及商业分析。以往,即使这些数据存储在同一个数据库,企业可能需要借助多个工具来实现这些功能。
· 端到端的流媒体:实时报告是大多数企业的需求,湖仓一体对流媒体的支持意味着企业无需购买第三方独立系统来实现该功能。
02.
Databricks的产品
Databricks 是一个为数据从业者而生、基于云的大数据分析和机器学习平台,旨在帮助企业:
拥有一个统一系统存储不同形式和来源的数据
更轻易使用查询指令访问图像、声音等非结构化数据,并训练机器学习模型、完成智能化商业分析
建立在 Apache Spark 之上
Databricks 的创始团队是 Apache 顶级开源项目 Spark 的原班人马,都是开源圈子的重量级人物。
Apache Spark 是一个开源的快速引擎,用于大规模数据处理,可高效实现实时数据、机器学习、图形计算等重要功能,而Databricks 是基于 Spark 引擎的数据管理平台,目标是给企业提供更简单易用、更强大的数据分析平台——硅谷前沿科技公司 Uber、亚马逊等能够使用数据进行战略性创新,很多其他公司也想这样做,但没有完整的数据工程师团队帮他们建立一个定制化的数据平台。
Databricks 之于 Spark,就像 Cloudera 之于 Hadoop,或者 MongoDB 之于 NoSQL 数据库。除了Spark,Databricks 还创建了一系列快速发展的开源项目,包括 Delta Lake、MLflow、Koalas 等。截止2020年底,Databricks 有1500名员工,为数千个数据团队提供数据分析、数据工程、数据科学和人工智能方面的帮助。
Databricks 连接了企业的数据库(数据仓、数据湖、云数据仓),通过其平台为每个企业在一个统一的、基于云的平台上管理数据,实现湖仓一体的概念。
Delta Lake是一个存储层,为数据湖带来可靠性,提供ACID交易、可扩展的元数据处理,并统一了批流数据处理。Delta Engine是一个优化的查询引擎,用于有效处理存储在Delta Lake中的数据。有几个内置的工具可用于支持数据科学、BI报告和MLOps。上述组件都是紧密集成的,可以从一个单一的 "工作区 "用户界面(UI)进行访问,该界面可以托管在用户选择的云端。
Delta Lake
Delta Lake 一个开源的数据存储层。它归纳了结构化、半结构化、非结构化、以及来自云数据仓库的数据,具有高成本效益、高可扩展性等特点,是实现湖仓一体的基础。在一个简化的数据架构进行批量的数据操作,为企业省去了解决复杂、冗余操作系统的成本——例如,在 Delta Lake 中,一个表(table)无需多次复制便可以用作多个用途。
Delta Lake 解决了以往数据仓库和数据湖的大部分痛点。它能够作为一个可靠的数据源,并支持实时数据流,数据团队能使用最新的数据。此外,通过支持 ACID 事务管理、检查输入数据兼容性,Delta Lake 比传统数据湖可靠得多,进而扩展来企业的数据洞察力。通过 Delta Lake,用户甚至可以直接在数据湖上完成商业分析等数据项目。
此外,Delta Sharing 是业界第一个安全数据共享的开放协议,可以使用户能够集中管理、审计跨组织的共享数据。因此,企业在满足安全和合规性的情况下,能与供应商和合作伙伴共享、可视化、查询、和管理数据资产,更好地协调业务。
数据团队可以快速准确地更新数据湖中的数据,通过审计日志实现更好的数据治理,从而降低风险,这种功能通常在传统的数据湖、数据仓库中无法实现。
Redash
Redash 是一个协作式的数据可视化仪表盘平台。用户可通过 Redash 来探索、查询、可视化和分享数据,以促进团队工作。每天,世界各地成千上万的组织、数百万用户使用 Redash 来进行商业分析并做出数据驱动的决策。
2020年6月,Databricks 收购了 Redash,它将完全集成到 Databricks 平台中,以为用户创造优质的数据可视化和仪表盘体验。
以下是 Redash 为用户提供的主要功能:
查询编辑器:支持在网页快速编写 SQL 和 NoSQL 编程语句来访问数据。
数据可视化与仪表盘:将关键数据信息合并到单一美观的仪表盘中。
数据共享:通过分享数据可视化等相关内容,轻松地实现合作、同事互评。
自定义更新:自定义时间段以自动更新数据图表和仪表盘。
数据警报:自定义警报条件,当触发时,立即向数据团队发出警报。
支持广泛的数据源:可在 Delta Lake 等多个数据源完成数据查询、分析。
Redash 工作界面;来源:Databricks
Databricks 和 Redash 的核心价值观都是协助数据从业者能够轻松地围绕数据进行高效分析、协作、使团队里每个人都能体会到数据带来的价值,从而解决棘手的商业难题。这一次两家公司的无缝衔接进一步实现了 Databricks 湖仓一体的愿景,扩张了它的商业分析套件,为企业用户提供更多价值。
Managed MLflow
机器学习是 Databricks 的一大卖点。建立在开放的湖仓一体架构上,Databricks 平台通过 Managed MLflow 这一核心组件帮助企业的机器学习团队准备、处理数据,流水线跨团队协作,并标准化整个机器学习生命周期。
机器学习生命周期;来源:Databricks
MLflow 是一个由 Databricks 开发的开源平台,Databricks 提供的 Managed MLflow 旨在可靠、安全和规模化地管理整个机器学习生命周期,以下是一些主要功能:
实验跟踪:用户可以使用任何代码库、框架或语言运行机器学习实验,并自动跟踪每个实验的参数、指标、代码和模型。由于 MLflow 这一功能是内置的,通过在 Databricks 上使用 MLflow,用户可以安全地分享、管理和比较实验结果以及相应的工件和代码版本。
实验跟踪用户界面;来源:Databricks
模型管理:通过 Databricks 界面来探索、分享机器学习模型,将其从实验步骤转移到在线测试、生产、审批等流程,监控其性能。内置的 MLflow Model Registry 也能够让团队灵活的共享预测模型,合作完成部署模型、监控性能等工作。
模型管理用户界面;来源:Databricks
实现机器学习和分析需要摄取 PB 量级(数据存储容量的单位,等于2的50次方个字节,在数值上大约等于1000个TB)的数据,传统的数据架构很难处理这种规模。此外,它还需要处理各种结构化和非结构化的数据,这些数据变化很快,且分散在各个系统中,因此星巴克工程团队很难获得关于客户和业务的准确数据、分析。此外,由于团队无法及时扩展计算资源,工程师执行分析项目时将消耗不少等候时间。
为了应对这些挑战,星巴克在 Azure Databricks 之上开发了一款零障碍、名为 Brewkit 的分析框架。通过 Azure Databricks 和 Delta Lake 的联合,星巴克的数据工程师能够建立支持批处理和实时工作负载的管道。这使得他们的数据科学团队能够混合各种数据集,以训练新的模型,从而改善客户体验。最重要的是,数据处理性能得到了极大的改善,使他们能够在几分钟内部署环境并提供分析结果。
一旦模型被开发出来,MLflow 便能进一步协助星巴克团队以快速高效地实验和测试模型。
Databricks 作为数据战略的核心后,星巴克的整个商业战略有了显著提升。现在,数据可以无缝地流经他们的分析管道和模型,从而得到解决方案、蓬勃发展业务。Databricks 和 Delta Lake 的处理能力与 Azure 云储相辅而成,使总体的分析性能提高了50-100倍,并使得数据科学和分析团队能够快速获取他们需要的数据。
03.
Databricks的商业模式
Databricks 的核心产品都是开源的,首先提供完全免费的社区版本,吸引数十万数据科学家使用。随后,销售团队便会与那些在平台上有大量使用的人接触,询问他们是否需要定制化服务,以及他们的领导层是否有付费意愿。
这些企业会将业务数据集放在 Delta Lake。Databricks 根据不同企业的用例,帮助其探索、建立机器学习模型。一个合适的机器学习模型通常需要数百次的迭代。有时候模型的准确率不高,工作人员便会回到数据中,用更多的数据来增强模型,数据不够时还会购买数据集来增强模型,以挖掘出更多信号。在这一过程中,MLflow 的开源项目便可以帮助他们提高工作效率,例如工作人员能够跟踪他们创建的所有模型、管理这些模型,对其进行访问控制。
大部分企业在2000年中期就在收集业务数据。那些找到 Databricks 的企业清楚地了解自己的业务,找到了他们真正想要部署或实际实现的用例是什么。
这些企业明白:什么是对业务有影响的最重要的项目?什么能提供最大的商业价值?我应该去预测什么?例如,对于像壳牌这样的公司,能够提前预测设备故障是至关重要的。如果他们能做到这一点,那么就可以提前更换这些部件,为他们节省数亿美元,同时保护员工、环境的安全。
定价模式
企业需要支付两笔费用:存储与计算。计算通常占大部分,企业需要租借服务器来完成完成数据分析。
Databricks 提供了一套进阶的商务分析套件,用户按需付费。具体来说,每个用户需要购买 DBU(即 Databricks Unit),一种标准化的数据处理能力单位。每个用户消耗的 DBU 取决于使用的计算资源和数据量等参数决定——1 DBU 可允许企业在机器上以 Databricks 8.1 标准运行 1 小时。
2020年结束时,公司的 ARR (年度经常性收入)为4.25亿美元。这个数字比去年同期增长了75%。(作为对比是否可以加一下snowflake和mongodb的arr)
开源的价值
Databricks 的商业模式和开源息息相关。
Databricks 的 CEO Ali Ghodsi 在一次访谈中说,企业用户不应该把自己锁在某一专利软件上。一些公司在80年代受过教训,购买当时非常优质、创新的软件供应商,把所有数据交给他们。随后,因为锁定效应带来的护城河,这些软件供应商变得愈来愈自满、不再创新。最终,软件的创始人或最初的团队不得不离开。
这些软件变成了一段段臃肿的代码,逐渐被市场淘汰,使用起来成本很高,但供应商仍然能提高价格盈利,因为企业数据迁移成本很高,只能继续使用服务。
企业如果有选择权,会更喜欢不断进行迭代的开源项目。因此, Databricks 将大部分核心项目开源,免费提供给全世界,再通过市场需求优化这些开源项目。现在,Spark 可以访问所有数据集,并获得数据;Delta Lake 使用户的数据保持高质量与高性能;MLflow 可以管理端到端的机器学习;Redash 能够高效处理所有的可视化和仪表盘等数据分析工作。
Databricks 不希望任何用户被锁定在它身上,但它确确实实希望用户能够选择它,因为它在云端软件中为企业运营、数据管理提供了很多价值。
04.
竞争
市场研究以及咨询公司 IDC 将大数据和分析市场划分为三个细分市场:
分析、数据管理和集成平台
商业智能工具
性能分析、管理应用
这三者总市场在2019年达到了670亿美元,预计到2023年将以9%的 CAGR,累计增长至870亿美元。毫无疑问,随着愈来愈多的数据需要等待处理,大数据和分析市场的 TAM 将会持续上升。大市场通常会吸引许多聪明、有才华的企业家、公司,那么 Databricks 将会如何脱颖而出呢?
首先,Databricks 具有创新基因,Ghodsi 在采访中提到,未来不会降低研发投入的比例。“今天 Databricks 做出了 Delta Lake,明天会有更优质的产品,未来更是。在公司中建立创新的基因是至关重要的,Databricks 能够承担风险,持续的为市场带来创新,保持自身的竞争力。”
其次,Databricks 的业务实际上垂直整合了从数据进入一直到用例的整个管道,这为它从数据摄入、一直到模型生产的步骤都提供了各式各样的好处,例如能有更多优化服务的突破口。很多数据公司,实际上只是负责该管道的一个部分,因此占领的 TAM 以及潜在的增长机会其实不如 Databricks。
与 Snowflake 的关系?
Snowflake 成立于2012年,是一家大规模可扩展、云原生数据仓 SaaS 公司。
截至2020年7月31日,Snowflake在19个国家拥有2,037名员工,遍布 19 个国家。它拥有超过3,100名付费客户,包括70%的 F10 和29%的 F500 公司。Snowflake于2020年9月15日上市,目前市值800亿美金。
如下图,它的业务主要分成数据储存、计算、及云端服务这三个板块,企业用户根据用量按需付费。其收入的绝大部分(名为产品收入)来自这种商业模式,在截至2020年7月31日的过去12个月里,产品收入占总收入的94%,专业服务只占6%。
Snowflake 业务;来源:Snowflake
Snowflake 和 Databricks 两家公司都利用了市场上现有的云产品,帮助企业用户将更多的业务数据转化为潜在的观点、战略,从而辅助商业决策。由于云的价格弹性,这两家公司都能以较传统方式更低的成本提供更快的性能。
Snowflake 和 Databricks 引领了两种意识形态的数据处理阵营,属于市场上两种最先进的数据仓库模式。两家公司都在竞争,旨在成为最终处理所有数据、用例的一站式服务供应商。Snowflake 在2019年提出了一种被称为 "数据海洋" 的改进型数据湖,而在2020年,Databricks 用湖仓一体的概念发起了反击。
我们将通过以下三个维度分析他们的区别:
1. 数据结构
Snowflake:与数据湖一样的是,使用 Snowflake 时,用户可以在该平台上传和保存结构化和半结构化的数据。一旦上传,Snowflake 会自动将数据转化为其内部的结构化格式。然而,与数据湖不同的是,Snowflake 需要用户在加载和使用非结构化数据之前,为其自定义添加内部结构。
Databricks:与数据湖 1.0 一样,Databricks 可以处理所有原始格式的数据类型,如音频、视频等。
2. 数据所有权
Snowflake:如上所述,与传统数据仓相比,Snowflake 已经将数据存储和数据处理拆分,意味着用户可以根据自身需求使用每一项服务,按需付费。这可以为企业节省相当的资金,因为它有时候处理的数据还不到储存数据的二分之一。
Databricks:与传统数据仓库相比,Databricks 也拆分了数据存储和数据处理层。然而,Databricks 更注重于数据处理和应用层。用户的数据可以来自传统数据仓库、数据湖、或者谷歌云等云数据仓库,可以是任何格式,Databricks 都能够用于来处理它。
3. 适用性
Snowflake:Snowflake 最适合基于 SQL 这款数据库编程语言的商业智能用例。但如果要使用 Snowflake 数据进行数据科学和机器学习,用户可能需要依靠该平台合作伙伴的生态系统。Snowflakes 的合作伙伴会从 Snowflake 提取数据,使用其余数据处理引擎,然后再把结果送回 Snowflakes。
Databricks:Databricks 也为商业智能的使用案例提供了高性能的 SQL 查询。它创建了开源的 Delta Lake,附加在数据湖中之上以保证数据的高质量。与 Snowflake 不同的是,用户还可以用各种除了 SQL 之外的编程语言处理数据。这对于数据科学和机器学习的应用特别重要,因为绝大部分数据科学家们使用 R 和 Python 语言来处理大数据、实现机器学习。除了包括对这些语言的本地支持外,Databricks 还提供了一个支持图队协作的数据科学和机器学习平台,这些都是 Snowflake 尚未涵盖的。
总结来说,Snowflake 涵盖的业务更偏基础设施,应用更广,例如提供数据储存、优化、安全管理等服务。相较之下,Databricks 则是垂直整合了数据分析、机器学习的平台,使用者更多是的企业中的数据科学家,数据分析团队。
05.
Databricks 的未来前景
今天的难关
目前行业最大的瓶颈是在于数据和人工智能。负责管理所有这些大规模数据集的团队,通常是一个 IT 部门,他们必须确保数据是安全的,是可靠的。此外,他们还需要在未来10年内拥有这些数据,并且这些数据需符合规定,所以他们本质上是非常保守的。现在看那些实现了人工智能用例的企业,他们获得了巨大的成功,但这一切都是基于企业不断的数据累积之上的。
一些数据管理公司能让企业的数据更可靠、易管理,但他们技术中内置的人工智能为零。而另一些公司只专注人工智能和机器学习,但缺乏数据治理、管理、安全能力。通常,比较偏低层的 IT 更倾向于使用 Java 语言;而在应用端、业务线上, Python 等语言则更吃香。存在着巨大的技术鸿沟。通常,即便是同个公司,两个团队甚至不向同一位负责人报告,这正在拖累公司,这不是10年前的科技公司的做法。先进科技公司往往组织方式不同,使用一个技术栈来同时处理这两个问题。
这正是 Databricks 所帮助企业实现的,也正是目前该行业正在跨越的难题之一,这将进一步加速企业在数据中获得更多价值。
数据为什么将保持重要性?
据统计,目前 Databricks 所在的市场将会带来大约在670-800亿美元的机会,特别是涉及到大数据和分析的既定替代市场,随着 Databricks 持续执行湖仓一体(Lakehouse)的愿景,这些数字在长期内有潜在的上升空间。
Databricks 的商业模式与数据的增长相一致,随着越来越多的公司变得越来越以数据为导向,我们认为这将继续扩大 Databricks 的市场机会。数据分析已经被一部分企业视为五大 IT 预算项目,强调了数据分析为企业所带来的价值,而且 Databricks 更专注在应用层面,意味着有机会能够带来更优质的商业分析。
Databricks 需要推出更多的产品进行商业化,随着数据湖这一正在发展的市场持续扩增,它或许可以向 Snowflake 模式进一步发展,推出更加全面、更加 “端到端” 的服务套件。
Databricks 的CEO认为,机器学习、数据分析的 TAM 很大,因为适用性很高,不同行业会产生各种不同种类的用例。像 Uber 这样的公司可以预测价格、行车路线,告诉你食物何时准备好、把更多的人规划在在同一路线上、更有效的促进订单。H&M这样的客户则能看到未来的流行款式。
这不仅仅是关于一个数据科学或研究团队,如果组织/企业能够成长为数据驱动型,便可以以不同角度、方式竞争,并有可能产生颠覆式创新。在此基础上,Databricks 正在研究如何才能真正使整个组织发挥作用,如何能使人工智能民主化。它将会进行更多投资,使更多企业变得技术和数据驱动,因为最终10年,15年后,每家公司都会战略式地使用数据和人工智能,这是公司未来的方向。
Reference
https://databricks.com/blog/2020/06/24/welcoming-redash-to-databricks.html
https://www.datagrom.com/data-science-machine-learning-ai-blog/snowflake-vs-databricks
https://towardsdatascience.com/what-does-databricks-do-8a6c4ef9071b
Databricks:打造数据国度的“金砖四国”
https://cloud.tencent.com/developer/news/718893
https://mp.weixin.qq.com/s/lfuHB4nT6Oy4m5SmreuNWQ
关于「海外独角兽」
「海外独角兽」是一个优质内容公共平台,每周两次,我们在这里深度分享科技大航海时代的顶级创新公司。偶尔也会分享让商业世界变得更好的新理念、新技术、新思考。
「海外独角兽」背后的支持团队包括科技媒体从业者,顶级机构投资人,游戏、crypto、生物科技领域的创业者。我们相信信息筛选的价值,也相信无论投资还是创业,都需要对未来趋势有清醒的认识和把握。
如果你想参与优质内容的推荐或翻译,欢迎加入我们的内容共创群;如果你是投资人或LP,对全球领先公司感兴趣,也欢迎找我们碰撞思想。主理人微信:
延伸阅读
关注公众号阅读更多精彩文章
Nubank:全球最大数字银行的传奇故事
Twitch:游戏直播的美式江湖
Robinhood是金融民主,还是赌徒的狂欢?
Scale: 目标做AI领域的AWS,数据标注生意做到73亿美元估值
Discord: 从游戏工具到数字世界的第三空间