提到企业IT运维,在传统企业和大部分投资机构的眼中,并不是一个很性感的词汇,大家联想到的是一群IT人员对企业IT系统软硬件进行日常维护,员工7*24小时三班倒的工作。在系统不出现问题的时候,大家感知不到你的存在,而出了问题往往运维部门又要背锅,不直接为企业创造收入,因此IT运维往往在老板眼里是一个花钱、卖力且不讨好的部门。实际上,这都是过去人们对运维及运维人的刻板印象。随着近年来云技术、AI技术的发展,运维也被赋予了新时代的标签,甚至爆发出前所未有的发展潜能。本期华映洞察,将为大家介绍我们对目前火热的智能运维领域的行业梳理,以及一些投资思考,希望大家从中有所收获:)回顾IT运维的发展历程,行业通常将其划分为四个阶段,从V1.0的手工式运维,V2.0的监管控式运维,V3.0的大数据式运维,到现在V4.0-AI赋能的智能运维,这个过程是传统运维到智能运维的演进。传统运维更多是被动响应、以人为核心,而智能运维包含了发现问题+分析问题+解决问题的全流程,是智能化的,自动化的。Gartner在2016年提出了AIOps (Artificial intelligence for IT operations)的概念,AIOps平台综合了大数据、机器学习和可视化技术,用于增强和部分取代 IT运维流程和任务,包括可用性和性能监控,事件关联和分析,IT服务管理和自动化。伴随着智能运维概念的提出,我们看到,行业对运维内涵的理解也在发生变化。过去的运维是小数据,每一个运维模块都是一个数据孤岛,不涉及算法,仅能满足传统运维的使用场景。而发展至今我们所关注的新运维,是基于完整的大数据、AI算法来提供全栈式运维,面向泛运维甚至涵盖非运维的场景。1. 运维的边界在变化,由服务于IT到服务于业务;3. 人+基于规则的系统,演进到基于AI、大数据、知识图谱的智能系统;总结来看,传统运维向智能运维演进的过程,更是“IT运维”到“IT运营”演进的过程。那么是什么行业痛点或变量因子,促使运维内涵的变化呢?我们认为核心是四个方面:首先,我们看到传统运维逐渐暴露出其在效率、成本及经验沉淀方面的局限性。❏ 效率低:传统运维方式主要以“人”为本,发现问题和解决问题的效率都不够高;
❏ 成本高:传统IT运维通过设备冗余和人员冗余的方式来保障安全性,通过成本线性增长来匹配日益增长的任务,硬件成本和人力成本极高;❏ 经验旧:传统运维经验更多擅长封闭架构下的稳态业务,无法支撑新业务和新架构下的新运维需求;其次,新的业务形态和IT架构重构正在为客户的业务保障带来全新挑战。我们观察到,目前80%的IT资源在做云迁移,50%的IT架构在进行重构,随着容器化、微服务化和云化,不得不面临一个问题——我们需要引入大量的运维工具,实现对我们IT架构的不同维度做监控和掌握。不管是云环境容器还是应用层、基础资源层,都需要通过日志手段、APM手段、基础资源监控等手段去获得大量的监控数据,与此同时也引发了相应的问题:工具越来越多,就越需要引入更复杂的流程去处理这些问题,一旦一个问题在某个系统上面爆发出来,我们不得不通过大量的流程去解决这些问题,甄别这些问题。第三,目前基于“人+规则”为主的运维方式呈现出局限性。我们需要能够快速定位和处理问题的人。原有的流程和经验没有办法覆盖所有问题,人的线性投入不发来带运维效益的线性增长,人工成本在增加,而行业资深专家越来越少。如何应对运维团队的人员变化,把运维人员各自的经验沉淀成知识体系,能够持续为企业复用是企业无法忽视的问题。最后,如何提高IT效率来反哺业务效率。在企业决策者层面要考虑,IT的比重在企业运营中逐渐增强,是否可以通过科技创新,科技赋能运维以支撑新的业务增长点呢?也就是我们说的,从成本中心到收入中心的转变,从IT运维到IT运营的升级。我们之所以强调AIOps的重要性,正因为它是基于大数据和AI应运而生的,可以完美的解决传统运维所面临的诸多挑战。过去,企业使用IOE架构,使用的场景面向内部办公业务,对于IT运维的诉求可有可无;现在,企业做云上的迁移,是云架构的,面临第一次的IT重构,稳定高效的运维成为业务的核心诉求;未来3-5年的时间,企业持续进行业务的数字化升级,形成云架构/雾架构;那时稳定高效的运维将成为万物物联世界的基石,而AIOps也会成为企业的刚需。根据Gartner的报告:中国AIOps平台技术将继续增长,主要由以下五个原因:
❏ 多云和混合云和数字化带来的速度,规模和复杂性强调了传统的基于规则的性能监控和管理❏ 自治治理(适应性治理的一部分)的要求,以实现业务可持续性同时,Gartner认为AIOps对于企业运营的核心价值体现在以下5个方面:❏ 当问题被确认和定位之后,启动一个自动化的解决方案以恢复问题参考Gartner的研究结论,对于企业来说,我们认为智能运维一体化建设可以分为四个阶段目标,企业的运维升级也将围绕四个目标展开:假如我们参考无人驾驶领域的一个分级标准,将运维的智能化水平也划分为L0-L5,在AIOps的发展阶段上,纵观全球,美国的在智能运维领域相比中国处于领先地位,未来差距有望缩短。 IT运维市场将破千亿,且每年20%持续增加,云监控将成为运维监控领域新的增长点在市场规模方面,我们挖掘市场持续增长的变量因子主要有两方面:❏ 规模驱动线上业务高度繁荣,线下业务加速向线上转型,带来运维对象- IT基础设施的规模不断增长。3-5年后企业在软件和人力的投资占比从3:7上升至5:5;❏ 需求驱动直接对外服务的线上业务(互联网、新金融、新政府等行业)对业务稳定高效运行的要求极高,使得运维成为刚需,且要求效能不断提高。资料来源:Gartner 、艾瑞咨询 ,华映资本整理2019年全球企业已有25%部署两种或多种IT运维功能的AIOps平台,到2021年这一比例预计达到40%。研究机构Markets and Markets的报告指出,全球AIOps市场规模预计将从2018年的25.5亿美元增长到2023年的 110.2亿美元,预测2018年到2023年的复合年增长率为34.0%。2019 年我国 IT 数据中心第三方服务市场超过1000亿元人民币,且保持 20%以上的年增长。随着企业云化和数字化进程的加剧,传统运维管理工具市场都将是云监控的未来潜在渗透空间,市场规模超过100亿元。行业普遍认为 AIOps的落地需要经历三个步骤,分别是:Step1:基础版-工具,实现监控+日志等运维大数据统一采集,为ITOA和AIOps提供数据源;Step2:高级版-平台,实现对于运维大数据的统一治理,提供给算法消费,辅助客户决策;Step3:智能版-场景,运维大数据的多场景智能化应用,替代客户决策;根据Gartner的定义,AIOps产品或平台应包含八大层级:资料来源:Gartner .Qcon大会,华映资本整理基于Gartner ,AIOps技术栈衍生出来的AIOps主流的技术派别算法类:以自主算法研发为核心,提供针对运维场景下时序指标、文本日志、系统调用链信息、第三方告警、配置文件等数据处理的算法集,降低用户使用开源算法自行尝试的时间和能力成本;指标类:以传统运维监控工具指标数据采集和加工为基础,结合指标类人工智能算法实现异常检测、关联分析、趋势预测等能力,重点解决告警阈值设置,容量预测等运维场景问题;日志类:以日志采集和处理技术为基础,结合文本处理类人工智能算法对海量日志数据的再加工和分析,降低运维团队日志阅读量,解决异常检测、日志聚类、时序预测、根因分析等运维场景问题;事件类:以复杂事件处理和知识图谱技术为基础,从事件触发解读海量的IT运行数据,运用自然语言处理技术,提供事件发现、事件分析、事件分类、事件聚类等能力,结合基于运维知识图谱的解决方案推荐和根因分析能力,形成智能运维闭环。在运维能力覆盖范围上,可以大致归类为性能监控、智能告警、AIOps以及行业集成商;其中性能监控又包含APM,NPM,BPM,云监控,基础设施监控等类型。在企业层面,海外和国内有比较明显的差异,海外主要由传统的IT巨头,比如ORACLE、微软、servicenow、bmc及细分领域的上市公司主导,IT运维上市公司代表性的有Datadog,splunk、dynatrace等。而国内方面,体量比较大的玩家主要集中在集成商这部分,主要是传统的软件公司和云厂商为主,在产品型企业中国内以创业公司为主;整体的企业体量比海外同类型企业小很多,但发展速度很快。New Relic为web应用和移动应用提供实时的监控。2015年2月,New Relic宣布已经超过1.1W的客户,其中包括Nike, ESPN,Sony, GitHub,New Relic上市前累计融资2亿多美金。APM相对来说产品比较轻,更容易SaaS化,部署实施比较简单,更偏重于前台的集成。回顾New Relic的发展历史,有几点值得我们借鉴:2. To Engineer:采用了自下而上的方式,先赢得开发者的信任在企业内自传播; Splunk在一个合适的时间点做了日志的大数据分析,底层是基于原来日志处理分析的能力做出来的,开拓市场较早,世界前100强企业90%是它的客户,商业模式以本地化部署为主,SaaS为辅。随着产品矩阵的完善,splunk不仅支持IT数据,也涵盖IOT数据,逐渐覆盖运维及安全领域。成立至今,发起多次的投资并购来完善产品版图,其中包括并购告警类产品Omnition,APM类产品SignalFx等。AIOps产品线特点不算明显,目前和具体的业务场景结合尚不够紧密。splunk在国内市场不是特别活跃,也部分源于中美市场的差异及企业自身的战略定位,营收方面对其报表贡献度很小。Datadog成立于2010年,定位于为开发、IT运营和业务人员提供云环境下的统一监控和分析平台,是智能运维行业引领者。其核心两位创始人一位是研发人员,一位是运维人员背景。2019年公司于纳斯达克上市,Datadog 是全球唯一一家提供“指标、轨迹、日志”整合解决方案的运维厂商,牢牢把握以数据为核心的战略,关注整体性、可扩展性和自动化的能力,为客户提供整个技术堆栈的统一、实时可观察性。Datadog对数据源的整合能力最强,All-In-One的产品策略,追求极致的自动化,一键的接入数据和展现,客户不需要做额外的事情,就可以获得全部的运维能力,一定程度上,给其他运维厂商形成降维打击,也让行业看到了AIOps愿景的雏形。资料来源:网络公开数据,Datadog官网,华映资本整理1. 坚定的全局产品战略,从发现问题到故障定位、故障恢复全覆盖,从数据采集、数据定义到数据治理再到数据消费,包含系统监控、网络监控、应用监控、日志分析等一套端到端的产品集;2. 厚积薄发的发展路径,从2010年成立发展至今,不断丰富产品线;3. 数据平台作为核心能力,建设一套实时健壮的大数据引擎。
在商业模式方面,Datadog将GTM团队划分为4个领域:3. 客户成功团队——专注于现有客户并在现有客户基础上进行拓展;4. 合作团队——与经销商、分销商和托管服务提供商合作。资料来源:网络公开数据,Datadog官网(产品销售模式)PagerDuty是数据+智能的告警方面最具代表性的企业。通过告警收敛再做根因分析,逐渐形成AIOps雏形。我们认为仅围绕告警产品的话,业务线比较单薄,市值方面也很难继续突破。下一步PagerDuty应该也是想AIOps方向发力。1. 近年来美国在智能运维领域的代表性企业发展非常迅速,并且营业收入近些年都保持着高速成长性,基本上在50-80%的增速,甚至更高;2. 普遍来看,企业都没有盈利;但市场还是给出了很高的估值,市值表现普遍较好;3. 在美国市场,实际上不同于中国市场的一点是,本身美国有很多IT领域非常大的行业巨头,但我们发现近些年像IBM,CA,bmc ,ORACLE这些行业大山在智能运维领域的市场份额逐年萎缩,竞争力不及创业公司,这也说明了,这个领域技术门槛是比较高,并不是一个巨头通吃的行业,巨头很多也是采取收并购的方式增强该领域的市场地位;4.最后我们看到,数据处理和接管场景越多的企业,对应的市值越高:单一运维场景(NewRelic、dynatrace等)<全局运维场景(Datadog、splunk)<全域市局平台型企业(servicenow)。
国内方面,主要还是以创业公司为主。但近几年随着IT投入在企业中占比逐年增长,敏锐的创业公司和投资机构已经快速在该领域形成布局,并且发展迅速。个别企业在近年完成了上市,收入达到1亿元人民币是一个标志性的门槛,代表在该细分领域处于比较领先的地位。总体上来说国内处于一个高速发展,投资火热的阶段。是否中国企业可以完全参照美国公司的发展路径呢?我们对比一下中美的市场环境和基础设施存在比较明显的差异:❏ 数据定义层面:相比美国监测及日志数据的定义已经基本达成共识,国内还处于一个相较混乱无序的状态;❏ 数据源层面:ITOM美国已有多家IPO企业,数据源完善程度高,而中国在数据源层面还处于一个不完善,不稳定的迭代过程中;❏ 数据处理层面:国内的数据处理中台薄弱,美国存储和计算引擎pass领先,已经广泛使用AI和大数据的加持;❏ 数据消费层面:相比美国的全站自动化运维,国内仍旧以单点。单类型的局部应用为主。❏ 中国潜在市场体量和美国相当,甚至会超越美国,上市公司数量是美国的1/10,总市值水平不足美国1/50,收入水平差距较大,未来发展空间巨大;
❏ 中国没有类似美国Datadog,Splunk的巨头企业,国内已上市企业体量比较小,创业公司具备发展潜力;
❏ 去IOE化及中美市场的差异性,海外企业在中国市场份额呈现下降趋势,给中国创业公司带来发展机会和窗口期;
❏ 从美国产业发展规律来看,智能运维企业除独立上市外,被IT巨头并购概率亦较大,如Signalfx,Appdynamics,Instana; 随着科创板的推出,中国未来三到四年有多家企业有望冲击上市。
未来趋势:单点运维→全局运维→全域数据管理,具备All-In-One交付能力的企业将胜出,行业整合趋势不可避免。看好的企业基因:高技术门槛+丰富业务经验+长期产品打磨+All-In-One潜力,具体包括:目前,华映资本在该领域已经先后投资布局了Linkedsee灵犀及基调听云两家企业,未来将持续关注具备企业全域数据管理能力的公司,面向更大的ITSM、ITOM领域进行布局。“Linkedsee灵犀很有幸作为国内第一家专注从事AIOps领域的企业,几乎见证了AIOps在国内市场的发展,从第一阶段2016-2017年的孤军奋战,全产业观望;到2018-2019年,曙光初现,个别友商出现,创新类客户和投资机构出现,经过2020,2021至今已经进入到高速发展期。在这个期间,可以说,行业对于运维下一步的趋势前所未有的达成了共识:以采集和治理全局运维数据为底座的,以AIOps为核心数据消费引擎的,新的全栈式智能运维解决方案提供商将是所有客户、企业、投资机构期待发生的事件。灵犀创始团队全部来自于百度运维体系,完整经历了从1000台到500000台服务器规模,运维系统从1.0迭代到4.0的完整10年周期,是现今AIOPS厂商中唯一一家有过大厂全程运维经历,与此同时基于未来蓝图投入研发最久的企业,灵犀至今已经拥有监控产品,日志产品,数据中台,以及包含智能告警,智能监控,智能审计等多款AIOps场景级产品,赢得了互联网,金融,政府,运营商等多家标杆客户。接下来灵犀将继续以Moogsoft+Datadog为目标,夯实平台和方案级能力,力求为客户和行业带来更大价值。”“基调听云在智能运维行业深耕十余载,从数据采集到数据分析积累了大量客户案例和行业最佳方案,智能运维的未来在于数据,基于用户端与后端业务系统数据实时全量采集与分析,对数字化业务表现进行主动监控与运维管理可视化。同时立足于多年积累的海量数据处理能力和算法分析能力,横向扩展多产品线,打造更丰富的产品矩阵。同时,将AIOps智能化、数据洞察和可视化能力落地于运维实际场景。听云将持续为各行业客户带来优质服务,不断实现产品及技术更新迭代,实现数字化业务运维成功。”
「本文作者」华映资本投资总监朱彤,长期关注新一代信息技术、先进制造、硬科技及企业服务领域的投资机会。
欢迎相关创业者与我们交流,BP可发送至:grit.zhu@meridiancapital.com.cn