支持国产芯片,红象云腾为航天业打造大数据平台 | 爱分析访谈
指导 | 凯文 李喆
调研 | 李喆 崔可家
撰写 | 崔可家
大数据产业爆发期内,Hadoop发行版两家头部公司Hortonworks、Cloudera风光无限,分别在2014年、2017年上市,不过两者股票表现并不尽如人意,预示着Hadoop市场的冷却。
2017年,Gartner发布的数据管理技术成熟度曲线中,更是将Hadoop列为在达到成熟之前就将被淘汰的技术。
然而,Hadoop在大规模集群部署时依旧拥有独特的优势,生态也愈加完善,众多企业在面对超大数据存储时,Hadoop仍是首选。能否为企业提供完善的产品,满足市场需求,是一家Hadoop发行版厂商所需要考虑的问题。
红象云腾,作为国内开发Hadoop发行版厂商之一,于2013年成立。目前,红象云腾的主要产品包括CRH(大数据存储和计算平台),CRS(AI智能分析平台),CRF(物联网大数据接入平台),客户分布在航天、公安以及银行等领域。
底层芯片支持,构建企业信任链
作为一家初创公司,红象云腾没有在初始阶段将产品往上层应用延伸,而是选择了向底层芯片兼容。
目前,红象云腾CRH是唯一支持五种指令集和两种操作系统的大数据平台。这五种指令集分别是X86指令集、 Power指令集 、飞腾/华芯通/ARM64、龙芯/MIPS指令集,以及申威/SW64指令集 ,两种操作系统分别是基于RedHat/Centos的R系和基于Ubuntu的U系。
通过支持底层芯片以及操作系统,红象云腾构建了Hadoop底层生态环境。
目前,国产操作系统当前面临的一大问题,就是没有大量的上层应用支持。CRH作为IT生态中的中间件软件,承担着操作系统和应用程序的联接工作,在未来,CRH可以通过支持大量上层应用来解决国产操作系统应用少的问题。
由此可见,CRH作为系统和应用的中间件,在客户部署国产操作系统或者芯片时,是不可或缺的。
红象云腾通过底层工作,取得了浪潮、曙光等主机厂商的合作机会,这意味着有更多的渠道将产品销售给客户。2015年,红象云腾通过浪潮将CRH部署在了航天系统,此后,这些主机厂商也帮助红象云腾的产品进入了银行、公安等行业。
完善产品线,提供完整大数据平台
随着底层生态的构建完成,红象云腾的产品开始逐渐向上层应用延伸。
CRH作为红象云腾的主要产品,现在包含了分析型数据仓库、分布式数据库等模块,可以覆盖企业数据仓库、商业智能、数据可视化等领域,主要面向管理端。
目前,CRH收费方式是通过节点订阅以及后续服务,由于与主机厂商合作,在前期部署实施阶段的人力投入较小。
除此之外,红象云腾还在积极向AI以及工业领域布局,推出了物联网大数据接入平台CRF,以及AI智能分析平台CRS。
CRF主要应用于工业上的流数据,将数据接入CRH平台,利用Kafka+Storm对流数据进行处理分析,主要面向采集端,目前已经在一家工厂中试用,处理测点数达到1000以上。
CRS是利用Hadoop 3.0对于GPU的支持,基于Hadoop Yarn完成了对于TensorFlow和Caffe等深度学习框架的集成,主要面向用户端。
可以看出,红象云腾已不仅仅满足于数据存储计算产品,随着今后在各个行业逐渐积累,还会推出满足不同行业需求的应用。不过,现阶段,各行业中都面临大量数据基础平台产品竞争,选择哪些行业发挥自己的优势,是红象云腾需要考虑的问题。
深耕航天业,打通上下游产业
2015年,成立两年的红象云腾在航天领域完成了大规模集群部署,截至当前,服务十一颗卫星工作,平台数据存储量达到PB级别。
红象云腾选择了航天业作为主要发展行业。
一方面,由于其对于安全性、稳定性的特殊需求,航天业客户一般会具有极强的黏性,从红象的发展中也可以看出,其服务的卫星数量在不断增加;另一方面,航天业的数据量极大,正好利用Hadoop大规模集群的优势。
当前,红象通过集成商与航天客户合作。这一模式虽然降低了成本,但是客单价也会受到影响。并且,CRH虽然被航天业所采用,但是对于红象本身来说,由于缺少数据,很难针对航天业下游厂商开发应用,向下游渗透。
为解决这些问题,红象云腾计划与航天业进行深度合作,建立航天大数据中心,通过航天数据结合CRH运算能力,开发更多行业应用,辐射整个航天业上下游。
近期,爱分析对红象云腾创始人童小军进行了访谈,就红象云腾的产品、经营策略,以及数据库行业发展趋势做了深入交流,现将部分内容分享如下。
支持Hadoop 3.0,产品向完整平台发展
爱分析:红象云腾在今年3月份发布了CRH v6.0,与之前版本相比,6.0版本有什么优势?
童小军:首先,CRH v6.0是首个支持Hadoop3.0以及OpenPOWER大数据平台软件,通过了相关产品兼容性测试和认证;其次,CRH v6.0实现了与开源项目Ambari的集成,可以实现Hadoop 3.0快速部署;最后,加入了新的技术,比如Erasure Coding(提高存储利用率)、多NameNode(提供高可用性)以及Nativetask数据处理引擎(提高数据处理速度)等等。
爱分析:目前,红象云腾的产品结构是怎样的?
童小军:主要包括CRF(数据采集模块)、CRH(数据存储模块)以及CRS(数据挖掘模块)。通过这三个模块的组合以及各模块中的工具选择,来满足不同客户的需求。
爱分析:为什么选择基于Storm开发流数据计算引擎?
童小军:其实也有其他的流计算架构,比如像Flink等,虽然Flink也很成熟,但是我们还是考虑到用户需求,以及整个生态环境的完善程度,最后选择了Storm作为流数据计算引擎。
爱分析:红象云腾的发展路径是怎样的?
童小军:我们在底层芯片支持工作上花了很多时间,从之前的财务表现来看,其实并不是很令人满意,但是从整体形势上来说,我们现在已经从之前大量的工作积累中得利了。
比如国产芯片公司,在中兴事件出来之前,它本身的产品是很难卖的,但是之后由于中兴事件的出现,国内客户对于国产产品的需求激增,国产芯片的订单数量也开始快速增长,我们因为支持底层芯片技术,自然而然的也被这些客户选择了。
爱分析:为什么要选择支持多种芯片?
童小军:从底层芯片,到中间服务器提供商,再到操作系统,最后是我们红象这类中间件软件和上层应用,这是一个完整的生态。
每一种芯片都需要一个生态来配合它,我们也需要配合每一种生态来满足不同客户的需求,这样我们才有更多的机会来被客户选择。
我们之所以能应用在中国航天系统中,也与我们所做的芯片支持工作有关。
爱分析:未来是否会向上层应用发展?
童小军:我们在CRH两侧加入了数据采集以及数据挖掘展现,会更加贴近客户,可以为客户提供一个完整的平台。
但是,我们整个CRH平台还是一个开放的平台,我们还是会和其他软件去合作。比如在CRF中,我们的侧重点在流计算上,与数据采集软件不冲突;在CRS中,我们的侧重点在算法上,与数据展现软件不冲突。这样我们可以取长补短,完善整个产品,更好的为客户服务。
爱分析:今后是否会考虑推出云服务?
童小军:我们还在观察市场上整个云服务的效益,由于云服务客户的付费习惯与传统企业不同,所以我们还在考虑这件事。
以渠道销售为主,降低人力成本
爱分析:红象云腾有哪些合作伙伴?
童小军:现在最大的合作伙伴是浪潮,之所以浪潮会选择与我们合作,也是因为我们对于IBM POWER架构的芯片提供支持,这样浪潮才会认可我们。
爱分析:销售模式是怎样的?
童小军:主要是通过跟集成商合作的方式,因为他们的销售渠道更多,并且可以把我们带入更大的项目中。做大数据基础软件,需要这些头部的项目做示范案例。
爱分析:客户主要在哪些行业?
童小军:主要是公安、银行、航天军工。公安中主要应用在搜索查询和数仓场景,银行中主要应用为数仓,替代Teradata,航天中主要应用为替代EMC存储。
爱分析:是否会在银行业拓展业务?
童小军:肯定会继续做银行的相关业务,但是关注重点可能还是在航天这一块,因为在这个领域我们已经占据了大部分的上游市场,之后还可以往下游延伸。
所以,我们现在的行业重点还是在航天上。
爱分析:除了产品节点收入以外,是否有其他的服务收入?
童小军:主要有一些维护以及应用的开发优化费用,我们会不断的帮助客户围绕Hadoop生态完善整个系统。
爱分析:红象云腾团队规模有多大?
童小军:大约有20人,主要还是以研发为主。
爱分析:单个项目周期大概是多长时间?
童小军:我们尽量控制在3个月内。在项目部署阶段,投入的人力是非常少的。
Hadoop技术已成熟,新创业公司入场较难
爱分析:Hadoop主要的应用场景有哪些?
童小军:Hadoop主要面对大数据量存储,数据价值可能相对来说较低,主要应用在非结构化和半结构化数据上,对于银行的核心交易系统,Hadoop很难去取代原有的数据库。
Hadoop大部分应用场景还是在于离线分析,对于实时分析方面,可以有其他的软件来弥补,比如说Hbase实时数据库。
爱分析:您认为Hadoop市场渗透率如何?
童小军:我认为,起码世界500强企业,大部分都在使用Hadoop,在互联网行业,排名前1000的公司应该都会使用Hadoop。
爱分析:您认为以Hadoop为核心的新创业公司还有机会吗?
童小军:现在这个阶段,不太可能出现新的Hadoop创业公司,因为Hadoop已经是一个相对比较成熟的体系,发展比较好的Hadoop公司都是在Hadoop出现早期就成立,随着Hadoop的技术以及市场越来越成熟,这些公司一起发展起来,现在已经没有新的市场增量给新的创业公司了。
爱分析:除了Hadoop发行版之外,是否还有其他分布式数据库?
童小军:这肯定是有的,比如像TiDB、巨杉等。他们在分布式数据库领域做的也都很好,但是与Hadoop相比,这些数据库的数据处理量还是比较小的,没有一种像Hadoop一样能扩展到几千上万台服务器的规模。
爱分析:很多数据库选择银行作为主要切入行业,您怎么看?
童小军:银行本身在IT投入上占市场总IT投入的一大部分,并且银行自身的技术实力相对较弱,这就需求要产品特别完善,并且是面向企业的。
同时,银行由于涉及财产交易,对于产品的选择也是非常谨慎的,所以往往会采用已经通过银行系统测试的产品。
大多数数据库产品,最初进入银行还是以边缘系统为主,之后才会逐渐的向核心系统延伸。
爱分析:您认为未来云厂商是否会进入大数据基础软件领域?
童小军:云厂商肯定会进入到这个行业中,但是云厂商肯定不能满足客户的全部需求。因为如果是互联网客户,那么可以自己利用开源软件搭建一套Hadoop生态,不需要云厂商提供;如果是企业用户,那么企业就需要应用来使用Hadoop,但是云厂商在云计算上已经有很大的竞争压力了,肯定就不能提供特别完善的应用。
爱分析:您认为数据库市场集中度在未来会是什么样的?
童小军:我认为会是一个极度碎片化的市场,在每个行业中可能会出现一两个巨头,但是不会出现像Oracle这样一家通吃整个市场的巨头。
现在来看,虽然Cloudera和Hortonworks是两家体量最大公司,但是还是有很大的发展空间。
早鸟票 99 元 全价票 199 元
论坛报名咨询请加群小秘微信
(ID:ifenxi419)
新龙榜
新金融
企业服务
其它
Adobe | VMware | Salesforce
云快报 | Smartsheet | 青云QingCloud