查看原文
其他

腾讯专家工程师杨志华:混合云之争的开端与终途

赵钰莹 腾讯云服务器 2022-06-11


最近几年业内对混合云的呼声极高。2020年IBM收购红帽,并将年营收190亿美元的传统技术服务业务剥离出去,以便更专注于云计算和人工智能相关的业务,彻底将未来压在了混合云上。混合云为什么被需要?这是不是通往公有云的中间站?未来混合云会如何发展?近期腾讯专家工程师、腾讯云混合云产品负责人杨志华受邀参加InfoQ大咖说,为我们分享混合云技术的未来发展与演进。
InfoQ:您好,非常开心有机会就混合云相关的问题与您交流。您方便先简单介绍下自己,包括当前在腾讯负责的主要工作吗?


杨志华:好的,我在腾讯云当前主要负责混合云产品方面的工作。从底层技术架构到各 IaaS 产品,甚至到 PaaS 产品,都与混合云有千丝万缕的联系。在当前阶段,我主要聚焦在计算类产品的混合云产品以及相关解决方案。


InfoQ:您个人最近一年主要关注的技术方向和应用场景分别是什么?主要观察方便分享吗?


杨志华:现在回过头来看最近几年的工作很大程度上都与混合云有关,具体来说最近一年更多是在关注和思考混合云相关的用户需求、技术方向、应用场景、行业产品发展趋势,尤其是混合云的驱动力,到底是什么样的用户需求在驱动着混合云不断演进,尤其是最近几年的快速发展,现有产品和解决方案又需要做哪些改进和扩展,甚至说演进和重构才能满足用户需求。


另外,混合云会有哪些新的产品形态、计算形态和新型技术,比如这两年很火爆的 IPFS 分布式存储,这对混合云的未来会有哪些潜在影响。但其实今天首先想跟大家分享讨论一个简单的问题:什么是混合云?大家可能会觉得这不应该是个问题,因为混合云已经提出有差不多十年时间了,但是如果你跟十个人去聊混合云,可能你得到的定义就会有十个,这就像一千个观众眼中有一千个哈姆雷特,混合云也是如此,不同的人站在不同的角度对混合云的定义也不相同。


总结来说,通常大家认为混合云的关键是物理位置和资产两个极端的混合。或者说,公有云资产一定是公有云所有,在中心;边缘用户侧的 IDC 或者私有云资产就是用户所有,运维通常也是用户自己负责,物理位置、资产和运维这三个方面是完全两个极端的混合,这是过去混合云经常被提到的特点,也是过去这些年混合云市场主要的两个部分:公有云、私有云。


但是,最近几年,用户需求和业务场景发生了很大变化,这推动了混合云的持续演进。具体到应用场景,比如工业领域,质检、监控、管理等工业应用想上云,希望能够在工业现场就近的机房使用公有云的产品能力和解决方案,但是又不想拥有这些公有云的资产,这些云的资产也不想自己运维,因为门槛都很高,这就变成同样在用户侧,但是不想要资产和运维,只想要产品能力。


另外,在教育行业,希望就近老师资源丰富的城市上云,比如省会城市,而并非传统的云中心比如北上广深,在这些城市就近部署 IDC 业务,就近推流收流。


最后聊一下产业园区,这些园区希望自己构建行业云,希望能够有成熟的公有云能力快速落地,同时又希望资产是自己的,但不想自己运维。所以大家可以看到今天的业务场景和需求发生了很大变化。


总结来说,从资产所有权到运维归属,再到物理位置,有很多种因素能够组合起来,所以从这个角度来说,混合云发生了很重大的变化,这也是产品和技术演进方面的重要驱动力,那么我们今天需要什么样的混合云技术才能满足新时期的发展需求?简单来说,新时期的混合云需要具备公有云的服务,包括软硬件;能够延伸到客户所需要的任意物理位置的能力;能够统一管控和运维,能够灵活支持各种资产归属情况。在这个过程中还需要解决复杂环境带来的安全隐患问题。简单来说,以前客户上云是客户自己把数据搬到云的节点上,新时期的混合云是把算力送到客户数据所在的位置,所以今天的混合云其实是新时期的混合云,不仅包括过去的场景,还要满足或者延伸出很多新场景,今天讨论的混合云某种意义上就是这种新型混合云,这是我最近一年感受非常深刻的一点。


InfoQ:有观点认为“混合云是通往公有云路上的中间站,最终一切都会归于公有云”的,您对此观点如何看的?


杨志华:这个观点很有意思,充满了哲学意味。我个人的看法是,这个观点既对也不对。以对的视角来看,混合云在今天可以被认为是公有云对部署场景,包括位置、资产归属、运维等的一种定义和表达,混合云是把公有云的能力延伸到客户所需要的任何位置。但不管在什么地方,不管边缘节点在超市还是在药店,用户都可以有一致的体验,其实混合云的产品能力本质上就是公有云的产品能力,从这个角度来说这个观点是对的,上了混合云就是上了公有云。


从另外一个角度来说,用户的云上部署除了有中心部署,还有边缘部署,也有中心和边缘之间的多物理场景部署,传统上认为上公有云就等于数据和应用要上云中心节点,这就将云中心节点和公有云等价起来,其实用户上云有很多原因,比如工业场景到延迟有较高要求,三毫秒甚至一毫秒以下,并对数据本地化有要求,很多应用会部署在非中心节点,场景和形态非常丰富,因此虽然是在公有云中,但不一定处于中心节点,任何物理位置都有可能。所以从这个角度来看这个观点并不完全正确。


InfoQ:您方便聊聊最近几年,大厂竞相押注混合云背后的原因有哪些吗?


杨志华:“押注”这个词非常贴切,大家可以看到很多大厂在混合云领域已经有了很多布局和试错,包括以前坚持只做公有云的厂商都开始往混合云的解决方案和产品上靠,我个人认为有以下三个方面的原因:一是用户对混合云确实存在真实需求,从物理位置到运维,再到资产归属等;二是大厂有云业务扩张的需要,他们看到了公有云之外有非常广阔的业务扩展可能性;三是基础设施的进步,包括网络基础设施。


具体来说,大厂非常注重对用户需求的洞察,也非常积极响应行业标杆客户的需求。云计算经过多年发展,产品能力、稳定性、安全性、成熟度都得到了用户认可,现在已经不是讨论是否上云的时候了,而是思考如何快速、高效且稳定上云,并且用户希望一朵云就可以提供统一的解决方案。当然,由于今天的云厂商众多,多云之间的差别还是有的,尚未形成统一的工业标准,但对于同一个云服务商来说,用户肯定希望能够做到一朵云的体验。


此外,基础设施的进步想必大家也深有体会,终端用户的网速一提再提,企业用户的高速专线也在过去几年快速得到普及,再加上 5G 商用的不断推进,已经为混合云的发展提供了得天独厚的条件。


InfoQ:混合云目前还在早期发展阶段?


杨志华:是的,今天这种新兴的混合云更多还处在产品打磨、试错和尝试落地阶段,我个人判断这个阶段可能会持续三至五年。


InfoQ:腾讯云也有自己的混合云解决方案,推出背后的思考逻辑是什么?


杨志华:过去一年,腾讯云一直在探索和实践混合云的解决方案,背后的思考逻辑也如上所述,尤其是在满足用户需求和业务普及方面。我可以简单介绍几个腾讯云的典型混合云产品,以此为例阐述其可以为用户解决哪些问题。


首先,一个典型的混合云产品是边缘可用区 EZ。比如教育行业用户希望在就近的省会级城市有供应节点。但是,传统上来说,公有云服务商在一个地区开一个 Region,通常的规模都会要求比较大,一般至少开两个可用区甚至更多,一个大的节点可能会有几十万台服务器的容量,小一点可能有几万台。对省会级城市来说,这种体量就很重,就需要边缘可用区,可以根据用户需求就近开放可用区,这个可用区为了做到更合理的成本和更高的交付效率,基本上大部分网络、计算、存储等均复用云 Region 的管控,无论规模多大,边缘可用区都可以做到在成本合理的情况下快速交付。以腾讯云为例,已经在 8 个省会城市开设了边缘可用区,后面还会开放更多,这给企业用户提供了更多选择。十多年前,游戏领域很流行的一句话叫做如果可以在国内布局 12 个节点就可以覆盖所有用户,用户体验可以做到非常好,边缘可用性某种程度上可以帮助企业用户实现类似游戏领域对用户的全面覆盖,这是一个典型的混合云产品。


其次,是合作伙伴或客户的专用可用区 CDZ。随着新基建的推进,数据中心的资源和充足程度是前所未有的,这就需要专用可用区的能力帮助企业实现 IDC 云化转型,传统意义上的 IDC 更多是做托管,腾讯云的专用可用区是一种新的能力,具体来说就是把云的产品和能力输出给合作伙伴,让合作伙伴实现 IDC 的云化转型,成为腾讯云的合作伙伴可用区,就可以升级成具有成熟的公有云能力的行业云,其中运维工作由腾讯云完成。在这种情况下,合作伙伴前期只要投入少量资源建设一个云的底座,后续根据客户需求按产品、按需部署售卖资源即可。


然后是本地专用集群 CDC,这是一个开箱即用的产品,可以以整机架的方式在任意位置部署,比如部署在用户机房。它会通过网络就近连接到主 Region,通过专线或互联网。CDC 由腾讯云来负责运维,但是用户拥有资源使用权。本地专用集群具备跟公有云一样标准的计算存储网络,以及其他 PAAS 产品的能力,又可以通过若干个 100G 的网络接口与用户的本地网络机房进行高速互联。比如有的用户需要做本地渲染,需要大的文件传输跟远端云中心做网络连接,传输这么大体量数据是不太现实或成本太高,本地专用集群 CDC 就很适合做这件事情。


最后一个比较有意思的混合云产品形态是云托付物理服务器 CHC,其支持客户自带设备上云,比如有些企业决定上云,但还有一批服务器才用了两年,这时退役非常可惜,损失也比较大,那么就可以通过云托付物理服务器的方式上云,变成云上的裸金属服务器,并可以和云上的其他产品,包括网络、安全、PAAS 等产品等实现无缝结合。


InfoQ:根据信通院此前的报告,国内企业在混合云的采用率上并不算高,您认为企业采用率不高的主要原因是什么?混合云可以重点解决企业的哪些问题?


杨志华:根据国外一家招商机构的数据显示,截至 2019 年,全球或者说发达地区采用混合云的企业比例高达 58%。但是,根据信通院的数据,国内 2019 年采用混合云的企业比例只有 9.8%,还处于发展初期,与发达地区相比差了 5 倍,但是这两年我们也看到用户在混合云方面的需求和持续部署越来越多,我相信当前的比例和 2019 年相比应该已经有了大幅提升,那么,为什么过去几年企业对混合云的采用率不高呢?


在我个人来看主要有三个原因:一是用户本身对混合云的需求是一个渐进的过程,这和企业的数字化进展以及云战略息息相关;二是混合云的业务部署和现行企业对用户是有门槛的,需要用户有一定的技术能力,同时更需要云服务商有很好的售中以及售后服务,才能更好的帮助用户做部署迁移;三是本身云厂商的混合云产品和解决方案也在逐步的丰富和完善。


为什么现在越来越多的企业考虑混合云方案?因为成熟的混合云方案确实可以帮用户解决一些关键问题。首先,从企业战略角度来说,可以使用公有云成熟的混合云产品能力,统一企业数字战略的计算平台等技术架构,企业可以更聚焦在业务本身,因为今天其实大部分企业已经认识到云有足够的能力和成熟度;其次,从企业 IT 策略的角度来说,统一的云平台和环境可以减少用户业务部署、迁移等各方面的复杂度,提升对业务支持的敏捷、弹性和快速响应能力,而且可以减少故障发生,提高业务稳定性;从企业运营角度来说,混合云未来可以减少企业的 TCO 支出,帮助企业实现降本增效。


InfoQ:对于在混合云搭建方面有诉求的企业,您认为单从选型视角,开源和商业应该如何权衡?


杨志华:开源和商业一直都有很多讨论和争议,但没有统一的答案,需要看企业的具体情况,选择开源路线自己搭建也有好处,选择商业的比如说公有云大厂来进行混合云搭建也有很多的好处。我认为企业首先自己要把关键点考虑清楚,也就是在混合云搭建,或者在 IT 战略方面的关键点和主要矛盾是什么,在这个基础上考虑清楚自己要建设的核心竞争力,然后做出取舍,因为企业的资源投入和人力都是有限的。大家通常听到的说法和建议是技术实力强就选择开源自建,好处是自主可控;技术能力弱就选择商用让供应商来建,但容易被供应商绑架,或者产生依赖,这些说法都有一定道理。如果企业拥有强大的自主技术架构能力,对未来发展和人才培养肯定是有帮助的,但对大部分企业而言,其核心 IT 能力并不是混合云或者说云计算本身,而是如何支撑业务的快速发展,弹性满足业务发展需求。


举例来说,混合云最基础的能力是虚拟化,理论上来说目前开源的虚拟化平台或者组件很成熟,也有很多选择,只需要几个人就可以很容易搭一个 Demo 跑起来,但要真正支撑好业务,并在内部进行规模化落地是需要投入很多资源和时间的,要解决的问题很多,比如运维问题、性能问题、扩展能力等,而专业的云计算厂商在虚拟化方面就已经投入了大量的人力和物力。从这个角度来说,企业要想清楚建设的核心能力,把有限的资源投入到更针对业务需求的上层能力构建中,充分利用好云厂商的产品能力,快速发展所需要的核心能力。


InfoQ:对传统企业而言,在将业务迁移至混合云的前、中、后期,您认为有哪些需要重要关注和考虑的因素?


杨志华:这是一个难度很高、很大,企业也非常关心的问题,我不展开叙述,只选取关键点供大家参考。


上云前期,梳理清楚业务需求和要解决的问题比较重要,而且要针对混合云部署进行适当的技术验证,评估迁移方案并确定最终部署方案,只有在评估的基础上才能做真正的决策,因为迁移到混合云或者上混合云本身并不是目的,解决当前企业业务发展的痛点或者瓶颈才是关键。评估时需要考虑混合云迁移的工作量、迁移时长、已有数据的迁移方案、迁移过程对业务的影响、如何让最终用户尽可能无感、迁移成本以及企业内部技术团队的能力是否可以匹配并准备就绪等,这些问题可能不是简简单单就能回答的,需要和混合云服务商的技术专家进行全方位研讨,并吸取和借鉴其他企业在这方面的经验教训,或者云服务商的最佳实践,这个阶段非常重要,因为一旦开始就很难停下。


在迁移的过程中,企业需要不断细化迁移方案,每一步都要考虑清楚,包括迁移不符合预期时的回滚和应急预案,迁移过程中的监控策略,最终用户的覆盖质量以及后端系统的响应性能等,这个过程中,云服务商的产品和服务能力就显得非常关键,需要云服务商提供比较多的支持,企业在这个过程中本身也会有很大收获,因为企业可以借这个机会打造和完善混合云场景下的业务部署、迁移和运维能力。


上云之后,业务已经开始在混合云上面运行,此时还不能掉以轻心,通常会建议企业设定一个试运行或者验证期,比如说三个月,在这个期间,原有的系统和架构保持可用,而且可以随时接管业务,直到试运行达到预期,业务在混合云上表现良好,特别是运维团队可以比较熟练地在混合云平台上完成运维工作,这个阶段结束以后,原有的老旧基础设施可以进行裁撤,机房退租、老旧设备进行回收等。


InfoQ:根据腾讯云的过往经验,上云前后,我们可以通过哪些指标或者数据的对比更好地说明混合云架构对业务的影响?可以举一个具体的例子说明。


杨志华:我觉得可以从三个方面评估混合云架构对业务带来的收益:一是成本评估;二是业务稳定性;三是整体的技术架构和业务弹性。


具体来说,在成本方面,主要是从业务或者服务的角度进行综合评估,评估原有成本不仅包括设备成本、接入成本、线路成本、运维人力投入,还包括原来有的商业软件授权费用,同时也需要考虑云上弹性扩缩容等能力所获得的收益。根据腾讯云对一千余家客户的调研显示,业务资源普遍根据业务高峰进行配置,所以企业在上云前的 IDC 资源利用率普遍小于 10%,如果只是原样将业务搬上云,并不利用弹性扩缩容的能力做资源利用的优化,其实成本优化比较有限,这里主要是提醒大家上云后弹性能力的充分利用其实是成本优化的重要路径。


在业务稳定性方面,混合云的成熟产品能力可以减少故障引发的业务受损,并极大缩短故障恢复的时间,高可用的云网络可以降低用户的故障次数,云厂商还可以提供 T 级别的公网 DDoS 防御能力以及数据库、网络等的跨区容灾能力,甚至有的场景下可以避免故障对业务产生重大影响。


在弹性方面,除业务资源弹性扩缩容之外,用户新业务上线快速资源交互和服务能力的开箱即用是相对比较容易被忽视的,今天企业内部的很多服务,比如服务器采购、资源交付等在云上都可以秒级完成,当业务需要新的场景能力时,无论是数据库,还是其他 PaaS 能力在云上相对来说都比较容易,因为云是一直不断迭代演进的,如果希望快速享受这些硬件红利,云是一个不错的选择。


InfoQ:从存储层向上,您方便跟我们分享下腾讯云的混合云架构吗?


杨志华:从 IaaS 层面来说,底层基础设施特别是网络基础设施不管是在云中心还是边缘,不管资产是腾讯云还是客户和合作伙伴都是标准化设计的,软硬件都是标准化选型,这样可以保证多网融合,也可以确保运维管理统一。


其次,服务器设备也是标准化的,腾讯的混合云产品支持客户自带设备或者特殊设备上云,具体来说,如果需要虚拟化产品能力,要采用腾讯云的标准设备,或者是客户的设备可以兼容腾讯云的智能网卡等。但是,如果客户自带设备通过腾讯云的云托付物理服务器产品也可以支持。此外,基础设施还有一个很重要的方面就是管控,比如计算虚拟化管控、网络管控、存储管控、运维安全监控,这些也是整体架构非常重要的一个方面,统称为底座。


在此之上是标准化的云网络产品、计算产品、存储产品等,再往上就是容器、数据库等 PaaS 层的产品,混合云实际上是一个完整的云解决方案,这些也都可以根据用户的实际的需求做相应定义和部署。


InfoQ:您对当下混合云市场的竞争状态是如何看待的?核心竞争力集中在哪里?


杨志华:虽然当前混合云的市场重点还在于布局和探索,但其实市场竞争已经开始,而且比较激烈,可以预见很快就将变成另外一个红海,我认为核心竞争点主要是三个方面:产品、服务和创新能力。


首先,产品本身是核心,产品的能力、质量都是重中之重;其次,服务的能力,因为云不仅重资产也重服务,服务方面能不能快速响应客户需求,快速解决客户问题是非常关键的;最后是创新,能不能保证从底层基础设施,甚至芯片层面到上层的不断创新,腾讯云也有信心和决心保证竞争能力不断提升,在开源、自研等方面均有很多成果。


InfoQ:在混合云的发展中,您认为尚需要突破和亟待解决的问题是什么?腾讯云有不错的想法可以分享吗?


杨志华:从现在来看混合云的发展,我觉得可能有三个方面是比较重要也值得关注的:一是前面提到的混合云演进的价值主张,混合云是将公有云的算力送到用户的数据所在地,这一点行业内基本达成共识,但大家可能还需要更多从用户视角来看混合云的演进,混合云的长期演进能不能得到持续保障,能不能跟上业务的发展等都是非常重要的。简而言之,共识是很重要的基础。


二是 SLA 定义的挑战,混合云的环境比较复杂,在这种复杂环境下如何保证稳定性是很大的挑战,公有云对 SLA 有非常明确的标准和定义,但混合云由于产品和环境不同而存在差异,这就导致稳定性等难以定义。


三是混合云环境下的数据安全问题,这也是因为混合云的复杂环境带来的影响,不仅要有方法论或者算法实现数据安全,最关键是要有低成本高效率的实现,而这三个挑战其实都不是很好解决,需要整个行业共同努力。

Q&A


边缘计算和混合云如何结合?


边缘计算和混合云都在不断的演进中。相信长期来看基于混合云的平台及产品能力之上的边缘计算会得到更好的平台能力支持,用户可以从云中心到边缘获得“一朵云”的平台体验,可以更聚焦在业务发展方面。


腾讯云在公有云上是否有相较于其他厂商的优势?


腾讯云一直坚持以用户价值为依归,在产品与解决方案、服务、生态、创新等方面都有独特的优势。


各大公有云厂商在混合云上的优势与劣势是什么?


不同的云厂商有不同的优势与劣势,但更关键的点在于具体的用户需求和业务场景是否与云服务商提供的产品及服务匹配。


阅读原文,收看直播回放。
 

推荐阅读

新闻|腾讯云加入超级计算创新联盟「高性能计算云」工作组

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存