查看原文
其他

起底蚂蚁 SOFAStack 十六年技术演进,打造 AI 时代的云应用底座​

CSDN CSDN 2023-12-12
年轻的次仁格旦在珠穆朗玛峰经营帐篷店,游客在这里喝茶休息,前几年他每天都发愁给游客找零钱,自从有了支付宝后他不用再因此发愁;杭州亚运会期间,全球游客入境使用支付宝或10个境外钱包中的任意一个均可像本地人一样扫码消费,外国友人可以畅快刷二维码买小笼包;日常我们打开支付宝,动动手指就完成水电煤缴费……

当我们为支付宝易用、便民点赞的背后,不得不提到一个支撑支付宝 16 年的“定海神针”——SOFAStack。SOFAStack是覆盖应用研发、运行、运维完整生命周期的金融级云原生PaaS产品,为金融机构及企业提供安全稳妥的云原生分布式架构升级方案。经过多年的实践和迭代,SOFAStack 在金融行业 PaaS 平台市场中稳坐头把交椅。

11 月 1 日,SOFAStack 发布最新 5.0 版本,全面加持蚂蚁集团自研大模型 CodeFuse,推动企业级云服务进入智能驾驶时代。AI 时代,云原生 PaaS 平台还有哪些可能?

云原生 PaaS 的黄金时代

当前,大模型的强劲发展令全球为之侧目。与此同时,云技术也迎来了重要的发展节点,作为基础设施的重要部分,云恰恰是 AI 进入实体产业落地的催化剂。目前实体产业正在探索如何将 AI 整合到业务,这意味着 AI 在实体产业的应用仍处于关键的起步阶段,亟待一个稳定、强大的支持环境。云为 AI 提供了必要的计算、存储和资源管理能力,保障其稳定、高效地运行。

在此背景下,云原生 PaaS 的重要性日益凸显。它能够为企业提供一站式 AI 部署和管理方案,使大模型能够更快、更轻松地应用于实际生产中,打开了一条将大模型 AI 技术融入核心业务的高速通道,促成了行业数字化的效能革命。

可以说,云原生PaaS 的黄金时代,才刚刚揭开序幕。

近 20 年来,云计算经历翻天覆地的发展。在这个过程中,IaaS 帮助企业实现从传统 IT 架构到云环境的平滑过渡,但随着越来越多的企业完成上云,IaaS 市场逐渐饱和。企业对云计算的需求已不再局限于基础设施的租用,他们开始寻求更加高效、灵活且全面的解决方案来应对复杂多变的业务环境,因此催生出了一个新的发展趋势——多云。

多云的兴起,既是对 IaaS 单一模式的挑战,也是对整个云计算行业发展方向的一次重新审视。企业需要更加灵活、高效且集成度更高的云服务,来满足不断变化的业务需求,这为 PaaS 提供发展的土壤。与 IaaS 不同,PaaS 不仅提供基础设施,还为开发者提供一套完整的开发、部署和管理应用的平台。这使得开发者能将更多的精力投入到创造业务价值的活动中,而不是耗费在繁琐的基础设施管理上。

因此企业仅“上云”是远远不够,企业面临更重要的任务是如何深度用好云、建好云。因此,能够帮助企业在这个时代开辟更多新的可能性,让企业在多云环境下更高效、让 AI 与各项服务无缝集成,是当前云厂商直面的全新挑战与机遇。这也是为什么说,AI 时代,云原生 PaaS 的黄金时代刚刚开始。

在这样的背景下,蚂蚁 SOFAStack 5.0 则是直观地展示了“上云”到“用好云”的转变。在 SOFAStack 近期的最新版本发布会上,蚂蚁集团数字科技事业群云原生科技部总经理王磊、蚂蚁集团数字科技事业群云原生科技部产品总监马振雄深入解读了 SOFAStack 在云原生领域的技术创新,阐述了 SOFAStack 的成长历程,以及 SOFAStack 构建适应 AI 时代的最佳云应用底座的布局。

SOFAStack:生于蚂蚁,历经 16 年真实淬炼

区别于一些基于理论或模拟环境中产生的解决方案,SOFAStack 基于蚂蚁集团的真实应用场景而成。2006 年左右,由于支付宝业务量的飞速增长和业务复杂度的上升,蚂蚁集团面临着架构更新和扩展的巨大挑战。为了满足高并发的需求和维护系统的稳定性,支付宝技术团队决定走一条前所未有的道路,开发一套力挽狂澜的「中间件」。

技术团队对深入研究和探索未来技术发展后,最终选择互联网时代的超大规模分布式架构,旨在应对项目的并行开展与系统复杂度的指数级增长。SOFAStack 最初的使命是将分布式系统紧密联结,从将每一个微服务组件化,以确保每个工程师可以高效、稳定地工作,到后来为支付宝支持金融业务系统的拆分、数据中台的构建、历年双十一的巨量数据应对,以及各种前沿技术问题的解决,SOFAStack 在蚂蚁集团内部一次次的真实锤炼中日渐强大。它伴随着蚂蚁集团从支付到金融、从金融到国际业务的每一个步骤,成为了蚂蚁集团技术体系的重要组成部分。

蚂蚁集团数字科技事业群云原生科技部总经理王磊形象地比喻道,如果云是企业的一台计算机,那么SOFAStack 就是计算机上大规模、高性能、智能化应用的操作系统,具备性能、成本、效能、高可用、安全、可信六项特性,是支撑企业信息化系统重要的六根柱子。

回顾 SOFAStack 的发展历程,最早可追溯到 2007 年,SOFAStack分布式架构诞生;在互联网金融驱动业务增长的时代,SOFAStack1.0 支撑分布式架构;2019年,推出 SOFAStack 2.0,通过异构治理来确保业务的可用性,并提供技术风险防控能力,帮助业务基于分布式架构也可以稳定可靠运行。

在全面自主可控的时代,2020 年正式推出 SOFAStack 3.0,通过多活单元化的能力,让银行核心系统可以在x86系统运行,有效助力金融机构“去IOE”和实现自主可控。2022 年, 升级到 SOFAStack 4.0,支撑核心系统下的安全合规、平滑上云、敏捷提效的能力。

今年开启数据智能驱动创新的时代,全新升级到 SOFAStack 5.0 版本,将可信、智能、多云、绿色的能力融合到产品体系之中,让开发者和企业更方便地使用到云上的智能化能力,让企业的应用能便捷地从传统、互联网、分布式应用向智能化应用进行转变。

如今,SOFAStack 5.0 与 CodeFuse 全面融合,涵盖了从设计、研发、测试到运维等领域,进一步形成了从领域建模到智能运维的端到端 Copilot 产品解决方案。这一整套方案旨在为企业提供全方位研发运维智能助手能力,预计帮助提升 30% 的产研效能。

十六载磨砺:SOFAStack 的下一个飞跃

随着数字化转型加速,当下有三大核心趋势正在影响云计算。首先,传统行业不仅仅是将边缘系统迁移到云端,更是期望将核心业务系统完整地移至云平台,但这也带来了资源管理和异构的挑战。其次,AIGC 的迅速发展,使得各行业纷纷探索如何在云上通过 AI 提升业务效能,助力企业在云上提高质量与效能。最后,面对经济和环境的双重压力,云计算也被寄予厚望,在降低成本的同时,也要追求绿色、低碳的发展。这些变革趋势为企业提供了新的思考方向和机遇。

面对上述挑战,SOFAStack 5.0 不仅带来了创新思维,更提出了一系列前沿的技术解决方案,为企业提供了强大的支持与指引。

1.异构化下的技术趋势:SOFAStack 在云架构的探索与实践

在当下的技术趋势中,资源的异构化与云技术变革正持续影响着企业的技术决策。面对资源异构与云上云下的复杂环境,企业如何更好地进行资源管理、应用布署和云上转型,成为了亟待解答的问题。

传统的资源管理架构可以比喻为两个叠加的池子:一个物理资源池子和一个虚拟资源池子。为了屏蔽资源的异构性,通常使用容器技术。但过去,这两层资源池子是分开的,导致性能损耗、资源碎片化和高运维成本。SOFAStack 5.0 打通这两层池子,将虚拟化和容器技术整合到一个共享的资源池中,大大提高性能和资源利用率。

首先,将原先的双层结构简化为单层,大幅度减少了调度和通信时的延迟,从而为应用带来更快的响应速度和更高的执行效率;其次,优化资源管理。统一的资源池架构减少资源的碎片化,意味着每一块资源都能被充分利用。不仅减少了浪费,同时也为复杂任务提供了更强大的资源支撑。最后,降低总体成本。通过消除额外的资源和运维开销,企业可以更加集中精力和资金于其他关键领域,从而实现更高的运营效率。

另一方面,AI的兴起带来了对 GPU 算力的巨大需求。目前,AI 对 GPU 算力的需求每三个半月就翻一倍,远超摩尔定律。但多数企业的 GPU 利用率却仅为 10 - 30%。在这种背景下,如何提高 GPU 的利用率,确保这种宝贵的资源得到充分利用成为重要的课题。蚂蚁集团经历深入的研究和实践,尝试将 GPU 资源进行精细化的池化,同时实现 CPU 和 GPU 的混合调度,从而更好地支持各种业务负载。

上云是当前各个企业的共同目标。但如何平滑地上云,是一个技术和策略问题。传统的方法是重构应用,使其适应云原生架构,但这带来了巨大的改造成本。SOFAStack 5.0 提出了一种新的方法:服务网格技术,使应用无需大规模改造,快速地适应云环境。同时,为了确保云上的应用稳定运行,SOFAStack 5.0 还研发了一套智能服务治理系统,使应用能够在流量异常时,自动进行调整,无需人工干预。

除了中心化的云,边缘云也成为了企业当下需要的技术。这种轻量、低成本的云需要与中心云进行深度整合,确保资源、应用和数据在各个云之间能够流畅地流通。SOFAStack 5.0 针对这一需求,进行深入的技术研发和实践,让边缘云和中心云统一管理,同时中心云将业务很好地分发给边缘云,边缘云需确保在极端情况下依旧能稳定自治运行。这背后是基于蚂蚁集团完整的一套边云计算和云边协同能力打磨,确保在资源、应用、服务、数据和设备等5个维度全面打通和协同,为后续对边缘云、卫星云、小型云的能力建设打下坚实基础。

2.AIGC大模型:不仅仅是“发动机”

当我们在谈AIGC 时,我们需明白企业和开发者需要的是实际能用的产品和有价值的场景,而不是单单大模型本身。正如马振雄所说,大模型将为研发效能带来颠覆性的机遇。

过去,架构师需要在纸上画架构图,然后沉淀到系统中,开发人员则需要不断编写大量重复性的业务逻辑代码。SOFAStack 5.0 引入蚂蚁集团自研代码大模型 CodeFuse 来解决上述研发团队遇到的难题。有了 SOFAStack 5.0,开发者像是配备专属“智能副驾驶”,通过人机交互助手提升日常代码研发、测试、运维过程中的效率和质量。对企业而言,引入智能副驾驶可以显著提升人效质量,降低总体成本。

例如,SOFAStack 5.0 可以在编程过程中实时加入,为开发人员提供代码建议、自动补全复杂的业务逻辑、生成注释和深度代码分析,帮助开发人员大大降低错误率,提高代码质量;架构师还可以通过自然语言描述直接生成业务和应用架构建模,生成所需的初始代码。对于测试人员来说,SOFAStack 5.0 通过自然语言描述快速生成测试需求和案例,在开发阶段为开发和测试人员生成单元测试案例和接口测试案例,并捕捉生产环境的流量,进行完整的业务建模还原;对于运维人员,从故障发现到定位原因,再到故障恢复,都需要完整的智能监控、智能告警、智能根因定位和智能自愈能力。SOFAStack 5.0 提供了一整套智能化的 SRE 体系,大大提高了系统的稳定性和运维效率。

3.绿色计算:助力企业从根源上降本减排

在后疫情时代,尤其是在碳达峰、碳中和的背景下,如何节能减排、如何“降本”已经成为每个企业不可回避的话题。降本对于云计算来说,则在于如何把资源成本降下来。因此,SOFAStack 5.0 希望在算力应用的环节进行绿色的能源优化,将资源利用高效化,并打造出三大绿色计算“法宝”:

在/离线混部技术:在线应用和离线应用具有明显的错峰特征。比如白天是在线计算类应用的高峰,而晚上则是大数据跑批类应用的高峰。通过离线混部技术,可以在同一资源上部署这两类应用,从而提高资源利用率;

云原生分时调度:不同的在线应用也存在错峰现象。例如蚂蚁集团的不同在线业务应用(早上的蚂蚁森林、中午的支付宝支付、下午的股票收盘)都有其高峰期。通过分式调度,可以实现不同的在线应用的资源错峰使用,进一步提升资源利用效率;

AI 弹性容量:由于容量难以预测,人工预测通常存在误差,导致资源浪费或容量不足。通过AI弹性容量技术,可以实现对容量风险的实时感知,并根据需求进行扩缩容。

SOFAStack 5.0 有了这三大法宝,不仅大大提升资源利用率,还帮助企业实现了真正降本和绿色减排的双重目标。以上能力构成了 SOFAStack 5.0 的全新升级:统一的资源调度架构和服务网格使得上云更为便捷,为多云时代打造了坚实的上云基础;其次,通过完善的大模型能力,使得 SOFAStack 5.0 在智能化方面达到前所未有的高度,更好地赋能于企业;针对企业降本减排的强烈需求,“绿色计算”的三大法宝赋予了SOFAStack 5.0更环保、更具性价比的特质;最后,SOFAStack 5.0 在计算环境、软件供应安全和应用层面都进行了全面的安全能力加强,使其更加可信。

SOFAStack 5.0 :源于金融,无界远航

SOFAStack 5.0 的全新升级,不仅体现在技术细节和架构优化上,更多是其与现代企业业务需求之间的紧密融合。在数字兼容领域,顶尖金融机构的采纳验证了 SOFAStack 的高效能与稳健性。

据统计,如今的 SOFAStack 已成为国内部署云原生技术最广泛的平台之一。除了基于支付宝、蚂蚁集团各项业务需求进行研发以外,还服务于超 100 家金融机构迈向云原生转型,构建完整金融级的云原生 PaaS 解决方案,并已经进入 10+ 非金融行业,在制造、运营商、能源、交通、政务、公共科技等领域均有成功案例。

但这仅仅是开始,随着云计算的进一步深入和大模型的普及,为 SOFAStack 提供了无限的可能。未来,SOFAStack 有望成为连接大模型与产业之间的纽带,推动实体产业的数字化转型,加速千行百业的效能革命。
继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存