查看原文
其他

微软:AI基础设施(AI Infra)现状报告(2024年)

常华Andy Andy730
2025-01-01

核心观点

  • 微软对“AI基础设施”的定义:一种硬件、软件和工具的组合,用于支持AI模型和应用的开发、部署和管理。
  • AI基础设施应从三个方面着手:性能、安全性和成本。
  • 制定AI基础设施的落地策略,要综合考量行业场景、市场驱动、AI成熟度、工作负载和部署平台等因素,以及这些因素共同构成的动态环境。

-----

AI正席卷各行各业,深刻改变着企业的运营方式、创新路径与竞争格局。然而,企业目前究竟如何实际应用AI?对于未来,它们又有何规划?在推进AI规模化应用的道路上,企业面临着哪些主要挑战与关键任务?同时,基础设施在推动AI的应用与性能提升中又扮演着怎样的角色?

基于对来自不同行业和地区的1500多位业务领导者的调研,我们深入探讨了这些问题及其它相关内容。此外,我们还分享了一些领先企业的洞察与最佳实践,它们已成功利用AI创造价值并推动业务增长。无论您是刚刚涉足AI领域,还是希望进一步扩大应用规模,本文都将助您全面了解AI及其基础设施的现状,并为您提供制定适合自身业务策略的参考。


AI的时代已经来临,而这仅仅是开始

欢迎来到新时代,在这个时代里,AI不仅令人好奇与着迷,更在指数级地提升业务生产力,重塑业务模式,并重新定义客户体验。从零售到医疗保健,AI正在以多种方式产生深远影响:
  • 在零售业中,通过聚合客户数据提供个性化的推荐服务,实现规模化的精准营销。
  • 为CT扫描仪配备强大算法,提高诊断准确性,改善医疗护理水平。
  • 预测机器使用寿命,实现实时维护与运行效率的提升。
  • 利用先进的AI工具和模型进行实时检测,有效预防金融欺诈。
  • 借助用户友好的聊天机器人简化客户服务流程,提升客户满意度。

最近由微软委托的一项研究显示,大多数公司正在积极提升其AI能力。调查数据显示,高达95%的受访企业计划在未来两年内增加其AI的使用率。从跨行业的视角来看,AI的应用已被广泛认为是实现成功的关键。

总体来看,AI的重要性得到了广泛的认可,这不仅是组织层面的共识,也体现在个人层面。这一重要区别表明,不仅是组织在积极推动AI的应用,个人也从自身角度看到了其巨大的价值。

许多组织仍处在起跑线上

超过三分之一的公司正处于AI应用的初步探索阶段:他们正在寻找合适的方案,收集相关信息,并规划多种应用场景以制定实施战略;而四分之一的公司已经进入了早期试点测试阶段。由于大多数组织还在摸索过程中,业务领导者们有了超越竞争对手、获得优势的机会。但要抓住这一机会,他们需要迅速采取行动,落实自己的AI战略。

企业聚焦于自动化和客户体验

那些已经开始整合AI的公司主要聚焦于支持面向客户的应用程序,并通过自动化来提升效率。这些应用场景往往能带来更高的投资回报率,因为它们致力于通过减少员工在低价值任务上的投入,来释放更多的人力资源价值。考虑到受访者的反馈,他们平均期望从AI平台获得34%的投资回报率,这是十分合理的。

平均而言,46%的面向客户的应用程序和44%的业务/核心应用程序已经运用了AI功能。

“领先组织”引领前行

尽管许多组织在AI应用方面还处于初级阶段,但有15%的企业在AI基础设施方面已经走在前列,被视作“领先组织”。这些领先组织往往是技术的早期导入者,能够为有效的AI实施策略提供宝贵的经验。我们的建议基于对领先组织的分析以及其它关键洞察,旨在提供适用于各类公司的最佳实践和建议。

领先公司的71%领导者表示,他们的组织渴望尝试新技术,且拥有比许多竞争对手更先进的IT能力,相比之下,非领先公司的这一比例仅为47%。


AI充满挑战…对所有人都一样

随着AI领域的不断发展,其实施过程中面临着一系列挑战和障碍。业务领导者们面临着艰巨的任务,即找到最佳的前进道路。

  • 99% - 组织在扩展和实现AI的运营化方面面临挑战
  • 59% - 商业领袖认为AI市场正在实现AI的运营化
最大挑战?解决人才缺口

组织迫切需要具有AI经验和技能的人才。通过加强员工技能培训,来解决这一缺口,是快速弥补差距、推动发展的关键。

  • 39%领导者认为,拥有开发或定制AI模型所需技能是他们面临的前三大技术挑战之一。
  • 33%领导者认为,拥有足够的人才是他们面临的前三大组织挑战之一。

安全性、功能与投资回报率考量

除了人才短缺外,许多企业还面临着其它技术和战略挑战。安全考量、具备设计、实施和管理基础设施的足够能力,以及拥有适当的AI工具是关键的技术挑战。

除了人才问题外,AI实施的投资回报率不明确、支持AI开发和管理的资源不足,以及跨业务功能的合作问题,也是主要的组织挑战。

基础设施挑战仍是重中之重

正确的基础设施对AI项目的成功至关重要。显而易见,AI的挑战主要集中在基础设施(包括硬件、软件和工具)方面,这仍然是实施和利用强大AI工具的最主要障碍。优先考虑搭建正确的AI基础设施对于AI的成功实施、扩展和创新来说非常关键。

  • 56%我所在的组织缺乏适合支持组织期望的AI工作负载的基础设施。
组织面临的主要技术挑战(按重要性降序排列,显示13项挑战中的前7项)
  • 开发或定制AI模型所需的技能
  • 与基础设施相关的问题:
    • 安全性考虑
    • 具备设置、扩展和管理AI基础设施的充分能力
    • 访问适当的AI方法/工具
    • 过时/传统的系统
    • 能够根据需求扩展基础设施
    • 在云端和本地环境之间协调工作负载的能力
      领导者正在寻求合作伙伴的援助

对于那些不确定如何开始利用AI的公司来说,与具备深厚AI专业知识和经过验证的AI解决方案的合作伙伴合作,可以帮助公司加速AI的生产并解决AI基础设施的挑战。业务领导者希望合作伙伴能在基础设施的设计和实施、培训和支持、安全性和合规性,以及战略规划和咨询等方面提供帮助。

值得关注的是,随着公司在AI领域的深入发展,他们开始更加重视性能、优化以及与云服务商的整合。与合适的合作伙伴合作可以帮助任何规模和任何AI实施阶段的企业加速其AI的发展进程。这既是合作伙伴的巨大机遇,也是一项重任。他们必须确保自己的员工已经做好准备,并能够提供咨询、战略制定和培训方面的帮助。


AI基础设施仍然难以掌握

如果您对于如何打造适合自身需求的AI基础设施感到迷茫,您并不孤单。为了支持新的AI驱动的工作负载和流程的复杂性,构建稳健且可扩展的、专为AI设计的基础设施至关重要。然而,对于大多数领导者来说,AI基础设施是一个关键挑战,他们在实施和操作AI方面面临许多障碍。例如:
  • 不适合处理AI工作负载的复杂性和数量的过时和传统系统。
  • 数据安全和隐私方面的担忧,特别是敏感和个人数据,需要强有力的保护和合规措施。
  • 工作负载编排的挑战,例如管理多个平台、工具和框架,以及优化资源利用率和性能。
  • 技能缺口,因为许多组织缺乏开发、定制和部署AI模型和应用程序的人才和专业知识。
  • 技术进步的加速,例如GenAI对所需基础设施的类型和复杂性产生了重大影响。

定义“AI基础设施”

基础设施的挑战加剧了组织对AI基础设施解释的差异。这些解释的范围从将AI功能整合到现有的IT基础设施中,到建立专用的硬件和网络基础设施,并开发包括算法、框架和库在内的全面技术堆栈。当语言表述不一致时,即使是与供应商沟通需求也是一个真正的挑战。

缺乏明确的定义只会增加开始使用AI的难度。简单来说,AI基础设施包括用于开发、实施和优化AI的硬件、软件、网络和工具以及服务。随着AI的不断发展,达成一个可以在所有行业中使用的标准定义将变得比以往任何时候都更加重要。

企业对“AI基础设施”定义的不同方式
  • 57% - 通过利用云资源、服务和API将AI能力整合到现有IT基础设施中
  • 54% - 一组用于开发、部署和管理AI模型和应用程序的硬件、软件和工具的组合
  • 39% 一套全面的AI特定算法、框架和库,这些构成了公司AI能力的基础
  • 34% - 专门设计用于支持AI项目的硬件和网络基础设施(例如,高性能服务器或GPU、可靠的网络基础设施等)

微软对“AI基础设施”的定义是:“一种硬件、软件和工具的组合,用于支持AI模型和应用的开发、部署和管理。

将AI基础设施建设作为优先任务

企业已经深刻认识到为AI计划构建稳固基础的重要性和紧迫性。41%的领导者认为,基础设施是他们最需要专业指导的领域,而39%则期待战略规划和咨询方面的支持,特别关注基础设施或安全性等专项内容以及更广泛的设计与实施策略。此外,43%的组织在规划其AI基础设施战略时表现得积极主动,而仅有16%的组织较为被动。合作伙伴拥有为企业提供所需咨询和专业知识的明显优势,以优化其AI基础设施。

战略规划与咨询是众多行业组织的共同需求。处于实施初期的业务领导者更可能寻求外部帮助,其中42%的AI新手组织表示需要支持。随着组织逐步开展其AI之旅,他们可以利用合作伙伴的咨询服务。

不同行业各有其特点

制造业在规划AI基础设施方面表现得最为积极(51%),远超医疗保健和零售业。在注重流程的行业中,即使是微小的效率提升也能为竞争带来关键优势。当前的AI技术已经为操作效率带来了显著的提升。

通过流程优化、高级自动化和预测性维护,整个行业都能获得巨大的好处。其它行业的业务领导者可以借鉴制造业的做法,迅速为其AI需求搭建合适的基础设施。与其它业务决策一样,这些差异凸显了各行业在接受新技术时需要考虑的细微差别。

制造业组织展现积极态度。


从三个方面着手:性能、安全性和成本

毫无疑问,在挑选适合业务需求的AI基础设施时,需要考虑众多因素,而市场的快速变化更是增加了决策的复杂性。随着企业开始评估供应商和解决方案,他们可以将性能、安全性和成本视为决策的首要考量。

性能与可扩展性

44%的领导者将性能与可扩展性视为首要考量,特别是在需要处理大量和复杂AI工作负载的行业中,如零售、制造业和独立软件供应商。AI基础设施的关键在于提供快速且可靠的计算资源,以优化资源利用、减少延迟,并根据需求进行扩展。注重性能与可扩展性意味着要综合考虑成本与AI带来的所有好处,以充分发挥基础设施实施的潜力。

安全性与隐私保护

安全性与隐私保护同样受到重视,42%的业务领导者将其列为首要考量。在金融和医疗保健等行业中,保护机密数据、防范未经授权的访问、网络威胁和数据泄露,以及遵守严格的法规至关重要。尽管零售、制造业和独立软件供应商对安全性的重视程度略有不同,但它们都将其视为需要解决的关键问题。这些因素对于确保AI基础设施解决方案的可靠性、效率和有效性至关重要,同时也是领导者面临的主要挑战。

成本效益

成本效益是另一个重要的考量因素,37%的各行业业务领导者表示,从AI基础设施中获得所需价值并实现投资回报率目标至关重要。对于零售业来说,成本因素尤为重要。
  • AI基础设施决策考量:37% 成本效益
  • 组织挑战:32% 回报率不明确
  • AI采纳障碍:20% 成本和回报率


“一刀切”并非万全之策

决策考量会随组织背景的变化而变化。行业、市场、AI成熟度和平台等因素共同构成了一个动态的环境。领导者需要能够预见这些优先事项的变化,并理解组织背景变化对实施策略的影响。

AI准备程度

领先的组织与早期实施AI基础设施的企业面临不同的挑战。随着组织的不断发展,灵活性、数据管理、维护和支持等因素逐渐成为与早期优先事项(如性能、安全性、成本效益和集成)竞争的重点。

随着新技术和流程成为标准操作模式,优先事项会发生变化,领导者需要积极调整策略以应对这些变化。了解随着组织进展,不同因素的重要性变化,将有助于您迅速调整优先事项,以满足不断变化的需求。

工作负载类型

鉴于业务模型和工作负载的多样性,所需的AI基础设施能力也会有所不同。有的公司可能需要高度定制化的软件、服务和计算能力,而另一些公司则可以使用现成的AI模型、服务和平台。随着AI技术的不断进步,公司的需求和解决方案也日新月异。因此,服务提供商正在加大产品研发投入,以满足更广泛的市场需求,并提供多样化的接入点,方便客户接入其系统。

我们识别了三类不同的AI基础设施客户。

AI领导者

“AI领导者”拥有清晰的AI战略,他们希望通过自主研发创新的AI模型和应用来引领市场。他们需要高性能的超级计算基础设施,能够灵活满足复杂的存储、网络、计算和安全需求。他们的AI工作负载极其复杂,涉及大型模型,并且要求在他们的AI基础设施的每一层都能实现控制。

业务驱动因素:从零开始开发端到端的AI服务、解决方案或平台,追求无限的可扩展性和提供定制化用户体验的能力。

AI强力用户

“AI 强力用户”同样拥有明确的AI战略,他们大量使用定制化的预构建AI模型,注入公司特有的内容和数据,并进行再训练。他们希望对其AI基础设施的每一层都能实现控制,但在使用预训练模型时通常不需要强大的计算能力。

业务驱动因素:追求高效,缩短上市时间。通过使用预构建模型并针对自身需求进行优化,节省时间成本。

AI准备就绪

“AI准备就绪”的公司则希望拥有可直接投入使用的基础设施,以便他们能够专注于制定AI战略。他们不想在基础设施的细节上过多分心,他们正在寻找一种可扩展、即插即用的解决方案,能够支持当前的离散过程并伴随AI的发展而增长。

业务驱动因素:开始探索AI,寻求现成的解决方案。

平台考虑因素

关于公司应使用本地、混合还是云端解决方案的问题,并没有一个放之四海而皆准的答案——每种类型的解决方案都有其优点和局限性。最终的决定取决于公司及其独特情况,并受到众多因素的影响。例如,本地AI基础设施可能提供更多的控制权,但需要更多的前期投资,并且在维护、扩展和技术更新方面面临挑战。

云端的AI基础设施具有快速部署、可扩展性和灵活性等优点,通常拥有先进的技术,但一些人对其安全性、隐私性和合规性表示担忧。混合设置则结合了两者的优势(和劣势),但复杂度更高。初创公司可能因员工规模较小,以及更关注产品上市速度,而更倾向于选择云端设置。尽管如此,这些解决方案的共同关注点仍然是安全性和成本效益。

解决方案配置的前三大优先事项
  • 本地:数据安全性、成本效益、现有IT基础设施集成
  • 混合:安全性和合规性、成本效益、可扩展性和弹性
  • 云端:数据隐私和安全性、灵活性和可扩展性、成本优化

对于更高级的模型,我们需要更多高性能的GPU。但目前,我们也有一些轻量级模型可以在CPU上运行。

基础设施需求会根据具体的应用场景而有所不同。例如,早期试点项目和全面的实施项目在基础设施需求上会有很大差异。

一半的业务领导者表示他们正在应用混合设置,并计划完全迁移到云端,以优化IT治理和安全性,提升生产力和可扩展性,实现更成功的部署,推动更大的创新和投资回报率。对于那些“准备好使用AI”的公司,云服务提供商可能提供更全面的即插即用解决方案,帮助他们快速入门。

除了决定使用本地、混合还是云端设置外,供应商选择还涉及一系列考量因素。如高质量的AI算法、网络管理能力、与开源工具的集成、API可访问性、可扩展性、清晰的文档以及多云/混合云能力等关键功能,被视为最高需求。

行业场景

不同行业在优先事项上存在着微妙的差异。金融、医疗等监管严格的行业,更加注重安全性和隐私保护;而制造业和独立软件供应商等行业,则对高性能和可扩展性有着迫切需求。此外,解决方案的部署方式以及AI的成熟度等因素,也会对企业的组织和技术优先事项产生深远影响。

各行业前三大AI基础设施优先事项
  • 金融:
    • 安全性和隐私
    • 性能和可扩展性
    • 与现有系统集成
  • 医疗:
    • 安全性和隐私
    • 性能和可扩展性
    • 与现有系统集成
  • 零售:
    • 性能和可扩展性
    • 成本效益
    • 与现有系统集成
  • 制造业:
    • 性能和可扩展性
    • 与现有系统集成
    • 安全性和隐私
  • 独立软件供应商:
    • 性能和可扩展性
    • 安全性和隐私
    • 成本效益

安全性是一个不容忽视的焦点,因为大量的数据需要得到妥善保护。基础设施能够利用机器算法实时检测潜在威胁,从而加强网络安全。

AI极大地缩短了众多工作的完成时间,同时提升了性能和整体运营效率。


利用AI的力量

为了助力企业在AI领域取得更大进展,我们建议采取以下四项行动,以应对挑战并加速AI的生产与集成。

优先完善AI基础设施

基础设施是AI创新的核心所在,它直接影响着AI应用、解决方案或平台的速度、质量、易用性、创新性和吸引力。企业应深入审视其AI目标和战略,并确定最适合当前和未来需求的基础设施能力和平台(本地、云端、混合)。现有的基础设施往往难以满足AI的要求和复杂性。

大多数企业需要做出改变,无论是彻底改造现有基础设施,还是选择提供全面AI平台的解决方案提供商,或者采取介于两者之间的方案。企业的AI基础设施战略将塑造其业务未来,加速其AI之旅,或可能成为其创新道路上的阻碍。

弥补技能缺口

为了弥补AI技能缺口,业务领导者需投资培训以提升现有员工的能力,或考虑引进外部人才。与经验丰富的AI解决方案提供商合作,也是填补技能缺口的有效途径,同时还可以提供员工培训、战略规划以及AI基础设施、生产和实施支持。

确保安全无虞

安全性、隐私和合规性应始终置于AI和基础设施规划的首位。安全的AI意味着安全地设计、开发和部署AI和通用AI(GenAI)的能力与系统。以下是确保安全性的最佳实践:
  • 保护用户数据的隐私和安全;
  • 确保程序透明,并强调清晰传达决策来源和标准的重要性;
  • 确保安全性从AI系统生命周期的开始到部署都是内置的;
  • 在设计界面和流程时,将风险防控置于首位。

寻找合作伙伴

在各个行业中,业务领导者纷纷表达了对战略规划和咨询以及来自AI解决方案提供商的培训和支持的需求。领先的组织与AI专家合作,共同规划、构建和整合AI到业务中。无论企业规模大小或处于何种发展阶段,都可以从与战略AI解决方案提供商的合作中获益。与经过验证的AI解决方案提供商建立合作关系,可能是加速AI生产和保持竞争力的关键。

-----

Source: https://clouddamcdnprodep.azureedge.net/gdc/gdcBkY6mR/original


--【本文完】---

近期受欢迎的文章:

  1. 微软公司2024年第二季度财报电话会议记录

  2. 微软发布新的AI基础设施

  3. 下一代生成式AI的DGX架构设计

  4. Azure下一代块存储架构:深度技术解析

  5. 2024年第一季度AI基础设施(AI Infra)解决方案报告


更多交流,可添加本人微信

(请附姓名/关注领域)

继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存