查看原文
其他

专家论坛:AI基础设施的发展(GTC 2024)

常华Andy Andy730
2025-01-01

核心观点

  1. AI的核心是快速高效地处理大量数据,这得益于如今更多的数据和强大的处理能力。NVIDIA过去十年通过利用GPU释放AI潜力,构建了以GPU为核心的基础设施,并注重网络、数据传输和存储。未来,AI基础设施将以整个数据中心为单位,形成“AI工厂”,实现全规模整合。
  2. AI领域的关键在于规模,模型越大越好。过去十年,AI通过扩大模型规模实现了显著的创新和突破。这一趋势由GPU驱动,更大内存、更快网络和存储的发展,使得AI基础设施不断改进,从而推动了这些创新。
  3. 许多客户在构建和生产模型方面已经做得很好,但在企业级规模推广时面临挑战,包括生命周期管理、资源优化和复杂再训练计划的高效管理。需要跨数据准备、AI工程和应用开发等多个团队的协作。
  4. 构建AI集群是一项复杂任务,涉及多个动态组件和共享平台,不同于传统的隔离方式。无论是在本地数据中心、托管数据中心还是云环境中,都需要可扩展的设计,以便在推出新模型时不需要重新开始。
  5. 民主化访问GPU对AI开发至关重要。快速实验和从研究到生产的转变都依赖于GPU的高效使用。构建开放、灵活的平台,以集成新工具和模型,并为团队提供所需的工具和自由。
  6. AI发展迅速,用户需要进行前瞻性投入,尝试可能不会长期使用的工具。目标是构建一个共享、一致的平台,实现民主化的GPU访问,并在云端和本地之间灵活切换。平台应具备可组合性,允许集成和替换组件,确保生产环境的需求。
  7. 从端到端的角度优化AI基础设施,不仅仅关注GPU,还需考虑网络、存储和软件,形成完整解决方案。资源共享,避免“影子AI”现象,通过建立AI卓越中心整合资源和最佳实践,全面服务于不同的应用场景。
  8. 云计算带来的安全漏洞和成本逐渐增加的问题使得企业寻找替代方案,保护知识产权并降低成本。混合环境逐渐流行,跨越本地数据中心、托管数据中心和公有云环境。虽然POC可能在云端启动,但在本地运行大规模GPU训练模型在成本上更具吸引力。
  9. 过去十年,AI基础设施的性能大幅提升,但充分利用这些性能仍是挑战,许多客户未能完全挖掘其潜力。HPC领域的经验表明,带有调度器的AI集群非常重要。
  10. AI将无处不在,尤其是推理,边缘推理在未来几年会变得重要。端到端的AI解决方案将不仅限于数据中心或云端,而是需要云端、本地和边缘的混合解决方案。关键在于整合这些元素,确保计算和存储能力到位,管理数据处理和存储,并保持低延迟。
  11. 未来,边缘将成为主要的AI生产场所,不再需要将数据带到数据中心。数据湖仓库解决方案,可以从不同位置创建数据集,用于训练和微调模型,并将模型部署回边缘进行推理。
  12. AI在投入生产之前并不会产生任何价值。无论是在私有数据中心、边缘位置还是云端运行模型,生产时的一致性都很重要。MLOps提供了模型构建、调整、性能以及生产部署方式的可重复性、可审计性和可追溯性。这使企业对将AI投入生产充满信心。企业越来越依赖AI来做决策,而他们对这些模型的信心源自于MLOps。
  13. 企业客户非常关注保护数据安全。混合模型为此提供了解决方案,使客户能够在安全的环境中执行AI流程,将AI带到自己的数据中心。
  14. 不仅数据科学家和工程师使用敏感数据训练模型,现在每个人都可以使用敏感数据提示LLM,这带来了新的安全挑战。在AI基础设施方面,保护敏感数据并防止未经授权的访问也是至关重要的。

----------

  • 题目:Expert Perspectives on the Evolution of AI Infrastructure

  • 时间:2024年3月(NVIDIA GTC 24)

  • 主持人

    • Sandeep Brahmarouthu, Global Head of Business Development, Run:AI

  • 专家成员

    • Justin King, Product Management for Generative AI Solutions, Dell

    • Matthew Hull, VP Global AI Solutions, NVIDIA

    • Steve Huels, Senior Director and General Manager, Red Hat

    • Ronen Dar, Chief Technology Officer, Run:AI


-----[以下为正文]-----

Sandeep Brahmarouthu(Run:AI):下面是我们今天要探讨的主题:
  1. 如何从AI基础设施的视角审视AI?
  2. 2024年市场应用生成式AI和LLM的关键创新驱动力有哪些?
  3. 企业在扩展AI工作负载时面临哪些挑战?
  4. 如何使数据科学团队和企业客户更易获取AI?
  5. AI的部署策略是怎样的?是选择本地、云端还是混合云?
  6. 企业在优化AI工作负载时,会考虑哪些关键因素?
  7. GPU及其他硬件发布在推动AI基础设施革命中扮演了怎样的角色?
  8. MLOps的功能是什么?它如何助力企业在内部启用和扩展AI基础设施?
  9. 企业如何确保对AI的投资具有前瞻性,从而在2024年后实现规模化发展?


AI基础设施的演进和关键创新

Sandeep Brahmarouthu(Run:AI):Matthew,首先,如果回顾过去五到十年的AI基础设施,我们可以看到大量的增强和创新。从你的角度看,推动2024年AI革命的关键创新有哪些?

Matthew Hull(NVIDIA):AI的核心其实很简单,即处理大量数据,并且必须非常快速和高效。我们之所以能达到今天的AI水平,是因为有了比以往更多的数据以及前所未有的处理能力。AI基础设施的核心在于数据的存储、传输和处理,并需要有效利用合适的模拟解决方案来完成这些任务。

在NVIDIA,我们过去十年一直在探索如何利用GPU,这是释放AI潜力的关键。我们以GPU为核心,围绕其构建基础设施。我们显然也注重网络,多年前就收购了Mellanox这家公司。我们研究如何在GPU内外快速传输数据。与多家存储公司合作,共同研究如何存储数据以及在网络内外快速传输数据。

重点在于,我们不能只关注基础设施的某一部分,而应该从数据中心的整体角度出发。未来的一切都将以数据中心为规模。我们不再单独讨论处理器、服务器或机架;我们将看到整个数据中心,或者称之为“AI工厂”。这是AI基础设施中最令人振奋的部分。它是真正的全规模、全数据中心规模,并且各部分都融合得恰到好处。

Sandeep Brahmarouthu(Run:AI):考虑到AI的规模,它随着时间的变化,数据处理量和所需的计算能力不断增加。Ronen,请谈谈你对过去几年推动AI创新的见解。

Ronen Dar(Run:AI):这正是关键所在——规模,一切都与规模有关。在AI领域,越大越好,模型越大越好。我们在过去十年中看到了这个趋势。ChatGPT在一年前发布,突然间,全世界都能体验到语言模型的惊人能力。

但实际上,自2012年、2013年以来,AI领域一直在发生创新和突破,很多令人惊叹的事情都在发生。这一切都是由规模驱动的,即扩大模型的规模。我们见证了这种趋势,模型变得更大,参数更多,容量更大,训练的数据更多,使用的计算能力更多,解决的复杂问题更多,能力也越来越强。

确实,更大的模型是过去十年中我们观察到的一种趋势。从基础设施的角度来看,所有这些都得益于GPU的推动。所有这些趋势和创新都是由算法可以访问的更多数据所驱动的,其中涉及许多重要因素。

GPU和基础设施对于这些创新至关重要。在过去十年中,我们看到了更高性能的GPU、拥有更多GPU内存的更大的GPU、更快的网络、更快的存储。整个AI基础设施正在变得越来越好,这些创新也因此得以实现。

AI集群构建与扩展的挑战

Sandeep Brahmarouthu(Run:AI):GPU相关的基础设施确实取得了长足的进步,涌现出许多令人振奋的创新。现在,我想深入探讨一个后续问题。Steve,随着我们引入这些新的增强功能,从你的角度来看,在扩展这些工作负载时,我们面临了哪些挑战?而现有的解决方案又是如何应对这些挑战的呢?

Steve Huels(Red Hat):很多客户都会提出这样的问题。如今,大部分客户在构建模型、投入生产并与应用程序集成方面已经做得相当出色,这部分已经相对简单。但当我们谈论在企业级规模上推广时,挑战就出现了。当模型数量达到数十、数百甚至上千时,这些模型需要在不同的周期内进行生命周期管理、更新和监控,这就涉及到了完全不同的问题。在这种规模下,资源的可用性和在约束条件下最大化利用现有资源变得尤为关键。高效管理复杂的再训练计划也十分重要,高优先级的任务必须得到优先处理,无论是再训练还是回滚任务,它们都应该优先于实验任务。此外,连接不同的社区也是一个挑战。现在,不再是一个人负责模型的端到端生命周期并将其投入生产,而是需要数据准备、AI工程、应用开发和设置等多个团队的协作。简化这些团队之间的交接,对于在AI领域取得成功并创造价值至关重要。

业界涌现出了许多创新。像Run:AI这样的公司,正在帮助用户最大化资源利用率。他们利用GPU分割技术,让每个任务都能按需获取所需资源,从而实现投资的最大价值。同时,高级调度功能支持指定和区分核心任务和低优先级任务,并在这些长时间运行的任务之间灵活切换,这对于能够持续推出新模型至关重要。另一方面,Red Hat的OpenShift AI则专注于构建一个平台层,将数据工程、AI工程和DevOps监控等各个环节连接起来,从而实现更无缝的集成。

最后,我要强调的是,目前没有任何单一平台能够满足所有人的所有需求,比如生成式AI解决方案。但正是因为这种可组合性,我们可以从NVIDIA引入最好的组件,与Dell合作将不同的服务器部署到数据中心,再与Run:AI合作优化整个基础设施。这种工具层的可组合性为客户在构建模型时提供了极大的灵活性,同时确保了部署和扩展时的一致性。

Sandeep Brahmarouthu(Run:AI):我非常同意关于兼容性的观点。确实,基础设施之上运行着各种工具,它们为我们提供了强大的支持。Justin,接下来请从Dell的角度分享一下你的看法。

Justin King(Dell):可以肯定的是,企业在采用像ChatGPT这样的应用时确实遇到了一些显著的问题,如所谓的“幻觉”现象。我们都很关心如何将数据输入这些模型,以便它们能够根据企业的实际情况来响应信息。

这确实引出了一个关于构建AI集群的挑战,这是一项复杂的工作。涉及多个动态组件,包括加速GPU、高性能NIC等高速互连部分,以及一个共享平台。这与企业通常的工作方式有很大不同,因为企业通常将其应用程序隔离开来。单独放置一个模型会导致与其他任何事物都无法互动,从而限制了增长。

无论是在本地数据中心、托管数据中心还是云环境中配置,构建这些AI集群都是至关重要的一环。重要的是能够设计它们以实现可扩展性,因为一旦将第一个模型投入生产,这只是一个开始,许多企业客户都会面临更大的挑战,即后续会有更多的模型需要跟进。我们不能每次推出新应用程序时都重新开始,必须创建一个能够跨多个环境和多种技术扩展的弹性环境。

在这方面,Run:AI的软件在资源管理和GPU即服务方面做得非常出色。此外,还有各种框架和库需要集成。这些都是在部署模型之前需要考虑的问题。对于许多企业来说,这是一个挑战,而克服这个挑战是他们的关注点。这也是Dell与这里的团队合作的一部分,我们致力于通过推出经过验证的设计来降低风险。

另一方面,我们经常与数据科学家交流。他们可能会分配一个或多个GPU,但这种方式并不能有效利用环境资源,因为GPU的利用率可能只有10%到15%。了解这些加速器和网络的管理和利用是至关重要的。这就是Run:AI等公司能够展示GPU利用率的地方,确保在不闲置的情况下获得更高的GPU利用率。

最后,我想谈谈企业在采用AI时面临的一个挑战。之前提到了公有云的挑战,但如何将信息输入到模型中呢?有一种叫做检索增强生成(RAG)的技术,这是一种提示工程技术,可以利用文档和元数据的文件夹来增强查询与大型语言模型的结合。这虽然是一个有帮助的部分,但并不是万能的。仍然可能出现“幻觉”现象。当涉及到将模型投入生产时,获得微调专业知识以定制模型并使其能够做出相应响应是关键。这是当前客户面临的最大挑战。

AI资源民主化

Sandeep Brahmarouthu(Run:AI):在市场上,我注意到客户在AI应用中的发展进度各异。有的已经非常先进,有的刚起步,还有的处于中间阶段。像RAG这样的应用场景,对某些组织来说可能尤为重要。不同的组织和团队在AI生命周期的不同阶段进行工作,有的专注于模型构建,有的忙于模型训练,还有的致力于模型的实际应用。这引发了我接下来的问题:组织应如何高效地为这些不同团队提供计算资源访问?这些团队可能在AI生命周期的不同阶段工作,它们的工作可能是同步的,也可能是异步的。Ronen,从你的角度看,企业如何在组织内部为不同的数据科学团队民主化地提供计算资源访问?

Ronen Dar(Run:AI):这确实与我们所做的工作密切相关。民主化地访问GPU非常关键,因为AI开发与传统软件开发有所不同。首先,AI开发经常需要基于大量的实验,尝试不同的模型、数据处理方法和解决业务问题的方法。因此,快速实验对AI开发、数据科学和AI团队的生产力至关重要。

其次,从研究到生产的转变,即将模型从实验室转移到生产环境并确保模型在实际生产中的运行,同样重要。

在快速实验方面,GPU起着至关重要的作用。科学家们拥有更多GPU时,他们的生产力更高,可以进行更多、更快的实验。我们观察到,为组织提供简单、可扩展的GPU访问至关重要。很多时候,将GPU聚集到一个集群中,并在不同用户、不同团队之间共享GPU是正确的方法。这样,当一个团队不使用GPU时,另一个团队可以使用这些GPU,通过共享GPU来实现工作负载的扩展。这是我们工作的关键部分。

此外,为数据科学团队和AI工程团队提供快速实验和将模型推向生产所需的工具也非常重要。AI领域发展迅速,每天都有新工具和新模型出现。从平台角度来看,构建一个开放、灵活的平台,能够集成这些新工具,并为团队提供他们所需的工具和自由,让他们使用任何所需工具快速前进,这是至关重要的。因此,访问GPU和提供灵活的工具都非常关键。

Sandeep Brahmarouthu(Run:AI):关于同一问题,Steve,从Red Hat的角度看,你们在OpenShift AI方面进行了很多创新,确实为不同的数据科学团队提供了访问权限。从你们的角度来看,企业如何在组织内部提供AI的访问权限?

Steve Huels(Red Hat):AI正在快速发展,目前来看,它的发展速度只会越来越快。我们与用户交流时了解到,他们必须在这个领域做出一些前瞻性的投入。他们可能会尝试一些可能不会长期使用的工具。

我们的目标是构建一个共享的、一致的平台,该平台能够在不同的资源可用性之间灵活切换,提供民主化的GPU访问。无论是在云端还是本地,如果能拥有这样一个一致的平台,那么数据科学团队就可以在不同的工具上进行一些前瞻性的尝试,以便在实验阶段或应用程序部署时获得更好的价值。这就引出了第二点,即可组合性。

同样,有些长期的投资最终会获得回报。当前,技术发展得非常快。如果等待看谁是最终的赢家,可能会错过很多创新。因此,我们需要确保这些系统具有可组合性,可以随时集成和替换组件,同时专注于生产环境的需求。

在实验阶段,总会有很多不同的工具框架和创新。但在投入生产时,我们希望有一个相对一致的流程来评估模型、部署模型、监控模型并进行生命周期管理。这些是我们关注的重点,既要提供创新的灵活性,又要确保生产系统的稳定性和可靠性。

AI部署的多样性与混合云策略

Sandeep Brahmarouthu (Run:AI):我认为灵活性至关重要,这也正是我接下来想要探讨的问题。Matthew,针对Steve刚才提到的内容,我们来看看当前企业内不同团队在AI部署上的多样性。有些团队可能选择在公有云上启动云实例,而其他团队则可能选择部署DGX或Dell硬件,在本地进行AI项目。那么,从你的IT视角来看,这种灵活性——即AI能够灵活部署在云端、混合云或多云环境中——对企业来说有多重要?在为企业内部不同业务单元构建AI基础设施时,我们需要考虑哪些关键因素?

Matthew Hull (NVIDIA):这可能是我每天与企业讨论最多的话题。有两个关键点。首先,我们需要从端到端的角度来考虑AI基础设施和AI解决方案。尽管大家都在谈论GPU的访问,但GPU只是其中的一部分。我们还需要考虑网络、存储、软件等其他因素,这些因素共同构成了完整的解决方案。如果只是简单地插入一个GPU,是无法达到预期效果的。因此,首先要从全局出发,考虑如何优化整个工作负载,而不仅仅是关注某个芯片或单一组件。

其次,我们需要考虑资源的共享。这些资源可能是数据、计算资源或最佳实践。我常用一个术语来形容,叫做“影子AI”。很多组织都存在影子AI现象。例如,市场团队和运营团队都各自雇佣了数据科学家,但他们的工作往往是分散的,使用不同的资源池来进行AI项目,这其实是一种资源的浪费。我们看到的最佳实践是,组织开始建立所谓的AI卓越中心,将科学家知识、数据集、模型、基础设施等整合到一个共享的资源池中。不过,这对企业来说确实是一项挑战。

我特别喜欢的一个客户在这方面取得了很大进展。他们的IT部门和高层管理人员认为创建一个共享资源的卓越中心是至关重要的。然而,数据科学家们却对此持反对意见,他们认为这样会剥夺他们的控制权,不想依赖别人来获取工作工具。尽管如此,公司还是决定走这条路,建立了一个AI卓越中心。现在,数据科学家们称赞这是一个明智的决策,因为他们现在可以访问更好的工具,并且工作效率也大大提高了。我认为,未来成功的企业将是那些真正从全局出发,将所有资源整合到一个AI工厂、一个共享资源池、一个AI卓越中心,以服务于所有不同应用场景的企业。

Sandeep Brahmarouthu (Run:AI):建立一个AI工厂,为不同的数据科学团队提供共享服务,实现规模经济、可访问性和资源共享,从而提高投资回报率,这显然是非常重要的。Justin,从Dell的角度来看,在部署AI方面,你们有哪些最佳实践?以及你们是如何决定在哪里部署AI的?

Justin King (Dell):当前这一代AI技术是从云端起步的,这是它的起源。但这也带来了一些挑战,比如安全漏洞问题。这让很多企业感到担忧,因为他们希望保护自己的知识产权。在公有云上运行AI项目是一回事,但客户正在寻找替代方案,以防止此类漏洞的发生,并保护他们的业务线。

另一个问题是成本。云计算已经存在十多年,并在很多年里成为了主流。但随着时间的推移,这些成本逐渐增加。我们现在看到了一个混合环境,跨越了本地数据中心、托管数据中心和公有云环境。这背后的原因有很多,例如模型训练并不是每个人都愿意经历的过程。有很多现成的模型可供选择,比如Llama 2,这是目前非常流行的模型之一。为什么要从零开始构建模型呢?你能做得比NVIDIA创建的更好吗?比Llama更好吗?甚至比其他一些已经领先的玩家做得更好吗?他们已经提供了80%的自然语言处理基础供我们使用。

因此,我们认为POC可能会在云端启动,因为这样可以轻松访问资源,从零开始训练大模型。虽然我们不鼓励这种做法,但仍然有人这样做。很多初创公司确实在走这条路,构建自己的模型。但是,从成本角度来看,在本地运行成千上万的GPU与在公有云上租用6个月甚至更短时间的成本相比,本地部署在训练阶段具有很大吸引力。但如果聊天机器人或助手无法及时响应,比如响应时间需要45秒,那么用户是不会使用的。因此,我们必须真正考虑利用率问题。

对于零售店来说,可能会选择在云端运行AI应用,因为从边缘计算的角度来看,这样可以获得更快的响应时间,毕竟有成千上万的商店需要服务。但如果是医疗或制造设施,它们可能会选择在本地数据中心运行这些助手,以便更快速地提供服务。所以在考虑模型训练时,云计算是一个不错的选择,但在推理阶段,我们还需要考虑更多因素。这就是为什么选择本地或共址环境的原因。我们认为混合环境将会一直存在,并且会有更多的本地部署。这就是将AI模型投入实际生产的现实。

AI基础设施的部署与优化

Sandeep Brahmarouthu (Run:AI):在基础设施领域,AI确实带来了诸多令人振奋的可能性。面对不同的部署场景和应用场景,一种部署方式可能相较于另一种更为合适。但我认为,关键在于能够包容不同的部署模型。

当我们继续深入这个话题时,我想提及基础设施的考虑因素。Matthew之前已经提到,除了GPU,我们还需要考虑端到端的解决方案,包括存储和网络。Ronen,你对此有什么额外的见解吗?企业在将AI工作负载从构建、训练到部署的整个过程中,还应该关注哪些要素?

Ronen Dar(Run:AI):Matthew已经提到了本地影子AI和影子IT的现象,并讨论了云端与本地之间的权衡。我完全赞同他的观点。过去十年,AI基础设施的整体实力得到了显著提升。GPU变得如此快速、强大,网络和存储等基础设施的性能也达到了前所未有的高度。然而,如何充分利用这些性能并从中获得最大收益,实际上变得相当困难。我们注意到,许多客户在努力挖掘基础设施的全部潜力。

这种基础设施的成本相当高昂,GPU尤其如此。去年,我们甚至见证了GPU短缺的情况。在云端找到GPU变得十分困难,如果想启动H100等新型GPU,可能需要等待数日。GPU短缺的问题依然存在,获取GPU的访问权限变得尤为困难。因此,企业和组织需要认真考虑如何提前规划GPU容量和AI基础设施,无论是在云端还是本地。他们正在寻求对基础设施拥有更多的控制权,包括GPU的分配方式和工作负载的调度方式。

从云端的按需使用模式转变为一种更安全地访问GPU的方式变得更为关键,即使在云端也是如此。例如,预留GPU、GPU集群,甚至可以在云端共享这些集群,团队可以在这些集群上训练模型并部署推理模型。

在创建和构建这些GPU集群时,集群上运行的软件调度变得至关重要。这包括如何优先处理不同的工作负载、调度工作负载、为不同的团队提供正确的访问权限。在高性能计算领域,这一点尤为关键。业界十多年前就开始构建HPC集群,并使用了类似Slurm的调度器。如今,AI基础设施也在进行性能测试。带有调度器的AI集群变得至关重要。在Run:AI,我们已经开发了这样的调度器。这是我们工作的一部分。我们将调度器与云原生技术(如Kubernetes)相结合,不仅关注基础设施,还带来了先进的调度功能。在利用GPU并从高性能基础设施中获得最大收益时,这些方面至关重要。

Sandeep Brahmarouthu(Run:AI):Matthew,你还有什么要补充的吗?我知道你在之前的问题中已经稍微提及了一些内容,但只是从一个角度来看。从更全面的视角出发,你还有什么其他的考虑因素想要强调吗?

Matthew Hull(NVIDIA):我想用一个不太恰当的比喻,但之前已经用过。这不是简单的零件组合。我谈到了交响乐团,其中有小提琴、长笛、网络、GPU等需要和谐配合的元素。但一旦交响乐团组建完成,就需要一个指挥来引领它,这就是运行AI项目时所需要的关系。需要有人负责分配这些高性能部件,确保它们协同工作。

我要补充的是,AI将无处不在。我们谈论AI训练和推理时,推理将无处不在。展望未来几年,边缘推理将成为一个重要议题,无论是零售银行、进行手术的机器人还是自动驾驶汽车。整个端到端的AI不会局限于数据中心或云端。我们真的需要考虑一个真正的混合解决方案,包括云端、本地和边缘。如何将这些元素整合在一起?如何确保在需要的地方拥有计算和存储能力?如何管理数据处理和存储,并确保低延迟以整合所有内容?这将是一个激动人心的领域。我们已经见证了AI工厂的蓬勃发展,这些工厂的产品将传播到全球各地,并不断返回工厂进行重新训练和优化。在未来几年,整个端到端的生态系统将变得极其重要且令人兴奋。

Sandeep Brahmarouthu(Run:AI):Justin,随着越来越多的设备被部署在边缘并运行AI,我们见证了越来越多的应用程序的使用。从推理的角度来看,你如何看待企业内部与边缘之间的交集?我特别关心安全性和治理方面的问题。

Justin King(Dell):我认为“边缘”这个词被过度使用了。它可以指代从手持设备到数据中心等一切。对我来说,边缘的定义是最接近消费端的地方。我们常常见到,要进行AI,需要大量的数据。这些数据就在我们的周围。那么,如何获取这些数据呢?将通过边缘设备进行采集,然后传输到数据中心,在那里我们可以运行数据准备工具,以创建用于AI的数据集。

随着技术的发展,边缘将成为AI未来主要的生产场所。这就是我们现在要从这里获取数据,而不再需要将数据带到数据中心的原因。Dell有解决方案,我们拥有联邦多站点的数据湖仓库。我们可以从不同位置的各种不同来源创建数据集。有了这个,我们能够为企业创造这些训练和微调的机会,以帮助建立模型,并将这些模型部署回边缘作为推理的一部分。长远来看,我们将在边缘实时采集和处理这些数据。除了用于未来更新的训练数据外,没有其他数据会返回数据中心。但所有这些都将在边缘自行运行,这就是我们所处的位置。这是客户希望进行生产的地方。边缘现在已经存在了,如何定义边缘可能是你的看法,但显然它最接近这种AI的消费端。

MLOps在AI扩展与部署中的作用

Sandeep Brahmarouthu(Run:AI):我认为这有很大的潜力。我们只是在应用程序和工作负载进入生产阶段的初期。我迫切期待看到一些令人兴奋的新应用场景。人们正在开发并努力将这项技术推向边缘,以便我们所有人都能从中受益。前方虽然充满挑战,但也令人兴奋。

让我们换个角度来讨论一下。关于MLOps的作用,我们在行业中经常听到这个术语。Matthew,你认为MLOps和MLOps工具在帮助组织内部扩展AI方面扮演了怎样的角色?在与客户讨论MLOps时,你看到了哪些最佳实践?

Matthew Hull(NVIDIA):这是一个大问题。回到我之前提到的交响乐团类比,MLOps就是将这些元素组合在一起的工具,就像交响乐团使用斯特拉迪瓦里小提琴和其他乐器创造美妙的音乐一样。但需要有人来管理和指挥这些元素。那些试图独自完成所有工作的人,通常资源利用率不高,他们的团队也并不开心。我们与Run:AI以及许多不同类型的MLOps合作伙伴的合作非常重要。这确实是将我们正在做的所有事情结合在一起的工具。没有它,就无法创建这些共享资源池,也无法为企业建立有效的AI卓越中心。你们正在做的事情和其他人正在做的事情,真的将为AI的突破、增加的企业AI采用量带来可能性,这种增长速度将非常快。那些没有考虑到ML策略的人,将会落后。

Sandeep Brahmarouthu(Run:AI):Steve,你对此有何看法?从MLOps的角度来看,你们的工作是如何展开的?特别是使用OpenShift AI。

Steve Huels(Red Hat):AI在投入生产之前并不产生任何价值。关于所有不同类型的部署位置,无论是在私有数据中心、边缘位置还是云端运行这些模型,都需要在将模型投入生产时具有一致性。MLOps提供了重复性、可审计性和可追溯性,以及模型的构建、调整、性能以及投入生产的方式等方面的信息,这最终将使企业对将AI投入生产感到自信。我们已经看到,企业越来越依赖AI来为他们做决策。他们对这些模型充满信心的唯一途径是MLOps。MLOps确实是确保通过重复性达到组织最佳效果的途径。当我们看到这一点时,其中一个关键元素是将所有的交接点整合在一起。再次借用Matthew的交响乐团类比,要真正做好所有的交接,比如贝斯部分何时进入,打击乐部分何时进入?必须有无缝的交接,否则音乐就会听起来不太对劲。MLOps有助于弥合所有这些环节,并真正提供了效率和重复性。

Sandeep Brahmarouthu(Run:AI):Justin,在我们继续讨论之前,你有没有关于MLOps作用的任何补充观点?

Justin King(Dell):我有一个稍微不同的视角。MLOps确实是一个有价值的工具。但在ChatGPT之前的时代,它基本上是提供环境连接、将各种框架和库部署到生产环境,并确保整个生命周期和可持续性的基础工具。然而,随着基础模型的引入,这些模型已经经过预训练。这不再是简单的在新模型推出时进行就地升级。我们需要接受并重新运行这些模型的权重,以适应可能不是获取所需输出的最佳方式的新模型。因此,我们几乎要重新开始,因为这是一个全新的模型时代。MLOps依然重要,但我期待MLOps供应商能进一步进步,以更负责任的方式处理这些基础模型。

数据安全性考虑与实践

Sandeep Brahmarouthu(Run:AI):我们谈了很多关于基础设施、MLOps、端到端的需求,也稍微提了一下安全性和数据的敏感性。Justin,企业在部署和构建AI基础设施时是如何考虑安全性的,特别是在处理数据时。围绕这一点,你们有哪些最佳实践,以及你们在这个领域的工作是如何展开的?

Justin King(Dell):这对许多企业客户来说确实是首要关注点。是的,他们必须进行AI投资,有AI的预算,但问题是如何保护自己。今天,许多数据都非常敏感。这就是混合模型发挥作用的地方,因为许多客户不想将数据移至云端进行训练。他们可能选择将AI带到自己的数据中。这就是我们可以在安全的环境中执行这些流程的地方,比如将这些流程部署到机柜中,以便客户放心,IT团队掌握控制权,安全团队管理和监控这些流程。

实际上,我们在这方面做得很好。我们构建了“Dell验证设计”(DVD,Dell Validated Designs),与NVIDIA合作的一个项目。自ChatGPT现象以来,我们在过去12个月中完成了许多不同的交付。通过这些,我们能够帮助客户降低风险,更快地投入生产。这意味着有工程团队了解这一点,并进行了相关优化。他们优化了硬件配置。当我们与软件供应商交谈时,他们可能只是简单地增加CPU和内存。但我们实际上是看这些应用程序的特性,现在我们有很多应用程序集成在一起。我们能够在硬件级别、软件级别上进行这些优化,然后有明确的测试标准。这些测试标准基于各种应用场景和方式。我们展示了测试的内容、结果以及我们的建议。这使得我们能够缩短刚开始进行AI工作负载的人从零到生产的时间,可能从原本需要长达9个月的反复试验过程缩短到不到2个月。通过遵循我们的指导,客户可以获得我们在这些Dell验证设计中展示的相同体验和结果。我们将继续改进,添加更多的方案,包括新的硬件和新的软件,这些都在迅速发展和大规模演变。

Sandeep Brahmarouthu(Run:AI):Ronen,你如何看待企业在构建AI基础设施时如何解决安全性问题,特别是围绕数据的安全性?

Ronen Dar(Run:AI):首先,我完全同意Justin的观点。在LLM方面,确实引入了新的挑战,特别是在安全方面。框架需要为LLM的游戏规则进行升级,同时也不能忽视安全性。LLM的引入围绕与它们共享的数据带来了新的安全挑战。当组织中有不同的用户时,不再仅仅是数据科学家或工程师使用敏感数据来训练模型。现在,组织中的每个人实际上都可以使用敏感数据来提示LLM。如何保护这些数据?这些问题正在引入新的挑战,而我们也在努力解决这些挑战。同时,在更传统的AI基础设施挑战方面,安全性问题也同样存在。当数据科学家和AI工程师训练模型、将模型投入生产时,会涉及很多敏感数据。保护这些敏感数据,防止用户访问他们不应访问的资源,无论是计算资源还是其他资源,都是至关重要的。在云原生世界中,Kubernetes社区构建了许多工具,可以在基础设施之上添加安全层。OpenShift在这方面也做得非常出色。我们有相当多的共同客户,其中包括全球最安全的公司和组织之一。有国防公司和世界上最受监管的银行正在使用我们的软件。我们已经建立了很多机制,并投入了大量精力来确保基础设施之上的安全层得以稳固。

Matthew Hull(NVIDIA):我想就此问题发表一下看法。数据安全和数据考虑在IT市场上一直都是热议的话题。这通常涉及在数据周围设立边界,企业不愿自己的数据离开其掌控范围。显然,这是一个始终要考虑的方面。我们目前看到的最酷也最独特的事情之一,是关于实际数据进入与离开的考量。这将对AI的实施方式产生深远的影响。在训练自己的模型时,我们都不希望基于错误的数据进行训练,因为这可能产生如我们所说的“幻觉”,即决策错误,因为训练模型的数据本身就是错误的。企业开始意识到,仅仅采用在互联网上广泛训练的开源模型是存在风险的。因此,考虑进入的数据变得至关重要,这促使企业真正考虑构建自定义模型,对自己的模型进行微调,并确保所有数据都与他们的业务需求高度相关,避免涉及不相关且可能误导的数据。数据的流入至关重要,但同样地,数据的流出也可能具有重要性。

Sandeep Brahmarouthu(Run:AI):随着越来越多的人与这些模型和基于这些模型训练出的应用程序进行交互,数据及其安全性的重要性将变得愈发关键。

未来展望

Sandeep Brahmarouthu(Run:AI):在接下来的5到10年里,你们对AI最感兴趣的是什么?请大家发表一下观点。

Steve Huels(Red Hat):让我兴奋的是AI的广泛应用。我们将见证大量的创新,尤其是在如何使这些模型更高效方面。模型优化将使它们能够在更小的硬件上运行,比如在手机上运行的生成式AI,从稀疏化到量化,这些领域都将得到迅速发展。

Justin King(Dell):未来,计算能力不可避免地会翻倍、翻三倍、翻四倍。竞争将进一步推动市场发展。真正让我激动的是,我们现在有这些客户正在考虑的应用场景,但我们无法预测一年后会出现什么样的应用场景。那是非常短的时间。不考虑我们的教育水平或知识因素,让AI决定未来可能出现的应用场景,这对我们的客户和AI的未来来说将是令人叹为观止的。

Matthew Hull(NVIDIA):生活质量的提升。想象一下AI在癌症研究到自动驾驶汽车等领域所能实现的成就。其影响将是深远的。这确实将为人类提供更多时间专注于重要的事情。这些AI应用将处理许多琐碎的事情以及我们难以攻克的问题。作为AI的消费者和用户,我对它对整个社会的影响感到兴奋。

Ronen Dar(Run:AI):AI正在改变我们的世界,而这仅仅是开始。从基础设施的角度来看,要实现所有这些创新并保持新的能力,需要更多、更快的GPU、更快的基础设施等,但同样重要的是运行在基础设施之上的软件层,包括编排层、工具层、优化层等,这些在未来几年将变得至关重要。

Sandeep Brahmarouthu(Run:AI):我要感谢今天所有的专家们。我知道我们讨论了许多不同的话题。希望大家听得也像我一样感到兴奋和有收获。


--【本文完】---

近期受欢迎的文章:

  1. Meta:大规模AI基础设施

  2. 智能数据基础设施:释放AI潜力的关键一步

  3. 构建高效AI基础设施:网络性能优化

  4. Google Cloud AI平台及其基础设施

  5. AI/ML数据基础设施参考架构



更多交流,可添加本人微信

(请附姓名/单位/关注领域)

继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存