VMware公司AI解决方案深度解析（PPT）

Original 常华Andy Andy730

2025-01-01

演讲人：

Chris Wolf，Senior Director of Engineering, AI and Advanced Services
Justin Murray，Product Marketing Engineer
Ramesh Radhakrishnan，Technical Director , OCTO HPC/ML
Shawn Kelly，Principal Solutions Engineer

时间：2024年2月21日

内容概要

1.《VMware私有AI入门指南：一种新兴类别》

私有AI：是一种架构方法，旨在保障商业利益的同时，实现组织与个人隐私及合规需求的平衡。
AI生态系统：需权衡成本、性能和合规性，避免被单一的垂直AI堆栈所束缚，关注领域特定数据微调和利用检索增强生成（RAG）等技术。
适应性至关重要：寻求与合作伙伴更深入的合作关系，构建在虚拟化支持、模型服务等能力。

2.《VMware私有AI简介》

VMware私有AI的特征：

专注于提供AI基础设施、优化、安全、数据隐私和数据服务，与AI独立软件供应商（ISV）合作，避免直接竞争。
重视隐私和控制的重要性，激发各行业的业务创新。
能够在短时间内建立AI集群并加载预装模型，简化部署流程，降低风险。
提高资源利用率，与现有运营工具集成，降低总拥有成本。
通过产品供应和开源参考架构，将AI计算和模型引入企业数据中心、公有云和边缘设备。

3.《VMware Private AI Foundation with NVIDIA概览》

VMware Private AI Foundation with NVIDIA是一款全面集成的解决方案，结合了NVIDIA的生成式AI软件和加速计算功能，构建在VMware Cloud Foundation之上，并特别针对AI进行了优化。
集成了AI工具，让企业能够定制模型并在数据附近运行生成式AI应用程序，同时解决了企业在数据隐私、安全和控制方面所面临的挑战。
包含NVIDIA NeMo，结合定制框架、防护工具包、数据筛选工具和预训练模型，为企业提供了简单、经济高效且快速采用生成式AI的途径。
包括为数据科学家提供便捷访问工具的自助服务目录、在vCenter界面中监控GPU的功能，以及预装了数据科学工具包的深度学习虚拟机。
矢量数据库，特别是PGVector，对于RAG至关重要。RAG将数据库技术与大型语言模型相结合，以提供最新和私密的查询响应。

4.《VMware Private AI Foundation与NVIDIA演示》

演示专门针对数据科学家用户和VMware系统管理员/DevOps人员设计，以展示在VMware Cloud Foundation上如何迅速复制大型语言模型（LLM）环境。
演示中详细展示了VCF管理员如何为数据科学家提供预配置的深度学习虚拟机，并演示了如何运行基于LLM的小型应用程序。
演示还重点强调了预装有深度学习工具包的虚拟机的重要性，并阐释了Private AI Foundation与NVIDIA技术的结合如何为数据科学家带来实际利益。

5.《在VMware Cloud Foundation平台上运行卓越的AI服务》

VMware Cloud Foundation（VCF）赋予企业灵活性、控制权与选择权，简化了AI生产流程，使企业能够无缝部署顶尖的AI服务，同时确保数据隐私与安全性。
VCF有效解决了AI项目所面临的基础设施挑战，包括灵活性、工作负载迁移、资源浪费、扩展性、生命周期管理以及隐私与安全问题。
VMware将VCF视为战略发展方向，特别针对重点客户，强调VCF集成了vSphere技术，实质上使用VCF就是在运用vSAN。
在性能方面，VMware的虚拟化调度程序经过持续优化，与裸机相比的性能差异仅为2%左右，并且支持NVIDIA的NVLink技术。

6.《VMware内部使用私有AI的实际应用：Broadcom》

内部AI工具：VMware员工使用公司内部AI服务，如编码辅助、文档搜索和内部LLM API等，提高工作效率。
内部AI服务：VMware已开发出多种内部AI服务，如内容生成、问题回答、代码生成等，供员工使用。
自动问答系统：VMware的自动问答系统（Wacqua）基于语言模型的信息检索，提供直接答案，减少文档浏览量。
智能云方法：VMware采用智能云策略，利用公有云上训练的开源LLM，避免GPU运行的环境影响，并与斯坦福大学合作开发领域自适应模型。
数据管理的重要性：在AI应用场景中，数据管理被强调为潜在瓶颈，标准化平台对高效服务至关重要。
战略性实施AI：从开源模型开始，逐步扩大规模，并确定关键绩效指标，专注于用AI解决实际业务问题，强调战略性实施AI的重要性。

---【以下为正文】---

VMware私有AI入门指南：一种新兴类别

私有AI是一种架构方法，旨在保障商业利益的同时，实现组织与个人隐私及合规需求的平衡。无论AI模型和数据部署于何处，都必须严格遵守隐私与保护要求。本次讨论将深入探讨私有AI的核心原则及其在实际应用中的常见场景。

随着技术创新的演进，从PC应用程序到业务生产力工具，再到Web应用程序，直至今日AI应用程序的崛起，应用创新的步伐从未停歇。尽管AI并非新鲜事物，其在诸如欺诈检测等专业领域已有长期应用，但金融服务行业等具备AI专业知识的领域已迅速适应了大型语言模型的生成式AI。例如，VMware已利用基于SaaS的AI服务进行营销内容创作。

麦肯锡预测，生成式AI的年度潜在经济价值约为4.4万亿美元，凸显了行业转型的巨大潜力。AI在不同地区的早期采用情况亦有所不同，特别是在日本，政府投资AI以弥补人口减少带来的挑战，保持全球竞争力。

在AI领域，隐私问题不容忽视。私有AI的概念就是在维护隐私和合规需求的同时，确保从AI中获得商业利益。数据主权、控制权至关重要，组织应避免通过共享AI服务无意中让竞争对手受益。访问控制同样关键，以防止未经授权的人员通过AI模型获取敏感信息。

在选择AI生态系统时，组织需权衡成本、性能和合规性。为避免被单一的垂直AI堆栈所束缚，组织应关注使用领域特定数据微调语言模型以及利用检索增强生成（RAG）等技术的潜力，以简化AI应用场景并提升效率。

-----

对于许多人来说，这一点可能显而易见。多年来，应用创新领域经历了巨大的变革。从PC应用程序开创新机遇，到业务生产力的提升，再到Web应用程序真正改变游戏规则，最后是移动应用程序的崛起。我个人而言，至少有80%的工作甚至更多都是在手机上完成的。现在，我们迎来了AI应用程序的崭新时代，这将产生同样深远的影响，引领我们迈向未来。

AI并非新鲜事物。一些组织，我与他们合作已有数十年，一直在深入研究AI。很长时间以来，AI在诸如欺诈检测等专业领域的应用已经十分广泛。

因此，看看那些已经拥有AI专业知识的组织，如INF金融服务，他们能够迅速转向采用大型语言模型的生成式AI。各行各业都有AI的应用场景。以VMware为例，我们在营销领域的一个早期应用场景中，运用基于SaaS的AI服务创作营销内容。我们与两家不同的公司合作，发现效果显著，这成为我们早期推进的一个领域。

我们在软件开发方面也取得了一些进展，开始看到更多AI应用场景的出现。在接下来的一系列活动中，我们将有一场专题讨论，详细介绍VMware服务的架构。

麦肯锡对生成式AI的年度潜在经济价值的预测，大约为4.4万亿美元。这对于整个行业来说是一个巨大的机遇，因为它正在推动行业变革和转型。

当我们深入研究AI生态系统时，会发现它涉及应用程序、移动设备、数据服务以及计算基础设施等多个方面。此外，还有从生成式AI中获得的派生业务价值，这也是整个生态系统不可或缺的一部分。

这需要一段时间来逐步发展。然而，我们已经观察到一些早期使用者出现在令人意想不到的地方，例如日本。尽管日本历史上更偏向保守，但他们在AI应用场景方面展现出了许多早期的动态。我们与一家日本公司的总裁进行了合作，他上个月来访时分享了一些有趣的观点。他提到，由于日本人口持续减少，政府正大力投资于AI，以维持其全球竞争力。这令我颇感意外，日本政府为各行业启动AI项目投入了大量资源，这令我非常兴奋。因此，当我们看到这样的趋势时，这可能标志着我们早期见证了一个重要时刻。同时，我们也看到美国、欧洲及许多其它地区的AI发展势头正在加快。

观众：结合你所展示的幻灯片，你是否注意到了显示美国应用场景差异的地理趋势？你已经提到了日本的一个具体应用场景，那么其它地区又呈现出哪些不同的趋势呢？

确实，这是一个很好的问题。在全球范围内，我们可能更一致地关注到的一个趋势是关于数据主权的问题，这也是我们接下来在私有AI部分将探讨的内容。目前，许多政府正加大力度制定AI伦理和良好使用规范。例如，欧盟在这方面采取了行动，而在美国，NIST也发布了一些指南。因此，我们可以看到在这方面正逐渐展现出一定的成熟度。当然，不同行业在全球范围内也有相对一致的应用场景，比如零售业多年来一直在使用计算机视觉来检测自助结账时的盗窃行为。然而，零售业中也正在发生更多的创新，我认为这非常酷。

去年底，我与一家零售商合作，他们在所有门店的VMware堆栈上运行他们的关键AI应用程序。令我非常兴奋的是，他们正在探索一种计算机视觉应用程序，通过安装在走廊上的摄像头来识别那些在走廊里逗留过久的人。这很可能意味着这个人需要帮助，就像我在家庭装修店的管道部门一样，我会盯着那堆管道接头看，因为我希望一次就弄对，所以我也是这种应用的目标客户。

技术的工作流程是，在多个VxRail上运行，因此它是本地化的，不会遇到任何推理延迟。当需要采取行动时，它会向相关人员发送短信通知。由于这些人员都随身携带手机，他们会收到一个被称为“催动”的短信，告知他们前往哪个走廊，然后他们会找到顾客并提供帮助。他们已经评估了这项技术的影响，发现采用此技术的商店销售额会有显著提升。这种可衡量的投资回报令人振奋。这项技术正逐渐受到关注，并被多个领域尝试应用。常见的应用场景包括客户服务、企业知识搜索等。例如，有很多内部文档，无论是销售合同还是法律文件等，都在加速处理中。

关于隐私问题，AI确实引发了广泛关注，并涉及一些复杂的问题。许多人担心自己的知识产权被用于训练竞争对手受益的模型。在考虑这个问题时，一个零售业CIO与我分享了他的经历。他曾使用基于SaaS的AI服务来处理客户需求并生成邮件。然而，他后来发现竞争对手的邮件使用了与他相同的语言，这意味着他们可能使用了相同的AI服务。

因此，我们需要重新思考这个问题。我们希望能够利用历史数据和与客户的沟通方式，调整模型以捕捉我们的独特声音。在VMware环境中，保护关键知识产权——源代码的隐私性至关重要。为了确保源代码的隐私性，我们采用了开源技术，如StarCoder，以避免数据共享和外部隐私泄露。这也符合数据主权的要求，政府在这方面也提出了相关规定。这是客户的一个关键关注点，因为他们希望保持对数据的控制，并避免将数据转换为专有数据格式，以便利用AI的优势。这样做的好处是，当更好的解决方案出现时，他们可以更容易地进行更改，而不会面临高昂的成本。

访问控制确实是一个棘手的问题，我们不得不承认，在技术层面，我们还未达到应有的水平。以RAG等基于搜索的生成式AI应用场景为例，运行一个使用提升权限收集数据、填充向量数据库的软件轻而易举。但这里的问题是，若我使用这些提升权限收集的数据，随后一个权限较低的用户开始对该模型进行查询，这就相当于为黑客打开了一扇后门，风险极高。

在实际操作中，如美国联邦政府等机构，对安全许可级别的要求极为严格。若存在不同的安全许可或级别，每个级别都需使用不同的模型。甚至在同一个模型或聊天接口内，也不允许出现任何数据中毒的风险。这也促使我们更加倾向于采用私有化AI方案。VMware并非此方案的发明者，事实上，微软早在2017年就已开始探讨私有AI。我们认为，这是一种行业趋势，不仅限于私有云。在AWS的虚拟私有云上运行私有AI同样可行，这样既保留了AI的业务价值，又满足了组织的隐私和合规需求。因此，保持数据控制、隐私和合规性至关重要。

观众：Chris，关于你提到的访问控制观点，我深表赞同。为确保数据特权级别，我们需要为不同级别的数据训练单独的模型。这意味着每个模型都是在相应的访问权限级别上进行训练的。因此，我们可能会训练多个模型，并在多个模型之间进行推理。对于拥有多个安全级别的公司，如情报服务等，

这种方法已成为他们的实际选择。尽管许多人仍在摸索中，面临未知的恐惧，但这确实是目前最可行的方式。回顾早期虚拟化的发展历程，当时组织面临着PCI合规性工作负载的挑战。为确保通过合规性审计，一种常见的解决方案是将PCI合规性工作负载放置在专用的物理集群上，实现物理隔离。在AI领域，我们也看到了类似的方法。尽管这种方法可能被视为过于保守，但组织不希望出现混乱，这是其背后的核心理念。

接下来，我想就隐私问题发表一些观点，然后转向VMware的方法和正在进行的演示。除了隐私之外，我们认为选择的权利同样重要。这意味着用户可以选择在平台上运行的软件，以及可能使用的不同AI加速器的硬件。这是至关重要的，因为垂直集成的解决方案，如一个AI模型、一个软件堆栈，直到硬件堆栈，我们认为这是不切实际的。我们必须保持选择最佳的能力，利用多种不同的软件空间，这些空间更具垂直性或应用场景导向。我们不能仅仅将自己锁定在单一的垂直堆栈中。

成本是一个极为关键的考量因素。在我们所观察的私有AI领域，相较于现有的某些公共AI服务，其成本可能减少高达三分之一。我们已进行了基准测试，并与第三方合作，以收集这方面的数据，进一步验证这一点，甚至可能调整我们的一些假设。当能够开始为AI基础设施带来自身的成本优化，并将其保留在内部时，这里蕴藏着巨大的节省潜力。

性能同样至关重要，无论应用于虚拟环境还是非虚拟环境。当然，我们必须确保满足合规性需求。之前提到的一些应用场景……

观众：Chris，关于你最后的问题，你认为这很重要，这是从客户那里听到的需求，还是VMware的观点？

这已经得到了客户的验证。在制定我们的战略时，我们与40家不同的客户合作，这些客户已经拥有各式各样的AI应用场景。我们通常与首席数据官交流，如果他们没有这个职位，则可能是CTO或其它类似人员。此外，我们还借助第三方与200个不同的客户就这些需求进行了沟通，从而能够汇总数据，形成我们的初始立场。

观众：这一切都来源于你当前的客户群体？

甚至包括非VMware客户。这是非常重要的，因为仅与现有客户交流可能导致确认偏见。因此，我们从绝对客观的角度看待创新，探索我们可能忽视的方面。这在过去几年里对我们帮助很大，确保我们在第一次就做出正确的决策。因为我们与整个行业进行了广泛的验证，而不仅仅是VMware客户，以确保我们走在正确的道路上。如果我们的方向有误，我们将毫不犹豫地放弃或转变方向。

关于上下文解析，每个人都有这样的应用场景，都希望减少对支持团队或帮助台的依赖。这不仅具有明显的业务价值，而且大型语言模型可以取得相当显著的效果。在VMware内部运行的语言模型，我们能够针对内部文档WIKI进行查询，甚至为你创建围绕不同产品集成的代码示例，所有这些都依赖于一个开源语言模型。

典型的工作流程是选择一个LLM，并使用特定领域的数据对其进行微调。我们认为这将为行业带来巨大动力，并将看到更多行业特定的语言模型出现。同时，我们也可以看到谷歌等公司的新架构，他们采用顶层模型，将请求发送到不同的更具领域特定导向的模型，以获得更快速和准确的结果。然后，我们可以部署该LLM进行推理，这是非常重要的。因为很多时候，人们认为AI训练需要数十到数千个GPU，但实际上并不完全如此。例如，我们可以使用两个A100进行模型微调，并且只需半天的时间。在运行推理工作负载时，我们通常只使用一小部分GPU，这正是虚拟化等技术开始发挥重要作用的地方。推理是一项全天候进行的工作负载，是一个持续的过程，因此我们不希望将整个架构都集中在训练上，因为训练只是偶尔进行的活动。

观众：Chris，能否为我解释一下调优、上下文窗口、向量数据库以及RAG解决方案之间的区别？调优和RAG是两个不同的概念吗？

当然可以。对于RAG来说，实际上我并不需要针对模型进行微调。我们可以利用基础模型，例如我们当前使用的WizardLM这一开源模型。由于模型拥有足够的参数，它能够创建有效的查询，并从数据库中提取所需信息。因此，RAG也将采用向量数据库，使我可以利用数据库中对象组的相似性，帮助模型确定搜索目标。通常，在RAG架构中，当获得结果时，它还会——这是VMware内部引擎的工作原理——提供模型如何得出该答案的链接或参考。

RAG极大地简化了整个流程，因为它降低了设置和获取AI价值和好处的专业知识要求。这是我们公司重点关注的应用场景之一，因为几乎任何行业都可以找到RAG的应用场景。

观众：你提到RAG和微调是相对的，可以互相替代？

确实，你可以使用微调模型与RAG结合使用，但这并不是必需的。

在选择合适的私有AI解决方案时，我认为适应性是一个关键要素。鉴于该领域的快速发展，我们不能将自己局限于限制数据、控制和模型选择灵活性的解决方案，无论是商业的、开源的还是云端的。一个灵活的解决方案至关重要，这不仅是我们内部应用场景的需求，也是客户的关键要求。

观众：最后一个问题，能否简要描述一下技术实现方式？例如，该模型如何提供服务，是否利用了虚拟化支持来支持NVIDIA GPU等？它是如何运作的？

关于技术实现方式，并没有一个固定的标准答案。我可以使用像NVIDIA NeMo软件这样的模型服务，这是客户常用的一种方式。客户还会使用许多MLOps工具，其中许多与VMware生态系统中的合作伙伴有关。我们也在内部进行了一些开发工作，为堆栈提供了这样的能力。此外，我们还与一些合作伙伴展开合作。因此，我可以使用IBM Watsonx进行模型服务和管理，并在我们的堆栈上运行。我们的重点是，在我们为生态系统增加价值的地方，寻求更深入的合作伙伴关系。我们并不试图解决所有问题，实际上，我们的合作伙伴也更喜欢这种方式，因为我们不是他们的直接竞争对手。在我们关注的领域中，我们提供了明确的价值。

VMware私有AI简介

VMware私有AI将计算能力与AI模型带至企业数据产生、处理与消耗的核心地带，无论这些数据位于公有云、企业数据中心还是边缘设备。VMware私有AI涵盖了产品供应（如与NVIDIA携手打造的VMware私有AI基础套件）及开源参考架构，旨在协助客户通过支持最佳开源软件（OSS）技术，实现其当前的AI目标及未来的愿景。VMware所构建的互联且开放的生态系统，为客户在AI战略中提供了灵活性与选择权。

VMware全球AI与高级服务负责人Chris Wolf详细介绍了公司于2023年8月推出的私有AI倡议。该倡议致力于推动通用AI的民主化，并在确保隐私与控制的同时，激发各行业的业务创新。VMware专注于提供AI基础设施、优化、安全、数据隐私和数据服务，而将高级AI服务留给AI独立软件供应商（ISV）。这种非竞争性的策略使得VMware与ISV的合作更为顺畅，因为VMware并不与他们直接竞争顶级AI服务的提供，这与公有云的模式形成鲜明对比。

Wolf分享了一个关于VMware代码生成的实例，软件工程师利用基于开源模型的内部解决方案，实现了对ESXi内核92%的接受率。他还深入探讨了治理与合规性在AI生成代码方面的重要性，并提及了VMware的AI委员会及其治理实践。

他进一步强调了跨行业的呼叫中心解决方案和高级信息检索等应用场景。VMware的解决方案突出了灵活性、硬件和软件的多样性选择、简化的部署流程以及降低的风险。Wolf特别指出，VMware能够在短短三秒内建立一个AI集群，并加载预装的模型，这在公有云或裸金属环境中是难以实现的。

讨论还涉及了VMware私有AI在大型企业内管理多个AI项目的优势，包括高效的资源利用率和与现有运营工具的集成，从而降低了总拥有成本。

Wolf还谈到了边缘AI的采用趋势，以及VMware堆栈内安全功能的重要性。他强调，VMware正在构建一个精心策划的合作伙伴生态系统。他指出，通过将AI模型带至数据已经驻留的地方，如VMware云基础架构（VCF），VMware的私有AI解决方案能够充分利用现有的IT投资。

-----

我们在2023年8月推出了私有AI。我们的目标是普及AI，并激发各行业的业务创新。在这一过程中，我们认识到隐私和控制对于许多组织至关重要，这也是VMware希望集中关注并提供支持的领域。

普及化同样关键。我们观察到，许多AI独立软件供应商（ISV）非常愿意与VMware合作，因为我们在AI基础设施、优化、安全、数据隐私和服务方面并不与他们直接竞争。我们明确表示，顶级AI服务是你们的领域，而我们在AI基础设施等方面提供支持。这种合作模式在公有云环境中尤为重要，因为公有云通常提供顶级AI服务，与ISV构成直接竞争关系。对于ISV而言，选择与VMware合作并进入客户环境，需要建立信任。VMware清晰的定位有助于解决这一问题。

在实际应用方面，我想分享一些关于代码生成的案例。许多组织都在探索这一领域，我们也看到了各种情况。以VMware的第一个代码生成案例为例，我们针对C开发的ESXi内核进行了尝试。我们选择了一个极具挑战性的使用案例，希望我们的软件工程师能够从中受益。当我们开始采用基于开源模型的内部解决方案时，软件工程师的接受率高达92%。这让我们备受鼓舞，证明了我们可以在有限的预算内实现高效的价值。

观众：我想提出一个问题。你在ESXi工程师中获得了92%的接受率，我非常好奇，这个生成的代码是否真的被推送到了ESXi内核中？如果有的话，比例是多少？它又为你们节省了多少时间？你是否有相关的数据可以分享？

为了深入了解这一问题，我们进行了一项试点项目，并正在进行额外的测量。当时，我们关注的是能够严格控制的AI代码开发领域。对于VMware而言，一个优势是我们内部进行了复杂的代码扫描，以确保合规性。我们在开源合规性方面投入了大量精力，确保对使用的任何开源代码都有适当的引用。由于我们有这些内部流程，因此能够取得一些早期的成功。目前，我们仍在努力确定如何为AI生成的代码提供适当的引用，并推动这一领域的发展。

和许多企业一样，VMware也具有一定的探索精神。我们关注了GitHub Copilot，这也是我们持续关注的领域。然而，我们最初的使用案例主要集中在上游开源，因为这不会对我们的知识产权或其它方面产生任何影响。VMware设有AI委员会，并制定了相应的治理实践。在这个领域，我们认为自己领先于许多尚未建立此类治理机制的公司。这是一个持续努力的过程，但无疑我们已取得了显著的进展。

至于呼叫中心的解决方案，每个组织都有这方面的需求，无论是高级信息检索还是处理医疗保健、法律、销售或客户支持等领域的数据。能够快速为技术支持人员提供答案具有实际的商业价值。我们的解决方案可以为你提供帮助，并且在数据收集方面，你也有许多开源解决方案可供选择。例如，围绕LlamaIndex的开源社区提供了许多数据收集器，这些解决方案通常可以在几周内甚至更早地启用。因此，这些早期使用案例展示了其强大的潜力。

从VMware解决方案的特定优势来看，我们追求的是灵活性和选择性。无论你选择运行解决方案的硬件还是软件，我们都希望组织能够进行一次AI基础设施投资，并享有更多的选择权。商业AI服务、云AI服务或开源AI服务，不同的业务线可能有不同的优先事项或偏好。因此，再次投资单一基础设施对于实现性能优化、简化部署以及降低风险至关重要。

在部署方面，我们正在做一些其它公司尚未涉足的事情。这也涉及到部署和性能。我们可以在大约3秒钟内启动一个AI集群，并将你的模型预加载到内存中。这在公有云或裸机上都是无法实现的。我们从行业合作伙伴那里了解到，在裸机上完成这一操作需要五到七分钟。

观众：关于AI运营，并非指AIOps，而是关于如何最佳地管理IT环境中的AI实践。在与众多大型企业交流中，我了解到他们进行了许多AI项目，大约十几个。那么，你能详细介绍一下VMware私有AI在同时管理多个项目时的优势吗？当面临三四家不同的ISV带着不同的想法和方案时。

当开始为每个项目使用一个集群项目或云服务时，就无法做到这一点，因为这些资源的实际利用率会出现高峰和低谷。

客户选择VMware的主要原因有两个。首先，我们拥有虚拟基础设施层，这意味着客户可以更加智能地管理内存访问、GPU访问以及网络容量需求，并在这些不同的应用场景之间实现智能分配。正如我之前提到的，对于推理应用场景，可能只需要部分GPU资源，而VMware在这方面的技术非常成熟，例如DRS，它可以根据不同工作负载的容量需求进行负载均衡。其次，从管理操作的角度来看，客户不希望为AI工作负载建立独立的操作孤岛，因为这涉及大量的资金投入、新工具、新流程等。通过VMware，客户可以利用现有的工具集和长期运行的流程，从而避免投资于全新的工具孤岛。

这两点因素使得我们的客户期望通过我们的堆栈实现更低的总拥有成本。第三点是选择权。我们专注于这些领域，并希望与合作伙伴在这些领域建立合作关系。这同样令客户感到兴奋，因为他们不希望被迫接受单一的AI堆栈，而是希望保留自己的数据和选择的仓库，同时能够引入AI应用服务。

此外，我还想补充关于现代生成性AI与传统AI的区别。传统的AI主要面向数据科学家，而生成性AI则彻底改变了这一局面，应用程序成为了主要的消费者。这导致一些传统AI工具不再是最优选择，而新一代的MLOps工具则更加面向应用程序开发人员。我们认为这些工具的重要性将日益凸显。

观众：你在某种程度上正在拓展业务领域，不再仅限于技术提供商的角色，而是正努力成为客户的解决方案提供商。

是的，但并不仅仅如此。我们也在支持解决方案提供商，积极推广开源技术。我们正在为所有的GSI合作伙伴创建参考架构和指南，并提供我们的应用程序供他们使用，甚至考虑将其开源。系统集成商可以根据需要自定义和支持这些应用程序，并将服务销售给客户。我们在能够增加价值的地方投入资源，分享我们在行业中的最佳实践，以便其它人也能从中受益。

观众：我想进一步探讨你之前提到的几个观点。这些观点在学术研究和与客户的交流中经常听到。在我们的对话中，你谈到了AI如何影响分析领域，这确实非常准确。但在谈到私有AI时，我注意到你并未提及如何最大化现有的IT投资。很多组织在大力推广AI或LLM之前，已经成功运用并建立了数据湖、商业智能模型等。VMware拥有将这些现有数据湖与新的AI模型连接的能力。我非常希望听到更多这方面的内容，因为这涉及到客户应用场景的演变，从他们当前的状态到尚未开发的市场机会。当然，未开发的市场机会很有吸引力，但更为关键的是那些能够推动行业发展的前期机会。

你提到的观点非常到位。实际上，这是VMware在应用场景方面的一个重要优势。许多客户希望将AI引入他们已有的数据环境中，而这个环境往往基于VMware。因此，他们希望能够在现有的VMware环境中直接应用AI模型。

以我之前分享的零售案例为例，他们不希望将所有店铺的数据传输到中央数据湖中进行推理，而是希望能在本地进行快速响应。每家店铺的AI处理仅需两个GPU。这是一个正在运行的AI场景，处理24到36个走廊上的摄像头数据。虽然我不能透露具体的走廊数量，但这样的应用场景正在不断增加，对VMware来说具有巨大的价值。客户希望我们能够介入并提供支持。

观众：我想再次明确一下我的问题，你是否有关于未开发的市场机会与现有机会比例的具体数据？也就是说，客户如何利用他们现有的投资来实现私有AI的应用？

你提到了客户在大约一年前就开始在本地部署AI的比例，这在不同行业中介于40%到60%之间。这一数据确实令人印象深刻，并为我们自己的AI投资业务案例提供了有力的支持。

观众：我记得你在之前的演讲中提到了私有成本的节省，并且正在委托独立研究机构对此进行深入调查。我非常期待看到这些研究成果。

确实，在这一点上，我想简要提及我们即将进行的另一场演讲，届时我们将深入探讨性能。

此次展示仅针对某一语言模型的推理基准，你所见到的与裸金属相比，在最差情况下，我们仍保持在1%左右的水平。而在另一场演讲中，我们将展示另一个基准，显示我们相比裸金属的性能高出5%或6%，这全赖我们的调度算法以及我们在这一领域所做的努力。

你可以获得所有基于AI的优势，即便是对GPU进行虚拟化和切片，也不会牺牲性能，除非你真的在意那1%。如果是这样，裸金属应用场景当然是一个选择。但如果不是，你依然可以从中受益。

观众：这是关于推理，而非训练。

我们在模型训练方面也有一些基准测试，但今天没有带来相关数据。通常，大型LLM训练会在裸金属或公有云上进行，这并非我们的重点。我们的关注点在于微调模型。因此，微调场景和推理场景是你从GPU虚拟化和切片中真正获得最大好处的地方。若需数十到数百个GPU来训练大型模型，这可能不是虚拟化应用场景，但未来可能会有所变化。当你已拥有现有基础设施并希望将其用于其它用途时，即便可能需要更长时间，但如果已有容量，为何不充分利用呢？

观众：另外，我想请教你是否注意到边缘计算中AI使用率的增加？

边缘使用率正开始上升，尽管边缘技术一直缺乏明确的杀手级应用场景。然而，现在我们开始看到更多实际应用的出现。例如，车辆或火车的主动维护、使用无人机发现森林大火或电力故障等。这些应用场景已存在一段时间，但现在变得更加普遍。我们在制造业中看到了更多应用，甚至在代码开发方面，AI代码辅助也在这些场景中发挥了作用。随着技术的成熟，它开始受到广泛关注。

在解释为何选择VMware时，我还想补充一点，我们已拥有众多安全功能，包括安全启动和虚拟TPM等，这些功能在保护模型和数据机密性方面至关重要。与第三方身份管理的集成可以使用微分隔离和分布式防火墙等技术来隔离你的AI模型和服务，这对于不断发展的组织来说至关重要。

深入思考我们所精心打造的生态系统，我认为其重要性不言而喻。正如我之前提到的，我们专注于AI基础设施及其上运行的服务。我们的Tanzu团队与客户紧密合作，提供定制服务。同时，我们也非常重视合作伙伴群体，今年将有更多合作伙伴加入，共同创造更多价值。这些合作伙伴不仅限于传统ISV，还包括那些在云中运行并意识到大量本地应用场景的企业。他们希望把握这些机会，而与VMware合作是实现这一目标的最佳选择，因为我们始终与客户业务保持紧密联系。

观众：你的私有AI解决方案是基于VCF构建的吗？

是的，我们提供了一套参考架构供客户选择，如果他们希望采取更自助的服务模式，我们也为他们提供了详尽的指引。然而，我们的长远目标是希望客户能够先构建一个高效的基础架构，无论是VM或VMware Cloud Foundation，然后在此基础上部署私有AI，包括GPU和AI服务。建议客户先简化并优化环境，这样他们就能更好地看到成本效益。

观众：现有的VCF许可是否支持这些功能，或者这些功能是否需要通过额外的附加包来实现？

客户可以根据自己的需求使用VCF。我们将推出一个Private AI Foundation，与NVIDIA合作提供附加组件，包括集成的向量数据库支持等额外功能。客户可以从VCF开始，购买附加组件以获得这些功能。对于需要向量数据库的客户，这将是一个额外的优势。我们将所有这些功能整合在一起，提供完整的NVIDIA软件堆栈，确保所有功能都能无缝集成。

观众：Chris，你无需回答这个问题，或许在未来的某次会议中会有人详细讨论。但关于增值和RAG，以及你对基础设施的看法，由于AI很难界定应用程序的边界，而基础设施正是从RAG开始定义的。你提到了向量数据库RAG，这也是我们在讨论启用Tanzu和开发者时集中IT服务的一个重点。换句话说，如何在我们的组织中实施RAG，以及这些开源模型的应用场景。

确实，我们需要对模型进行审批。想象一下，如果一个用于代码生成的基础模型实际上在创建恶意软件，那么这些恶意软件可能会渗透到我们公司应用程序的源代码中，这是一个非常严重的问题。因此，我们必须对分发的模型进行实质上的管理和审批，类似于管理容器注册表。我们可以利用现有技术，确保提供适当的访问控制，防止数据泄露。因此，我们的立场是，中央IT具备专业知识，应该负责为公司其它部分管理这一点。

我想简要介绍一下其它解决方案。虽然我们会深入研究每个解决方案，但为了让大家了解VMware在这里的创新，我们与NVIDIA共同推出了一项名为“带NVIDIA的Private AI Foundation解决方案，这将在技术研讨会的后两个会议中详细讨论。此外，我们还与英特尔合作，我将展示一下用于调整和推理应用场景的架构幻灯片。

最后，关于私有AI与IBM的合作，我们在该解决方案的基础上叠加了IBM的Watsonx服务，这是一个可以在本地部署的示例。这是另一个合作伙伴寻求与我们紧密合作的例子，因为他们有大量的本地应用场景客户。

VMware Private AI Foundation with NVIDIA 概览

VMware Private AI Foundation with NVIDIA是一款全面集成的解决方案，结合了NVIDIA的生成式AI软件和加速计算功能，构建在VMware Cloud Foundation之上，并特别针对AI进行了优化。该方案提供了集成的AI工具，让企业能够定制模型并在数据旁边运行生成式AI应用程序，同时解决了企业在数据隐私、安全和控制方面所面临的挑战。该平台将包含NVIDIA NeMo，结合了定制框架、防护工具包、数据筛选工具和预训练模型，为企业提供了一种简单、经济高效且快速采用生成式AI的途径。

在此次演示中，VMware的Broadcom产品市场工程师Justin Murray深入探讨了VMware Private AI Foundation with NVIDIA。这是一个专注于为企业提供隐私、安全和控制为重点的生成式AI应用程序解决方案。该平台建立在经过AI优化的VMware Cloud Foundation之上，并配备了NVIDIA NeMo用于定制和部署生成式AI模型。

Murray详细解读了该解决方案的架构，包括为数据科学家提供便捷访问工具的自助服务目录、在vCenter界面中监控GPU的功能，以及预装了数据科学工具包的深度学习虚拟机。他特别强调了矢量数据库，特别是PGVector的重要性，这对于RAG至关重要。RAG将数据库技术与大型语言模型相结合，以提供最新和私密的查询响应。

此外，Murray还提到了来自NVIDIA的GPU操作器和Triton推理服务器，它们用于管理GPU驱动程序和实现可伸缩的模型推理。Murray指出，该解决方案的设计目标是让数据科学家和为他们服务的管理员都能轻松使用，重点在于简化AI应用程序的部署和管理流程。

Murray提到，该解决方案与各种矢量数据库兼容，能够与私有数据一起使用，尤其适用于银行等行业。他还透露，全球已有超过60家客户在产品正式发布前对这种架构表示了浓厚的兴趣。

此次演示的目的是提供关于VMware Private AI Foundation with NVIDIA的技术细节，包括其组件、应用场景以及为希望在保持对数据控制的同时采用生成式AI的企业所带来的好处。

-----

我将详细介绍我们与NVIDIA的合作情况。Chris已经为你概述了这个架构，现在我将深入一些技术细节。

这个架构大致可分为四个层次。在顶部是模型的选择，而在底部，各大硬件供应商已经投入资源，为NVIDIA AI Enterprise编写了部署指南。这个软件包已经存在两年了，它是基于VMware Cloud Foundation构建的，而VMware Private AI Foundation则是其进一步的优化和补充，特别针对大型语言模型和生成式AI。

其中，蓝色层是VMware提供的概要，这也是我之前提到的附加组件，作为VMware Cloud Foundation的扩展，专门为大型语言模型和生成式AI设计。这一层包括深度学习虚拟机、矢量数据库PGVector（这是RAG的核心）、自助服务目录等关键组件。自助服务目录是我们解决方案的灵魂，它让数据科学家能够以极简的方式快速启动他们的工具和平台，无需担心网络或磁盘空间。只需将工具放在他们面前，这就是自助服务目录的全部意义。这与公有云提供的LLM类似，也是我们有意为之的设计。此外，我们还提供GPU监控功能，通过vCenter界面，你可以实时查看数据科学家是否正在使用GPU，以及他们是否真正需要所声称的GPU资源。

在蓝色层之上是绿色层，我们称之为NVIDIA层。这里汇聚了NVIDIA即将推出的众多产品创新。关于在NVIDIA环境中将模型部署到生产环境的问题，答案是Triton推理服务器。它是一个多线程、多模型的应用程序服务器，每个GPU类型一个，通过gRPC API呈现。GPU操作员将涉及这些操作，而Kubernetes在这里扮演着至关重要的角色。当进入生产阶段时，NeMo框架（在NVIDIA术语中代表神经模块）将发挥关键作用。神经网络是核心，Transformer也是其中的一部分。TensorRT作为模型的优化编译器，能够将模型从32位精简到8位，以便在生产环境中更高效地运行。

接下来，我将通过演示来展示其中的一些内容。这是我们与NVIDIA的高级架构。正如Chris所指出的，其它供应商也有其它架构，这只是其中之一。我将为你详细介绍。

观众：关于你的问题，NVIDIA的私有AI解决方案是否与开源语言模型兼容？

答案是肯定的。我将向你展示如何从Meta下载Llama 2，NVIDIA也有他们自己的大型语言模型，名为NeMo。你可能听说过Megatron，这是他们高端模型的名称。因此，他们拥有一整套这样的模型，其中一些甚至针对特定的GPU进行了定制。在我的演示中，我将使用其中一个模型。

对我来说，我特意要强调的亮点是自助服务目录，它基于VMware Cloud Foundation工具中的Aria Automation，特别是Aria Automation中的Service Broker功能，它允许你轻松构建所需的界面组件。我希望将这个功能呈现给数据科学家或为他们提供服务的管理员，这个界面是由熟悉Aria的人员构建的，通过向导操作完成。我们已经为你准备好了这个向导。

观众：当你提到的管理员的时候，你是指DevOps人员吗？

是的，DevOps人员，可能是平台工程师，或者是经常在Kubernetes上工作的人员。但现在我们的目标是为数据科学家提供一个友好的用户界面，这也是我们解决方案的主要受众之一。我们有两个目标用户群体，一个是数据科学家本身，另一个是为数据科学家提供服务的人员，也就是运营这个平台的团队。

观众：明白了，谢谢你的解释。

我们在设计中确实考虑到了这两方面的需求，你会在接下来的演示中看到更多细节。

观众：那么这个自助服务目录是通过API驱动的还是只是一个图形用户界面（GUI）呢？

它当然支持API接口，并且我们可以利用这个API进行集成。在接下来的演示中，我会向你展示更多与API相关的内容。

观众：那么DevOps人员可以使用这个API来驱动和启动一个Kubernetes集群吗？

完全正确，可以。你所提到的API，它是用来启动我们称为云消费界面（CCI，Cloud Consumption Interface）的集群的。在接下来的演示中，你会看到它的运作过程，所以请跟随我的节奏。

数据科学家希望的操作尽可能简单，我会在演示中详细展示这一点。他们会根据自己的需求做出选择，比如他们可能希望只需要一个简单的虚拟机来工作，或者他们可能需要一个完整的Kubernetes集群来支持他们的工作。

在这些基础设施背后，我们提供了一组深度学习虚拟机，我们将以OVA格式发送给你。OVA是开放虚拟化架构（Open Virtualization Architecture）的缩写，它是一种用于分发虚拟机的标准打包机制。因此，作为与NVIDIA合作的Private AI Foundation的一部分，你将收到我们提供的一组虚拟机。

这些虚拟机内预装了各类数据科学工具包，包括广受欢迎的TensorFlow和PyTorch，我将在接下来的演示中为你展示。对于数据科学家来说，Jupyter Notebook已成为进行数据科学工作的标配，特别是结合了Python的Jupyter Notebook。你可以选择使用Conda或Docker引擎进行虚拟化，只需运行单个容器，或者通过Kubernetes来管理多个容器。

值得一提的是，我们提供了一些预制的、经过优化的深度学习虚拟机，你可以轻松地创建并投入使用。这些虚拟机是由VMware提供的，并在我们的方案中有所体现。

关于更新问题，这些虚拟机会从VMware的全局目录中进行推送。我们会持续维护、更新和修复这些虚拟机，并将它们保留在存储库中供你获取。实际上，在我开始演示之前，我已经将这些虚拟机下载到了我的vCenter中，你稍后就会看到。

关于矢量数据库，我们已经进行了深入的讨论，并认为它是RAG的核心组成部分。检索功能由数据库部分实现，而增强则依赖于模型部分。它们协同工作，以更好地回答你的问题。我认为RAG的方式在处理相关问题时非常有效，稍后我会为你展示更多细节。我们之所以如此关注这一点，是因为它确实是一种微调技术，而且有多种实现方式，如P-Tuning（Prompt Tuning），即向模型应用额外的数据。矢量数据库和RAG所展现出来的优势，以及我们从不同信息来源听到的反馈，都使其成为进行LLM和大型语言模型工作的简单入门方式。

在实际操作中，用户或客户通过一个客户端应用程序，如聊天机器人，输入问题。这个问题被转化为一个提示，但这个提示并不直接传输到数据库或其它地方。提示是一个句子，会被分解成单词，这个过程称为标记化。这些标记随后被转换成数值，即嵌入式数值。所有这些工作都由右侧的嵌入式模型完成，它理解你的问题并将其转换成数值，这些数值随后被传输到向量数据库。

我的图表中没有显示的是，我的私人文件、我的私人数据加载到向量数据库中的过程，这也将涉及嵌入式模型，因为我的私人文件是用英语或HTML编写的，它们将提前加载到数据库中。所以，当我发送查询请求到数据库，要求提供关于尚未发货的vSphere 8 Update 3的所有信息时，这些就是我的私人数据。向量数据库能够进行相似性搜索，它会判断我对VSP 8 Update 3的兴趣，并检查我的数据中是否有索引到该主题的文件。当然，我们已经将我们的内部数据加载到数据库中，所以它会将相关文档返回给客户端应用程序。客户端应用程序会将这些文档发送给大型语言模型进行总结，然后数据库的结果被发送到大型语言模型中处理，并呈现一个简洁的总结。

假设你坐在客户联络中心，有客户打电话来询问：“vSphere 8 Update 3有哪些特性？”而你旁边的同事对此一无所知。此时，你打开你的LLM问：“Vere 8 Update 3有哪些特性？”（实际上vSphere 8 Update 3是几个月后的一个版本）。模型会回应：“这里是特性列表。”这一功能对于客户联络中心来说非常关键，因为它能帮助解决客户在网上或现有模型中找不到答案的问题。

观众：这对于大型企业采用LLM来说，是一个非常关键的过程。以金融服务公司为例，假设该公司拥有一个LLM，并且顾问团队需要与客户会面。利用这一模型，公司可以为每个客户创建独特的数据库或RAG实例、矢量数据库，并根据每个客户的特定需求调整模型。因此，当客户提出：“如果我们按照历史流程，即按照X、Y和Z去做，我的税收负担会是多少？”这样的问题时，公司能够以非常私密和个性化的方式为他们提供答案，甚至可能仅在一台笔记本电脑上完成，这主要取决于模型和参数的大小。

确实，随着技术的进步，笔记本电脑的处理能力也在不断提升。想象一下，一个财务顾问使用他们金融机构提供的私人报告，这些非公开报告加载到数据库中，可以为客户提供针对性的解答。这是一个很有前景的想法。

观众：在今天的演示中，你所使用的矢量数据库可以是任何类型，或者是特定？还是有限的类型？

我们在这方面非常开放。接下来，我将为您展示一个开源的矢量数据库。而在矢量数据库领域，我们有一个特定的产品，恰好为我提供了一个完美的过渡话题，那就是PGVector。

最后，我想强调，如果这种技术基于数据库，并结合加密和基于角色的访问控制，那将更为理想。因为处理的是私人数据，如私人银行报告，这些数据在外部世界中是不可见的。

我们正与PostgreSQL合作，这是一个已具备加密和基于角色的访问控制功能的数据库。这样，你可以确信数据的安全性。我们在其基础上增加了一层，将PGVector作为一个容器，你可以通过Docker或Kubernetes启动它，它连接到PostgreSQL并提供向量接口。这个向量接口用于相似性搜索。

例如，当你搜索“vSphere 8 Update 3”时，它会为你展示与之相似的文档。我们将使用VMware Cloud Foundation中的数据服务管理器工具进行配置，它的界面就像你所看到的这样。我已经请我的朋友Michael West为我展示一个已经配置好的PostgreSQL数据库，该数据库已准备好与PGVector容器连接，并计划用作向量数据库。值得一提的是，这个工具不仅限于为PostgreSQL提供配置，而是适用于多种不同的数据库。

在推出过程中，我们共同面临的一个问题是关于私人数据与公开数据之间的转换。例如，如果计划进行一项推广活动，我们可能需要在私人数据上进行处理，直到数据可以公开为止。届时，我们只需简单地输入查询语句，如“显示所有即将在星期三推出的文档”，系统便会自动展示相关结果，无需额外操作，这将极大地方便我们的工作。

观众：这是我们在某次发布期间共同遭遇的问题。将私有数据转换为公共数据究竟有多大的难度呢？如果我打算进行一次发布，我们似乎可以在私有数据上开展工作，直到所有数据都转换为公共数据，从而让公众得以访问。然而，随后我们必须将数据从私有状态转变为公共状态。如果我们可以简单地说一句“给我所有即将在周三发布的文件”，然后它们就会悉数出现在我们面前，无需任何其他操作，那无疑会是非常理想的情况。那么，实际情况是否真的如此简单，能够轻松地将私有数据转换为公共数据，还是会遇到诸多挑战和困难呢？

实际上，这是完全可行的。从右边的大型语言模型来看，我们之所以引入向量数据库，是因为该模型是在两三个月前训练的，因此并未涵盖我的最新私人数据。现在，我可以在后台重新训练该模型的一个新版本，并使用即将公开的数据进行训练。在推广活动的前一天，将新模型投入生产并进行必要的测试。这样，我就无需依赖RAG数据库，因为我的模型已经更新至最新状态。然而，值得注意的是，模型会随时间而逐渐过时。这种方法的优势在于，一方面，我的数据和向量数据库的内容始终保持最新；另一方面，模型始终保持活跃，持续处理并反馈给我的词汇，同时确保数据的私密性。

观众：为什么选择PostgreSQL而非Greenplum？

Greenplum实际上是PostgreSQL的一种分布式形式，允许多个PostgreSQL实例并行运行。在我们的私有Aria产品的首个版本中，我们计划使用PostgreSQL。未来，可能会考虑以分布式的方式进行部署。

观众：我对你的描述感到非常赞赏。这不仅是一种非常实用的方法，还具有很高的学术价值。从VMware的角度来看，了解客户的使用案例、当前客户的需求以及市场趋势是非常有益的。

上周，我接到一家大型银行的电话，他们表示希望使用RAG和向量数据库。作为银行，他们拥有大量的私人数据，并希望为柜员和其它代表提供一个聊天机器人，以便更好地回答客户的问题。这只是我们与客户讨论此类架构的众多案例中的一个。

观众：你是否在内部进行了相关分析，以了解对此技术的需求范围？

其它部门的人在处理，我没有相关信息。

观众：这对我们的对话至关重要，因为技术堆栈的构建再出色，如果没有市场购买和使用，其价值也将大打折扣。

确实，你的观点非常有道理。不仅我们重视这种特定的架构，就连与NVIDIA的交流中，他们也会强调RAG的重要性。例如，在去年的GTC大会上，目录上近20个关于RAG的演讲就证明了其受欢迎程度。

全球已有超过60家客户在使用这项技术，尽管它尚未正式发布。这确实是一个相当大的市场。它涵盖了各个行业，最常见的应用场景是通过带有聊天接口的RAG处理私人数据。这对我们开始的对话非常有帮助。

我们将提供一系列指导建议，其中包括VMware Cloud Foundation中的SDDC管理器。对于我来说，SDDC管理器是一个令人敬畏的工具，因为它涉及到数百甚至数千台服务器。许多大型企业使用它来划分其VMware环境，例如市场营销工作负载域、商业智能工作负载域等。这也是我们在与用户交流时经常关注的一个点。

我们将提供部署指南、用户手册和快速入门指南，以指导如何执行我前面提到的所有步骤，例如部署深度学习虚拟机、搭建向量数据库等。同时，工具本身也会提供具体的操作指南。

最后一个话题——GPU监控。我们已经满足了数据科学家的需求，为他们提供了所需的工具和平台。他们建立了模型，并正在使用这些模型进行推理。

我们想要展示的是，在性能优先级列表中，除了CPU消耗和内存消耗外，现在还包括GPU计算消耗和GPU内存消耗。因为这些设备成本高昂，特别是高端的H100设备。我们希望确保这些设备得到充分利用。

与其给你灌输更多的学术知识，我更愿意通过实践来让你了解。接下来，我会向你展示这些技术在实际应用中的运作情况。

在此之前，我想先简要介绍一下NVIDIA的一些组件。GPU运算器已经存在好几年了，我从0.1版本就开始使用它了。这个工具非常出色，因为在使用NVIDIA栈时，你需要管理两个驱动程序：一个驱动程序用于ESXi，另一个驱动程序用于运行GPU的每个虚拟机。但在Kubernetes环境中，GPU运算器会接管这些驱动程序的管理，它会负责安装客户驱动程序，管理其健康状况，并在Kubernetes的Pod中运行。这样，你就不需要再将驱动程序安装到客户操作系统中了。当我第一次接触到这个工具时，我深受震撼，因为我多年来一直在不断将驱动程序安装到虚拟机中。有了GPU运算器，我只需告诉它这是我的Kubernetes集群，以及我需要的GPU，然后它会处理剩下的事情。这极大地简化了我的管理工作。

刚才有先生问到了推理时间的问题。推理时间是所有训练时间的回报，是投资，是发展。而推理时间是生产，我们希望生产是可扩展的，而NVIDIA的Triton推理服务器正是为此而设计的。

例如，我跨两个GPU部署了它，并在每个GPU上放置了一个Triton推理服务器。它是模型驱动的，这一点非常重要，因为我希望有一个包含不同版本、不同数据集的模型库，而不仅仅是一个模型。在组织中，可能会有数十甚至数百个模型，你需要对这些模型进行控制。MLOps供应商会处理这些需求，但他们需要一个存储库。NVIDIA在这里创建了一个高度可扩展的推理服务器，它拥有API接口，你可以通过API或客户端应用程序访问你的模型。客户端应用程序位于右侧，它们插入查询、提出问题，适当的推理服务器会接收并处理这些问题，并代表你执行模型。

观众：可以采取哪些限制措施，或者这是否完全取决于应用程序在模型之前是否已添加了限流措施来防止过度饱和？

限制措施的问题确实值得深入探讨。实际上，NVIDIA提供了一系列的技术手段来帮助实施这些措施，尽管我在这里并未详尽展示。这些技术可以有效地预防偏见，并在很大程度上解决偏见问题。此外，它们还能够检测并排除拒绝服务攻击，确保你的模型安全无虞。NVIDIA提供了一系列最佳实践和技术支持，为你的模型提供全方位的保护

VMware Private AI Foundation与NVIDIA演示

此次VMware Private AI Foundation与NVIDIA的联合演示，专为数据科学家用户以及VMware系统管理员/DevOps人员设计。数据科学家可通过自助门户或借助VCF系统管理员的协助，在VMware Cloud Foundation（VCF）上迅速复制其LLM环境。演示中，我们展示了VCF管理员如何为数据科学家提供一组虚拟机（VMs）。这些虚拟机是基于深度学习虚拟机映像以全新的自动化方式创建的，并预先激活了所有深度学习工具和平台。此外，我们还演示了在这个设置上运行的小型LLM示例应用程序，为数据科学家提供了一个工作上的快速启动。

在此次演示中，由产品营销工程师Justin Murray主持，展示了VMware Private AI Foundation与NVIDIA技术的结合。演示的核心目的是凸显最终用户，尤其是数据科学家，如何从中获益。以下是演示中的关键要点：

应用程序演示：首先展示了一个由LLM驱动的聊天机器人应用程序，该应用程序运用了RAG（RAG）技术。演示表明，在更新知识库后，该机器人能够更精确地回答问题。
深度学习虚拟机：演示重点强调了预装有深度学习工具包的虚拟机（VMs）的重要性。对于数据科学家而言，这些虚拟机至关重要。这些虚拟机可以通过Aria Automation进行快速配置，并且可以根据数据科学家的具体需求定制具备特定工具包的虚拟机。
容器与虚拟机结合：解释了该解决方案结合了容器和虚拟机的使用方式。NVIDIA组件作为容器提供，既可以通过Docker运行，也可以集成到Kubernetes集群中。
Private AI Foundation的可用性：Private AI Foundation与NVIDIA被提及为即将上市的产品，预计本季度推出。已有部分客户获得提前访问beta版本的机会。
自动化与用户界面：演示中展示了Aria Automation工具，该工具允许数据科学家或DevOps人员通过直观界面请求资源，并选择所需的GPU功率。
GPU可见性：演示以查看GPU可见性作为结尾，展示了vCenter如何用于监视主机和VM级别的GPU消耗。这对于管理LLM操作中的资源至关重要。
客户使用与功耗考量：该解决方案对于数据科学家和共享基础设施（如Kubernetes）均具吸引力。同时，也承认功耗是使用GPU的人员所关注的重点。

VMware Private AI Foundation与NVIDIA共同致力于简化数据科学家部署和管理AI应用程序及基础设施的过程，提供自动化、隐私和性能监控工具的全面组合。

-----

我们将展示一些VMware Private AI Foundation与NVIDIA技术的相关内容。

我将从一个应用程序开始，展示终端用户所看到的内容，以及数据科学家为公司业务用户所创建的应用。首先，我们将看到这一点，惊喜的是一个带有前端聊天窗口的RAG应用程序，稍后我们会详细展示。接着，我们会深入了解支撑这一切的构建模块，即深度学习虚拟机，其中预装了满足数据科学家需求的工具包。然后，我将使用之前提到的Aria Automation工具来自动化这些虚拟机的提供过程。最后，我们会深入探索GPU的内部运作。

观众：关于容器与虚拟机的使用，这个解决方案是主要依赖于容器、虚拟机，还是两者的结合？

这个解决方案是容器与虚拟机的结合。你可以将虚拟机视为Kubernetes集群中的节点，在这些节点上运行包含容器的Pod。当我们在VMware上部署Kubernetes集群时，我们部署的是能够运行Pod的虚拟机，而Pod是容器的集合。容器和虚拟机在这里非常自然地结合在一起。如果你想知道我们是如何发布这一切的，NVIDIA组件是作为容器发布的，它们可以使用Docker作为独立容器运行，同时它们也是微服务，可以非常容易地集成到Kubernetes中。因此，这个解决方案是容器和虚拟机的完美结合。

观众：你提到了Triton推理服务器，你是否有类似的解决方案，但不是来自VMware私有AI？

我们在开源方面做了很多工作，vLLM是其中的一个示例。你可以从我们这里获取一份部署指南，其中详细介绍了这个开源架构。但就客户情况而言，当涉及到NVIDIA的技术时，TensorFlow通常是首选。

我提到的第一个应用程序是这个聊天机器人。在这里，我们将Llama-2 7b模型移植到了客户端，并启动了一个非常简单的聊天机器人应用程序。我们询问了LlamaIndex是什么”这个问题。这是数据科学界在LLM领域的一个最新发展，而这个模型没有给出答案，因此我们遇到了问题。有些知识只有在模型外部才能得知。

因此，我通过文件向矢量数据库加载了一段数据，告诉矢量数据库LlamaIndex实际上是什么。然后，我再次询问同样的问题，但这次我打开了RAG，打开了我的知识库。现在我们再次向同一模型提交相同的问题，这次得到的答案更加贴切。它说LlamaIndex是用于将大型语言模型连接到数据源的工具或平台。

你提到了多个数据源的问题，LLlamaIndex就是一个例子。这是从提供给模型的矢量数据库中检索出的信息，模型调整了答案，使其更易于理解。

此外，NVIDIA为我们提供了众多源代码示例，这些示例是数据科学家可以参考的RAG应用程序，帮助他们启动检索增强生成或大型语言模型的项目。我们将与私有AI一同提供这些源代码，并附带相应的容器。

观众：私有AI是已经发布还是即将发布呢？

Private AI Foundation与NVIDIA的附加组件将在本季度正式推出，因此你很快就能购买到这款产品。

我们不会深入讨论源代码，尽管我很想这么做，但时间有限。不过，NVIDIA和VMware的数据科学家们为我们准备了许多出色的示例，你可以从中开始探索。比如，使用TensorRT进行优化，将模型从16位量化为8位。所有这些都是在相对较旧的、装备了两个GPU的服务器上运行的。这些服务器使用的是A100 40G，已经服役三年了。

你看到的特定虚拟机DLVM002-harbor上附加了两个A100。这里有一个小技巧：你可以在VM上附加多个GPU，并让VM使用这些GPU。如你所见，这些都是虚拟GPU。虚拟GPU是NVIDIA与VMware合作推出的概念，它允许我将此虚拟机移动到数据中心中的任何位置，即使有GPU附加到其中。这也是VMware中用户经常采取的做法。

这个VM是基于我从工程团队下载的镜像创建的，这个镜像存放在Content Library中。Content Library是存储虚拟机镜像的地方。在VMware Cloud Foundation中，我的Content Library称为“PAIF Deep Learning VM”。在该库中，我看到一个OVA，这是生成新VM的基础模板。因此，作为Private AI Foundation的一部分，我拥有深度学习VM模板，可以从中创建一系列配置不同数据的VM。

观众：深度学习VM解决方案将预先安装所有AI工具的，包括TensorFlow、PyTorch等，以及其它如NumPy等工具？

关于你之前的问题，确实有许多来自NVIDIA的适当工具包的容器。我们将不会实时从NVIDIA下载它们，而是向你展示如何在这里加载它们。

观众：我想请你澄清一下，关于Chris提到的60个客户已经在用了，虽然这个产品目前还未正式发布，但我们已经有一些客户通过早期使用者计划参与了进来。

这些客户目前早期采用者竞标中。他们正在使用基于VMware Cloud Foundation和NVIDIA AI Enterprise的基础架构。我们与这些客户已经建立了多年的合作关系，为他们提供了稳定的驱动程序支持。而新的LLM相关功能则是我们产品的独特之处。

观众：这些客户正在使用我们的私有Beta版产品？

嗯，非常有限。

观众：关于Chris提到的三秒钟内启动AI集群的功能，请解释一下。

虽然启动虚拟机可能需要更长的时间，但我们采用了轻量级操作方式。我们运行了一个基于Ray集群的轻量级虚拟机，Ray是一个广泛使用的平台。我们通过特殊处理使得链接克隆类型的操作变得非常快速，只需要几秒钟的时间。

观众：你的演示展示了一个静态文件，你可以上传自己的文档，你是否也可以处理流式文档，即不断地提供文档，让你的模型持续更新？

是的，可以这样做，在许多平台中，包括NeMo在内，都有专门的API允许流式处理，你可以同时进行流入和流出操作，因此响应会作为一系列输出而不是单个输出返回。

在深度学习VM中查看一下，其实非常简单，它只是一组基于Docker的容器。但这些容器有着一些独特之处。顺便一提，这是Milvus向量数据库，它能回答您关于开源数据库的问题，我们正好可以使用它。我完全采用了Nvidia提供的内容，他们提供了一个开源的向量数据库，因此我在此处选用了它。

至于这个特定的标签“harbor.isvlab.vmware.com”，它指的是你眼前所见的内部Harbor存储库。这个Harbor存储库是一个容器镜像的存储库，它为我提供了隐私保障。

这意味着我不会从Nvidia的公共存储库中拉取容器，也不会通过互联网获取。我不会采用那里现成的最新容器。相反，我使用的是经过测试和验证的特定容器，并确保我明白它的工作原理。这些容器都是属于我的实例，它们被保存在我的存储库中，因此具有私密性。因此，我从中获得了两个优势：首先，由于容器都在本地，因此下载速度更快；其次，我获得了完全的隐私保护，因为这些都是Nvidia容器的私有版本。

观众：你还可以选择数据源，所以如果你希望引入外部数据？

完全可以这样做。事实上，容器和模型是两个独立的概念。Llama 2模型的数据来源于Meta。最初，我将其放置在一个安全的地方进行了测试，然后将其上传到了我的本地HTTP服务器上，这样创建的虚拟机就可以从那里获取模型。因此，整个过程变得更加实际，不再仅仅是学术研究。

好的，我们已经讨论了深度学习VM及其RAG应用程序的使用，但还有更多内容。让我先关闭这一部分，然后为你展示另一个简短的演示。

现在，我们将实现整个过程的自动化，为此我们将使用自动化工具Aria Automation。为节省时间，我直接进入关键部分，跳过登录步骤。

在这里，我们创建了这个磁贴，就像之前展示的那样。这是一个数据科学家在磁贴上发出请求的示例。我希望这是数据科学家看到的唯一页面，他们无需过多关注基础设施问题，只需通过简单的方式创建所需环境即可。

如我之前所说，不仅数据科学家可以使用这个工具，DevOps人员、平台工程师等也可以。他们需要做的关键决策是分配多少GPU计算能力。在这个例子中，我允许他们选择8GB或16GB的GPU计算能力。这就是他们可以使用的全部内容。当然，我可以根据需要调整这个范围，但在这个示例中，这就是我设定的限制。

通过提供用户ID和密码，数据科学家可以选择使用自己的工具包，而不是我们提供的。他们只需在屏幕底部点击“提交”按钮发送请求，然后就可以等待了。无需他们再进行任何操作，我们会为他们完成所有底层虚拟机的配置。虽然这个过程需要超过3秒钟，但大约5分钟左右，数据科学家就可以开始使用了。

观众：他们是否可以编写脚本来确保构建的顺利进行，并自动执行相关操作？

当然可以。实际上，我并没有展示创建这一过程的部分。我是如何创建这个磁贴并将其放置在用户界面的Service Broker上的。但在这背后，有一整套的脚本技术支持。正如你所说，这些脚本确实可以用来构建和自动化流程。

观众：数据科学家在设置环境时也能这样做吗？

当然可以。而且，Aria Automation还提供了一个图形用户界面，专门用于构建这些内容。所以，关于这方面的演示还有很多。但由于时间限制，我决定不在这次演示中展示这些。

观众：关于Aria Automation，我们谈到了VCF，还提到了另一个……要实现这个目标，需要购买哪些产品？

只需要一个产品/SKU，即带有Nvidia的Private AI Foundation。

观众：Private VCF，和Private AI？

是的，基础套件就是VCF。所以我们现在主要是与对VCF感兴趣的客户进行交流。

观众：明白了。

我将简要地结束这部分内容。这是整个流程的最终结果。你有三种方式可以进入我们的环境：一是通过顶部的Jupyter Lab，二是通过SSH进入虚拟机以查看内部运行情况。在这里，我将只演示Jupyter Lab部分，因为它可能是大多数数据科学家最感兴趣的部分。

这个示例非常简单，仅使用了PyTorch这个库，原始的Torch库被Python采纳并命名为PyTorch。这个简单的代码片段用于检查CUDA和GPU是否正常运行，并输出矩阵乘法的结果。在大型语言模型内部，这种矩阵乘法操作是持续进行的。数据科学家可以通过SSH进入他们的虚拟机，查看更详细的运行情况，如果他们愿意的话。

观众：在你的客户群中，你是否发现整个VM作为数据科学家部署模型是最常见的，还是他们更倾向于利用类似“Notebook as Service”，在共享基础设施上运行，如Kubernetes？

关于后者的讨论无疑是存在的，随着Notebook功能的不断增强，我们明显感受到终端用户对两种环境的需求也在逐步提升。

我们来谈谈GPU可见性的问题。如我之前所提及的，在大型语言模型中，谁在使用GPU以及他们如何使用GPU变得至关重要，因为将两个或更多GPU分配给单个大型语言模型操作是非常常见的。

在这里，我们提供主机级别的可见性，最左边突出显示的是主机信息，但我们还为你提供虚拟机级别的可见性。因此，你可以查看GPU的消耗情况，包括其内部的核心和内存。在vCenter用户界面中，你可以详细了解每个GPU的情况。

观众：出于某种原因，使用GPU的人都对功耗很感兴趣。

是的，事实上，昨天我在我的数据中心也有这个问题。你们确实想在数据中心中使用那两个GPU吗？不可能。没有足够的电力。因此，电力和GPU内存似乎也是一种稀缺资源。

演示结束。简要回顾一下，我们展示了AI应用程序、深度学习虚拟机、使用Aria Automation来简化数据科学家或DevOps工程师的工作流程。最后，我们还讨论了GPU作为底层基础设施技术的可见性。

在VMware Cloud Foundation平台上运行卓越的AI服务

VMware Cloud Foundation为企业提供了无与伦比的灵活性、控制权与选择权，简化了AI生产流程。借助私有AI解决方案，企业能够在各种环境中无缝部署顶尖的AI服务，同时确保数据隐私与安全性。现在，就让我们一起探索VMware与IBM Watsonx、Intel AI以及AnyScale Ray的强强联手，为VMware的私有云平台注入前沿AI功能。

在演讲中，Broadcom的首席工程师Sean Kelly深入探讨了在VMware Cloud Foundation（VCF）上运行AI服务的优势。他指出，VCF有效解决了AI项目所面临的基础设施挑战，包括灵活性、工作负载迁移、避免资源浪费、扩展性、生命周期管理以及隐私与安全问题。

Kelly针对“VCF是否是AI唯一平台”的疑虑给出了明确答复。他强调，尽管vSphere和vSAN等产品仍在广泛使用，但VMware已将VCF视为战略发展方向，特别是针对其重点客户。他进一步解释，VCF包含了底层的vSphere技术，并且使用VCF实质上也是在使用vSAN。

在性能方面，Kelly提到VMware的虚拟化调度程序经过20多年的持续优化，性能已可与裸机相媲美，AI工作负载的性能差异仅为2%左右。此外，他确认VMware支持NVIDIA的NVLink技术，这允许多个GPU实现直接互联。

随后，演讲聚焦于VMware的私有AI战略，这是一种旨在平衡商业AI收益与隐私合规需求的架构方法。Kelly特别强调了与AnyScale Ray的合作，Ray是一个用于扩展Python AI工作负载的开源框架。同时，VMware还与IBM Watsonx展开合作，将Watsonx的能力引入具有特定数据合规性要求的客户本地环境中。

Kelly展示了Ray与vSphere的集成过程，并演示了如何快速为AI任务启动工作节点（RayLits）。在许可方面，他指出虽然NVIDIA负责GPU许可事务，但Ray作为一个开源插件，无需额外许可成本。

谈及IBM Watsonx时，Kelly详细介绍了基于VMware Cloud Foundation、OpenShift和Watsonx的堆栈设置。他强调了安全功能，如安全引导、身份和访问管理以及虚拟机加密等。此外，他还提到了平台上可用的专有、开源和第三方AI模型选择。Kelly简要介绍了Watsonx在代码生成、联系中心解决方案、IT运营自动化和高级信息检索等场景中的应用。最后，他引导听众查阅相关博客，以获取更多关于使用IBM Watsonx的私有AI信息。

-----

我想与大家深入探讨一下我们平台上可以运行的AI服务。在我们进一步讨论之前，或许可以提出这样一个问题：为什么客户会选择在我们的平台上运行这些特定类型的工作负载呢？

目前，我们观察到约有50%的项目从试点阶段顺利过渡到生产阶段。

这一转变背后的原因在于这些环境中存在的复杂性。在左侧，我们看到了数据科学领域的各个方面，包括数据收集的配置、特征提取等，这些都是数据科学家必须精心处理的任务。而在右侧，则是核心的IT基础设施领域，它涵盖了基础设施监控、管理工具以及资源本身。当然，在中间部分，我们看到了算法和模型。但实际上，当你考虑到全面的生产规模时，这部分只是冰山一角。

客户选择在我们平台上运行AI服务的原因，是因为我们能够有效解决这些基础设施方面的挑战。多年来，我们积累了丰富的经验，这使得我们能够提供如灵活性等关键优势。例如，我们能够在几分钟内重新配置和重新分配硬件资源，而不是像裸机那样可能需要数小时甚至数天。

此外，我们还能够提供无中断的工作负载迁移。无论是因为需要对服务器进行维护，还是为了重新配置资源以平衡数据中心中的工作负载，我们都能轻松实现从一个服务器到另一个服务器的迁移。避免裸机孤岛也是我们的优势之一。有时，计算资源虽然强大，并配备了GPU，但可能因为被分配给单一项目或团队而导致组织内的其它项目和团队无法使用这些资源。

规模的可扩展性同样至关重要。我们致力于从一开始就正确规划计算资源，这意味着我们可以以裸机无法实现的方式对其进行划分，从而确保资源得到最有效的利用，并能够快速扩展以满足需求。有时，这也意味着在需要时缩小规模，以释放计算资源给其它可以充分利用它们的工作负载。

生命周期管理同样不可忽视。我们简化了维护、升级、打补丁等流程，提高了可靠性和可用性。几十年来，我们一直在为企业工作负载提供这些服务，而我们现在采用的方法同样适用于AI。当然，隐私和安全是我们始终关注的重点，尤其是在涉及敏感数据时。

观众：我了解这个话题可能比较敏感，但VCF并不是你为客户实施AI的唯一途径，对吧？VCF并不是唯一的平台，也不会成为未来唯一支持的平台，对吧？

当我们提及VCF时，我们其实是在谈论一个包含多种产品的解决方案套件，这其中涵盖了SDDC管理器、vSphere、NSX、vSAN，以及在其之上的Aria Suite。这确实是我们未来的主要发展方向，特别是对于我们的重点客户而言。但这并不意味着vSphere会消失，我们依然会将其作为独立产品继续提供，只是这两者在底层都使用了vSphere技术。

观众：让我更具体地提个问题：目前有多少客户正在使用VCF进行AI工作，又有多少客户只是单纯地采用vSphere呢？

这两种类型的客户数量都在稳步增长，尽管我今天没有具体的数据来进一步分析这一点，但我们观察到在VCF和AI两个领域都呈现出增长趋势。对于使用VCF的客户，他们在技术上也必然使用了vSAN，因为vSAN是VCF不可或缺的核心组件。这样的说法是否合理呢？确实是一个很好的问题。我知道你希望得到具体的数字，但目前我手中没有确切的数据。

观众：不，我只是对说这是一个被证明的事情有问题，因为如果你正在使用vSphere和外部存储，那似乎也是一个被证明的事情。

我们在VCF中使用了外部存储。因此，很多人认为vSAN是部署VCF的唯一方法。但实际上，对于这类工作负载，你可以利用NFS来存储数据。这种方法是完全可行的。

性能至关重要，经常成为讨论的焦点。人们可能会担心，在虚拟化层上添加额外的层会导致延迟增加。但我们的实际测试表明，并非如此。这得益于我们针对虚拟化调度程序进行了长达二十年的性能优化，确保我们能够保持与裸机相当的性能水平。因此，当我们谈论裸机速度时，你可以看到橙色线代表的就是裸机的性能。我们的基准测试显示，在AI工作负载上，我们的表现与裸机相比差距在正负2%以内。事实上，从最后两个图表中你还可以看到，在某些情况下，我们的性能甚至超过了裸机，达到了5%的提升，这都要归功于我们高效的调度程序。

观众：如果你计划通过整个GPU进行数据传输，那么，当你将这些GPU切片并在多个虚拟机之间共享时，是否会引入额外的开销呢？

你希望我能提供相关数据，但实际上，我们并未观察到太多的额外开销。NVIDIA已经对这些情况进行了基准测试，对于扩展他们的方案，性能表现基本上是线性的。

基于VCF的能力和性能，这构成了我们VMware私有AI的基础。

观众：NVIDIA有自己的数据传输协议，以及像DCX解决方案这样的技术。我不确定具体的术语是什么，但他们有自己的协议用于数据传输。那么，VMware是否支持这些解决方案，用于NVIDIA的私有AI基础解决方案呢？

是的，如果你指的是NVLink，NVLink允许我们直接连接多个GPU，从而避免了数据在CPU和内存之间的往返传输。是的，VMware支持这些解决方案，并提供了几种不同的配置方式。其中包括NVSwitch，它会嵌入在主板上，还有NVLink Bridges，你可以使用它将两个相邻的PCI插槽中的GPU连接起来，只需一些小的物理连接件即可。

私有AI采用了一种架构方法，旨在在AI的商业收益与组织的隐私和合规需求之间找到平衡。当我们面对这一问题时，我们非常希望与我们的整个开放生态系统伙伴紧密合作。

这里涉及的内容很多，我们无法一一涵盖，但我想从其中几个开始，以展示我们正在做的事情。首先是与Ray合作的私有AI。现在我们可以稍微深入讨论一下。对于那些不了解的人，Ray是一个开源框架，它极大地简化了Python工作负载和AI工作负载的扩展。许多知名公司都在使用它，如OpenAI、Uber、LinkedIn等。

在vSphere中利用Ray的方式是，我们将其实现为一个插件。在左侧，我们有一个Ray头节点，而在右侧，你可以看到那些Raylets节点，它们实际上是工作节点。它的工作原理是，从Ray头节点出发，自动伸缩器向vSphere中的分布式资源调度程序发送计算请求。然后，这个分布式资源调度程序会从预定义的资源池中部署计算资源。这些计算资源将以Raylets或工作节点的形式存在，并由Ray头节点进行编排。

观众：Raylets是一个虚拟机？

是的。实际上，让我们看看在vSphere侧的实际表现会是如何。

在这里，我们有一个vSphere环境，其中包含一个计算集群，该集群由三台主机和一个资源池组成。此外，我们还有一个虚拟机，将用于执行即时克隆操作，这是我们在另一个讨论中已经讨论过的内容。

现在，我们运行Ray up命令，非常迅速地同时启动了一个头节点和一个单独的工作节点。我们完成了，这符合你之前提到的三秒钟要求，与在公有云中执行此操作相比，可能需要30秒，而在裸机上可能需要大约5分钟。

现在，我们已经在Ray环境中，并且已经切换到了头节点。我们可以再次查看集群状态，其中包括头节点和工作节点。

现在，我们处于一个Python应用程序中，计划对乳腺癌检测进行训练。但这次，我们希望使用两个工作节点，每个节点配备两个CPU。非常简单，我们只需将得到的地址复制粘贴到头节点上，然后运行作业。

现在，如果我们回到vSphere界面，可以查看后台的操作情况。如果我们转到任务管理，你可以看到即时克隆正在进行中，这也是为什么启动过程只需要几秒钟的原因。我们正在克隆已经存在的虚拟机，并快速创建了一个头节点和几个工作节点。

观众：我是否可以直接在Python代码中更改CPU为GPU，并重新运行程序呢？还是说对于GPU需要采用不同的操作方法？

我认为这是可行的，是的，通常你会在一个YAML文件中进行此类配置。

观众：如果客户目前只使用CPU，并希望同时利用GPU

那么这是完全可以的。不需要重新编码。

观众：在许可方面，Ray对CPU和GPU是否有区别呢？

确实存在区别。GPU的许可通常通过NVIDIA进行，因此可能会涉及一些额外的许可费用，而CPU则已经内置在你的服务器上。从Ray的角度来看，作为一个开源插件，我们并不涉及许可问题。这主要是NVIDIA的事情，当涉及到GPU时，他们会处理自己的许可，而我们不参与这一过程。

接下来，关于VMware与IBM合作的私有AI，这是一个引人注目的话题。我昨天与客户讨论了这个问题，有一个客户正在使用IBM Watsonx并非常喜欢它。但由于合规性原因，他们无法将数据放在公有云中。当他们看到我们在VMware上的解决方案时，感到非常兴奋。这个解决方案的核心思路是将IBM Watsonx的整个数据平台与他们的云基础设施进行配对，从而为他们提供实际上是在本地的IBM Watson体验。

从技术堆栈的角度来看，底部是计算层，接着是VMware的云基础设施及其带来的所有优势。此外，我们还注重安全性，提供了身份验证、访问管理等功能。

在此基础上，我们运行OpenShift。虽然有些人可能会对我们的平台上运行OpenShift感到惊讶，因为我们还有VMware Tanzu，但这两者并不是竞争关系。实际上，我们在VMware平台上运行OpenShift已经多年，并且它运行得非常稳定。尽管我不清楚在裸机和VMware上运行OpenShift的具体比例，但目前有很多OpenShift实例正在VMware上运行。

然后，我们在OpenShift之上部署了WatsonX平台，这个平台与云环境非常相似，并且我们还部署了像Granite、Flan、StarCoder、Llama 2等模型。

当涉及到隐私和安全性方面时，请深入研究一下这里的不同组件。我们有vSphere，我之前提到的，它具备安全启动、虚拟TPM、vTrust Authority VM和加密等功能。所有这些安全措施都是多年来在VMware中开发的。

此外，我们还利用了来自NSX的微分段技术。这是一种有效地保护虚拟机的能力，使得我们可以在虚拟机内部具有所有上下文。防火墙不在虚拟机内部，也不在客户操作系统内部，而是在虚拟机外部，靠近虚拟机的地方。如果有人能够进入该虚拟机，他们也无法关闭防火墙。

然而，仅仅保护基础架构部件并不足够。WatsonX也提供了他们自己的保护措施，他们投入了大量时间来处理治理问题，并确保在隐私合规性方面也有所作为。

观众：你们在WatsonX的治理方面有没有采取过任何措施，直到基础设施层呢？我们之前讨论过，为数据库等提供端到端的安全性确实是一个问题。

我认为这更像是一种分层的方法。存在多个不同的层次，我们试图在每个层次上都进行保护。

对于WatsonX，当涉及到你们部署的模型时，我们拥有多种选择，有像Granite这样的专有模型，它是一个基础模型。他们还有Slate，另一个基础模型。此外，还有开源模型，所有常见的模型都在那里，包括像Flan和GPT这样的。还有第三方模型，如Llama 2、StarCoder等，所有这些都在这个平台上运行。

那么，我们目前正在实现哪些应用场景呢？代码生成是一个我认为相当常见的应用场景，程序员的需求相当大。我们想尽一切办法来加速他们的工作，所以代码生成有助于解决这个问题。接触中心解决方案，我知道在VMware，我们总是有很多人来寻求支持，并希望尽快解决问题。这使得我们可以尽快将他们引导到合适的人，或者让我们的团队尽快给出正确的答案。

观众：我对WatsonX不太熟悉，它类似于AWS或Google Cloud中提供的那种服务？它是一个运行AI的框架？

我会说它不仅仅是一个框架，它实际上是一个完整的AI平台。它是一个云服务，通常是一个云中的服务。现在，我们将其带到了本地，放在了Cloud Foundation之上。

我和许多客户讨论过这个问题，我发现客户的应用场景多种多样。他们有的数据希望放在云服务中，有的则希望保留在本地。因此，IBM将客户引导到我们这里，与我们合作处理本地使用案例。对于客户来说，这是一种混合的方法，对IBM来说也是如此。

如果客户希望将OpenShift和WatsonX集成在一起，并且希望这些服务在本地运行，那么VCF就是他们的理想选择。此外，加上私有AI的额外功能，我们可以为客户提供更加全面的支持。

对，我们有一位客户，是一家石油和天然气公司。他们已经在使用WatsonX云服务，但现在他们希望将这些服务迁移到他们的石油钻井平台上，这是一个典型的本地使用案例。目前，他们正在使用VCF来实现这一目标。

接下来是高级信息检索，关于文件搜索政策，我们看到这些检索、增强生成应用场景越来越受欢迎。通过将数据与AI的智能相结合，我们能够快速获取最新信息的正确答案。同时，我们还需要考虑如何保护我们想要响应的内容，确保信息的安全性。

VMware内部应用私有AI的实际案例：Broadcom

深入探讨了VMware员工所使用的公司内部AI服务，涵盖了编码辅助、使用RAG（RAG）进行文档搜索以及我们的内部LLM API等。

Ramesh Radhakrishnan，作为VMware的AI平台和解决方案团队的负责人，在演讲中详细分享了公司内部AI的应用情况，特别是LLM在各种应用场景中的表现。值得一提的是，这些服务在LLM出现之前就已经开始开发。

LLM作为一种多功能工具，能够解决各种应用场景而无需进行大量修改。在VMware，我们已经开发了用于编码辅助、使用RAG（RAG）进行文档搜索以及内部LLM API的内部AI服务。其中，内容生成、问题回答、代码生成以及使用AI代理成为了LLM在VMware中的关键应用场景。

VMware实施了一种智能云的方法，通过利用在公有云上训练的开源LLM，避免了运行自己的GPU所带来的环境影响。此外，我们与斯坦福大学合作创建了适用于VMware文档搜索的领域自适应模型，这一模型显著提高了搜索性能，与传统的关键字搜索相比更具优势。

VMware自动问答系统（Wacqua）是一个基于语言模型的信息检索系统，允许用户直接提出问题并获得相关答案，而无需浏览大量文档。该系统的实施涉及了内容收集、预处理、索引、缓存和文档更新等一系列复杂流程。

为了满足AI工具赋能的软件开发人员需求的增加，VMware已经扩展了其GPU容量。我们的AI平台提供了一个GPU池资源、开发环境、编码应用场景和LLM API，所有这些都在一个统一的平台上运行，为用户提供了更加便捷和高效的服务。

在AI应用场景中，数据管理被强调为一个潜在的瓶颈。因此，标准化平台对于高效地向最终用户提供服务至关重要。AI团队和基础设施团队之间的紧密合作对于确保模型和基础设施都能有效支持工作负载也至关重要。

Ramesh鼓励各组织从开源模型开始，逐步扩大规模，并确定关键绩效指标（KPIs）。他强调，我们应该专注于用AI解决实际的业务问题。在会议的最后，Ramesh再次强调了以战略性方法实施AI的重要性，以及利用共享平台提供AI服务所带来的好处。

-----

我是来自VMware的Ramesh Radhakrishnan，负责领导AI平台与服务解决方案团队。

在这次会议上，我将分享我们在VMware内部实际运行的多个应用场景，这些场景也在其它会议中有所提及。我们构建了一系列内部应用场景，值得一提的是，这些都是在大型语言模型尚未出现时就开始着手准备的。随后，我们引入了大型语言模型，并为其它团队打造了平台功能，使他们也能够构建这些应用场景。最后，我想总结一些关键收获，以便其它客户或与我们处于相似发展阶段的组织能够从中汲取经验。

当我们探讨各种应用场景时，大型语言模型就像一把锤子，而各种应用场景就像是钉子。这是因为大型语言模型能够在几乎不修改的情况下应对各种应用场景，这正是其魅力所在。

其中一个核心应用场景是内容生成。大型语言模型不仅被训练用于文本生成，还具备多模态能力，如图像和视频生成。不知大家是否注意到了本周发布的Sora，在这个信息爆炸的时代，当我们谈论问答时，大家都希望能够更高效地搜索。大型语言模型不仅可以从不同来源获取答案，还能综合这些来源，为我们提供答案，无需阅读多个文档。

关于代码生成，我想再次强调，这不仅仅适用于传统程序员，还包括使用如gaml或Terraform等工具的管理员。这一领域的应用场景非常广泛。

最后，你会看到许多代理出现在演示中。这些代理将利用多个应用场景，并将它们相互连接，或者通过整合所有应用场景，构建出复杂的解决方案，以实现更有价值的目标。这个领域的发展前景非常广阔，我相信它将继续壮大。

包括VMware在内的所有组织都希望利用生成式AI的潜力，但我们必须谨慎处理这些应用场景和团队需求。在此，我想再次强调，我们公司内部制定了一套关于如何使用这些生成式AI能力的政策，为团队提供了明确的指导方针。

因此，我们采取的一种策略是采用智能云的方法。过去，我们已经探讨过智能云在传统应用程序中的应用，但当涉及到AI应用时，这意味着我们将利用在公有云上训练的这些大型语言模型。这些模型现在是开源的，并配备了商业许可，使我们能够在自己的应用场景中运用它们。通过这种做法，我们可以避免在不需要时运行GPU，从而节省大量的碳排放并减少对环境的影响。

一旦这些大型语言模型融入我们的基础设施，我们将能够灵活地应用于多个场景，并根据需要调整模型的性能和延迟。这让我们能够以非常可持续的方式进行操作。实际上，对于许多应用场景，我们并不需要700亿或1000亿参数的模型。一些经过微调或专门设计的较小模型就能胜任。

在推进这一策略时，我们优先考虑的是来自内部团队的实际需求。第一个应用场景是改进文档搜索。据一项调查显示，大家约有40%的时间都花在寻找信息上。无论是程序员在Stack Overflow上搜索，还是产品经理在Google上寻找内容，我们都面临着同样的问题。因此，我们与斯坦福大学合作，为VMware量身定制了一个领域适应模型，该模型在前五个检索结果中的性能比传统搜索提高了约五倍半。

观众：你提到的5.7倍的性能提升，是指与传统的词法搜索、标记搜索或其它嵌入模型（如OpenAI）相比吗？

不，这是与关键词搜索相比的提升。然后，我们将这个模型适配到VMware的词汇表，以获得更优于现有技术的结果。

观众：我很好奇，对于产品或这个应用场景可能还未完全展开，但你们是如何确保产品与不同版本的文档进行交互的？比如过去可能有类似的短语，从vSphere 6/7中提取的匹配项可能与实际需要的8.0版本不匹配。你们是如何处理这个问题的？是否有不同的接口或选择器？

因为我们使用的是神经搜索技术，它具有上下文理解能力，所以它能够识别你所使用的版本，并据此提取相关文档。

观众：那么，你认为这种搜索功能有可能被整合到VMware的控制台中吗？

我们可以采取这种方式。我们构建的服务，可以被我们的产品团队所利用。如果他们想将其嵌入到产品中，他们完全可以这么做，因为我们将其构建为RESTful服务。但我想我可能误解了你的问题。如果用户询问关于特定vSphere版本的问题，我们的服务是如何确保提取正确信息，而不是导向旧版本或其它版本的呢？实际上，当你提问时，如果你没有明确指定版本，我们的系统会默认提取最新的信息。但如果我们有关于使用版本的上下文信息，系统就会根据这些信息去收集资料，从而导向正确的文档。

观众：你们在文档中发现了什么问题？我想说的是，数据只有在特定情境下才具有价值。据我所知，在vSphere的工作环境中，存在许多漏洞，特别是与我们讨论的版本相关的那些。为了优化搜索结果，你们是否需要对数据进行一些改进？

确实如此。我们并不是在改进文档本身，而是利用现有的文档。不过，除了索引文档之外，我们还会从Confluence页面和外部博客中提取信息。因此，我们的所有内容都会被索引并用于搜索。所以，当用户提问时，我们的系统会查找相关的段落或信息，并提取出来，无论是从文档还是其它外部来源。

观众：这其实涉及到了另一个很好的讨论点。我猜想你们的数据处理流程大概是这样的吧？这些文档、博客文章、内部KBS以及所有其它来源都在不断地更新。

是这样的。我稍后会讲到这一点，我有一张幻灯片专门展示了如何在生产环境中实现这一过程。

最后，关于开发者的灵活性。根据我们的调查，许多程序员都希望有一个编码助手。因此，我们希望能够为他们提供一个内部运行的服务，这样我们的代码就都能保留在我们自己的防火墙内了。

我们来深入探讨一下文档搜索。我们的系统被称为VMware自动问答系统，它不仅仅是一个简单的搜索工具。你可以直接提问，系统会为你提供相关答案。因此，你无需再费心浏览大量文档来寻找所需信息。正如之前提到的，文档数量庞大且不断增加。

我们所做的是构建了一个基于语言模型的信息检索系统。虽然现在的大型语言模型可以完成这项工作，但要确保获得准确的答案、提供有效的防护措施并正确处理上下文，仍需要大量的工程工作。大约在两年半前，我们开始与斯坦福大学合作，当时使用的是最先进的语言模型CoAR。随着时间的推移，我们对问答系统进行了多次改进。

基本上，这个过程可以分为四个步骤。当收到查询请求时，系统会首先清理查询。然后，所有被索引并存储在数据库中的数据都会被传递给Cobar模型。模型会从数据库中提取相关文档，并将其传递给问题回答系统。该系统会突出显示相关段落，并将结果返回给用户。听起来很简单，对吧？但实际上，为了确保超越最先进的结果，我们进行了大量的实验和微调。

当我们准备将系统投入生产时，事情变得更加复杂。我刚刚展示的是右侧的部分，包括信息检索、预处理程序和问题回答系统。左侧的部分，包括文档更新、索引处理以及当文档发生变化时的处理流程。

整个流程始于内容收集。你可以使用内容编制系统，如Docworks，将内容直接推送到语料库。但我们还希望使用其它许多文档。因此，我们需要使用爬虫服务从网站上抓取信息，并将其更新到数据库中。这并非易事，因为每个网站的结构和内容都有所不同，这使得整个过程变得相当复杂。

一旦获取了这些信息，它们就会被发送到内容管理服务。服务会全面检查我们手中的所有信息，并进行预处理。我记得在之前的会议上，Ben提到了将内容转换为markdown、删除无用信息等步骤，我们都会一一处理。此外，为了应对拼写错误和复杂词汇，我们还设有专门的预处理程序。我们还需要进行标记化处理，以便处理词汇表之外的单词。当所有这些清理和准备工作都完成后，信息就会被送到索引管理环节。

在索引管理中，我们会基于收集的所有数据创建新的索引。这是日常操作。简单来说，我们会爬取所有信息和文档，查找更新内容，然后据此更新索引和文档。

为了提高效率，我们还对缓存进行了优化。如果之前已经进行过某个搜索，并且缓存中有相关信息，那么系统就无需再次进行搜索，从而提高了处理速度。

在索引过程中，我们也利用GPU进行计算。这种按需启动的方式，可以在不需要时节省GPU资源。

观众：如果今天要实现这样的功能，我们可以使用大型语言模型RAG等解决方案。

我们已经将这项技术应用于RAG应用场景，从而构建了一个对话引擎。该引擎使用了大型语言模型，并通过技术优化来增加上下文大小。在此场景下，我们没有使用矢量数据库，而是直接调用Wacqua API来获取所需信息，并据此回答问题。

观众：你是否考虑过将左侧的所有内容作为私有AI服务的一部分？许多组织都在努力解决爬取、更新索引、数据库基础架构等挑战。你认为这些复杂的基础架构工作是否会成为你产品组合的一部分？

我们确实会这样做，这是我们目前提供的基础服务。我们已经掌握了相关的技术，目前正在研究如何将其包装成更通用的服务，以便更多的客户能够使用，并集成到他们的私有AI系统中。同时，我们也与我们的专业服务团队合作，根据客户的特定需求，提供定制化的服务。

关于应用场景，我们讨论了在内部为员工构建的问答助手。接下来，我想谈谈这个工具本身。

在初期，我们的主要受众和客户是数据科学家，他们是利用机器学习模型解决实际问题的人。他们当时需要一些GPU资源，但大部分工作实际上是在CPU上完成的。因此，我们构建了这个平台，允许用户按需请求计算资源。我们为他们提供了所需的开发环境，无论是Jupyter Notebook还是Visual Studio，他们都可以开始构建和测试模型。

然后ChatGPT的出现彻底改变了情况。现在，我们有大量的软件开发人员需要构建应用程序，他们对GPU的需求也显著增加。但即便如此，我们仍然使用同一个平台来处理这两种不同类型的应用场景。

对于许多软件开发人员来说，他们实际上不需要直接访问计算环境或开发环境，他们只需要API接口。因此，我们构建了一个托管服务，部署了许多大型语言模型，并提供API接口供他们使用。我们持续迭代平台，添加新功能。同时，我们也在预测，随着新模型的推出，我们的客户群体会有新的需求。

这就是我们的平台概貌。我们建立了一个GPU资源池，确保任何用户都不会独占资源。一旦用户完成任务，资源就会释放回池中。我们在平台上部署了开发环境、编码应用场景和大型语言模型API。

数据是一个关键因素。在很多AI应用场景中，数据都是瓶颈。虽然我们没有深入探讨过这一点，但它确实是值得注意的地方。使用通用的模型和标准化的平台可以帮助组织更好地向最终用户提供服务。这样，不同的团队就不会重复解决同样的问题。对于AI团队和基础架构团队来说，协同工作至关重要。即使你有最好的模型，但如果没有合适的基础设施或无法扩展基础设施来处理工作负载，那么这些模型将无法得到充分利用。同样，如果你拥有出色的基础设施，但没有优秀的AI模型或服务，那么也无法实现最佳效果。因此，建议从一些开源模型开始，明确你的KPI和需要解决的业务问题。这是组织开始时的最佳策略。这就是我们的做法。

---【本文完】---

近期受欢迎的文章：

更多交流，可添加本人微信

（请附姓名/关注领域）

继续滑动看下一个

Andy730

向上滑动看下一个

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

著名口述史学者Portelli的一部被忽视的口述史作品 | 一个工业小镇的传记：意大利特尔尼（1831-2014）

VMware公司AI解决方案深度解析（PPT）

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

著名口述史学者Portelli的一部被忽视的口述史作品 | 一个工业小镇的传记：意大利特尔尼（1831-2014）

生成图片，分享到微信朋友圈

VMware公司AI解决方案深度解析（PPT）

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡