Vertex AI 亮相 I/O 大会: 为 Google Cloud 客户带来全新升级的 Gemini 和 Gemma 模型
以下文章来源于谷歌云服务,作者 Google Cloud
Burak Gokturk
云 AI 和行业解决方案副总裁兼总经理
Google Cloud
Vertex AI 是 Google Cloud 的全托管式统一开发平台,用于大规模使用模型。它提供 150 多种第一方、开放型、第三方基础模型,能为客户量身定制具备企业级调优、接地、监控、部署能力的模型,还能用于构建 AI Agents。
ADT、洲际酒店集团 (IHG Hotels & Resorts)、荷兰国际集团银行 (ING Bank) 以及威瑞森通信 (Verizon) 等客户正在利用 Vertex AI 作为一站式平台构建、部署、维护 AI 应用和 AI agents,加快创新速度。
在 Google I/O ’24 大会上,我们宣布了 Vertex AI 的一系列更新,其中最重磅的是由 Google DeepMind 和其他团队开发的几个新模型现已开放给 Google Cloud 客户使用。未来还将陆续推出其他创新功能:
已发布:
Gemini 1.5 Flash
(目前为公开预览版)
开创性地提供了 100 万 token 的上下文窗口,但比 1.5 Pro 更轻量级,旨在为聊天等应用提供高效的速度和规模服务。
PaliGemma
这是 Gemma 开放模型系列中的首个视觉语言模型,非常适合图片说明 (读图)、视觉问答等任务。已在 Vertex AI Model Garden 中上线。
即将上线:
Imagen 3
是我们迄今为止质量最高的文生图模型,能够生成极为丰富的细节,以及照片般逼真和栩栩如生的图像。
Gemma 2
是我们开放模型系列的下一代产品,采用了与开发 Gemini 相同的技术,专为广泛的 AI 开发者打造。
Gemini 1.5 Pro
具有扩展的 200 万上下文窗口。
为帮助客户优化模型性能,我们还发布了上下文缓存、受控生成和批处理 API 等新功能。为了使开发人员能够更加灵活、快速地构建 AI Agents,我们还在 Vertex AI 上提供 Firebase Genkit 和 LlamaIndex。
这些新产品和新功能将继续帮助开发者创新,并助力企业加速其在生产中的 AI 部署。新产品详细介绍如下。
Gemini 1.5 Flash: 专为对成本和延迟要求较高的大批量任务而开发
我们今年早些时候发布的 Gemini 1.5 Pro 为客户提供了行业领先的突破性上下文窗口 (100 万个 token),只需一个提示词,即可对大型文档、代码库或整个视频进行准确处理。Gemini 1.5 Pro 已于 4 月开放公开预览,将在 5 月全面上线。
我们今天发布的 Gemini 1.5 Flash 进一步增强了上述功能。它具有与 1.5 Pro 相同的 100 万个 token 上下文窗口,专为对成本和延迟要求较高的大批量任务而设计,例如聊天应用、字幕制作、视频和图像的深度分析、从长文档中提取内容和数据等。
对于需要更大上下文窗口的用例,例如分析庞大的代码库或文档库,客户可试用 Gemini 1.5 Pro。它配备多达 200 万个 token 的上下文窗口。
PaliGemma: 拓宽
Vertex AI 开发者的选择空间
我们今年早些时候发布的 Gemma 系列开放模型采用与 Gemini 模型相同的研究和技术,以轻量级 7B 和 2B 封装提供先进的性能。我们很高兴看到 Gemma 受到社区的欢迎,在短短几个月内就获得了数百万次的下载量。
PaliGemma 是 Gemma 系列的首个视觉语言开放模型。它针对图片说明(读图)、视觉问答、图像中文本理解、对象检测和对象分割等用例进行了优化。PaliGemma 增加了开发人员在 Vertex AI 上的模型选择范围,可根据任务和预算的要求匹配合适的模型。
Imagen 3 和 Gemma 2 将带来
更多模型创新
除了上线的模型和工具外,我们高兴地宣布,Vertex AI 客户很快就可以使用 Imagen 3 和 Gemma 2 模型进行创新。
Imagen 3 将于今年夏天推出,向 Vertex AI 客户提供迄今为止最成熟的图像生成功能。Imagen 3 能够理解自然语言,从而更好地理解提示词背后的意图,整合较长提示中的微小细节,提高在图像中呈现文本的能力。
Gemma 2 也将于今年夏天在 Vertex AI 上线。它的 27B 模型在性能上可与更大的模型相媲美,能够应对需要开放模型的使用场景,将成为开发者更得力的工具。
加快模型
在生产中的部署
Vertex AI 可帮助开发人员和企业调整、优化、评估、部署、监控基础模型,包括我们最近发布的提示词管理和模型评估工具。我们将增添以下三项新功能:
上下文缓存
(将于下个月开放公共预览)
客户可通过该功能主动管理和重复使用缓存的上下文数据。由于上下文长度的增加,处理成本也会水涨船高,因此将冗长的上下文应用迁移到生产环境中可能会带来很高的成本。Vertex AI 上下文缓存功能可利用缓存数据,帮助客户大幅降低成本。
可控生成
(将于本月晚些时候开放公开预览)
客户可用它来根据特定格式或模式定义 Gemini 模型输出。即使有指定指令,大多数模型也无法保证输出的格式和语法。Vertex AI 可控生成允许客户通过 YAML 和 XML 等预置选项或通过自定义格式选择所需的输出格式。预置选项 JSON 现已上线。
批处理 API
(推出公共预览版)
它能够非常高效地发送大量非延迟敏感文本提示词请求,支持分类和情绪分析、数据提取、描述生成等用例。它能够在单个请求中向模型发送多个提示词,从而加快开发流程,降低成本。
借助这些新功能,我们可以帮助企业更方便地以规模化方式从它们的生成式 AI 模型中获得最佳性能,实现从实验到生产的快速迭代。
Agent Buider: 全新开源集成
加快代理构建
在 Next ’24 大会上发布的 Vertex AI Agent Buider 能帮助开发人员通过一系列满足不同开发需求的工具和不同层次的专业知识,轻松打造、部署开箱即用型企业生成式 AI 体验,不论是通过无代码控制台,使用自然语言构建 AI Agent,还是代码优先的开源编排框架,如 Vertex AI 上的 LangChain。这些功能可帮助客户在加快实验迭代和满足成本、治理、性能要求之间找到平衡点。
开发人员现在可以在 Vertex 上轻松访问 Firebase Genkit 和 LlamaIndex,进一步发挥 Agent Builder 的功能。
Genkit 是 Firebase 在 I/O 大会上发布的一个开源 Typescript/JavaScript 框架,旨在简化生产就绪型 AI agent 的开发、部署和监控。现在 Firebase 开发者只需通过 Vertex AI 插件,就能使用 Gemini、Imagen 2 等 Google 的模型以及文本嵌入。
LlamaIndex 则简化了检索增强生成 (RAG) 的流程,包括数据提取和向量转换、索引、检索和生成。现在,Vertex AI 的客户能够同时利用 Google 的模型和 AI 优化的基础设施以及 LlamaIndex 简单、灵活、开源的数据框架,将自定义数据源连接到生成式模型。
借助这些新功能以及 Vertex AI 对 LangChain 的现有支持,开源仍然是我们使命的重要途径,即致力于为开发人员提供尖端工具,以创建更加智能、信息更丰富的 AI agent。
最后,除了帮助客户根据自有数据库或指定的企业数据来源 (enterprise truth) 为输出建立依据。我们还宣布 Grounding with Google Search 现已全面上线。我们还再次扩大了生成输出的赔偿范围。
现在,使用 Grounding with Google Search 的输出可获得我们的生成式 AI 赔偿服务的保障。通过将 Gemini 模型与 Google Search 相结合,我们为客户提供 Google 最新基础模型的综合功能以及获取最新、优质信息的途径,从而显著提高响应的完整性和准确性。