查看原文
其他

Vertex AI: 立足企业需求,打造卓越的生成式 AI 平台

以下文章来源于谷歌云服务,作者 Google Cloud



Amin Vahdat

机器学习、系统与 Cloud AI 部门副总裁/总经理

Google Cloud


过去的一段时间,我们看到了许多 Google Cloud 客户对生成式 AI 和 agent 的精彩应用,令我们拍案叫绝。为了让企业能够更快推出功能强大的 AI agent,Google DeepMind 在模型技术方面积极探索创新,尤其着力于 Gemini 和 Imagen 的改进。我们的企业 AI 平台 Vertex AI 也推出了数十项突破性功能。



包括 UberEats、Ipsos、Jasper、Shutterstock、Quora 等众多领先组织在内,客户纷纷运用生成式 AI 创造出色成果,在 Google Cloud 的助力下加速生成式 AI 应用投产。


例如,在 Gemini 1.5 Pro 推出前,大多数多模态用例 (像提交一个视频并轻松询问与视频内容相关的问题) 都还停留在构想阶段。但自新模型推出以来,我们已经看到许多围绕数据开展对话的客户创新实例,包括:


一家快餐零售企业

使用 Gemini 分析店面的监控录像,据之识别客流高峰时段并优化店内布局,从而提升客户体验。他们还计划将视频分析与销售数据结合起来,更好地理解有哪些因素有助于提高服务效率和满意度。


一家金融机构

需要处理通过数据表单提交的身份证件扫描图像。他们利用 Gemini 的多模态功能自动快速地处理图像和文本,一方面对比信息的准确性,一方面帮助客户更方便地开设和访问账户。


一家体育公司

使用 Gemini 来分析球员的挥杆动作。将 Gemini 的数据洞察力融入其现有应用后,他们成功利用 AI 分析结果增强了挥杆动作分析工具的功能。


一家保险公司

现在可以利用 Gemini 分析行车记录仪的事故录像,更好地理解和描述事故场景。这项分析不但可协助计算风险评分,甚至可根据观察到的司机行为提供个性化的驾驶建议。


一家广告和营销服务公司

开发出面向实时流媒体的描述和旁白功能,实现了变革性的视频描述解决方案。这一创新简化了视频创作过程,提高了效率,并为个性化内容铺平了道路。


而这些都只是结合多模态功能和长上下文窗口的应用,Gemini 在处理代码库、配图长文档、音频访谈等方面的能力同样强大。


除了客户的热烈反响,行业分析师的认可也令我们倍感鼓舞。例如,仅在过去两个月里,不但 Forrester Research 在《The Forrester Wave™: AI 语言基础模型,2024 年第二季度》中将 Google 评为业界领导者,Gartner® 也在《2024 年云 AI 开发者服务魔力象限《2024 年数据科学和机器学习平台魔力象限中将 Google 评为业界领导者。


今天,为了加速这一势头,我们很高兴地公布 Vertex AI 在模型和企业平台功能方面的一些重大进展。

 

下面先从模型说起。



Gemini 1.5 Flash:

领先市场的性价比和低延迟


上个月,我们发布了 Gemini 1.5 Flash 的公开预览版。现在,这个新模型已正式推出。它兼具低延迟、实惠价格和突破性的 100 万 token 上下文窗口等多项优势,是各种大规模应用场景的理想选择。从零售聊天客服到文档处理,再到合成整个知识库的研究 agent,它都能灵活满足客户所需。


最重要的是,Gemini 1.5 Flash 的强大功能、低延迟和高性价比迅速成为我们客户的最爱。相较于 GPT 3.5 Turbo 等同类模型,它具备多项显著优势:


100 万 token 的上下文窗口,约为 GPT-3.5 Turbo 的 60 倍

在输入 10,000 字符的情况下,平均速度比 GPT-3.5 Turbo 快 40%

● 输入成本比 GPT-3.5 Turbo 最高可低 4 倍 (对超过 32,000 字符的输入启用上下文缓存)


"UberEats 正积极重新构想人们获取日常生活所需的方式,"Uber 资深软件工程师 Narendran Thangarajan 说道,"因此,我们开发了 Uber Eats AI 助手,让我们的用户能够通过自然语言对话,轻松顺畅地探索、发现和购买我们商品目录中的各种好物。Gemini 1.5 Flash 让我们的响应时间几乎减半,而这对整体客户体验至关重要。我们非常期待这一模型在提高效率和客户满意度方面的潜能,以及它的多模态功能和更长上下文窗口带来的新机会。"


"Gemini 1.5 Flash 让我们能够在不牺牲输出质量或上下文窗口的情况下,更轻松地在高流量任务中大规模运用生成式 AI,甚至在多模态应用场景中也是如此,"市场调研公司 Ipsos 的全球生成式 AI 负责人 JC Escalante 说道,"Gemini Flash 为更好地管理投资回报率创造了机会。"


"作为一家致力于帮助企业营销团队提高工作效率的 AI 优先公司,我们必须利用成本效益出色的优质多模态模型,助力客户快速轻松地创作出精彩内容并重新构想其现有创意资产,"Jasper.ai 的首席战略官 Suhail Nimji 说道,"借助 Gemini 1.5 Pro 和新的 1.5 Flash,我们将继续提升生成式内容的质量标杆,确保遵循品牌风格和营销准则,同时提高全程效率。"



Gemini 1.5 Pro:

业界领先的 200 万 token 上下文窗口


Gemini 1.5 Pro 现已正式发布。它具备业界领先、最高可达 200 万个 token 的上下文窗口,能够解锁其他模型力不能及的独特多模态应用场景。

 

处理仅仅六分钟的视频就需要超过 10 万个 token,而大型代码库可能超过 100 万个 token - 无论应用场景是查找海量代码中的 bug、在大型研究资料库中搜寻正确的信息,还是分析数以小时计的音频或视频,Gemini 1.5 Pro 的超大上下文窗口都可帮助组织开拓全新领域。



Imagen 3:

更快的图像生成速度、更强的提示理解能力


Imagen 3 是 Google 最新的图像生成基础模型。它在提供卓越图像质量的同时,更在 Imagen 2 基础上做了多项改进: 生成速度提高 40% 以上,方便用户快速进行原型设计和迭代,理解提示和遵循指令的能力更强,能够生成逼真的人群图像,并可更精准地控制图像中的文本渲染。


Imagen 3 现推出预览版,供 Vertex AI 客户抢先体验。它可理解多种语言,内置 Google DeepMind 的 SynthID 数字水印等安全功能,还支持多种画面比例。


使用 Google 的最新图像生成模型 Imagen 3 生成的图片


"在早期测试中,Imagen 3 模型在质量和速度方面都给了我们惊喜,"Typeface 的 AI 研究负责人 Gaurav Sharma 说道。这家初创公司专注于利用生成式 AI 进行企业内容创作。"它在细节生成和人类生活图像方面都有显著改进。作为 Google 基础模型的早期试用合作伙伴,我们期待在未来发展道路上进一步探索新的 Imagen 和 Gemini 模型。"


"我们让用户能够利用 AI 的力量,轻松将创意转化为精美的演示文稿、网站和其他可视化文档。为了进一步提升个性化水平和创造力,同时减少手动操作,我们通过 Imagen 提供高质量的文生图功能,"Gamma 的联合创始人 Jon Noronha 说道,"我们的用户已经用 Imagen 生成了超过 400 万张图片。Imagen 3 能够让他们更快地创作图片、在图片中加入文本,并安全地、更好地生成包含人物的逼真图片,这令我们非常期待。"


"自从将 Imagen 加入我们的 AI 图片生成工具后,我们的用户已经使用这个模型生成了数百万张图片。我们非常期待 Imagen 3 承诺的改进,它能让我们的用户更快实现他们的创意,而不必牺牲质量。作为 Shutterstock 推出的首款符合道德来源的 AI 图像生成器的重要增强,我们非常认可的另一点是,它不但内置了安全功能,创作成果也享受 Google Cloud 的生成式 AI 赔偿保障。"Shutterstock 数据服务副总裁 Justin Hiza 说道。



第三方模型和开放模型:

拓宽使用 Vertex AI 时的模型选择面


在 Google Cloud,我们致力于通过 Vertex AI 上精心挑选的自有模型、开放模型和第三方模型,为客户提供更多选择、为创新注入更多动力。因此,我们非常高兴地宣布,Anthropic 新发布的Claude 3.5 Sonnet 模型也已登陆 Vertex AI。客户可以开始使用 Google Cloud 上的 Claude 3.5 Sonnet 模型开展实验或将其部署到生产环境。今年夏末,我们还将在 Vertex AI 的 Model Garden 模型库中新增 Mistral Small、Mistral Large 和 Mistral Codestral 模型,进一步深化与 Mistral 的合作。


秉持立足当下满足客户需求的理念,今年早些时候,我们基于与 Gemini 模型相同的技术和研究成果,推出了一系列轻量级、先进的开放式模型 Gemma。今天,我们正式面向全球的研究人员和开发者发布 Gemma 2。Gemma 2 提供 90 亿 (9B) 和 270 亿 (27B) 参数两种规格,相较于第一代更加强大高效,并显著改进了安全性。从下个月开始,客户将可以在 Vertex AI 上使用 Gemma 2。



费用更低:

Gemini 1.5 Pro 和 Flash 都支持上下文缓存


为帮助客户高效利用 Gemini 的超大上下文窗口,从今天开始,我们将逐步为 1.5 Pro 和 Flash 模型推出上下文缓存功能的公开预览版。随着上下文长度的增加,为长上下文应用生成响应变得越来越昂贵且缓慢,提高投产难度。Vertex AI 上下文缓存功能可将常用上下文保存到缓存中,帮助客户显著降低输入成本(减费幅度最高可达 75%)。目前,Google 是市场上唯一一家提供上下文缓存 API 的供应商。



可预测的性能:

为 Gemini 模型预配吞吐量


从今天起,预配吞吐量功能正式面向许可名单上的客户推出。它让客户在使用 Gemini 1.5 Flash 等 Google 自有模型时能够负责任地扩容,在容量和价格上都获得保证。这项 Vertex AI 功能为客户的生产工作负载带来了可预测性和可靠性,使他们能够自信地为生成式 AI 工作负载灵活扩容。



为企业提供可靠信息:

更多接地选择,不但支持 Google 搜索,现更支持第三方数据


要打造适合企业的平台,只有模型还不够。企业需要最大限度地提高准确性并显著减少幻觉,这意味着不但要将模型接地到来自 Web、第一方和第三方的事实信息和数据,还要满足企业在数据治理和数据主权等方面的严格标准。


在 Google I/O 大会上,我们宣布正式推出 Vertex AI 的 Google 搜索接地服务。随着这项服务的正式发布,各类企业现在都可以利用 Google 搜索接地来增强 Gemini 的输出,使模型能够取用最新的优质信息。客户可以轻松将增强后的 Gemini 模型集成到他们的 AI agent 中。


"Gemini 1.5 Flash 为未来更好地管理投资回报率创造了机会。通过模型的 Google 搜索接地功能,我们可以利用最新数据,更好地提升我们的对话式产品 Ipsos Facto 的结果相关性,"Ipsos 的 JC Escalante 说道,"在我们不懈改善输出质量和研究人员体验的道路上,这项功能发挥着不可或缺的关键作用。"


"Quora 现在在其 Poe 平台上提供 Google 搜索接地功能,其产品主管 Spencer Chan 说道:"通过 Google 搜索接地意味着我们可以获得更准确、更新鲜、更可靠的答案。用户现在能够更加自信地与 Gemini 聊天机器人互动,他们的积极反馈让我们非常欣喜。"


我们今天还宣布,从下个季度开始,Vertex AI 将提供一项新服务,让客户能够使用专业第三方数据来接地他们的 AI agent。这有助于企业将第三方数据集成到他们的生成式 AI agent,解锁各种独特应用场景,并提高其 AI 产品中的企业信息准确性。我们正与穆迪、MSCI、汤森路透 Zoominfo 等知名供应商合作,将他们的数据引入这项服务。


"Google Cloud 的第三方数据接地服务将为毕马威和我们的客户开启全新应用场景,"毕马威全球税务与法务部门首席技术官 Brad Brown 说道,"通过将行业领军供应商的专业第三方数据无缝集成到我们的生成式 AI 产品中,我们能够利用高度可信的数据源来减少数据分析时间、推动更明智的决策,并最终实现更丰硕的价值。"



更准确的回答:

高保真模式接地


在金融服务、医疗保健和保险等数据密集型行业中,生成式 AI 应用场景通常要求生成的响应只依据所提供的上下文,而不是模型的宽泛知识。高保真接地功能现发布实验预览版,可针对性地满足这类接地场景需求,包括总结多个文档、从一组金融数据集中提取数据或处理给定的一套文档。高保真模式由一个经过专门微调的 Gemini 1.5 Flash 版本驱动,它只使用客户提供的内容生成回答,可确保响应的高准确性。



保障数据主权的理想选择:

选择静态数据驻留位置,限制机器学习处理区域


很多客户,尤其是受监管行业的客户,要求在使用生成式 AI 功能的过程中能够控制其数据的存储和处理位置。为了满足这类数据主权要求,我们在 23 个国家/地区提供静态数据驻留位置保证 (其中 13 个国家/地区是 2024 年新增的: 西班牙、意大利、以色列、瑞士、波兰、芬兰、巴西、印度、中国台湾、中国香港、澳大利亚、沙特阿拉伯、卡塔尔),并在美国和欧盟提供对相关机器学习处理位置的额外保证。我们正在努力将机器学习处理保证拓展到另外 8 个国家/地区,其中 4 个国家/地区将在 2024 年内得到支持。



立即开始使用 Vertex AI


正如我们今天分享的客户案例所展示的那样,Vertex AI 可帮助企业将生成式 AI 的强大能力转化为实实在在的变革性成果。我们期待继续为客户带来 Gemini 1.5 Flash 和 Google 搜索接地这样的创新,并努力将 Vertex AI 打造成完美满足企业需求的生成式 AI 平台。


①Gartner,《Magic Quadrant for Cloud AI Developer Services》,Jim Scheibmeir,Arun Batchu,Mike Fang - 2024 年 4 月 29 日。GARTNER 是 Gartner Inc. 和/或其关联公司在美国和其他国家的注册商标和服务标志。MAGIC QUADRANT 是 Gartner Inc. 和/或其关联公司的注册商标,本文中经许可使用。保留所有权利。Gartner 不为其研究出版物中描述的任何供应商、产品或服务背书,也不建议技术用户仅选择那些获得最高评级或其他认定的供应商。Gartner 的研究出版物由 Gartner 研究机构的观点构成,不应被解释为事实陈述。Gartner 对本研究不作任何明示或暗示保证,包括对适销性或特定用途适用性的任何保证。②Gartner,《Magic Quadrant for Data Science and Machine Learning Platforms》,fraz Jaffri、Aura Popa、Peter Krensky、Jim Hare、Raghvender Bhati、Maryam Hassanlou 和 Tong Zhang - 2024 年 6月 17 日。GARTNER 是 Gartner Inc. 和/或其关联公司在美国和其他国家的注册商标和服务标志。MAGIC QUADRANT 是 Gartner Inc. 和/或其关联公司的注册商标,本文中经许可使用。保留所有权利。Gartner 不为其研究出版物中描述的任何供应商、产品或服务背书,也不建议技术用户仅选择那些获得最高评级或其他认定的供应商。Gartner 的研究出版物由 Gartner 研究机构的观点构成,不应被解释为事实陈述。Gartner 对本研究不作任何明示或暗示保证,包括对适销性或特定用途适用性的任何保证。③根据 Gemini 团队于 2024 年 6 月 14 日发布的研究《Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context 》。




谷歌开发者特别招募活动进行中

诚邀热爱技术的你加入


通过多种形式 (文章/视频/coding 等) 创作与 Google 技术相关的讲解分享、实践案例或活动感受等内容,以及分享您应用 AI 技术的故事经历与成果。我们将为您提供平台和资源,助力您在分享中提升技能。更有惊喜权益等您领取,快来报名参与吧!







 点击屏末 |  | 了解更多


继续滑动看下一个
谷歌开发者
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存