查看原文
科技

新版 Gemini 1.5 技术报告解析,跨模态检索实力超群,Gemini 1.5 Flash 性价比之王

思辨view kate人不错 2024-05-19

引言

在 Google I/O 大会上,Google 发布了升级后的 Gemini 1.5 Pro,并推出了 Gemini 1.5 Flash。近期,Google 发布了更新后的 Gemini 1.5 技术报告。

报告链接

https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

报告亮点

Google Logan Kilpatrick 指出报告亮点:

  • Gemini 1.5 Pro(五月版)现已成为 Google 最强大的模型(超越 1.0 Ultra)
  • Gemini 1.5 型号在跨模态的长上下文检索任务中实现了近乎完美的回忆
  • 在长文档问答、长视频问答和长上下文自动语音识别(ASR)方面的表现有所提升
  • 在下一个标记预测和长达至少 1000 万个标记的近乎完美检索(>99%)方面有了改进

报告很长,在此,我摘录了报告的部分内容,并做了解析。

Gemini 1.5 Pro 模型 2 月 VS 5 月

图 1:Gemini 1.5 Pro 模型在多个基准测试中的进步

图片显示了 Gemini 1.5 Pro 模型在多个基准测试中取得的显著进步,在几乎所有基准测试中,分数都有所提升,特别是在 HumanEval 和 V* Bench 上的提升尤为明显,分别提高了 12.2 和 23.7 分。这反映了模型在不同任务上的综合能力显著增强。

不同语言不同模型 API 效率对比

图 2:不同模型在多种语言中的输出生成速度对比

Gemini 1.5 Flash 在所有测试语言中都表现出最快的输出生成速度,表明其在高效性与低延迟方面具有优越性能。相比之下,其他模型(如 GPT-4 Turbo 和 Claude 3 系列)的延迟相对较高,尤其是在处理中文时。

我之前提到 Claude 3 haiku 是性价比很高的模型,现在我认为 Gemini 1.5 Flash 更具性价比。

与 Claude 3 haiku 相比,Gemini 1.5 Flash 不仅支持音频和视频,还支持更长的上下文。

Claude 3 Haiku 的输入成本为每百万 tokens $0.25,输出成本为每百万 tokens $1.25。

而 Gemini 1.5 Flash 在 128k 上下文长度以下的价格为 $0.35 和 $0.53。此外,Gemini 1.5 Flash 的性能接近于 Gemini 1.5 Pro。

图 3:Gemini 1.5 Flash 价格

图 4:不同模型性能对比

图 5:Gemini 1.5 Pro 模型在处理大规模代码的表现

上下文长度达到 1M 对代码分析非常有用。这张图片展示了 Gemini 1.5 Pro 模型在处理大规模代码库时的能力。用户询问 JAX 代码库中自动微分的反向传播实现所在的文件。Gemini 1.5 Pro 在提供了整个代码库(746,152 个标记,116 个文件)的上下文后,准确地找到了实现文件 jax/_src/interpreters/ad.py,并提供了相关代码片段。图片展示了模型在处理长上下文和复杂代码检索任务中的强大能力,体现了其在帮助开发者查找特定代码实现和优化大型项目代码方面的实际应用价值。

根据我的使用经验,将整个代码库上传,然后让模型基于上传的内容找到特定目标代码,这种方法非常有效。

上下文长度长了,那输出准确性如何?

Gemini 1.5 Pro 技术报告对比了 GPT-4 Turbo 在长文本处理上的表现。

图 6:Gemini 1.5 Pro 和 GPT-4 Turbo 在文本检索任务中的表现

这张图片比较了 Gemini 1.5 Pro 和 GPT-4 Turbo 在文本检索任务中的表现。Gemini 1.5 Pro 在 1k 到 10M 标记范围内大部分成功检索目标信息,显示出强大的处理长文本能力。相反,GPT-4 Turbo 仅在 128k 标记范围内有部分成功,大量灰色方格表示出现 API 错误,未能完成任务。这展示了 Gemini 1.5 Pro 在长文本检索任务中的显著优势,相比之下,GPT-4 Turbo 的性能明显逊色。

图 7:Gemini 1.5 Pro 和 GPT-4V 在视频检索任务中的表现

这张图片比较了 Gemini 1.5 Pro 和 GPT-4V 在视频检索任务中的表现。Gemini 1.5 Pro 能在所有视频长度中成功完成任务,包括最长的 10.5 小时视频,显示出其强大的长视频处理能力。相反,GPT-4V 只能处理最多 3 分钟的视频,超过 3 分钟即出现 API 错误,未能完成任务。绿色方格表示成功检索,灰色方格表示 API 错误。这展示了 Gemini 1.5 Pro 在长视频检索任务中的显著优势,而 GPT-4V 在处理长视频时表现不佳。

图 8:Gemini 1.5 Pro 和 Whisper + GPT-4 Turbo 在音频检索任务中的表现

这张图片比较了 Gemini 1.5 Pro 和 Whisper + GPT-4 Turbo 在音频检索任务中的表现。Gemini 1.5 Pro 能成功检索从 12 分钟到 107 小时的音频片段中的目标关键词,显示出强大的长音频处理能力。相反,Whisper + GPT-4 Turbo 在多个音频长度下未能成功完成任务,存在较多识别失败(红色方格)。绿色方格表示成功识别,红色方格表示失败。这展示了 Gemini 1.5 Pro 在长音频检索任务中的显著优势,而 Whisper + GPT-4 Turbo 表现较差。

图 9:Gemini 1.5 Pro 和 GPT-4 Turbo 在检索任务中的表现

任务要求在单次检索中找到 100 个独特目标。结果显示,在较短上下文长度(标记数较少)下,Gemini 1.5 Pro 的召回率显著高于 GPT-4 Turbo;

并且在较长上下文长度(接近 1M 标记)时,仍能保持较高水平。整体上,Gemini 1.5 Pro 在所有上下文长度下的表现都优于 GPT-4 Turbo,尤其在短上下文长度下表现突出,长上下文长度下也保持稳定性。

图 10:不同模型在 MRCR 任务中的表现

MRCR 代表“多范围上下文检索”(Multi-Range Context Retrieval)。

这张图片展示了在 MRCR 任务中,不同模型的累积平均字符串相似度分数随上下文长度变化的表现。结果显示,Gemini 1.5 Pro 和 Gemini 1.5 Flash 在较长上下文长度(最多 1M 标记)下表现出色,保持了较高的相似度分数,性能下降较小。相比之下,GPT-4 Turbo 和 Claude 2.1 的性能下降明显。Gemini 1.5 Flash 表现最优,Gemini 1.5 Pro 表现优异,GPT-4 Turbo 次之,Claude 2.1 表现最差。这说明了 Gemini 1.5 系列在处理长上下文任务中的优势。

Gemini 翻译表现优异

我在推上看到有博主表示,Gemini 在将英文翻译成中文时更符合国人的表达习惯,比 GPT-4 更好用。

我在 Gemini 的技术报告中看到了其在翻译 Kalamang 语言方面的出色表现。

Kalamang 是一种使用人数不到 200 人的语言。

图 11:Gemini 1.5 Pro 在语言翻译任务中的表现

这张图片展示了 Gemini 1.5 Pro 模型在使用参考资料进行语言翻译任务时的能力。用户要求将一句英语句子翻译成 Kalamang 语,并提供了一本语法书和一本双语词汇表(共 250K 标记)作为参考。Gemini 1.5 Pro 基于这些资料,准确地将句子 "I’m getting pandanus, I want to make a mat." 翻译成 Kalamang 语:"An padanual repte, irar paruotkin."。这显示了模型在提供长上下文后,能够进行高质量翻译,其效果与从相同资料中学习的人的翻译质量相当。

图 12:从 Kalamang 翻译到英语的表现

图 13:从英语翻译到 Kalamang 的表现

  • 0-shot:没有上下文信息,直接进行任务。
  • Half book:有部分上下文信息,基于部分内容进行任务。
  • Full book:有全部上下文信息,基于完整内容进行任务。

两张图片主要区别

  • 图 12 是从 Kalamang 翻译到英语的结果,自动评分指标是 BLEURT。

  • 图 13 是从英语翻译到 Kalamang 的结果,自动评分指标是 chrF。

通过这两张图表可以看出,Gemini 1.5 Pro 在两种翻译任务中的表现都非常优秀,尤其是在处理长上下文(Half book 和 Full book)时。在 0-shot 的情况下,英语到 Kalamang 的翻译中,Opus 模型表现最好。Kalamang 翻译到英语中,Haiku 模型表现最好。

总体来看,Gemini 1.5 系列模型具有不错的翻译能力。如果你有大量翻译任务,从性价比角度考虑,建议选择 Gemini 1.5 Flash。

结语

这份 Gemini 1.5 技术报告仍有许多不足之处。例如,OpenAI 已经发布了 GPT-4o,但报告中缺少关于最新的 Gemini 1.5 与 GPT-4o 之间的对比分析。

通过对 Google Gemini 1.5 系列模型的分析,我们可以看到其在长上下文处理、跨语言翻译等方面展现出的强大能力和性价比优势。

你如何看待 Gemini 1.5 的性能表现?欢迎在评论区分享你的想法!


精选历史文章,请看这里:

Gemini 1.5 Pro 探索,它的长上下文能力比 GPT4 好用在哪?

推荐一个自动生成复杂提示词的模版:思考链(CoT)如何通过分步推理提升AI任务准确性 | 示例详解

GPT-4o 速度翻倍、成本减半,API 性价比高 | 语音视觉能力超越现有模型 | 免费用户也能用 GPT-4o

Google AI 笔记应用 NotebookLM 新升级:支持 Gemini 1.5 Pro,分享对比 GPT-4o 使用体验

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存