谷歌号称最强的大模型，居然玩文字游戏？

程序员鱼皮 2024-01-21

The following article is from 无敌信息差 Author 无敌

传说中谷歌（Google）用来和 ChatGPT 竞争的大模型—— Gemini，终于生了！一上来就是三种版本、多模态……但是万众瞩目的 Gemini，如果你真的比 ChatGPT 要强，为什么要在测评报告里玩文字游戏呢？

（关注无敌并私信“谷歌”，领取完整版报告！吃瓜更香！）

不太省的省流版介绍

首先，让无敌来为大家省个流，简单介绍一下谷歌口中 Gemini 的特点。毕竟完整技术报告实在是太长了：

多模态，识别图像和视频的能力优秀是 Gemini 本次最突出的优点。谷歌说：Gemini 这孩子啊，从小到大就是几种模态一起联合训练的，长大后又用额外的多模态数据进行了微调；不像某些模型，只是将纯文本、纯视觉和纯音频模型拼接在一起。我们可以实现跨文本、图像、音频视频甚至代码的无缝理解。
三种版本。从大到小分别是：Gemini Ultra、Pro、Nano。
最强性能。Gemini Ultra 的性能优于如今所有的大模型，并且是第一个在 57 个学科上超越人类专家的 AI 模型。（注意，这个版本还没上线，实际今天只能通过 Bard 使用 Gemini Pro。）
新的芯片。谷歌还发布了新的用于训练大模型的芯片 Cloud TPU v5p，据说性能是上一代的 2.8 倍。

如下图，（谷歌展示出的）Gemini 对视频的实时交互表现的非常优秀。

大模型的事，怎么能叫文字游戏呢

但实际上的 Gemini 真的有谷歌说的这么优秀吗？全方位吊打 ChatGPT？让我们来看一下：

首先，谷歌掏出三款 Gemini 排在桌案上说：“要一个最强 AI 的称号。”

网友们笑他：“谷歌！你测评报告又作假了！”

谷歌在将 Gemini 跟 GPT-4 对比的时候，悄悄的给自家产品带了位天才枪手：Gemini 用的是 CoT（思维链，可以显著提升推理能力），测试了 32 次选取最好的结果，而 GPT-4 只用 few-shot 测了 5 次。偏心的离谱。

所谓的“超越人类专家”配图也很离谱：比例尺歪的吓人，90.0%与人类基准 89.8%明明只差一点，y 轴上却拉开很远。有热心网友按照正常的比例尺还原了一下，大家可以对比看看。（上为谷歌原图，下为还原后。）

谷歌瞪大眼睛：“怎么这样污人清白……”网友又道：“什么清白？我亲眼看到你的视频是剪切的，实际用的是静态图片！”

网友们在谷歌发布的一份文章中找到了真正的交互过程：可以说是在逐帧逐句的诱导，和视频中的表现相差甚远。

谷歌便涨红了脸，额上的青筋条条绽出，争辩道，“择优……择优的事情怎么能叫剪辑？”接连便是掏出了免责声明，什么“图片是一系列的”，引得众人都哄笑起来：互联网上充满了快活的空气。

上图为谷歌的免责声明："我们一直在测试我们的新多模态 AI 模型 Gemini 的能力。我们一直在捕捉影片来对它进行广泛的挑战测试，展示一系列图片，并询问它对所看到的内容进行推理。"

虽败犹荣！虽败犹荣？

虽然谷歌的测试闹出了很多笑话，但毕竟作为 Ilya （OpenAI 首席科学家）的老东家、AI 领域曾经的巨头；好歹是在这次科技巨头们的 AI 竞赛中存活下来了，让大家看到了或许 OpenAI 和微软不会一家独大的希望。

不知道 OpenAI 现在作何感想，但是无敌只希望各位大模型的价格能再打下来！Gemini 这场大戏你怎么看？还会给 ChatGPT-4 续费吗？

天下大事无我不知，关注我，无敌帮你消除信息差！⭐️

往期推荐

斗鱼 CEO 涉赌被捕、主播纷纷转战抖音！游戏直播平台真凉了？

英伟达市值一夜蒸发 2200 亿！高管减持套现，AI 热潮不管用了？

训练数据泄漏！ChatGPT 严重漏洞被对家揭发？

微软终于挤进 OpenAI 董事会了！但是。。。

一夜暴涨，拼多多股价逼近阿里！马云竟这样回应？

滴滴崩了！上班打个车比坐飞机还贵？

继续滑动看下一个

谷歌号称最强的大模型，居然玩文字游戏？

程序员鱼皮

向上滑动看下一个

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

这把绝对高端局，只有中国人才懂

许纪霖：珠海驾车撞人事件的背后，弦绷得太紧了，要给人们以松弛感 | 二湘空间

谷歌号称最强的大模型，居然玩文字游戏？

不太省的省流版介绍

大模型的事，怎么能叫文字游戏呢

虽败犹荣！虽败犹荣？

谷歌号称最强的大模型，居然玩文字游戏？

您可能也对以下帖子感兴趣

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

这把绝对高端局，只有中国人才懂

许纪霖：珠海驾车撞人事件的背后，弦绷得太紧了，要给人们以松弛感 | 二湘空间

生成图片，分享到微信朋友圈

谷歌号称最强的大模型，居然玩文字游戏？

不太省的省流版介绍

大模型的事，怎么能叫文字游戏呢

虽败犹荣！虽败犹荣？

谷歌号称最强的大模型，居然玩文字游戏？

您可能也对以下帖子感兴趣