查看原文
其他

大公司|Google发布Gemini,暗示GPT-4不是「原生」多模态

吴洋洋 新皮层NewNewThing 2024-03-08

「真正对标GPT-4的Gemini Ultra并没有出现,要到明年年初才正式发布。」


撰文:吴洋洋

编辑:王杰夫

Key Points


Gemini展示了与环境实时、准确互动的能力,GPT-4目前不具备这种实时能力;


相较于GPT,Gemini使用了更多来自Youtube的视频数据训练模型;


Gemini Ultra还没有就位的时候就发布Gemini,与ChatGPT和Copilot的加速有关,12月5日,微软的Copilot接入GPT-4;


Gemini提供了3种尺寸的模型:Ultra、Pro和Nano,使其可以在从数据中心到移动设备的任何设备上运行;


与「原生」多模态对立的是「近似」多模态,或者「拼凑」多模态;


在通往AGI的道路上,Google和OpenAI都在回到AlphaGo。


当地时间12月6日,Google宣布Gemini 1.0版正式上线,兑现其在今年5月开发者大会上承诺的多模态模型——这是Google商用化的第一个多模态模型,对标OpenAI今年3月发布的GPT-4。

晚了大半年才发布,Google刻意在发布会上展示了Gemini一些连GPT-4都没有的能力:它能够通过摄像头边观察边与人互动。比如,当演示者拿起画笔在纸上手绘一个小鸭,Gemini就会边看边描绘它看到的整个过程:「我看到你把一张纸放到了桌上」「我看到你画了一条波浪线」「第二条线很平衡」……当一只脚开始在波浪形下出现时,Gemini紧接着说:「它看起来像一只鸟」,演示者继续画出一条像水纹一样的波浪线,Gemini马上反应过来,「这只鸟在游泳,它有长脖子……它是一种鸭子」。猜对答案后,它还会多几句嘴说:「鸭子是一种家禽……」

右边的Gemini能够实时理解左边视频内的信息

与环境的实时、准确互动是人工通用智能(Artificial General Intelligence,AGI)的重要指标。想象一下,只要给这个AI装上身体和眼睛(摄像头),当它出现在家庭、办公室、工厂等生活场景中,你会越来越难以区分谁是AI,谁是真正的人类。

GPT目前并不具有Gemini所展示的这种实时、准确的互动能力,其最强版本目前也只能接受静态的文字和图片数据,不能接受和处理动态视频数据。Google试图向外界展示这样的雄心:采用不同于OpenAI的新技术路径,以及在端侧智能上的先人一步。

Gemini的中文意思是双子星,1960年代美国宇航局的同名项目(Gemini Project)促成了阿波罗登月。它意在纪念Google今年4月将旗下两个AI团队——DeepMind与Google Brain合并这一重大组织变革。这一合并创建的Google DeepMind被赋予追赶OpenAI GPT-4的重任,追赶也就成了Google这一年的关键词。。

此次Gemini发布会本身也是仓促的,它甚至都称不上会,所谓的发布不过是在官方网站上更新了文章与视频。就在本周一,还有传言称Gemini的发布将推迟到2024年1月。当然确实还是出现了推迟,Gemini按照能力由弱到强分为Nano、Pro、Ultra三个版本,现在可用的只有前两个版本,真正对标GPT-4的Gemini Ultra要到明年年初才正式上线。

这一切都可以看出,Google等不及了,在整个公司投入全部资源追赶OpenAI一整年后,它需要在自然年结束前交出一份答案。


「近似」多模态 vs「原生」多模态


发布Gemini前,DeepMind创始人、Google DeepMind首席执行官哈萨比斯(Demis Hassabis)接受了《连线》杂志采访,他在采访中将Gemini称为「原生」多模态,区别于其他既有多模态模型(比如GPT-4、百度文心4.0)的「近似」多模态,意思是后者是将多个模态(文本、代码、音频、图像和视频)先独立训练成不同模型,然后再拼凑在一起形成的,而Gemini一开始就把多种形式的数据放在一起训练,并使用同一个模型完成不同模态的内容输出。

以GPT-4为例,3月发布时它号称多模态,OpenAI CEO  Sam Altman也在发布会现场展示了GPT-4如何将一张手绘草图变成网站代码,但这种多模态能力自发布会结束至今从未真正上线。

按照OpenAI首席科学家Ilya Sutskever与英伟达创始人黄仁勋今年4月的对谈,OpenAI也曾使用图像数据训练GPT-4,这种多模态训练被认为是GPT-4比只用文本训练的GPT-3.5更聪明的关键原因。但这种对图片的理解能力并没有在输出端转换成图片生成能力。

9月25日,OpenAI发布的GPT-4升级版GPT-4V(GPT-4 with vision)似乎也不具备多模态生成能力。因为在10月更新的ChatGPT应用中,其增加的语音功能来自于「语音转文本」模型Whisper、视觉功能则来自9月22日发布的文生图模型DALL-E 3

OpenAI没有公开解释过GPT-4V是否就是GPT-4加上DALL-E 3。GPT-4对这一问题的回答是:「在GPT-4首次公开展示的时候(2023年3月),DALL·E 3尚未发布。因此,当时GPT-4的图像生成展示实际上是基于DALL·E 2或其先前版本的集成。DALL·E 2是在2021年推出的,且在后续版本中不断改进。这种集成使得GPT-4能够根据文本提示生成图像,虽然图像生成的实际处理是由DALL·E系统完成的,而不是GPT-4本身。」

「对于某些任务来说,这(指近似多模态)没问题,但你无法在多模态空间中完成深层复杂的推理。」哈萨比斯说,而且相较于GPT-4V,Gemini使用了更多视频数据训练,这使它具有处理视频的能力,而GPT-4V的多模态尚不涉及视频。在视频数据方面,Google有大量自有数据,包括视频网站YouTube上900多亿分钟的视频和字幕。


一个模型有3个版本,分别对标GPT-3.5、GPT-4,还有一款适用于移动设备


具体来说,Gemini 1.0提供了3种尺寸的模型:Ultra、Pro和Nano,使其可以在从数据中心到移动设备的任何设备上运行。


  • Gemini Ultra ——规模最大、功能最强,适用于高度复杂的任务,在数据中心运行,对标GPT-4;

  • Gemini Pro ——适用于各种任务,通过Google Cloud提供服务,对标GPT-3.5;

  • Gemini Nano ——最小版本,适用于移动设备,比如手机。

Google称,在向公众发布前,Gemini Pro已经通过了一系列行业标准基准测试,在8个基准测试中的6个测试中,Gemini Pro的表现优于GPT-3.5;而Gemini Ultra在广泛使用的基准测试中优于GPT-4,这些基准测试包括阅读理解、代码生成和视觉理解等功能。

3个版本中,Gemini Pro版在发布会当天就已上线到Google的部分内部应用中,外部开发者要使用该模型需要等到下周,他们此刻可以访问的只有最小版本的Gemini Nano。而最先进的Gemini Ultra要在2024年年初才会正式发布和上线。

在Google内部,Gemini的应用计划是:

1. Bard(聊天机器人,对标ChatGPT):12月6日开始,Bard背后的模型就由5月发布的PaLM 2替换成了Gemini Pro。Google称,2024年年初,当对标GPT-4版本的Gemini Ultra发布时,Bard背后的模型将进一步升级为Gemini Ultra,推出Bard Advanced(对标ChatGPT Plus),届时这款聊天机器人就能解释图像和视频,就像视频里演示的那样。

Bard是Google今年3月发布的聊天机器人,对标OpenAI的ChatGPT,目前已经在170多个国家和地区提供服务。由于缺少先发优势,且背后模型的能力差异,Bard的用户量至今还远低于ChatGPT。通过接入Gemini Pro与不久后的Gemini Ultra,Brad至少在模型能力上追上了ChatGPT。目前,OpenAI对ChatGPT Plus用户每月收取20美元,未来,Google可能会对Bard Advanced采取类似政策。

2. Pixel(智能手机): Google计划将3款模型中size最小的Gemini Nano加载到智能手机中。加载了该模型的手机将具备的功能包括:


  • 总结:Gemini Nano可以为手机中的对话录音、采访、演示等内容生成总结摘要,哪怕没有网络连接,这项功能也可以离线完成,该功能目前仅支持英文文本;


  • 智能回复: Gemini Nano可以识别聊天过程中的朋友来信,并根据不同来信生成对应回复。该功能将首先登陆WhatsApp,并仅支持英文文本,明年推广至更多即时通讯应用;


  • 照片和视频的AI编辑:比如清洁功能,只需要在照片上滑动几下,即可消除图片中的污渍、折痕等。

Pixel 8 Pro将是首款搭载Gemini Nano的智能手机。有数量庞大的移动设备使用了Google旗下的Android系统,未来Google可能让Gemini进入其他厂商生产的Android设备,这样它就可以将生成式AI引入遍布全球的数十亿台移动设备。

3. Google(搜索引擎):Gemini目前尚未在Google搜索引擎中上线,但公司已经在该领域测试Gemini。此前,Google已经使用其他模型上线和测试了将搜索和生成结合起来的「搜索生成服务」(Search Generative Experience,SGE)。

4. 未来几个月,Gemini将应用于更多Google产品和服务,包括广告、Chrome浏览器和工作助手Duet AI

至于外部企业客户:

12月13日开始,开发者和企业客户可以通过Google AI Studio或Google Cloud Vertex AI中的API获取Gemini Pro,即对标GPT-3.5的那个中型版本。

此外,Android开发者还可以通过AICore使用最小的端侧模型Gemini Nano。AICore是Android 14中的一项新的系统功能,从Pixel 8 Pro开始在设备中支持。


Google也加入了AGI大赛,AI加速主义与AI对齐主义之间的矛盾可能再次引燃


在通往AGI的道路上,Google和OpenAI都在回到AlphaGo。

早在今年6月接受采访时,哈萨比斯就声称,Gemini会将生成式AI与AlphaGo中使用的技术结合,以赋予系统规划功能,这项功能使用树搜索的方法来探索和记住棋盘上可能的走法,被认为是推理能力的重要来源。

「在更高层面上,你可以将Gemini看作AlphaGo的一些优势与大模型的惊人语言能力的结合。」哈萨比斯说。AlphaGo正是他所创立的DeepMind开发出来的。

而OpenAI看上的是AlphaGo的另一项技术:自我训练,它曾令AlphaGo自己生成棋谱、然后自我对弈。2016年,AlphaGo在与李世石的博弈中下出了让所有懂围棋的人都感到困惑的「第37步棋」,最后在所有人都认为AI搞砸了的时候,AlphaGo出奇制胜了——这一出其不意被认为来自自我训练,而非向人类学习。

11月下旬的Sam Altman罢免风波中,一个叫Q*(发音为「Q-Star」)的模型被多家媒体爆料为此次风波的起因。该模型被视为OpenAI在GPT-4之后的一大技术突破,相较于传统模型从互联网上抓取文本或图像数据来训练模型,Q*可以自己生成数据来自我训练,AlphaGo曾经就是这么做的。

当时,Q*的突破被认为触发了OpenAI内部更关心AI安全而非效率那派人的担忧,Sam Altman本人被认为过于在意效率、在意公司在业内的领先优势而被罢免。这场风波虽然已以Sam Altman的回归告终,但效率派(有效加速主义)与安全派(AI对齐主义)的冲突只是被暂时压制了,并没有消失。

Google的加入可能令这一冲突在未来某个时刻再次上演。Gemini 1.0的发布只是Google在AI战争上的第一仗。在这个多模态之外,哈萨比斯所领导的Google DeepMind团队已经在研究如何将Gemini与机器人技术结合,与真实物理世界交互。「要构建真正的多模态,你还需要触摸和触觉反馈。」哈萨比斯说。 

今年7月,Google DeepMind就展示过一个叫RT-2(Robotic Transformer 2)的机器人,它将电脑中训练的「视觉-语言模型」(visual-language model,VLM)与机器人在物理世界中的动作关联起来,形成「视觉-语言-动作模型」(visual-language-action,VLA),即RT-2。相较于过去为特定任务编写指令的机器人,RT-2能够与人通过自然语言交互并完成任务,哪怕是它未接受过训练的任务。


最强大、对标GPT-4的Gemini Ultra明年年初才会正式发布


12月6日的发布中,3款Gemini模型真正开始应用的只有中间版本的Gemini Pro和最小版本的Gemini Nano,最强大版本、对标GPT-4的Gemini Ultra并没有于当天发布。

Google称,这个最强版本明年年初才会出来。目前,Google正在对这款模型做信任与安全方面的检查,包括由可信赖的外部团队做「红队测试」(即安全对抗测试),并通过微调和基于人类反馈的强化学习(RLHF)进一步完善该模型。该过程中,部分客户、开发者和安全责任专家会被邀请参与早期试验和提供反馈。

Gemini的发布曾一再被推迟,最初其发布日期定在今年11月,但11月中旬早期版本的测试客户就收到邮件称正式版本将延迟发布。

就在本次Gemini 1.0系列模型发布前,Google首席执行官桑达尔·皮查伊(Sundar Pichai)还取消了原定在加利福尼亚州、纽约和华盛顿举行的一系列讲座活动,原因是Google发现Gemini无法可靠地处理一些非英语查询。

但外部压力可能使得Google无法再而三地延后发布Gemini,据报道,皮查伊和其他高管一直担心OpenAI的ChatGPT已成为家喻户晓的名字,而微软用于生产力工具的Copilot也正在变成一项重要业务。就在Gemini发布前一天,12月5日,微软宣布将GPT(包括GPT-4 Turbo)、DALL·E 3等模型的几乎所有功能都搬进Copilot,其知识库也更新至2023年4月,一次能处理的上下文长度达到128K。

于是,在对标GPT-4的Gemini Ultra没有就位的时候,Google就发布了Gemini。这是AI加速主义的又一次胜利。



参考链接

https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html 

https://mp.weixin.qq.com/s/GcZ-ILXO1CH5OZS4LH0kig

https://wired.com/story/google-deepmind-demis-hassabis-gemini-ai/


-END-


若想了解更多当日资讯,请点击阅读往期智能晚报

智能晚报|微软Copilot接入GPT-4最新功能;Mistral AI再融4.5亿欧元;马斯克的xAI寻求10亿美元融资...

智能晚报|王慧文参股袁进辉的AI初创公司;商汤考虑让自动驾驶、医疗保健部门独立融资;OpenAI推迟发布GPT商店...

若想了解头条新闻,请点击阅读往期

突发|CEO被开除,只是OpenAI危机的开始

大公司|Google发布二代大模型,但与GPT-4仍有差距



我们是一个诞生于GPT浪潮、由《第一财经》YiMagazine孵化的全新内容IP。 

和每一位关心技术、关注人类命运的读者一样,我们希望在这个充满不确定性的时代,更好地理解快速变化的科技世界,也更好地理解生而为「高级智能」的我们自己。

在这个目标下,我们计划从学术、商业、伦理、监管等多个角度报道和讨论与「智能」相关的议题。请注意,我们说的智能,不只是 AI。



与记者交流,可添加微信(请备注公司名称和姓名):

王杰夫 微信号: wjfsty

张司钰 微信号: helianthus351

吴洋洋 微信号: qitianjiuye

 

喜欢就关注我们吧,记得设为星标」

继续滑动看下一个

大公司|Google发布Gemini,暗示GPT-4不是「原生」多模态

吴洋洋 新皮层NewNewThing
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存