Bard 首发失利、Gemini AI 推迟发布,谷歌的大模型之路为何如此坎坷?
自 3 月份 Bard 发布以来,谷歌的 LLM 研发和产品推进一直比较缓慢,虽然在 Google Docs 和 Gmail 中都集成了 AI 工具,但市场反响一般,行业的注意力都聚焦在 OpenAI 和 ChatGPT 。
很明显,目前大模型赛道,与竞争对手 OpenAI 和微软相比,谷歌属于暂时失意的一方。至于原因,最近一篇分享在谷歌工作经验的 blog,提供了一个难得的内部视角,回答了为什么是 OpenAI 而不是谷歌成为了 LLM 革命的领导者。
文章编译自 The Information 和公众号「待字闺中」,Founder Park 有所增删。
01
Gemini 难产,追赶 OpenAI 比预期困难
今年早些时候,谷歌告诉一些云客户和业务合作伙伴,他们将在 11 月之前使用该公司新的对话式人工智能——名为 Gemini 的大型语言模型。但据两位直接知情人士透露,该公司最近告诉他们,要到明年第一季度才能实现。这次推迟对谷歌来说来得不是时候,谷歌的云服务增长已经放缓,而其更大的竞争对手微软的增长却在加速。众所周知,微软的成功部分来自于销售 OpenAI 的产品。
周二,OpenAI 首席执行官 Sam Altman 表示,由于 ChatGPT 付费版本的注册人数激增,服务器压力太大,已经暂缓了 plus 会员的注册。
而与此同时,谷歌自己的 Bard 却没有取得应有的成功。
周四,谷歌 CEO Sundar Pichai 在一次公开活动中表示,该公司「专注于尽快推出 Gemini 1.0,确保其具有竞争力、最先进,我们将从那里开始。」知情人士表示,谷歌推迟为云客户推出大型 Gemini 模型意味着,该公司希望在允许外部软件开发人员使用新技术之前,先用新技术来支持其消费者产品。
谷歌对 Gemini 寄予厚望,不仅仅只是促进企业软件的销售。还希望它能够为 YouTube 上的创作者提供新工具,例如为视频生成自定义背景的能力,并改进 Bard 以及 Google Assistant 的功能。
谷歌已经开发了几个版本的 Gemini 用于处理不同复杂度的任务。外部开发人员已经测试了模型的较小版本,据参与这项工作的人士表示,目前谷歌仍在最终确认对外发布的 Gemini 的参数量级和版本。Gemini 团队面临的一个关键挑战是确保主要模型与 OpenAI 最先进的 GPT-4 一样好或更好。这位人士表示,目前尚不清楚谷歌是否达到了这一标准。
谷歌对在 Bard 中使用 Gemini 比较谨慎,Bard 自从今年三月份推出后一直由能力较弱的 LLM 提供支持。在此前备受关注的演示中,Bard 犯了一个事实错误,这个问题至今仍在困扰一些项目员工。
谷歌的 Gemini 还将应用于另一个关键领域——广告业务。
这是谷歌的主要盈利来源。据知情人士透露,谷歌高管已经讨论过利用新模型来为广告客户提供自动生成广告活动的工具,包括定制文案和视觉素材。最初将涵盖静态展示广告的图片,但最终可能还会包括音频和视频广告。(亚马逊和 Meta 等其他公司也已推出了基于人工智能的广告工具。)
与早期的 Google LLM(例如 Palm 2)相比,Gemini 对用户交互的记忆也更长,Palm 2 目前为 Bard 和 Google 搜索中的生成人工智能结果提供支持。知情人士表示,更长的内存可以让广告商比较一段时间内广告活动的效果。
谷歌对 Gemini 的开发寄予厚望,项目开发还得到联合创始人谢尔盖·布林 (Sergey Brin) 的帮助,他回到公司继续开发该模型,现在每周与该公司位于加利福尼亚州山景城总部的模型开发人员一起工作四到五天。
02
机构官僚主义,让谷歌错失 LLM 领导者的机会
11 月 9 日,被谷歌收购的教育 app Socratic 的创始人 Shryans Bhansali 在博客上发表一篇文章(见下文),回顾了其团队被谷歌收购后如何融入谷歌和在其中工作的经历。英伟达 AI 科学家 Jim Fan 在推特上转发了这篇文章并且进行了详细的点评,「提供了一个罕见窥见谷歌内部运作的视角,也解释了尽管大多数基础技术都起源于谷歌,为什么领导 LLM 革命的却是 OpenAI。」
这篇文章提供了一个难得的视角,深入了解谷歌的内部运作,并阐明了为什么尽管大部分基础技术起源于谷歌,OpenAI 却率先引领了大型语言模型(LLM)革命。
谷歌正处于创新者困境的核心。我相信他们非常清楚基础模型的力量。毕竟,他们发明了 Transformer、AlphaGo(强化学习)和 Flamingo(多模态)——这些都是 GPT 的关键要素。
然而,要证明将资源从正在盈利的产品中转移出去,或者可能甚至牺牲搜索业务来推广大型语言模型(LLMs),是非常困难的。正如文章中所引用的,「谷歌是一个不断变化的目标和努力的网络」。你需要所有相关的高层同意这个议程,积极争取巨大的资源,并抵制所有其他希望最小化干扰的各方。需要太多的条件同时满足。这是一个非常艰巨的任务。
话虽如此,我不认为责怪任何人是公平的。机构官僚主义是这种规模公司的自然「涌现特性」。10 年后,如果OpenAI和 Anthropic 发展到那个量级,它们可能也会遭受同样的问题。
我将以博客中的一句鼓励性名言作为结束。这个建议对于任何想要在大型组织中推动变革的人来说都普遍适用:
在谷歌,如果你玩对了游戏,惊人的事情就有可能发生。这意味着首先要做好分配给你的工作。但一旦掌控了局面,就要深入庞大的谷歌网络,了解正在规划和发明的事物,凝聚出对未来的清晰图像,通过文档和演示给它塑形,找到与这一图像目标一致的领导者,并尽可能坚持不懈地推销这个想法。
03
被收购的创业者:在谷歌创新很难
「待字闺中」编译了这篇文章,Founder Park 进行了适当修改。
我们 10 人的初创公司被谷歌收购,我们按照谷歌的方式重建我们的产品,并开始理解,在谷歌,只要你按照谷歌的规则来玩,就能实现惊人的事情。
在 2017 年开始筹集 Socratic 的 B 轮融资时,我们很快意识到,专注于以牺牲收入为代价来获取用户使用量的做法将会给我们带来麻烦。产品增长让我们有了进门的机会,但每个风险投资公司都要求我们提供一个盈利计划,在我们试图解决这个问题的过程中,我们得出结论,一个专注于没有信用卡的高中生的教育应用不会成为一个大企业。
大约在同一时间,我们认识了 Snapchat 的首席执行官埃文·斯皮格尔(Evan Spiegel)。埃文建议与我们合作,将我们基于相机的家庭作业助手集成到他们的应用中。但我们的一位顾问认为,如果他把你介绍给他们的企业发展负责人,他可能是在暗示要收购,如果是这样的话,我们应该引入竞争。于是我们就这么做了,联系了微软、Chegg、Byju's 和谷歌。
我的联合创始人克里斯(Chris Pedregal)之前在谷歌工作过,并通过他以前的经理重新建立了联系,以便介绍给 Lens——谷歌的以相机为主的应用程序。我们不知道的是,这位经理最近自己也开始了一个教育项目,与可汗学院和安卓的联合创始人一起。我们见面后发现,我们对于一个以学习为中心、由 AI 驱动的辅导工具有着极大的共同愿景。这或许也帮助我们赢得谷歌 2017 年的「最佳应用」,那次会面后不久,我们启动的相关收购流程,谷歌在 2018 年 3 月收购了 Socrates。
我们与一个同等规模的团队合并,这个团队由多位资历深的谷歌员工组成。克里斯和我成为了产品和工程的负责人,负责构建一个由 AI 驱动的导师,并将这些能力带到谷歌的主要产品中。
在接下来的三年里,我们重建了 Socratic,并将其作为「Socratic by Google」重新推出,在搜索和 Lens 中推出了 Socratic 功能,发布了一个数学解题器,原型化了一个数学导师,并把这些能力带到更多产品中。
我在这过程中学到了一些东西:
在谷歌工作就像拥有第二本护照。去世界上任何一个主要城市,你的工牌都能打开一扇通往美丽办公室的门,那里有美味的食物、办公桌,以及与谷歌超过 20 万人网络中每个人的高速连接。就像作为外国人访问美国一样,你在内部看到的一切因为其巨大的输出影响而感到奇怪地熟悉,但又略有不同。
令人震惊的是,你可以立即访问所有这些内容。访问他们庞大的单一代码库 monorepo,包含数十亿行代码,几乎涵盖了他们所有的产品。他们遍布全球的数据中心的实时状态。横跨二十年历史的战略文件。以及与传奇人物 的直接接触。
谷歌有自己的做事方式。几乎谷歌使用的每一款软件和基础设施都是在谷歌内部构建的,这是因为他们比大多数公司更早面临最艰巨的工程问题的自然结果。在谷歌的世界里,外部世界仿佛不复存在,只有极少数情况下,才会小心翼翼地被允许进入他们的墙内。
这意味着我们没有机会保留现有的代码库。我们需要从头开始,与新团队重新发现我们产品的洞察力,然后在谷歌的技术栈上重建我们的应用程序。我们已经解决的问题,比如使用机器学习系统对家庭作业问题进行主题分类,必须使用搜索技术并达到搜索标准来重新解决,不用说,这些标准比我们的要高。
我们能够打破谷歌模式的一个地方是使用我们的应用吉祥物「Ceebo」。看看谷歌的应用图标集合,你会看到四种颜色和简单的形状。对他们来说行得通,但对我们来说却很无聊。他们坚持(「我们不拟人化」),我们反驳(「你们对安卓就这么做了!」),直到我们最终因为我们团队太小、不重要而得逞。
Ceebo 作为我们的应用图标继续存在,并且在谷歌内部蓬勃发展,已经有几十种变体被设计出来,Ceebo 在谷歌的各种意想不到的文档和网站中冒出头来。
通常的谷歌应用图标对比 Ceebo
简单的事情重复做,感觉很神奇。与搜索领域的资深人士一起重建我们的查询分类系统,是一次洞察搜索本身构建过程的启发性窥视。一方面,信息检索工具的深度难以置信,计算并在互联网上的每个页面添加新信号的能力也令人难以置信例(如 contains_math 或 subject:chemistry)。
另一方面,人们发现大多数搜索改进都是通过工程师手动使用「并排」比较旧结果和新结果的方式进行审核的……而且是在电子表格上!
人们可能会期待谷歌工程主要由博士级别的算法组成,虽然有时候确实如此,但搜索或人工智能工程师的工作很大一部分涉及查看示例、发现模式、手动标记数据以及其他非可扩展的、深入细节的分析。这大概就是世界顶尖 AI 团队的真实情况。
我注意到一个模式,优秀的 AI 研究人员愿意手工检查大量数据。更重要的是,他们建立了基础设施,使他们能够快速手动检查数据。尽管并不光鲜亮丽,但手工检查数据可以让我们对问题产生很有价值的直觉。
OpenAI 研究人员 JasonWei
大多数问题不值得谷歌花时间去解决,但令人惊讶的问题却值得。大多数拥有 1000 万到 5000 万用户的问题不值得谷歌花时间,也不符合他们的战略。但是,如果问题符合他们的性质、战略以及某人的晋升目标,他们会投入重大努力去解决。
一个例子是:计算机视觉是 Socratic 界面的重要组成部分,特别是能够读取图像中的文本和数学内容。作为一家初创公司,我们使用了第三方工具,结果发现要在谷歌中继续使用它太难了——从暴露敏感数据到复杂的供应商审核流程。有时,直接收购一家公司把它们的技术带进来反而更容易。在我们这个案例中,正好有一个 AI 研究团队对这个问题感兴趣,就雇了一个顶尖博士人才来研究,并在 6 个月内提供了一个世界级的数学问题识别 API。
当然,如果你读过 Steve Yegge 的经典博客文章*,比较了谷歌和亚马逊的平台,你会知道这个世界级的服务并没有外部化。
文章:https://gist.github.com/chitchcock/1281611
谷歌是一个不断变化的目标和努力的网络。如果有合适的人关心,谷歌可以实现惊人的事情。一个明白其中奥妙的副总裁,一个有相关任务的研究团队,或者与某个组织的目标相兼容。产品经理一半的工作都是在驾驭这些错综复杂的关系,然后你还要得到诸如隐私、信任、安全和基础设施容量等批准方的认可。要想知道一个想法是否可行,需要进行几十次对话,而要把它变成现实,需要进行数百次对话。
这就是顺利的道路。如果有合适的人继续关心,谷歌能够实现惊人的事情。团队目标可能在任何一个季度都会改变,而整个团队也可能因为一次「重组」而消失,这种现象在谷歌如此普遍,以至于员工们可以忽略其中的悲剧,而看到其中的喜剧。
假设你躲过了所有这些暗箭,你可能仍然会醒来发现,在你忙于你的项目时,另外两个遥远的团队也在研究同样的想法,现在到了争斗的时刻,因为只有一个项目能够继续。失败项目的内部用户会发现他们所依赖的 API 现在已经被「弃用」,但是替代品,嗯,它还没有准备好。
谷歌员工想要发布伟大的作品,但往往做不到。虽然毫无疑问有些人是冲着免费食物来的,每天工作 3 小时,享受着提前退休的生活,但我遇到的所有人都是认真的、勤奋的,都想要做出伟大的工作。
打败他们的是层层审查、频繁的重组、过去失败留下的机构性创伤,以及在世界舞台上即便是做简单事情的复杂性。初创公司可以忽略许多问题,谷歌员工很少能这么做。
阻碍我们前进的还有员工本身——那些聪明的人可以反对任何事情,却不支持任何事情;缺乏勇气说出令人不安的真相的领导;还有那些被聘用时没有明确工作计划,必须通过捏造工作留下的人。
头重脚轻,不好驾驭。另一个阻碍进步的因素是顶级团队导致的失衡(头重脚轻)。拥有多名成功的联合创始人和 10-20 年从业经验的团队,听起来可能是创造伟大事物的秘诀,但也可能导致僵局。
如果有多个领域可以探索、明确的目标以及强大的自主权去追求这些路径,这种结构可能会有效。但如果你想要致力于一个统一的产品,它需要一个明确的领导者,一个清晰的方向,以及更多的执行者而不是思考者。而且违反直觉的是,在早期阶段的项目中增加更多的人并不会让项目进展得更快。
技术债务是真实存在的,复杂的流程债务也是如此。工程师们习惯于谈论技术债务:为了节省时间和发布一个功能,你今天切了一个角;这是你欠的一笔债,要么及时偿还,要么随着时间的推移处理起来成本越来越高。优秀的团队会在较为宽松的日子里定期偿还债务,通过整理清理事务。
但是,繁冗流程导致的债务也真实存在。因为发布瑕疵而增加一道审查关口、为了防止法律争议又增设一道法律审查,层层积累,准备好的新功能被卡在流程中,几个月后都无法发布,生死未卜。
在一些罕见的情况下,流程会被回滚:谷歌最近改变了他们繁重的绩效评估流程,从一年两次变为一次,从长问卷变为短问卷,希望从管理者一年中 30% 以上的时间减少到不到 10%。
有时候,变化迫于外部竞争,有时压力也会加速公司衰落。谷歌发明了 ChatGPT 背后的技术,但并不是发布该产品的公司。现在它必须解决日益增长的紧张关系,这种紧张关系存在于想要夺回谷歌 AI 领先地位的建设者和希望防范一切可能麻烦的审查者之间。
在谷歌,如果你玩对了游戏,神奇的事情就有可能发生。谷歌曾经有一套内部价值观,他们称之为「三重尊重」:尊重用户,尊重彼此,尊重机会。前两者相对容易理解,但第三个让大多数人感到困惑。我的解释如下:你在谷歌,一个利润丰厚、天才云集的企业。你的薪水丰厚,吃得好,生活在永恒春天的天堂——硅谷。那么,你能用这种疯狂的运气做出最好的事情是什么呢?
我对这个问题的回答与 Richard Hamming 在《你和你的研究》(Richard Hamming 是著名美国计算机学家,图灵奖得主)中所说的相呼应——你必须找到所在领域中最重要的问题,然后想尽办法解决它。
实际上,这意味着首先要做好分配给你的工作。但一旦掌控了局面,就要深入庞大的谷歌网络,了解正在规划和发明的事物,凝聚出对未来的清晰图像,并用文档、 demo 等方式将它清晰展示出来,找到与你的愿景契合的领导,持之以恒地「兜售」它。
我在某种程度上做到了这点。我最喜欢的例子之一就是我们花了三个月在新的数学求解器上做了一个 AI 数学导师的 demo,它可以循序渐进地讲解数学。这个 demo 具象化了我们的 AI 导师愿景——它会有一个链接,可以使用,可以共享。它以对话为基础,为用户提供一些反馈,然后获得「生命」,被用户传递、讨论并最终构成闭环。
我也见证了这种情况的失败。我们的一位领导清楚地看到了我们的方向,让设计师们制作了出色的 demo。但他被困在公司的错误部门,而他上司将目标指向其他地方。所幸,最终他转到了一个更加匹配的团队,他的梦想现在有机会变成现实。
许多收购都以失败告终。Socratic 的故事是复杂的。一方面,我们成功融合了两种截然不同的文化,我们的产品活了下来,每年处理大约 50 亿次查询,而且整个 Socratic 团队的职业生涯也有了发展。
另一方面,Chris 和我都离开谷歌去创业了,而且无论是 Socratic 团队还是谷歌,都还没有生产出一个配得上谷歌能力的 AI 导师。但一些还留在谷歌的 Socratic 员工可能会实现这一目标,如果他们能够被重组的话。