HuggingFace万字访谈:OpenAI不足为惧,每个公司都会有自己的GPT-4
日前,Hugging Face 创始人 Clem Delangue 参与了一场访谈,过程中谈到了以下几个关键问题:
Hugging Face 的创始故事 大模型 AI 未来会如何迭代? 大公司闭源会对开源社区产生影响吗? 驱动大模型进步的核心是什么? 通用大模型和专用小模型有优劣之分吗? 现阶段如何进行更具竞争力的 AI 创业?
Hugging Face 是全球最大的 AI 开源社区,被称为 AI 领域的 GitHub,成立于 2016 年,团队近 170 人,总部位于纽约。
目前平台上有超过 20000 个开源数据集,超过 10 万个 demo,一万多家公司使用平台上开源的 AI 技术。Hugging Face 的官方介绍是:构建未来的 AI 社区。
Clem Delangue 是 Hugging Face 的 CEO&联合创始人。最早 2010 年在 eBay 工作 8 个月,第一次创业经历是 2011 年在 Moodstocks——为计算机视觉构建机器学习。该公司被谷歌收购。2013 年到了美国纽约负责建立 mention 营销和增长部门。2016 年创立 Hugging Face。从事人工智能工作约 15 年。
Hugging Face 的创业起源
Clem Delangue :正如你所说,我其实从事 AI 相关的工作很长时间了。在今天它变得如此热门和流行之前,Hugging Face 的三位创始人聚集在一起,是为了构建技术的一种新范式,我们对此感到非常兴奋。当我们成立公司时,我们想要做一些科学上有挑战性的事情,因为我们的一位联合创始人 Thomas 有相关技术背景,但同时也要有趣。
我们一开始制作了一个 AI 虚拟宠物,类似于娱乐版 ChatGPT。
当时有 Siri 和 Alexa,但我们认为仅关注生产力是非常无聊的,这个项目我们做了将近三年。我们在这个想法上筹集了第一笔种子轮融资,不少用户真的很喜欢它。他们跟这个宠物进行了数十亿次的聊天,但这种情况是自然而然地发生的,我可以稍后再讲这个故事。
我们从那个项目转变为现在的状态,也就是最受欢迎的开源 AI 平台。
Elad Gil:你最初是怎么对 AI 产生兴趣的?人工智能这些年也经历了不同的流行潮流,AlexNet 的卷积神经网络模型激发了很多新的,比如 CNN(卷积神经网络)和 RNN(循环神经网络)等,你是在 15 年前从事这个领域,你在那之前就开始感兴趣还是?
Clem Delangue :当时我们甚至还没有称之为人工智能或机器学习。
我工作的第一家创业公司叫做 Mood Stocks,我们在设备上为计算机视觉进行机器学习。构建了一种技术,用手机对物体拍照并识别它。对我来说,意识到人工智能如何真正释放新的能力,是当我遇到这个创业公司的创始人。
那时我在 eBay 工作,他们告诉我说,你们收购的这家名为 Red Laser 的公司,用于识别条形码并拉起 Ebay 页面,你们太弱了,应该使用机器学习。不要识别条形码,实际上可以识别物体本身。
我当时觉得他们疯了,这是不可能的。你不能用传统的软件做到这一点,而他们实际上正在使用某种形式的机器学习来做到这一点。所以那时我意识到,哇,可以用这种新技术做很多新的事情。这实际上把我带到了今天的位置。
Elad Gil:所以你开始了 Hugging Face 的创业,你们想做一个 AI 虚拟宠物。我觉得很有趣的是,以前你说人工智能时人们会嗤之以鼻地说,不,那是机器学习。现在随着一些系统能够做到的事情,术语又回到了人工智能。那是什么让你们决定朝着与当时的设想完全不同的方向去做 Hugging Face 呢?
Clem Delangue :这是一个很自然而然发生的事情。Stripe 的创始人 Patrick Collison 曾说重要的不只是创建公司,而是有一些改变公司轨迹的创业时刻。
对我们来说,这要归功于我们的联合创始人之一 Thomas Wolf,他在某个周五晚上突然提到了谷歌推出的 BERT 模型,基于 TenserFlow 让它的表现不是太好,Thomas 想把它移植到 PyTorch 上试试。
我们跟他说你自己玩得开心就行。
周一他跟我们说他做好了,并且在 Github 上发布了这个项目,我们发了一条推文,还得到了 1000 个赞。
当时我们就是无名小卒。我们很困惑,人们为什么会喜欢这个这么小众和技术向,一条关于 PyTorch 移植的 BERT 的推特。肯定是有一些原因的。
我们决定继续尝试,尝试往 Github 上加了一些其他的模型。慢慢的社区开始基本成型,人们开始给我们的 Github 的仓库提 bug 和修复漏洞,添加其他模型,比如第一个 GPT 的模型。接下来模型添加的速度越来越快,最终,我们拥有了最受欢迎的 AI GitHub 仓库,这就是我们从最初的想法到现在的转变的原因。
Elad Gil:你能为大家描述一下 Hugging Face 今天是什么,它如何使用,产品和平台以及生态系统的重要性吗?
Clem Delangue :很高兴我们现在是大家最常用的开源 AI 平台,你可以把它想象成一种 AI 的 GitHub。
就像 GitHub 是一个公司托管代码、协作代码、共享代码、测试代码的平台一样。我们也是一样,但是是针对机器学习的。在 Hugging Face 平台上托管了 100 多万个仓库,其中大多数是开源的模型。所以你可能听说过 stable diffusion、T5、BERT、Whisper 等。平台上有超过 20000 个开放数据集可供使用。还有 demo,平台上托管了超过 100000 个 demo。超过 15000 家公司正在使用该平台将 AI 引入其功能、产品或工作流中。
Elad Gil:在我们征集到的很多问题里,大家问的最多的问题是 Hugging Face 的未来发展方向。因为考虑到 Hugging Face 目前如此引人瞩目的成绩,有很多方向可以选择:B 端定制、B 端托管、工具类或者其他类型的产品,目前你们主要在做哪些方向的产品?
Clem Delangue :我们目前正在追求两个主要方向。第一,我们看到人工智能正在从一些狭窄的技术,解决一些问题,转向成为构建所有技术的默认范式。
对于我们来说,这意味着从目前平台上正在使用的文本、音频、文生图模型,正在扩展到每个领域。
例如,上周我们开始看到第一个开源的文本到视频的模型,我们也开始在平台上看到很多时间序列模型,例如用于金融预测、用于预估城市交通状况等。还看到越来越多的生物化学模型。因此,确保我们支持这些广泛的 AI 用例是第一步。
第二步,是让每个人都更容易地构建 AI,包括软件工程师。
在过去,我们的平台更多地是为机器学习工程师和那些真正训练模型、优化模型、评估模型的人设计的。但是,我们现在看到,尤其是随着 AI API 的出现,每个人都想做 AI,甚至是复杂的软件工程师、产品经理、基础架构工程师。因此,我们的重点之一以是降低使用我们平台的门槛。因为最终,我们认为每个公司或每个团队都应该能够使用开源来训练自己的模型。
今天每个人都在谈论 ChatGPT、GPT-4。但我认为,在几个月或几年后,每个公司都将建立自己的 GPT-4,并以同样的方式训练它们自己的 GPT-4。如果每家公司都有自己的代码库,代码库的数量与公司数量一样多。
我们认为,明天每家公司都将拥有自己的模型、自己的机器学习能力,而不是将其外包给其他人,而是真正拥有这些能力,以使他们能够区分自己,迎合他们特定的受众或特定的用例。
02
AI 今天的进步
要归功于开源
Elad Gil:每次平台迭代,你都会发现有三四件事情发生了变化。编写系统的输入和输出方式在某些方面发生了变化,或者至少你处理的数据类型发生了变化,用户可访问性和界面 UI 发生了变化。如何从移动设备与桌面设备进行交互是不同的。这种转变的规模和影响是巨大的。如果我们将人工智能视为一个新的平台,你如何看待你提到的每个人都将拥有他们自己的 GPT-4。
似乎编程本身的性质在某些时候可能会发生变化,我们可以把整个问题放在一边,不讨论我们是否也创造了一个数字物种,也许我们在最后讨论这个问题。
但是 Hugging Face 在这个巨大的平台转换中扮演什么角色?
Clem Delangue :是的,我们看问题的方式是,我们非常喜欢 Andrej Karparthy 的软件 1.0 的比喻,这是我们过去 15 年来构建技术的方式和方法。
现在人工智能是软件 2.0 时代。
这是一种新的方法,一种新的构建所有技术的方法。这是一个新的范式,构建所有技术的新范式。如果你考虑这一点,就需要更好的工具,更适应的工具来做到这一点。你需要更好的社区,需要团队合作的方式,整个生态系统需要合作的方式。
这就是我们想要提供的,一种新的工具,一种新的协作平台,以更好地构建人工智能。我们也试图建立一个我们为止兴奋的未来。我认为很多人现在对人工智能感到害怕,对它的潜力和风险感到担忧,我们所思考的问题是,如果你能建立一个每个人都能理解和构建人工智能的未来,就能消除很多这些的风险。
例如,你减少了带有偏见的系统的可能性。你为监管机构提供工具来实际制定保障措施,并为公司提供能力,使他们使用和提供给用户和客户的系统与他们的价值观保持一致。最终,你希望 Stripe 能够说,这是我们的价值观,所以这就是我们如何基于这些价值观构建人工智能的方法。所以这也是我们正在努力做的重要事情。我们有时说我们的使命是民主化的机器学习,我们正在为此而努力,因为我们认为这对世界很重要。
Elad Gil:感觉 Hugging Face 一直都非常一致,希望拥有道德的 AI 或者明确的对齐方式。许多公司,比如 Anthropic,采用了宪法 AI 的方法,基本上他们提供了一套规则,告诉模型应该遵循什么来管理其活动或行动。您认为哪些方法最有效,您希望人们在对齐方面做更多的事情?
Clem Delangue :对齐是一个复杂的术语,因为它对不同的人意味着不同的事情。
它可以从伦理的角度来看待,即价值观和系统之间的对齐。很多人今天使用它作为更准确的改进。老实说,当他们进行一些对齐工作时,他们实际上通过人类反馈的强化学习使模型更加准确。所以这个问题有点难以争论。
我认为,总的来说,人类无法控制、改进并对齐他们不了解的系统。因此,我们在 Hugging Face 上试图推动的主要事情是更透明的方式来构建这些系统,它们训练的数据是什么、有什么限制、有什么偏见等。我认为,如果在这方面创造更多的透明度,用户几乎可以创建一个更具道德核心的系统。所以这是我们关注的最大问题。
Elad Gil:你对于开源人工智能可能会被滥用的最大担心是什么?
Clem Delangue :AI 有很多风险,由于其通过 API 或开源分布,最大的风险就是双重使用,虽然模型搭建者定义了正确的使用方式,但使用者想以不正确的方式使用它。
因此,我们一直在尝试新的模型授权形式,这是一种早期的尝试,可能不能解决所有问题,我们一直在支持一个叫做 Rail 和 Open Rail 的项目,这是一种负责任的 AI 授权形式,它旨在成为所有人都能够使用模型的开放授权,但是定义了一些从模型作者的角度来看是被禁止的使用方式,以此来创造一种法律挑战,防止人们以错误的方式使用它。这是我们采取的一种方法,以减轻 AI 双重使用的一些风险。
Elad Gil:在早期,很多工业研究实验室、谷歌和 OpenAI 在发布模型时,他们实际上也会公开模型的架构。他们会发表详细说明模型的工作原理的论文,最初的 Transformer 论文就相当明确,而现在他们开始限制模型公开的信息量。
您认为这会对开源造成不利影响吗?您如何考虑未来,特别是在大型语言模型方面?
因为当我看到图像生成模型时,它们往往比较便宜,更依赖于开源。而对于需要大规模可扩展性和计算能力的基础模型,这可能成为一个问题。
您是否担心公开信息的缺失?您如何看待大型基础模型的开源和闭源模型之间的差距?
Clem Delangue :是的,这是一个挑战。在当下,我认为我们需要记住的是:我们今天所拥有的一切都要归功于开源知识和开源代码,现在每个模型都是建立在巨人的肩膀上的。
如果没有 BERT、T5、Transformers、GPT 等的研究论文,我们可能还需要 50 年时间才能达到今天的成就。
也正是这种开源促进了正向循环,使得人工智能的进步比大家以往看到的任何事物都要快。如果我们停止这样做,它将减缓速度,我们可能需要更多的时间。正如一句谚语所说,生命无法诞生在真空的环境,它需要基础物质才能繁衍生息。
如果一些公司开始减少开源的投入和贡献,将会有其他组织取代他们,并且从中获益。比如最近刚刚宣布成立的 EleutherAI、来自西雅图的 Alen AI、以及 Stability AI 等。
我认为我们最终会看到各种不同的组织为开源做出贡献。传统软件喜欢闭源和封闭源代码,但是开放科学并不会,因为大多数科学家的目标是为社会做出贡献,而不仅仅是做一些让公司赚钱的事情。所以也许最近开源的公司会发生变化,但我对此并不担心。
一个很明显的证明是,在过去几个月,Hugging Face 上的开源模型、开源数据库和演示 demo 的数量一直在增加。
我们在文本领域可能有些弱势,这正是私有技术领先开源的领域之一。
但是你看音频,最好的 Whisper 正在开源;文生图,Stable Diffusion 是很强大的。在生物学、化学、时间序列等领域,开源模型也很强大。
OpenAI 正在做出惊人的成就,但是开源也会慢慢追上来,有时候会领先,有时候会落后一些,这是正常的技术周期。
Elad Gil:是的,我也赞同。事实上如果我们看技术迭代周期,比如被动技术循环周期,那些通常看上去真正成功的大型开源方案,都会有大的商业公司作为后盾,用来和其他公司的商业产品竞争,这几乎算是品牌战略策略。比如 Linux 的最大赞助商是 IBM,用来对抗微软;Webkit 由 Apple 和 Google 支持、你认为谁会成为开源模型的主要支持者?会是 Amazon 吗,用来对抗 Google、微软和 OpenAI 的合作?或者是 Nvidia 或者 Oracle?还是多个商业公司的联盟,政府会参与这种事吗?
Clem Delangue :很多大的科技公司和开源之间的关系是很好的。亚马逊、NVIDIA、微软都是,我认为可能有一些支持会来自这些公司。对于政府参与开源计算,我也很感兴趣,事实上,我们之前参与的 BLOOM 开源大模型就是跟科研机构合作的,我们得到了法国 JeanZay 超级计算机的支持。
我认为,向大学、独立组织、非营利组织提供计算能力以避免权力集中并创造更多的透明度,这也是对社会产生积极影响的一种方式。
03
训练能力是大模型目前的
发展瓶颈
Elad Gil:目前的大预言模型,你认为最大的驱动因素是什么?计算、数据、算法还是其他的?
Clem Delangue :在科学界有一个更好的共识,即数据,不单单是数据的数量,而是数据的数量开始比盲目扩展计算更加重要。
但我认为还有一些重要的东西需要记住,即训练一个非常好的大型模型仍然是一门艺术。
这不仅仅是一个简单的配方,比如说,你有好的数据,有很多计算能力。你或许会得到一个好的模型。这仍然是一个非常困难、很难理解的训练工程。这几乎就像炼金术一样,很少有人今天真正能够做到,对吧?也许今天世界上只有 20 个人、或许 50 个人能做到。这是一个非常小的数字。
我认为人们有时候没有意识到这一点。因此,我认为在计算和数据之外,训练一个好模型的技术方法还有很大的进步空间。
Elad Gil:为什么人数会这么少?
Clem Delangue :这可能是一个十亿美元的答案,如果答案这么容易搞清楚,可能每个人都能训练大模型了。我认为这需要一个技术能力、科学能力和项目管理能力混合的能力,涉及到了解何时发布、何时启动项目、如何进行优化、如何在三个月后或者六个月后进行再优化等的综合能力。
Elad Gil:你认为现在最让人兴奋的 AI 研究领域是什么?或者你希望更多人从事哪些领域?
Clem Delangue :我对文本处理非常感兴趣。我只是在这个领域待了一小段时间。
但我认为现在尤其在其他领域里工作在更具技术挑战性的问题上是有趣和重要的。比如说,我对生物学非常感兴趣。如何将人工智能应用于生物学?如何将人工智能应用于化学?这样可以在世界上产生积极影响,但也可以使自己与众不同,建立更具技术挑战性的人工智能堆栈。所以这些是我现在感兴趣的一些事情。
Elad Gil:现在关于大模型有两种观点:一种是通用模型,另一种是专业领域模型。有人认为,只需不断扩大模型,使其更通用,最终可以做任何事情。而另一方面,有人认为,只需专注于小型模型,针对你正在尝试的特定事物进行目标定位。这可以高效地完成任务,无需等待大规模通用化。你认为我们在三到四年后会处于什么位置?
Clem Delangue :我打算放弃在人工智能领域做预测,因为这太难了。有时候预测了一件事情,三个月后,情况完全相反,这让我看起来像个傻瓜。
通常我不会做太多预测,但我通常会尝试观察过去和数据。自 ChatGPT 发布以来,开发者已经上传了超过 10 万个模型到 Hugging Face,对吧?
他们不会为了好玩而这样做。
另一个有趣的数据是,如果你看看 Hugging Face Hub 上的所有模型,最常用的实际上是 500 万到 50 亿个参数的模型。我认为原因是,当你得到更定制化的空间化模型时,你会得到一些更容易理解和迭代的东西。获得结果的速度在大多数情况下更快,有时可以在手机上或特定硬件上运行,也更便宜,并且可以为你的特定用例提供更好的准确性。
当你专门为一些应用程序定制时,比如为客户服务做一个聊天机器人,客户正在询问发票事宜,你可能不需要聊天机器人能够告诉你生命的意义或者旧金山的天气。你只需要它在你的特定用例上非常好。我们所说的是,为此专门定制的更专业、更小的模型通常更合适。
但是有些用例,例如你是谷歌,想要做一个通用搜索引擎来回答所有这些问题,显然,更大的通用模型是有意义的。
最终,我认为总会有各种不同的模型,就像有各种不同的代码库一样,对吧?今天你不会说我的代码库比你的好。你不会说 Stripe 的代码库比 Facebook 的代码库好,对吧?它们只是做不同的事情,回答不同的问题。对于模型也是一样,没有一种模型比其他模型好。更多的是,什么模型适合你的用例,你如何针对你特定的用例进行优化?
04
创业者应该去构建 AI
而不只是简单使用 AI
Elad Gil:你如何思考 Hugging Face 的商业化,你们正在朝着哪些方向发展?
Clem Delangue:我认为开源还赋予了超能力和一些你没有它就无法做到的事情。对于我们来说,我们是一些有点随意的法国人,如果不是社区、贡献者、帮助我们开源的人、分享他们的模型,我们今天不可能走到这里。
因此,它也创造了新的能力,当你有一个像 Hugging Face 这样的开放平台时,商业化的方式通常是提供增强版本或某种开源模式的定制版本。我们现在有 15,000 家公司使用我们的产品,有 3000 家公司付费使用我们的服务,通常他们会支付额外的功能,例如企业级功能。例如,一些公司需要安全性,需要用户管理,或者他们需要计算能力,例如他们想在更快的硬件上运行,他们想在平台上运行推理和训练等等。
我们创造了一种很好的平衡,如果你是一家为社区和生态系统做出贡献的公司,发布你的开源模型,它将永远是免费的。如果你是一家更多地利用这个平台的公司,那么你会用不同的方式做出贡献,比如会在财务上做出贡献。我们仍然处于商业化的早期阶段,但我们发现了这种不同,使我们能够继续为社区工作,继续进行开源贡献,与我们的价值观和我们想要做的事情保持一致,同时使其成为一个好的业务,一个可持续的业务,也能够让我们扩大和增加我们的影响力。
Elad Gil:我认为 Hugging Face 是 AI 领域中最受欢迎的产品和社区之一。在构建社区方面,您采取了哪些具体策略或者觉得在早期特别重要的事情?
Clem Delangue :我想说的只是 emoji,将拥抱表情的 emoji(🤗) 作为公司的 logo,这就足以得到社区的喜爱了。
不过我们做过的事情里让我们最满意的是,我们没有雇佣过任何社区经理,这有点违反直觉,但实际上,Hugging Face 的每个成员都在为社区做贡献、与社区成员交流。我们的 Twitter 账户,任何成员都可以发表推文,这在一开始有点可怕,但是随着我们的发展,目前我们还没遇到任何问题。
Elad Gil:你希望有更多创业公司创始人在开展哪方面的 AI 工作?
Clem Delangue :对此我有些偏见。我希望更多的创业者去构建 AI,而不只是简单地使用 AI。这两者之间存在很大的区别,在软件早期阶段,你可以使用 api,利用像 Wordpress 这样的软件快速搭建网站,这是一个快速上手的方式。但是真正的竞争力来自于用户编写代码和构建自己的技术,这对于 AI 也是一样的。你可以快速去做一些事情,但是如果你真的想认真对待这件事,你需要了解模型是如何工作的,如何训练它们和优化它们,这将让你有机会成为真正伟大的创业公司,创造出真正伟大的产品。
Runaway 宣布他们的文本生成视频功能,这是一个真正的 AI 原生创业的公司,他们真正在训练模型、构建模型,真正在构建 AI,而不只是简单使用 AI。
如果你只是使用 AI,就要清楚你的模式和优势,特别是在早期阶段,不需要集中在技术能力,而是更多关注如何更多获取用户。
观众提问:如何看待 OpenAI 对于开源的回应,他们目前没有透露 GPT-4 的任何信息,也不会开源,因为他们担心安全性。
Clem Delangue :我尊重每个人的方式,不同的组织有不同的技术发展的路线。但我对此有不同的看法,如果我们回顾技术的发展,会发现最大的安全风险通常来自权力的集中或者闭门造车的技术。如果是在公开开源的模式下构建产品,其实是为技术加入了一种可持续发展的路径,非政府组织、民间等都能参与其中,并且起到监督的作用。
我们的出发点就非常不同,但对于生态系统来说,我觉得问题不大。不同的组织可以有不同的观点,只要公司所做的事情和其价值观是一致的。
观众提问:你提到数据对于大模型优化很重要,很多公司都面临着如何在提高模型能力的同时保护数据隐私的难题,是采用开源模型还是联邦学习,对此你怎么看?
Clem Delangue :我们一直在研究分布式或者去中心化训练,但是目前仍然很难做到,也希望有更多人参与到这块工作。我们发布了一个 BigCode 的倡议,发布了目前最大的开放代码库,用户可以基于这个训练自己的模型,用户也可以在训练模型时放弃一些数据。大家都希望在数据方面更加透明,但是面临的一个挑战是,很多模型我们不知道它们是如何训练的,因为没有透明度。我们希望有更多的透明度,这样就可以知道它们都是用哪些数据,都在做什么,然后就可以找到可能的解决方案,解决人们对于数据隐私的担心。
Elad Gil:你认为网站为搜索提供 robots.txt 的模式会结束吗?将来网站会有不会有 ai.txt 的东西可以声明自己不让 AI 进行数据搜集?
Clem Delangue :我觉得会有,我们肯定需要围绕 AI 的数据搜集制定规范,这对于内容创作者非常重要。因为价值反馈是很重要的,我们希望做出贡献的人能够得到奖励。但我认为现在还没有很好的解决方案。现在这种类似聊天窗口的搜索界面,是无法为内容创作者提供激励的。如果我建了一个网站,以前我可以凭借网站的流量投放广告,现在网站的内容都只是在聊天窗口里出现,用户不去访问网站了,那作为内容创作者,我创作内容的动力在哪里?人们会因此停止内容创作和建立网站,因为无法获得内容回报,这是非常重要的问题,我们目前只是触及到问题的表面,还有很多重要的问题待解决。
关注 Founder Park,我们将持续推出更全面更深度的大模型相关讨论与报道。
如果你有投身大模型创业的想法,欢迎加入我们的大模型相关领域交流群,来一起探讨大模型时代创业的共识和认知。