查看原文
其他

Hugging Face克莱姆·德朗格:开源AI的未来

SVTR SV Technology Review 2024-04-14

Hugging Face是一家美国人工智能平台公司,致力于开发利用机器学习构建应用程序的工具。它最为著名的是其专为自然语言处理应用开发的transformers库以及其允许用户共享机器学习模型和数据集的平台。投资人包括Addition、Lux Capital、A.capital、Betaworks、SV angel、红杉资本、Coatue、Betaworks、NBA球星Kevin Durant


2016年法国连续创业者Clément Delangue(曾创办笔记平台VideoNot.es,媒体监测平台mention以及被Google收购的移动开发平台Moodstocks等项目)和Julien Chaumond、Thomas Wolf一起创办了Hugging Face,并从Betaworks和NBA球星杜兰特等拿到天使融资,他们如何从最开始的方向是做对话机器人演变为坚持开放的AI平台?以下是红衫资本官网上发布Hugging Face创始人Clément Delangue的创业故事




在一阵愤怒中,克莱姆·德朗格(Clement Delangue开始在twitter发文。他挤在都柏林大学学院的讲堂里,他敲下字母:“Peter O’Neill,IBM爱尔兰的总经理在@ucddublin的舞台举行讲座”,然后按下发送。当时是星期二上午9:01。讲堂里每个人都面向同一个方向,低头看着笔记本和笔记本电脑。德朗格感到沮丧,只能默默地盯着后脑勺,他尽力通过推文来与他人建立某种联系。


像这样的讲座,有数百名学生记着相同的笔记,对德朗格来说,这是互联网时代之前思维的陈旧遗物。“为什么我们要这样做,”他想,“而不是互相分享?不与外界分享?”他们不仅错过了室内的合作机会,还错过了与全球学生社区分享见解的机会,这些学生们获得这样的教育只能是个梦想。


那天晚上回到宿舍,德朗格开始着手解决他认为是全球学习中的一个根本性不公平瓶颈的问题。第二年夏天,23岁的德朗格站在巴黎的一个舞台上,发表了一场关于他创建的平台UniShared的TEDx演讲,这是他连接同学并向全球所有人提供大学教育福利的努力。“教室是一个封闭的圈子,”他告诉巴黎的观众,“然而它应该是一个向世界、向他人开放的地方。我在教室里从来没有感到如此孤立。”







Delangue 对于孤立有所了解。在他创建开源教育软件之前的多年里,Delangue 的世界并没有超出他位于法国北部 La Bassée 的家乡的边界。他记得 La Bassée 是一个“偏僻的地方,几乎没有什么可做的事情”。作为一名护士和修剪机店主的第三个孩子,Delangue 总觉得自己在家庭中扮演着联系者和和平使者的角色。由于家庭有六口人,从交通和经济上来说,全家旅行都是一个挑战,因此Delangue探索世界的机会有限。直到互联网的出现,情况才有所改变。他回忆道:“当我得到第一台电脑时,它就像是一个窗口,连接到了整个世界,这让我震惊不已。”


互联网不仅拓宽了 Delangue 的视野,还为这位新兴企业家创造了‘真实’世界无法提供的机会。在线上,他和他的哥哥在 eBay 上开店,销售了数百台进口的全地形车和摩托车。然而,当年仅16岁的 Delangue 站在父亲的店里试图向成年人销售拖拉机时,他知道他们并不认真对待他。“互联网为我创造了新的规则,”他说道。


Clem 的平台 UniShared 没有颠覆世界(它仍然作为开源工具可用)。但它确实帮助他在2012年大学毕业时获得了 Google 的一份工作邀请。最终,他拒绝了这个邀请,因为他觉得在规模较小的公司、反应更灵活的环境中更自在。他选择了在巴黎的一家计算机视觉初创公司 Moodstocks 工作。该公司正在开发一款应用程序,允许用户扫描一下,立即看到相关的评论和电子商务门户。比如,看到一本书,用手机对准它,立即购买。这是 Delangue 第一次接触当时尚属于小众领域的机器学习。


在巴黎的一次会议上,与著名的苹果市场营销专家盖伊·卡瓦萨基(Guy Kawasaki)的偶遇使德朗格确信了这项技术的强大力量。当德朗格走近正在签书的卡瓦萨基时,他向卡瓦萨基介绍了自己和他的应用程序。当时的机器学习仍然依赖工程师指定相对较短、静态的允许定义和规则列表以获得准确结果,所以卡瓦萨基对这项技术的能力——特别是在野外识别随机物体方面的能力表示怀疑。德朗格说:“他说了一些类似于,你不可能创造规则来识别世界上所有的物体。”


于是,德朗格向卡瓦萨基展示了演示,他用智能手机对准了卡瓦萨基手中的瓶装水。令卡瓦萨基惊讶的是,这个应用程序正确地识别出了品牌,并显示了社交评论,其中包括德朗格在Moodstocks的同事发表的一条赞美的评论。对于德朗格来说,那一刻真正让他激动的不仅仅是他的应用程序起作用了。更重要的是,他看到了机器学习以新的方式在人们之间建立联系的潜力。“这两个素未谋面的人——一个法国的极客工程师和这个美国硅谷的家伙——通过机器学习发现他们实际上喜欢同一品牌的水。”德朗格说道。毫无疑问,机器学习具有令人难以置信的潜力,但当它以用户社区为导向进行开发时,这个潜力更加巨大。



Clem在位于北迈阿密海滩的家中接受我们的视频访谈,他身穿一件印有九幅图像的T恤,描绘了一个人正在修剪着老版Windows XP壁纸上那片标志性的草地。他告诉我,这些图片是由Dall-E Mini生成的,这是一个爆红的文本转图像人工智能工具,Delangue也用它向他的父亲解释了人工智能。他说:“我告诉他,‘好吧,告诉我任何东西,AI都能生成。’然后他说,‘一台约翰迪尔拖拉机,在月球上。’”于是,父子俩就因为太空中的重型机械而产生了共鸣,这些机械似乎是通过某种不可思议的奇迹放置在那里的,或者说是通过超人的努力(如果考虑到图像背后的技术,这并不离谱)。


这次对不可能的尝试使Hugging Face成为世界上最大的开源人工智能构建者社区的中心。在2012年离开Moodstocks(四年后被Google收购)后,Delangue为一些最终被收购的初创公司从事产品和营销工作。到了2016年,他渴望再次为自己建立一些东西。在纽约市,他与Julien Chaumond(一位在法国经济部门工作的计算机工程师)联系了起来。Julien是一位精英数学家,也是Delangue的朋友,两人之间存在着相互的职业迷恋。他们决定一起参加在线斯坦福工程课程,并且像往常一样,他们组建了一个由三十多个人组成的学习小组。其中一位是Thomas Wolf(一位受过科学训练的专利律师),他和Julien在一个乐队里演奏。课程结束时,Julien和Clem邀请Thomas加入他们一起工作。


他们一起着手解决机器学习领域中的一个最困难的问题之一:利用自然语言处理(NLP)技术构建一个开放的对话式人工智能聊天机器人。一个可以与你谈论任何事情的机器人。Siri自2011年就出现了,Alexa自2014年开始。"它们非常无聊," Delangue说道。"它们只会做一些提高生产力的事情。我们对构建一个有趣的对话人工智能的想法感到兴奋。"


“We got excited by the idea of building a fun conversational AI.”

CLEM DELANGUE


在2023年,这听起来像是一个可实现的,甚至是比较简单的目标。但在2016年,深度学习用于自然语言处理(即依靠深度神经网络进行学习而不是过去的基于统计规则的自然语言处理)的领域还处于起步阶段,他们的目标几乎是科幻。为了创建他们追求的数字伴侣,聊天机器人必须融合多个学习模型,进行信息提取、理解情感和生成答案。而且,为了使这些模型正常工作,他们需要训练这些模型使用庞大的数据量。管理这些数据——找出如何收集足够的数据、标注数据、托管数据——是他们面临的第一个重大挑战。在Hugging Face成为人工智能开发的中枢之前,它必须解决机器学习领域的这些核心困难。


从一开始,Hugging Face团队展示了一种勇敢和民主的精神,使他们处于成功的位置。这始于他们的员工。Delangue和他的联合创始人们赋予员工对产品的所有权,为他们的聊天机器人创建和发布功能。最终,这个机器人在社交媒体、移动设备和网络上运行,并且用户之间交换了超过十亿条消息。随着时间的推移,它采取了开源优先的方法。


没有什么时刻比Hugging Face发布自己定制版本的机器学习模型BERT(即双向编码器表示来自Transformer)更能体现这种理念。当时,机器学习的进展往往通过密集的理论学术文章来实现。同样,当Google于2018年10月首次发布BERT时,它对大多数用户来说过于复杂,而且BERT仅在Google的TensorFlow平台上可用。Hugging Face团队认为BERT需要更广泛地被使用。不到一周的时间,他们就创建了一个使用机器学习框架PyTorch的可工作版本。然后,他们将转换工具开源,放在Github上供任何想使用或进一步修改的人使用。


Sequoia合伙人帕特·格雷迪与Hugging Face合作,他表示:“那是一个重要时刻。人们会说,‘哦天啊,我可以使用尖端的语言模型了。’在此之前这是不可能的。这使得Hugging Face成为了当时自然语言处理领域中非常小的社区英雄。”格雷迪后来询问Delangue是什么激发他们将BERT公开发布给世界,他对他的回答的直接简单感到震撼。“看起来似乎有很多人会想要使用它,”Delangue回答道。


机器学习社区对BERT的回应,再次证实了Delangue在都柏林讲堂上多年前的感受 - 知识的分享使每个人受益。这时,Hugging Face的使命发生了变化。Delangue和他的联合创始人决定开始分享他们在构建聊天机器人过程中学到的关于机器学习的一切。逐渐地,他们开始成为工程师、研究人员和机器学习爱好者的首选资源。


在构建他们的BERT适应模型的过程中,Delangue和他的团队成为了一种被称为Transformer的新模型的专家。所有的人工智能模型都是在大量数据上进行训练的,而Transformer能够从无标签数据中生成出色的结果(例如,计算机视觉系统不再需要人类将图像标记为猫,它可以自己学会识别猫)。这种无监督学习节省了数据整理人员大量的时间,并为训练机器学习系统提供了更多的数据。


Hugging Face团队看到了Transformer的潜力,并将Hugging Face建立为开发这些模型的首选开源平台。社区开始注意到这一点,编程人员和研究人员开始涌向Hugging Face,通过新的见解和专业知识与大量的机器学习项目和工具进行交叉交流。今天,任何想要使用Transformer构建模型的人都可以在Hugging Face的平台上访问约20万个不同的公共模型。


Delangue意识到,鉴于这些工具的巨大潜力,理解它们需要一个群体:那些围绕共同目标、需求和价值观组织起来的人。通过开源的举措,Hugging Face开始成为Delangue希望有朝一日建立起来的社区。



“We felt like if we started to have community managers, it would be outsourcing a responsibility that all members must keep,”

CLEM DELANGUE


“公司正在发生一些明显的变化,这是显而易见的,” Sequoia合伙人Sonya Huang说道。“真正擅长创建社群的人并不多。Delangue了解用户——他就是用户——他对于基层社群有着直观的理解。他真实地培养社群。” Huang还对Delangue走进开源社区的方式印象深刻。她指出,与其雇佣专门的社群经理与Hugging Face的用户进行接触,Delangue选择自己来处理,经常在Twitter上发布错误修复和故障排除功能,与超过1,000名AI研究人员和10,000家追逐生物技术、成像和语言处理AI突破的公司互动。迄今为止,Hugging Face不仅没有任何一个专职社群经理,而且每一位员工都被期望成为这个在线社群的积极参与者。“我们觉得如果我们开始雇佣社群经理,那将是外包给所有成员必须承担的责任,” Delangue说道。为此,每一位员工都可以访问公司的官方Twitter和LinkedIn账号。如果AI的未来是通过众包实现的,Delangue确保Hugging Face已经将自己定位为这个众包的源头。”








如今,该公司已成为机器学习的首选中心。Hugging Face社区的规模之庞大推动着其战略地位的不断增强。这已经成为每个人都寻求一切的地方,当文本到图像生成器Stable Diffusion选择将其模型、数据集和演示发布到Hugging Face时,这引发了一系列由用户主导的活动,以修改和改进模型(在演示空间中产生了诸如“一个橡皮鸭在讲台上发表政治演讲”和“皮卡丘在普里皮亚特”等杰作)。

很快,人工智能迅猛发展。大型语言模型(LLMs)已经从后端技术演变成了更为奇妙(有时也更可怕)的东西。文本到图像工具和ChatGPT迅速拓宽了我们对可能性的理解,ChatGPT成为历史上发展最快的应用程序。


成千上万的好奇者和爱动手的人涌入人工智能领域,这个曾经只有博士和工程师才频繁光顾的领域如今变得拥挤不堪。现在我们都在使用人工智能,这群终端用户即将以无法预测的方式对整个领域产生更大的影响。Delangue认为,任何关心人工智能未来的人都应该成为Hugging Face社区的一部分。他说:“如果用户不了解这项技术的构建方式,将会产生很多风险和误解。”


在Delangue看来,对于尚未存在的通用人工智能崛起的担忧是不合适的。他赞同特斯拉前AI总监Andrej Karpathy在2017年提出的“软件2.0”框架,将人工智能描述为一项重大进步,当然,它已经塑造了经济形势。但它绝不是上帝的替代品。


“AI is the new paradigm to build all technology. It’s not more; it’s not less. It’s not a new human form. It’s not Skynet or a super sentient being. But it is something massive.”

CLEM DELANGUE


"人工智能是构建所有技术的新范式," Delangue 说道。“它既不多也不少。它不是一种新的人类形态。它不是天网或超感知能力的存在。但它是一种巨大的东西。它比互联网更大,也比传统软件更大。它将为技术创造新的能力。就像大多数科技公司编写软件一样,大多数科技公司将会编写人工智能。”


这种惊人的增长加剧了 Delangue 对价值观的担忧。如果机器学习能够兑现其部分炒作和承诺,它有可能加深现有技术的偏见和错误。为了确保 Hugging Face 走上一个公平的道路,Delangue 雇用了前谷歌伦理学家 Dr. Margaret Mitchell,她的研究专注于算法中的偏见和公正性。


随着这些工具迅速进入主流,Delangue 希望它们保持开放和民主。每个 Hugging Face 的员工都应该坚持公司所宣称的价值观,Delangue 试图将这些价值观灌输给员工,而不是作为命令。这些问题他每天都在公司大约300个 Slack 频道中提出。网站上的用户也可以通过“社区”选项卡对机器学习模型产生的结果提供反馈意见。如果你觉得一个模型因为你的种族、宗教或性别而产生了偏见,"请举报",Delangue 说道。他相信越多的个人、公司和监管机构了解并参与机器学习,未来就越安全,不会被垄断控制。


Delangue 理解人工智能的快速采用几乎注定会带来一定程度的混乱,这也是为什么他并不追求 Hugging Face 的爆炸式增长的部分原因。"我们的主要目标不是建立一个大公司或赚钱,"他说。"我最兴奋的是变革的潜力和重新发明新规则、新方式。并且利用人工智能作为一个重置按钮,以不同的方式做事情,推动不同的价值观。"







去年夏天,当德朗格为他的朋友(也是Hugging Face的投资者)吕多维克·休罗(Ludovic Huraux)在巴黎的婚礼时,两人在第二区的休罗家共进晚餐。在喝酒的时候(休罗喝葡萄酒,德朗格喝水),创始人们互相问道:金钱是否能带来幸福?休罗承认对他来说,更多的金钱并没有让他更幸福。德朗格表示,他不认为金钱会有太大改变,因为让他快乐的是工作本身。休罗说:“他与我见过的其他成功CEO很不一样。他真正喜欢的是创造这个社群。这种看到自己的事业不断成长的理念是他在世界中表达自己的一种方式。”


为了作比较,休罗引用了德朗格最喜欢的哲学家阿尔贝·加缪。在这里,我们发现要理解德朗格,你必须经历一段短暂的地狱之旅。在那里,你会看到一个名叫西西弗斯的神话中的凡人。西西弗斯有点狡猾,他通过欺骗死神惹怒了众神。他们判他永远推动一块巨石上山,再不断地重复这个过程。


在加缪的阐释中(在他的文章《西西弗斯神话》中广为人知),西西弗斯在真正的痛苦中辛勤工作。然而,他在巨石再次滚回山下的那一刻,仍然能够感受到轻松,甚至是快乐。他没有目标,只有工作;没有令他印象深刻的神灵或同行;没有金钱可赚取;没有任何记分卡。当他再次触摸到那块巨石时,他在“斗争本身”中找到了满足。


克莱姆在这个违规者永恒的工作中看到了一点自己的影子。德朗格告诉我:“书中的最后一句话说你应该想象西西弗斯是快乐的。如果我们将其与创办一家公司相比,那就意味着幸福并不来自于成功,而是源自于每天的奋斗和努力,一步一个功能地建设。说服一个社区成员,一步接一步。即使是最平凡的任务,你也可以从中找到快乐。”




2023年3月,Delangue在推特上发文称他将在即将前往旧金山的行程中与Hugging Face的用户举办一次即兴聚会。仅仅几个小时内,有超过400人使用他在推特上分享的密码(ossftw,即开源软件取胜)进行注册。到了下一周,这个秘密就被正式公开了。“热度是真实的,我们已经扩大了聚会的容量以应对(从300人扩大到1000人)。” Hugging Face的官方账号发推特说道。两周后,Hugging Face的一名工程师补充道:“有什么比2000人的聚会更好?当然是2500人的聚会了!”


也许你会想,如何在短时间内在旧金山为400至2500人举办一次聚会?答案包括:尽可能晚地签约场地。与多家餐饮服务商讨价还价,考察25英里范围内的比萨饼店数量,最终决定用几千个马卡龙来招待大家。此外,你还需要找人在仅有24小时的时间内制作一套Hugging Face吉祥物服装。最后,你还需要联系加利福尼亚州的每个驼羊农场(llama farm)(向LLaMA致敬,即大型语言模型元人工智能),并检查有关公共场所中骆驼科动物的州和城市法规。


到了活动举办的时候,它已经赢得了“AI的伍德斯托克”(和相应的#WoodstockAI标签)。大约有5,000人来到了探索馆科学博物馆。活动的视频展示了一种类似狂欢派对与机器人竞赛相结合的氛围。AI公司挤满了展位。其中一家AI教育公司是在几天前的一次黑客马拉松中成立的,他们在这个活动上进行了公开发布。Delangue穿着鲜黄色紧身裤和巨大的Hugging Face表情包形象与一个吉祥物共舞。他向每个推动AI发展的人致意(所以几乎是整个人群)。


Delangue告诉他们:“这个活动是对开源力量的庆祝,我们要记住在AI领域,我们之所以取得这样的成就,是因为开放的科学和开源技术。”


如果你错过了这次活动,不要担心。Delangue喜欢把人们聚在一起,所以可以肯定这个活动不会是他的最后一个。而且一如既往,下一次活动到来时,每个人都受邀参加。


原文地址:

https://www.sequoiacap.com/article/clem-delangue-spotlight/?utm_source=bensbites&utm_medium=newsletter&utm_campaign=ai-s-money-magnet-is-supercharged



更多阅读:

一个大学生如何在6个月内,通过开发AI工具,获得每月64000美元收入?

Stability AI 的 Emad Mostaque,为什么马斯克和贝佐斯会见他?

Midjourney创始人大卫·霍尔兹

如果您也在从事AI相关工作,欢迎扫码添加小编微信(pkcapital2023),和一群对创业和投资有热情的小伙伴一起交流

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存