查看原文
其他

李沐博士:每个时代都是一个模型,每个模型就是一个物种 | 绿洲分享会

参赞生命力 緑洲资本 Vitalbridge 2023-09-12

4 月,绿洲邀请到深度学习专家,前亚马逊首席科学家李沐博士,对绿洲被投企业创始人,针对 AI 和大模型的发展沿革进行一次梳理,帮助大家更好地迎接变化。

在这一次 AI 大革命的过程中,希望大家能拥抱这个革命,了解这个革命,并能为自己所用。以下是这次分享的部分内容,和大家分享, Enjoy。

机器学习浪潮

机器学习从 60 年代开始,至今 60 年。从大方向来看,每个时代都可以看做一类模型。

从线性模型开始,每个年代我们都把一个模型做到顶,把它“做死”。所谓的“做死”就是一直去提升模型的性能,直到有一天发现往前走不动了。技术革命基本都是这样,每次把技术做到顶,这个技术就成熟掉了。

对于机器学习来说,什么叫走不动?就是当你不管怎么去增大模型、增大数据,性能也只能有微小的增长,那就说明模型趋向饱和,走到了尽头。

从学术界来看,线性模型到 7、80 年代就到顶了。接下来是做神经网络,现在的卷积神经网络(CNN)、多层循环神经网络,90 年代已经出来了。但即使当年尝试了专有硬件,但算力撑不起来,也到顶了。

之后到了 00 年代,SVM(支持向量机)和 Kernel Machine(核机)的性能和神经网络差不多,但是因为算法好,理论好,参数好调,不像神经网络那么敏感,因此学术界都在做。

2010 年神经网络又杀回来,深度学习开始。2007 年,普林斯顿的李凯和斯坦福的李飞飞做的 ImageNet,很开眼界。当时最大的数据集就是 ImageNet,大家的能力都是 100 万张图片,在那个年代相当大了。

2007 年GPU (Graphics Processing Unit 图形处理器) 进场,CUDA(Compute Unified Device Architecture)做通用矩阵计算,到 2010 年 2012 年,编程就容易了。在这个时间点,数据量比之前几万的数据已经扩大了 100 倍, GPU 算力也容易翻上几十倍,大家发现 80 年代的卷积神经网络,稍微改一改,效果好了很多。

2018、19 年大家却发现,CNN 也做不动了,因为 CNN 是基于像素总是和边上的像素相关的假设,也就“局部相关”,图片再加多少进去都没用。RNN(循环神经网络)基于下一个序列跟上一个序列相关,是文本假设。 当时 Google 在用 TPU (Tensor Processing Unit,张量处理器)。TPU 适合做全连接,它是一个很大的矩阵乘法器,内存也大。所以 Google 去研究注意力机制,其本质是一个有结构的全连接,把它做大,做出了 Transformer。

因为 Transformer 有一个编码器和解码器,所以分裂出两条路线:

第一条是更实用的 BERT。之前深度学习基本都是在做计算机视觉,NLP比较弱一点。BERT 的出现,把整个 NLP 带到了深度学习年代,终于有一个模型能够把所有的语言抽成一个特征,然后再拿去用。这就是 2018 年开始,整个 NLP 界都在做 BERT 的原因。

差不多同时, OpenAI 插进来说:“我也看好 Transformer ‘暴力出奇迹’的能力。”但是当时 BERT 已经出来了,编码器已经做完了,那 OpenAI 就把  Transformer 的另一半更难的解码器拿出来做 GPT。我觉得他们之前应该也没想清楚 GPT 要怎么用,只是因为 BERT 出来了,他们需要更难的内容发论文。GPT 和 BERT 诞生的时间差不多,但是一直到 GPT-2,都是被 BERT 压着打。

本来大家按部就班成倍地增大模型,但 OpenAI 的 GPT 系列一直被大家忽视,于是他们放了个大招,直接把 GPT-2 模型增大了 100 倍,推出 GPT-3。配合数据的增加,GPT-3 展现出了让世人震撼的性能。GPT-3 诞生后,OpenAI 没急着做 GPT-4,而是做了一个 ToC 的 ChatGPT,然后成了爆款。后来 GPT-4 又做了更大的更新,目前的天花板就在 GPT-4。

从本质上来看,过去70年,每一代模型是在一个大模型体系架构下,每次换一个架构,涨数据,涨模型,到顶之后再换下一个模型。这就是模型的整个生命周期

GPT 路线是否能走向 AGI

基于以上,大家开始假设 Transformer 的架构,即 GPT 这条路线能否走向 AGI?

现在主要分为两派观点:

保守派认为,如果这一波在 GPT-4 的规模,估计是 500B 的模型,被打到天花板,那可能还需要等待下一个架构。

10 年内目前的架构未必可行,但是在差不多的时间周期会发现下一个架构,而不用像之前深度学习等那么多年。

乐观派则认为现在的 Transformer 架构有能力再往前推很远。就算顶点处还没有实现 AGI,如果下一代架构可以像从 CNN 到 Transformer 一样地平滑转换,3-5 年之后,甚至 2025 年就能实现 AGI。

简而言之,每个模型就是一个物种,就好比从浮游生物到动物再到人类,未来很有可能出现超越人类的物种。

大语言模型的核心

如果你想了解什么是 LLM,只要知道三点:

一是对世界的假设。你让模型做的事情很简单,就是让它读书,然后读一句话去预测下一个词,统计建模,如此不断。“读书百遍,其意自现”。当你一直读并去预测下一个词的时候,模型能够将数据压缩到其内部,且在内部是一个很好的语义空间的表征。好像不论哪个模型,似乎都能将数据映射到一个好的语言空间中,很可能人脑也是这样的机理,只要一直读书读下去,就能理解,模型的智能就从中体现出来。

二是 Scaling Law。这对所有机器学习都成立,指数级地增加模型,模型智能就线性增加。模型的智商,等价于模型大小的取 log。每次把模型大小翻一倍,智商就加一个线性的点。也就是说,我们希望的模型质量和当前的质量差多少个点,就要翻多少次方倍。

算力是摩尔定律也是翻倍,线性实践中智能就会线性增长。训练的代价等于模型的平方,模型大一倍,数据量也得翻一倍。算力等于模型大小乘以数据量,模型的质量和代价是简单的换算关系,如果要估一个模型要多少成本,就是这个简单的公式。

贵就贵在这里,一个 50B 的入门级模型,大约 100 万美金,低于 50B 的基本用来做做研究,比较实用的要从 50B 开始。GPT-3 是 175B,看上去比 50B 多了 3 点几倍,实际上数据还得翻 3 点几倍,所以实际翻了十几倍。训练 GPT-3 一次的代价立刻到了 1,200 万美金。GPT-4 很有可能在 500B,训练一次 1 亿美金,还不包括调参。

因为门槛太高,所以目前大家看到开源的模型基本都在 50B 之内,几十万一百万的成本,咬咬牙还能干,能够开源出 50B 、100B 以上的模型就比较少了,因为确实贵,所以更大的模型没人放出来。

三是智能涌现。智能涌现是本轮模型最令人兴奋的点,模型变大出现新技能,新技能给应用带来新的打开方式。当你的模型变得越大,看到的并不只是智能提升,而是更多的智能涌现。

人的智能比猩猩高很多,智商的区别也只是线性关系,猩猩在 30,人类大约在 100。从人类思维来划分,底层到高级意识的智能涌现是从“语言、推理、知识和规划"四大块体现。虽然不知道大语言模型是否真正按这个划分在进化,但是以人类的划分而言,这四大块的智能涌现才是大语言模型最特别的地方。

语言能力指你对话和各种文字的理解,对语义变化的理解。BERT 的语言能力就已经很好了。

推理能力要求不仅你要理解文字,还要理解逻辑,比如数学推理;

知识能力的概念相对比较模糊,是指模型能记住多少信息,这里指的是记在模型内部可以合理应用的信息,不是指外部信息。比如搜索引擎,每次要去外面取的数据,而非记在模型内部。模型足够大之后,就可以把搜索引擎的所有东西都记住。

前不久大家才发现的模型的规划功能是最有趣的。规划是人类已知最高级的意识型态,如今发现模型似乎也开始拥有了这个技能。当然人类更高一层的是“意识”,目前还没公认模型被发现存在意识,但按目前的趋势,再过一段时间,说不定模型真能意识到自己是谁。

模型应用与能力进化

接下来我们来看下模型规划功能的一些应用。

最经典的就是“和人聊天”(Chat for fun),还有基础的 NLP 任务,比如文本分类,看这个人说话是开心还是悲伤;或者做机器翻译,做文本摘要。大家发现模型根本就没有用这些训练数据,但模型训练出来之后这些任务都能做。

GPT-3 出来后的第一件事,就基本取代了 NLP 所有的任务,过去的算法效果都不如它,一个入口就能解决所有文本相关的事情。过去一两年真正赚到钱的是写作应用,包括商业、论文写作等等,GPT 系列的英语写作能力的确顶尖。

另一个应用是 Bing 尝试挑战 Google,将 ChatGPT 接入,问复杂问题直接返回结果(Complex questions answering),而不是把所有的结果做摘要后返回结果。Bing 的这个功能出来之后,大家觉得 Google 要完了,可实际上 Google 流量跌幅不大,Bing 的流量也没翻倍,大概涨了 30-40%,说明功能虽然好用,但是依然属于小众。

还有写代码的应用(Coding by providing comments or function signatures)。基于语言模型比较经典的应用是在一个代码文件中给模型前一段代码,模型来补全后一段。ChatGPT 出来之后,短短几个月,整个应用形态演进相当之快。整个语言模型不再像机器,而是越来越像真人,而且是作为一个助手。

下面我举几个更复杂的例子:

1. Blender 中用 GPT-4 生成一个图形,模型直接写出代码生成了。可以看到 Blender 中代码不断生成出来,做出了掉下来的效果。这是一个用相对简单命令做复杂内容的代码例子。

2. 网页制作:用Tailwind 做一个登录页面,用户和 ChatGPT 聊需求,整个页面生成只用了 10 分钟,和过去码农思维写代码很不一样。这种进化让即使完全不懂代码的人,也可以作为甲方爸爸向 ChatGPT 提需求,模型就可以作为码农来完成任务,而不只是填空。

3. iOS app:完全不懂 iOS 编程的人花了 2 小时写出了带支付功能的 app,实现用户和 GPT-4 交互,将 GPT-4 作为一个码农,完全脱离在编辑器中写代码。
4. 用浏览器点披萨:对 GPT-4 输入上网点披萨的需求,模型展现出规划能力:先上网,搜到披萨店,填订单,成为一个点披萨助手。
5. AR 个人助理:下面这个例子虽然很原始,但是很有趣。这是一个在 VR 眼镜集成的无时无刻跟着你的私人助手。之前还属于有事才找模型,现在是有任何需要模型都可以实时帮你,因为它对你的需求了如指掌,如同网文里的金手指老爷爷。

6. 最令人兴奋的 AutoGPT这个视频里,输入去网上了解什么是 AutoGPT”的需求,模型就用 Google 搜索,最后分析到了 AutoGPT Github 的源代码文,总结后写出来。随便甩一个任务给 AutoGPT,比如一个调研,它能实现自动搜索,自动总结,自动深挖,而不需要逐步交待任务。

有人基于此做了一个项目很火,出来不到一个月,在 Github 的 star 已经超过  Pytorch 了。这人做了一个 UI,目标是:“在一天之内,如何在我没工作的情况下,能在纽约赚到最多的钱。”简而言之,模型在这里成为了你的实习生,不断给你提出想法,根据你的选择去做功课,并去做下一个执行。虽然这个项目好像没上一个案例那么智能,但更实用,不费算力和时间,而是根据你的反馈优化搜索空间。

下一站
当然,以上几个案例虽然很火,但我觉得还是处于“玩具的阶段,离实用还有距离。大家网上看到的例子是做得比较好的,大部分时间其实模型还是“傻乎乎”的。不过,“规划”技能的涌现的确让大家觉得压力山大。

这是几个简单的应用介绍,实际它还有很多想不到的东西。未来,模型在已有的技能点会不断提升,已经存在但还未被发现的技能点会被挖掘,从而出现做新应用的可能性。

至于未来会如何发展,首先我觉得 GPT 系列还是“玩具”性的东西,在很多场景下虽然有用,但 99%,甚至 90% 都难保证一定有用。从玩具变成工具,还有路要走。

第二是多模态。刚才讲的基本都基于文本,GPT-4 虽然有一定图形能力,但还是比较弱。对一个人,一个智能体来讲,不仅仅要理解文字,也应该要理解图片,理解视频,理解周边的环境;能够生成图片、生成视频或生成各种别的东西。虽然文生图有应用,但实际上还没和大语言模型真正结合。整个 LLM 对图片理解还处于比较弱的阶段。

第三成本还需要降低。目前训练、预测都十分昂贵。虽说 GPT-4 1,000 个 token 就几分钱,但实际一用,钱就上去了,因为 GPT-4 的整个部署用了很多块 GPU ,而且它 GPU 的效率在部署的情况下是很低的。

今天大家更关心的还是模型不断向前进步,可能像芯片一样,每一到两年就会出新东西。对做模型的人而言,在模型不断更新的情况下,需要考虑模型的更新和如何改善模型更新的速度。对 80-90% 的创业公司而言,应该思考做什么样的产品?模型对现有产品的技能有何提升?模型有什么新的打开方式?如何利用这波技术来提升产品?

大模型如何可信可控?

对于任何技术而言,都是先做效果,再做安全,属于技术迭代。OpenAI 也是在 ChatGPT 火了之后,才开始真正去正视安全性的问题。

但是因为模型是一个纯统计的目标函数,在模型上反而没有发现特别好的方法去做安全。现在主流的方法是:

1. 对整个训练数据做大量的过滤,就和养孩子一样,不让孩子接触会带歪你的人。

2. 在微调时告诉模型哪里不对,哪里不可以;

3. 加后验处理,什么特定关键词不能说,也就是出黑白名单,简单,效果最快。但这里的问题在于:1)用机械过滤会被人绕开,模型不理解背后的规则反而不好;2)让模型很分裂,什么结果都没了,或者一下感觉不同了。

从长远或者研究来看,大家还是关心把数据的过滤和对模型的后期调整,烧进模型参数。但如果要 100% 安全,单模型会比较难,多个模型一起是一个可能的思路:比如拿 3 个模型,有一个当班长管纪律,其他模型出的结果不好,就让班长模型告诉这个模型,哪句话不对,请你回去改一下,这样模型就不会分裂,因为它理解你要什么。但为什么大家还没这么做呢,主要就是贵。

最简单的方法是拒绝采样(reject sampling),每次采样 10 个输出,挑一个最没害的输出,现在还没做得特别优秀。Anthropic 就做这个,OpenAI 现在也开始做了。这个方法的好处是不仅是几家公司,学术界也可以做,应该会出现大量的论文。

参赞生命力

你觉得什么是科技生命力? 

好奇心驱使人类不断的探索未知,一个小惊喜发现会引来更多人对其探索,从而导致科技的突破和世界的变革。

—— 李沐博士
深度学习专家

绿洲资本是中国新一代风险投资机构,致力于发现中国未来十年最有生命力的企业家,并与他们共同成长,创造长期价值。 “参赞生命力”是绿洲的愿景和使命。这种生命力(Vitality),既是时代结构性变革的方向,亦是企业家坚韧和进化的力量。

绿洲资本专注于早期和成长期投资,单笔投资300万到3000万美金,重点投资机器人、人工智能、科技服务等领域,助力中国科技驱动的新服务升级。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存