吴恩达的2022年终盘点:生成式AI、ViT、大模型
亲爱的朋友们:
随着寒假的临近,我突然想到,我们不是在面对人工智能的冬天,而是在一个人工智能炙热的夏天。
今天,人工智能创造的绝大多数经济价值都来自监督式学习工具,经过训练能够生成简短的标签(如判断垃圾邮件/非垃圾邮件)或一系列标签(如一段音频的文本)。今年,建立在监督式学习之上的生成式成为第二个主要工具,使人工智能能够生成复杂且引人注目的图像或文本段落。
以往开发重要新工具(例如强化学习)的一些尝试,尚未取得与其铺天盖地的宣传相称的成果。但是生成式AI做得很好,它为人工智能应用创造了一个新的范式。
而且监督学习还远远没有发挥出它的全部潜力!依靠监督学习,仍然有数以百万计的的应用有待开发。许多团队仍然在试图找出通过监督学习开发产品的最佳实践。
未来,我期待着继续与生成式AI共舞,为每个人创造大量的价值。我感到很幸运能活在这个时代,科技飞速发展,我们有机会一起创造未来!能与我的家人和你们分享这个世界,我感到倍加幸运。
节日快乐,
Andrew
01
2022:人工智能闪耀的一年
01
02
合成图像遍天下
02
OpenAI 在四月份推出了 DALL-E 2。超过150万用户测试了这个模型,今年9月,公司将它推向了市场。微软为 OpenAI 提供资金,以换取其作品的独家商业版权,并将该模式整合到 Azure AI-as-a-service 平台中。
7月,只需操作按钮的艺术家们用简单的 Craiyon 制作的相对粗糙的图片,这些图片在社交平台上随处可见。
Stability AI很快就加大了赌注,推出了开源的扩散模型(Stable Diffusion),最终吸引了超过1亿美元的新资金。扩散模型于去年11月升级到2.0版。
Adobe、Getty Images 和 Shutterstock 将图像生成模型集成到他们自己的产品和服务中。
这些应用根据给出的文本提示(prompt)会产生截然不同的结果。PromptBase 为生成有趣输出的文本字符串打开了一个市场。
Lensa AI 是一款照片编辑应用程序,可以根据用户的自拍生成艺术化身,它登上了app商店排行榜的榜首。它的成功带来了一定程度的争议,因为用户,尤其是女性,发现这个app使她们的图片变得更加性感。
视觉艺术家在线社区 ArtStation 推出了自己的“文字到图像”功能。许多艺术家感到受到电脑程序的威胁,这些程序可以在几秒钟内复制艺术家来之不易的个人风格,因此开始抵制该网站。
03
程序员的好朋友—编程工具大显身手
03
今年年初,Ebay 将低代码工具交到非工程师手中,使他们能够在没有人工智能或机器学习知识的情况下构建和部署模型。
今年 2 月,DeepMind 推出了 AlphaCode(https://www.deeplearning.ai/the-batch/competitive-coder/),这是一款用 12 种编程语言对 8600 万个程序进行预训练的 Transformer,并针对编码竞赛的内容进行了微调。通过推理,它产生了一百万种可能的解决方案,并过滤掉了不佳的解决方案。通过这种方式,它在 10 次编程竞赛中击败了一半以上的参赛者。
今年 6 月,GitHub 开放了 Copilot 的访问权限,这是一个能够实时提供代码建议的自动完成系统。虽然学生和经过验证的开源开发者可以免费访问,但用户需要支付订阅费。
04
人工智能之眼进化
04
用海量数据训练 ViT 可以得到最好的性能,因此 Meta 和索邦大学的研究人员专注于提高 ViT 在包含数百万条数据的数据集上的性能(https://www.deeplearning.ai/the-batch/a-formula-for-training-vision-transformers/)。他们利用 Transformer 特有的已建立的程序(如数据增强和模型正则化)的适配来提高模型性能。
Inha 大学的研究人员修改了两个关键部件,使得 ViT与卷积神经网络更相似(https://www.deeplearning.ai/the-batch/less-data-for-vision-transformers/)。首先,他们将图像分割成重叠更多的图块(patch)。其次,他们修改了自注意力机制,使其关注与图块相邻的图块,而不是图块本身,并使其能够学习是否更均匀或更有选择性地权衡相邻的图块。这些修改极大地提高了精度。
印度理工学院孟买校区的研究人员为 ViT 配备了卷积层(https://www.deeplearning.ai/the-batch/upgrade-for-vision-transformers/)。由于重量共享机制,卷积带来了像素的局部处理和更小的内存占用等好处。在精度和速度方面,他们的卷积 ViT 优于普通的 ViT 和运行时优化的 Transformer(如 Performer,Nyströformer 和线性 Transformer)。其他团队采取了类似的方法。
05
语言模型持续扩展
05
2021 年底,DeepMind 提出了 RETRO 模型(https://www.deeplearning.ai/the-batch/large-language-models-shrink/),该模型可以从 MassiveText 数据集中检索段落,并将其整合到输出中。
AI21 实验室春季发布的 Jurassic -X 引入了一系列模块(https://www.deeplearning.ai/the-batch/neural-nets-rules-truer-text/)——包括一个计算单元和一个查询维基百科的系统——利用事实核查语言模型对数学问题、历史事实等的答案。
斯坦福大学和洛桑联邦理工学院的研究人员创建了 SERAC 系统(https://www.deeplearning.ai/the-batch/update-any-language-model/),该系统可以用新的信息更新语言模型,而无需重新训练它们。他们使用单独的系统存储新数据,学习为与该数据相关的查询提供输出。
Meta 构建了语言模型 Atlas(https://www.deeplearning.ai/the-batch/how-small-language-models-can-perform-specialized-tasks/),通过从文档数据库中检索信息来回答问题。8 月份发布后,这一方法使 110 亿参数的 Atlas 在回答问题时的表现超过了具有 5400 亿参数的 PaLM。
今年晚些时候,OpenAI 对 ChatGPT 进行了微调(https://www.deeplearning.ai/the-batch/how-ai-professionals-reacted-to-chatgpt-on-twitter/),从而最小化不真实、有偏见或有害的输出。人类对模型的训练数据质量进行排名,然后用强化学习算法对模型产生的输出给出奖励,这些输出与排名靠前的输出类似。
这些技术发展加强了对语言评测基准的需求,从而评估更多样化和微妙的能力。为此,超过130 个机构合作开发了“BIG-bench”(https://www.deeplearning.ai/the-batch/toward-next-gen-language-models/),它包括根据表情符号推断电影名称、参与模拟审查以及检测逻辑谬误等任务。
06
全能模型
06
今年春天,谷歌的 PalM在涉及语言理解和生成的数百项小样本学习任务中取得了目前最优的结果。在某些情况下,它的表现优于经过微调的模型或人类的平均表现。
不久后,DeepMind 推出了一款名为 Gato 的 Transformer 模型(https://www.deeplearning.ai/the-batch/one-model-hundreds-of-tasks/),它学会了完成 600 多种不同的任务ーー玩 Atari 游戏、用机器臂堆积木、生成图片描述等等ーー尽管不一定比专门用于这些任务的独立模型更好。该系统同时接受了多种数据集的监督训练(从文本、图像到强化学习智能体生成的动作等)。
随着这一年接近尾声,谷歌研究人员也将类似的能力引入了机器人领域。RT-1 是一种使机器人能够执行超过 700 项任务的 Transformer模型。该系统对动作和图像进行词例化,利用近一年半的机器人队伍收集的 130,000 个 episode 构成的数据集学习。与先前的技术相比,它在新的任务、环境和对象中取得了出色性能。