查看原文
其他

2022年人工智能领域十大焦点回顾

心识研究院 Mindverse Research 2023-03-31


2022年人工智能领域十大焦点

2022 年,人工智能领域取得了巨大的进展,自然语言处理、图像生成和机器学习技术也都取得了长足的进步,使得人工智能在各个领域得到了广泛应用。在上半年,大量的 AI 内容生成模型涌现,极大地吸引了研究社区和公众的注意力。而在下半年,ChatGPT 横空出世,更是引发了一阵试玩浪潮。在整个世界为 AI 的飞速发展而惊艳的同时,研究人员在背后不断地拓宽 AI 算法的边界,在通用基础模型、AI for Science、多模态、AI 应用等方面做出持续不断的努力,突破性的工作层出不穷。

 

在过去的一年里,心识研究院一直追踪着 AI 最前沿的研究与探索,我们在 30 期周报中对 132 篇 AI 领域的最新文献进行了速递。在这 2022 年的尾声,我们从海量的研究中总结了本年度 AI 领域十大最有影响力的工作,以此共同见证这对于 AGI 而言意义非凡的一年。


1

Flamingo


火烈鸟模型是由 DeepMind 提出的一个具有 In-context learning 能力的多模态多任务模型,其可以像 GPT-3 一样,通过提供模型少量的特定例子(多模态 few-shot),就可以解决各种各样复杂的多模态任务。为了实现多模态 In-context learning,火烈鸟做了几个创新:1.  火烈鸟模型通过将视觉信息「嵌入」到大规模预训练语言模型中,借用语言模型强大的序列推理能力来实现在在多模态任务上的推理能力,既节省了巨大训练成本,又充分利用了当前语言模型的特性;2. 火烈鸟模型使用了多模态视觉和语言数据进行交叉序列构造(Interleaved),赋予了模型强大的多模态 In-context learning 能力;3. 火烈鸟模型使用 Perceiver 结构,可以将视频和图片的信息统一到一个输入空间中,解决了各种场景中图片和视频长度分布差异的问题。此外,火烈鸟模型在效果上也非常惊人,在 few-shot 的设置下,在 16 个多模态任务上击败其他 SOTA 模型,同时,在其中 6 个任务上,甚至击败了基于微调 SOTA 模型。火烈鸟模型的出现代表了多模态领域也开始走向了 In-context learning 的范式,极大的推动了多模态领域的发展。


标题:Flamingo: a Visual Language Model for Few-Shot Learning

链接:https://arxiv.org/abs/2204.14198



2

Gato


Gato 是由 DeepMind 提出的一个「通才」AI 模型,其理念是:所有的信息,包括语言,图像,游戏操作,动作按钮,关节力矩等等,本质上都是序列信息,因此可以通过自回归模型去做统一建模。因此,受到自回归语言模型的启发,Gato 在 604 个不同的任务上使用自回归模型进行序列学习,这些任务具有不同的模态和信息表征形式,这样即避免了为每个不同的任务领域制作具有适当归纳偏置的策略模型的需求,又增加了数据和训练样本的多样性,使得模型可以学习到更加通用的表征和任务模式,提高了模型的通用性。


标题:A Generalist Agent

链接:https://arxiv.org/abs/2205.06175



3

ChatGPT


ChatGPT 的出现刷新了大家对 AI 对话模型的认知,并引起了广泛的社会讨论。ChatGPT 使用了来自于 InstructGPT 论文中一样的方法,其不同之处在于,ChatGPT 使用了 GPT-3.5 系列进行训练,同时数据集有微小的区别。具体来说,ChatGPT 使用了一种称为 RLHF(从人类反馈中强化学习)的技术,通过人工标注数据训练 Rank 模型来作为奖励模型,能够间接的让模型学会哪些回复是「更好」的,从而逐渐的让模型的响应与人类标注的回复进行对齐。ChatGPT 的出现带领了当前对于大规模语言模型使用的范式的变革,由于其强大的指令理解能力,让使用者在大部分情况下,不需要复杂的「提示工程」来诱导模型产生合理的回复,而是仅仅简单的输入自然语言形式的指令即可。


标题:Training language models to follow instructions with human feedback

链接https://arxiv.org/abs/2203.02155




4

LeCun's Autonomous AI Architecture


LeCun 认为,通用自主的智能体应该是一套由各种功能模块组成的一种「Macro Architecture」(宏观框架),而不是一个简单的大模型。基于此,LeCun 提出了一套自主智能框架,该框架通过借鉴于生物大脑,设计了多个可以类比的子功能模块。此外,对于框架的实现细节,LeCun 还提供了一些原则性的理论和猜想,尽管 LeCun 对于该框架部分功能模块的实现细节依然没有给出完整的答案,但是对于框架的学习机制,世界模型的使用,宏观框架的整体设计,以及赋予系统自主性最核心的动机系统,都提出了自己的猜想,以及可能的实现路径,该工作为通用人工智能研究社区提供了很好的引导作用。


标题:A Path Towards Autonomous Machine Intelligence

链接:https://openreview.net/pdf?id=BZ5a1r-kVsf



5

OPT


虽然大规模语言模型的发展令人兴奋,但是如果不能直接访问这些模型,会极大的限制研究人员对其局限性和风险进行探索。OPT 模型是 Meta 对于 GPT-3 的复现工作,其具有 1750 亿参数,和 GPT-3 完全一样。OPT 最大的特点来自于其开放性,Meta 将完整的模型,包括模型权重,训练代码,部署代码,以及训练过程都全部开放,为语言模型的开发和研究工作提供了前所未有的透明度和开放性。



    6

    Stable Diffusion


    AIGC 是 2022 年最火爆的话题之一,其根源来自于Diffusion Model(扩散模型)的发展。扩散模型是当前文本生成图像领域的核心方法,当前最知名也最受欢迎的文本生成图像模型 DALL-E2 和 Stable Diffusion 均基于扩散模型。Stable Diffusion 是一个基于 Latent Diffusion Models(潜在扩散模型)的文本生成图像模型,通过输入一段文本描述,该模型可以快速的生成一张与描述一致的图片。不同于 DALL-E2 模型,Stable Diffusion 是完全开源的,也正因此,Stable Diffusion 为 AIGC 领域提供了一个可以快速调整和应用的模型,使其可以作为一个功能组件集成到大量下游应用中, 极大的扩展了文本生成图像的应用范围。


      标题:High-Resolution Image Synthesis with Latent Diffusion Models

      链接:https://arxiv.org/abs/2112.10752



      7

      Alphacode


      当前大规模语言模型在文本生成和理解上面取得了巨大进步,但在解决问题方面的进展仍然局限于相对简单的数学和编程问题。AlphaCode 模型是由 DeepMind 提出,该模型可以编写具有复杂的计算机算法程序,以解决需要结合批判性思维、逻辑、算法、编码和自然语言理解的新问题。此外,AlphaCode 在编程竞赛参与者中估计排名前 54%,标志着 AI 代码生成系统首次在编程竞赛中达到具有竞争力的性能水平。随着 Alphacode 的进一步发展,未来可以有效的帮助程序员提高生产力。


      标题:Competition-level code generation with AlphaCode

      链接:https://www.science.org/doi/10.1126/science.abq1158



      8

      Chain of Thought

      随着提示学习(Prompt Learning)浪潮兴起,研究社区开始将注意力放到了提示工程上面,而思维链(Chain of Thought) 则是这个浪潮中最有意思的发现之一。思维链是由谷歌大脑研究院 Jason Wei 提出,它是一种离散式的提示方式,其核心方法是在样例提示的书写中,同时写了推理过程,这一步骤「提示」模型在输入问题答案的时候,还需输出推导出这个答案的过程,使得模型在推理任务上的准确率得到了极大的提升。这一方法在后来被研究社区进行了大量的扩展,并被广泛的应用到了各种基于语言模型的推理任务中,极大的推进了语言模型在复杂推理任务中的性能。


      标题:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

      链接:https://arxiv.org/abs/2201.11903



      9

      CICERO


      Diplomacy 是一款多人竞争对抗的外交游戏,其背景是在 1901 年的欧洲,7 位玩家每人控制一个大国,通过相互合作、协商,尽可能地占领更多领土。而 CICERO 是由一个对话引擎和一个战略推理引擎构成的系统,其伪装成玩家身份,加入到外交游戏中,其中 82 名人类玩家在 40 场匿名在线对局中,都没有发现其是一个 AI 系统,此外,其平均分达到 25.8%,是人类玩家平均分的 2 倍多,并且在参加一场以上比赛的参与者中排名前 10%。尽管当前研究社区在训练 AI 系统模仿人类语言方面已经取得了很大进展,但是构建可以使用语言与人类进行谈判、说服和合作,以实现类似于人类的战略目标的AI系统仍然是一个重大挑战,而 CICERO 则向前迈出了一大步。 


      标题:Human-level play in the game of Diplomacy by combining language models with strategic reasoning

      链接:https://www.science.org/doi/10.1126/science.ade9097



      10

      Minerva


      Minerva 的深度学习语言模型,可以通过逐步推理解决数学和科学问题,其解决方案包括数值计算、符号操作,且不需要依赖计算器等外部工具。通过收集与定量推理问题相关的训练数据、大规模训练模型,以及使用先进的推理技术,该模型在各种较难的定量推理任务上取得了显著的性能提升。尽管该模型的性能依然远远低于人类,但是该模型缩小了语言模型在比如在大学水平上解决数学、科学和工程问题上应用的差距 ,如果该模型能够进一步提升,那么会具有潜在的重大社会影响。


      标题:Solving Quantitative Reasoning Problems with Language Models

      链接:https://arxiv.org/abs/2206.14858





      在社群中积极参与讨论、为知识建设做出贡献的社群成员将不定期地获得「社群专属福利」




      Mindverse Research

      心识研究院


      心识浩渺连广宇

      心识宇宙研究院,致力于在即将到来的元宇宙数字时代,研究和创造真正等价于人类意识水平的数字生命,目前已经综合多种研究进路和方法规划出一条通向AGI和人工意识的道路。在后续内容运营上,我们也会介绍和创造更多有关人工智能、意识科学、元宇宙方面最新的研究成果和原创内容。


      欢迎有志者关注和加入我们的研究!

      您可能也对以下帖子感兴趣

      文章有问题?点此查看未经处理的缓存