查看原文
其他

【1.2万字硬核实录】Yann LeCun 最新 MIT 分享:基本上我们与数字世界的所有交互都将通过 AI 系统来实现!

有新 有新Newin 2023-10-09
前言
这是一档由「有新Newin」与国内最大的 Global SaaS 和科技出海的创业者/企业家社区「Linkloud」联名出品,每周为大家带来当周最深刻的科技与商业洞见。





这期内容来自 Yann LeCun 上个月在 MIT 的分享,LeCun 为大家介绍了目前大语言模型背后的计算机科学,以及ChatGPT 和其他大语言模型对物理研究和教育的影响,核心内容和观点整理如下:


  • 现有的机器学习系统与人类和动物的学习能力相比仍存在巨大差距,它们缺乏常识和对物理世界的理解。

  • 自监督学习是当前最有前景的学习范式,可以学习表示和预测模型。但从文本转到图像和视频仍面临挑战。

  • 自回归语言模型(LLM)在文本领域表现强大,但由于无法进行规划和推理,其智能仍然非常有限。

  • 应该放弃当前流行的生成模型,转向基于优化和能量最小化的联合嵌入预测架构,这可以促进规划和推理。

  • 我们需要构建能进行分层规划的系统,学习预测世界模型,并由目标驱动。这是走向人工通用智能的关键。

  • 人类智能也是高度专业化的。我们不应感到被可能超过人类的机器智能所威胁。

  • 重要的是开发可以协助人类、提高生活的AI,而不是追求空洞的“通用智能”。


整体上说,LeCun 强调机器学习当前的局限,呼吁转向能够进行规划和推理的新模型,以真正达到人类智能水平。联合嵌入预测架构和目标驱动系统是未来的关键研究方向,应积极开发真正能够帮助人类的AI。


以下为这次分享的全部内容,enjoy 👻




这将会是一个有点技术性的谈话,但不会太技术性,更多是告诉你有关LLM提供的可能性和局限性,而不是技术细节。基本上我想告诉你我认为接下来会发生什么,或者至少我正在努力实现什么。首先我们应该意识到,与我们在人类和动物中观察到的相比,机器学习真的很糟糕。我们今天拥有的学习系统的能力真的很可怕。人类和动物可以很快学习新任务,理解世界的运作方式。它可以进行推理,可以计划。它们具有某种常识。它们的行为是由目标或驱动引导的,这与自回归LM不同。



生物世界和最近的监督学习世界中确实有一点是共通的,那就是都在使用自监督学习,而自监督学习真的已经在这两个领域占据统治地位,无论是在文本和自然语言理解的应用中,还是在图像、视频、3D模型、语音、蛋白质折叠等所有东西上。


自监督学习到底是什么?它实际上是一种完成,真正地学习填空,对吧?所以它在自然语言理解或处理的背景下的使用方式是,你拿一段文本,屏蔽其中的一些词,用空白标记替换它们,这样可以理解为一种损坏。不一定是屏蔽,也可以是其他类型的损坏。


然后你训练一个巨大的神经网络来预测缺失的词,基本上就是在缺失部分上测量重建误差。在这个过程中,这个系统学习来表示文本,以一种允许它确定意义、语法、一切的方式储存或表示文本,包括语法、语义等所有关于语言的东西,你随后可以用于任何下游任务,比如翻译或主题分类之类的。



这在文本背景下的效果非常惊人,因为文本很容易在不确定性下进行预测,你永远无法准确预测特定位置会出现的单词。你可以做的是预测所有可能词汇的某种概率分布,这些词汇来自词典。你可以做到这一点,因为词典中的词汇或词元数目是有限的。所以你可以轻松计算这个分布并很好地处理预测的不确定性。



更一般地说,它实际上是一种捕获输入之间依赖关系的方法。所以如果你想将其应用于视频预测的问题。例如,你向一个系统展示一段视频片段,然后要求它预测视频接下来会发生什么,例如,然后揭示视频的未来。我为颜色表示歉意。然后这个系统可以适应自己,以便对之后发生的视频做得更好预测。


现在,不幸的是,与文本相比,视频要难得多。可能需要比适用于文本的生成方法更多其他方法。



生成式AI和自回归语言模型是我们最近听说的东西。它是什么?你们大多数人可能已经知道了。但基本上训练它们的方式与我刚才提到的自监督运行非常相似。实际上,它是自监督运行方法的一个特例。你获取一系列令牌、单词或任何可以变成向量的东西的序列。只要你能把东西变成向量,你就没问题。然后你只屏蔽最后一个,并训练一个系统来预测序列中的最后一个令牌。


技术上你要做的不止这些,但归根结底就是这样。一旦你有一个系统已经训练好预测下一个令牌,你可以自回归地使用它,基本上是递归地预测下一个令牌等等。所以你预测下一个令牌,将其移入输入,然后预测下一个令牌,将其移入输入,等等。这称为自回归预测。这是信号处理中的一个古老概念,可以追溯到许多年前。事实上可以追溯到几十年前。所以在那里没有什么新概念。但这允许系统基本上逐个预测令牌并生成文本。


这些东西的效果非常惊人。性能真的很惊人。即使只是在文本上训练,尽管是大量文本,但它们捕获的知识量如果你愿意的话还是相当惊人的,给了许多人惊喜。这些系统通常拥有数十亿甚至数百亿参数。它们通常在1到2万亿个标记上训练。它们的输入窗口在2000到可能几千个甚至几万个标记作为上下文窗口。并且这种模型有一个悠久的历史。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存