查看原文
其他

ChatGPT首席架构师:LLM想要单次训练成功,关键在于如何内化知识,我的经验是1遍记不住那就学10遍!

有新 有新Newin 2023-10-09



John Schulman 是OpenAI的联合创始人之一,也是ChatGPT的首席架构师,也曾是Pieter Abbeel 的博士生,后者是 AI 机器人领域知名科学家,也是Covariant 的创始人之一。


这期内容来自 John Schulman 在上个月与 Pieter Abbeel 的对谈,他们围绕ChatGPT、语言模型、强化学习等话题展开讨论,内容话题包括:


  • 模型表现会越来越好

  • 如何训练模型的意识?

  • 单次训练模型的经验

  • LLM局限和下个突破

  • 其它巨大变革的领域

  • 从机器人到强化学习

  • 学术界ROI高的领域


以下为全文内容,大家enjoy~✌️



模型表现会越来越好


Pieter Abbeel 

今天每个人都在谈论AI,事实上是与AI在交谈,为了确保我们都了解情况,我们从 ChatGPT是什么开始?


John Schulman 

GPT是一个位于Web应用上的聊天机器人,它是一个语言模型,可以生成文本。我认为它之所以真正受欢迎,是因为尽管以前已经有了语言模型,但这个模型很容易使用,因为你可以像与人交谈一样与它交谈。它的智能程度在某种程度上足够高,因此在许多任务中实际上都非常有用。比如,如果有人对某个随机的知识主题感到好奇,或者他们需要帮助写作,它都非常有用。


Pieter Abbeel 

我曾经花了很多时间与它互动,我总是被深深打动。前几天,我让它用一段段落来描述一个公司,它描述出来了。然后我又让它用Snoop Dogg的说唱风格来描述这个公司。它当场就做到了。当然,肯定没有人听说过Snoop Dogg会为那家公司写说唱歌词。它刚好做到了,我是说,它真的令人惊叹,它可以重新组合事物的方式真的很令人惊叹。这样的东西是如何构建的?


John Schulman 

因此,在训练这个模型的过程中有几个步骤。首先,首先,你从预训练的语言模型开始。这样做的方式是让模型模仿大量的人类写作文本。因此,我们的目标实际上是要尝试模仿人类的语言使用。为此,你需要找到大量的文本。在实践中,我们会从互联网上找到大量的文本,并训练模型生成类似的文本。实际上,正在发生的事情是它在根据先前的单词预测下一个单词。因此,你在许多这样的文本上进行训练,得到预训练的语言模型。


但是现在,它只知道如何从互联网生成随机文本。其中一些是你想要的行为,其中一些则不是。因此,我们需要对其进行微调,以获得更一致和更专业的行为。因此,我们进行了第二步的微调。特别是,我们进行了基于人类反馈的强化学习。在其中的流程中,我们有几个步骤,首先进行一些监督学习,我们训练模型使用人类编写的高质量响应。然后,我们实际上进行了进一步的强化学习,使用可以识别良好响应的奖励模型进行训练。然后,我们使用该奖励进行强化学习。


Pieter Abbeel 

通过奖励模型进行强化学习,意味着机器人最终生成文本并通过奖励进行评分,然后试图最大化该奖励。原则上,是否有可能生成一个在生成文本方面严格优于任何人类的聊天机器人,就像在AlphaGo中一样?


John Schulman 

当然可以。模型在某些方面已经超越了人类,但在其他方面并非如此。因此,当然,如果你将速度视为一种能力,那么它们在写诗歌等方面要比人类快得多。因此,总体而言,模型的智能程度不能通过单一标量来衡量。它们在某些方面超越了人类,例如广泛的知识和在各种不同风格中精确书写的能力,以及很好地遵循这些模式的能力。然而,在许多其他方面,它们不如人类。


Pieter Abbeel 

你认为它们在哪些方面仍然不太好?


John Schulman 

让我想想。当然,在数学推理等许多任务中,它们远不及熟练的人类,例如,如果你希望它们执行长篇写作任务,即使你非常仔细地提示它们,并告诉它们如何进行,告诉它们可以采取多个步骤,它们也经常会卡住,并且很难恢复。


Pieter Abbeel 

公平地说,很多人类也需要一段时间才能在数学上做得好。事实上,一些人永远也无法真正达到顶级的数学水平。大多数人都无法达到数学中最聪明的人类水平,对吗?你认为可能有一条路,这只是一个开始,但它可以在某些方面变得更好,就像数学一样。


John Schulman 

我认为模型会变得越来越好。实际上,很难准确描述限制是什么,或者根本的限制是什么。当然,现在它们存在限制,比如模型没有我们拥有的很多执行器,它们只能写出一些文本,不能做任何事情。但这些都是非常表面的限制。因此,一旦克服了这些限制,就不清楚根本的障碍是什么。当然,我认为模型还不够聪明,无法在数学上进行高质量的创造性思考。此外,我认为这还需要一段时间,这可能还有一段时间,但目前不清楚需要多长时间或将如何发展。


Pieter Abbeel 

你提到语言模型以前已经存在,但ChatGPT以某种方式超越了人们突然之间对它的兴趣,而之前的模型并没有引起这种程度的兴趣。在开发ChatGPT及其前身Instruct GPT时,引入强化学习组件,你是否认为会发生这种情况?这是你之前所想的,还是只是认为这可能是一种改进?在一切开始之前,你的想法是什么?


John Schulman 

我确实认为与以前相比,聊天界面更容易使用。因此,我认为在这里有很大的潜力,即使只有一个相对简单的产品,这将是一种直观的形式。但我绝对没有预料到它会如此受欢迎。我认为它只会具有一些小众的吸引力。你可以使用Instruct GPT模型制作聊天机器人,只需给它正确的提示,你就可以得到一个不错的结果。在我们发布ChatGPT时,你将会得到一个几乎与之前相比,但不完全相同的结果。


我们训练ChatGPT让它更加自我意识,了解其局限性,并减少虚构。而以前的Instruct模型更多地设计用于持续文本,以及在其中涉及幻觉的亮点任务,那是一种特点。因此,我认为它比之前可以创建的要好一些,但差异并不是非常大。所以,我对它会如此受欢迎感到惊讶。


Pieter Abbeel 

ChatGPT在美国已经广泛传播并被广泛使用。你是否看到了ChatGPT的一些用途,这些用途让你感到惊讶或兴奋,例如一些有趣的事情,你看到人们如何使用它?


John Schulman

我们总能发现人们以各种不同的方式使用它来获取价值,例如,很多非英语母语的人或需要在正确的语气下写作的人,经常会在写作方面使用它,这是一个明显的用例。即使是免费的智能模型,也不需要付费的功能,也可以实现这一点。让我想想。我看到一些创意用例,例如人们会用它来为自己的孩子编写晚安故事,或者只是为了好玩。事实上,你可以使用它来找到对话的开端。我见过人们这样做。我使用它来获取旅行建议和有关要做的有趣活动的建议。


Pieter Abbeel 

我看到我的学生们经常在他们的编程中使用它,尽管这不是严格意义上的英文文本,但它似乎在编程方面表现也很好。


John Schulman 

实际上,编程用例是我们我和我的同事使用过的一种用例。因此,这是我们真正推动的用例之一,也是一个重要的早期动力。


我会说,看到非专家如何使用它来进行编程非常令人兴奋。他们可以仅仅通过提示模型为自己编写脚本,而且我见过人们做过一些非常复杂的事情,即使他们从未正式学过编程,之前也认为自己不具备这方面的能力。


Pieter Abbeel 

非常令人兴奋。你多次提到过ChatGPT可能会出现幻觉的概念。它们是什么?你对如何避免模型产生这种幻觉有何想法?


John Schulman 

幻觉就是模型开始编造事实,输出一些听起来合理的文本,但其中包含虚构的事实、数字或引用。产生这种情况的原因是,如果我们允许的话,有时候更容易以某种方式理解模型,说它具有某种代理能力。因此,如果我们可以说模型更关心听起来正确或像正确的写作风格,而不是实际上是否正确,那么这显然是正确的,如果你考虑最大似然目标,你只需尝试输出可能的单词。因此,在这个目标中,可能有一些小的组件,它尝试输出正确的东西,但更强烈的趋势是仅仅输出具有正确风格或像是一个回答的东西。


因此,如果你只是。如果你有一个在某种程度上会幼稚地改变的模型,它会出现许多幻觉。通过我们的强大的人类反馈进行的微调,我们大大减少了这种现象。我们仍然没有完全摆脱它。因此,模型会失去状态。我们的免费版模型确实会出现幻觉。如果你尤其是开始要求它提供引用和类似的内容,它会编造一些内容。基于 GPT4的更好模型几乎不会出现这种现象,但有时仍会出现,特别是如果你要求其提供某些它不具备的特定细节,并且它尚未经过培训,以意识到这种限制。


如何训练模型的意识?


Pieter Abbeel 

你说它尚未经过培训,以意识到这种限制,这似乎表明存在一种方法可以训练它意识到这一点。这是如何运作的?如何使其意识到这些限制?


John Schulman 

有时候,我们可以训练模型意识到特定的限制。例如,早期版本的模型对能力一无所知。因此,你会问它是否可以发送电子邮件,它会说,是的,我刚刚发送了那封电子邮件,因为那是一个有帮助的聊天机器人可能会说的话。然后我们只是训练它针对此特定类型的查询,教它说,不,我不能发送电子邮件。因此,你可以进行分步过程,教会模型一些它没有的特定限制,然后模型会进行概括。


模型(尤其是 GPT4)确实具有良好的概括能力,因为它是一个非常聪明的模型。对于每个它不能做的事情,它都会推断出许多其他它可能不能做的事情。但它并不完全完美。例如,对于引用之类的东西,模型实际上确实具有许多关于特定书籍和著名论文等的知识。


如果你要求它提供引用,有时它实际上会给出正确的答案。在我们进行评分过程时,这是有用的,显然提供答案要比不提供更好。


因此,模型认为它可以在某种程度上提供引用,但它对自己对这些引用的信心程度没有很好的内部感觉,有时它会编造它们。我猜它不知道自己编造了什么,或者实际上可能知道。


有时候你可以问它,你确定吗?它会说,不,抱歉,我编造了那个。因此,我们不完全了解所有这些能力是如何概括的,以及有关限制的教学是如何概括的。因此,这绝对是进一步研究的有趣主题。


Pieter Abbeel 

当你谈论引入引用时,似乎有一种选择,而不是事先准备好材料,阅读整个互联网来发表观点,然后尝试仍然回答时带上引用,这是让它实时检索信息的替代方法。对于使用检索与将所有内容都训练到模型权重中的模型之间的权衡,你有什么想法?


John Schulman 

我认为两种方法都有其适用的地方,我们现在正在实践这两种方法。所以在 ChatGPT 中,我们有一个浏览模型,实际上最近我们不得不暂时将其下线,但它会回来的。因此,我们有一个可以在网络上查找信息的模型,但默认模型则没有。


我认为模型可以将大量信息存储在其权重中,包括非常详细的事实知识,如果你有信息存储在权重中,模型可以以非常灵活的方式使用它。因此,它可以在事物之间建立联系,或者如果你问一个关于某件稍微相关的事情的问题,它可能会建立一个可能很难通过搜索查询建立的连接,但通过发出搜索查询,就可以建立这种连接。所以我认为在权重中具有信息最终会导致更加智能和灵活的行为。


但是能够进行检索也有一些重要的优势。首先,实时性,你可以获得实时信息。你可以获得比你能够压缩到模型权重中的更多细节。最后,它对人类来说也更具可验证性。


所以我认为在让这些模型输出可验证方面非常重要,无论是作为训练过程的一部分,还是作为测试时间使用案例的一部分。因为在训练时,当人类观察输出并对其进行评价时,模型拥有如此丰富的知识广度,以至于进行评价的人可能对主题了解不够,无法真正评估答案。


因此,如果模型可以提供引用,那么这将使得准确监督变得更加容易。因此,这一点非常重要。但同时作为最终用户,能够检查语言模型的输出对于明显的原因非常有用,因为它们有时会产生幻觉。因此,如果可以使其输出可验证,那显然会非常有用,尤其在像医学这样的高风险环境中。


单次训练模型的经验


Pieter Abbeel 

现在,在技术层面上,据我所了解,很多 LLM 的训练方式是单次训练,意味着你只需要对训练数据进行一次遍历,而不是多次。那么它能够从仅仅一个遍历中记住那些具体的内容,是否令人惊讶?你对于在一个遍历中是如何获得这些内容的有什么经验它是如何在一个梯度步骤中记住那个特定的引用的?它似乎对我来说很令人惊讶。


John Schulman

确实,这些语言模型能够如此好地从预训练数据中吸收信息确实令人惊讶。我认为某个事实会在互联网上的许多不同文档中出现。如果它只出现在一个文档中,模型可能无法回想起它,或者至少是当前的模型,所以模型必须看到这个事实多少次才能真正内化它,这是一个有趣的问题,我猜大约是十次左右,但很难说得确定。


Pieter Abbeel 

关于互联网和数据,显然这些模型是在大量数据上进行训练的。最近, Sam Altman 提到,随着我们不断扩展这些模型,作为一个社区,我们在数据和模型扩展方面可能已经达到了瓶颈,你对此有什么看法?


John Schulman 

现有的数据和模型扩展方法可能会在一段时间后达到瓶颈,或者至少改进可能是对数级的。数据集大小和训练计算。因此,你正在逐渐遇到递减的回报,但我认为还有很多工作要做,我不认为事情会很快停滞不前。


Pieter Abbeel 

现在,领域内正在发生的一件事情是,当然不仅仅有 ChatGPT,还有许多其他竞争对手模型正在发布,还有许多其他竞争对手模型,包括许多开源模型。我想知道你对于封闭源代码与开源发布之间的作用有什么看法?它们都重要吗?你的想法是什么?


John Schulman 

事实上,今天 Llama2 也发布了,所以这是一个及时的问题。我认为开源模型对于研究确实非常有价值,例如,学术研究人员可以进行实验,对模型进行微调,并进行架构更改等。尝试做我们在 OpenAI 所做的工作,即尝试通过人类反馈来改进强化学习。因此,拥有一个非常强大的开源模型可以使这成为可能。


我认为这非常有价值。我认为目前封闭源代码的模型更好,或者至少是目前最好的模型更好。我认为要使模型变得非常好,可能需要一些商业的原因,否则很难激励模型方面取得真正的进展。


我预期封闭模型会成为最好的模型,但我认为开源模型在研究方面也非常好,并且我预期它们在许多商业用途方面也会非常好,人们可以找到在特定数据上如何微调它们,或者以某种方式微调它们,这目前由 API 或现有的商业提供者还不支持。


Pieter Abbeel 

你是否将其有效地与获取高质量数据和大量计算资源联系起来,如果你要构建开源模型,可能很难获得这些资源。


John Schulman 

没错。要在开源模型中做出如此大的投资却无法赚钱是很难的。因此,我不认为状态最好的模型会是开源的,但我认为它们确实创造了一些公共价值。我的意思是,它们可能还会产生一些安全问题,或者说,它们可能还会产生一些负面影响。如果人们使用这些模型来进行垃圾邮件或进行大规模垃圾信息传播,这是 API 提供者不允许的。所以我认为这在某些时候会成为一个问题。然后,也许像 Meta 这样的公司正在发布开源模型,可能会重新考虑这个问题,但我们还将看看事情如何发展。


LLM局限和下个突破


Pieter Abbeel 

我们今天谈到 LLM ,它们显然已经具备了各种能力,但同时也有一些局限性。你认为未来要达到下一个水平,是继续做更多类似的事情吗?还是说需要引入一些新的因素?比如说让模型能够访问视频,观看视频,更好地理解物理世界是什么样子,或者让模型可以访问模拟器,尝试模拟物理世界是什么感觉。这些因素能否将其带到下一个水平,或者与仅仅输入更多当前类型的数据相比,它们似乎不那么相关?


John Schulman 

我认为增加新的能力、新的形式,比如能够感知视频,肯定会增加很多。因此,如果我们处在一种现有数据规模扩展的递减回报阶段,那么增加新的形式只会让模型能够访问在文本形式下无法获取的大量知识,还可能让它能够以纯粹的语言模型无法做到的方式进行行动。例如,你可以观看视频,我是说,任何涉及与物理世界互动的事情,都将从感知视频中获益良多,实际上,即使与计算机屏幕互动,只是因为所有的软件都是为人类设计的。因此,如果你可以查看像素并感知视频,那么你可以使用各种现有的软件,或者帮助人们使用该软件。


我认为,只要给予模型新的能力,让它具备新的特点和与新事物互动的能力,就会极大地增强它们的有效能力。我认为在纯粹的语言模型领域中,除了扩展现有内容之外,还有很多工作要做。我仍然认为我们还有很长的路要走,要以更智能的方式对模型进行微调。我认为以人类反馈为基础的现有 RL 流程仍有很大的改进空间。特别是,我认为一个重要领域是使用模型来帮助评估自身,而不仅仅是训练一个奖励模型,使用人类数据。


Pieter Abbeel 

我想起了生成对抗网络(GANs),其中一个模型被训练成生成更逼真的文本(在这种情况下是文本),但在最初的 GAN 场景中可能是图像,听起来非常类似。谈到微调,有人认为微调阶段可能会降低模型的泛化能力和展示出的知识广度。你认为这种说法是否成立?如果是,是如何发生的?


John Schulman 

在微调模型时,你会减少模型生成各种风格和内容类型的能力。我们确实会出现所谓的模式崩溃或熵崩溃,即在某些情况下,模型会生成一组非常狭窄的答案或一个单一的答案。


例如,如果你问 ChatGPT 讲一个笑话,它可能总是告诉你同一个笑话。我认为它会在几个笑话之间循环,确切地说是告诉一个叫做“为什么科学家不信任原子”的笑话。因此,你确实会出现这种模式崩溃效应。关于这个问题,我认为模型的能力可能也有一些退化。


你进行微调的时候,由于预训练时使用的是更大的批次,你确实在确保保留所有能力的同时,也在各种各样类型的输入上进行了大量的处理。然后,当你对模型进行微调时,你只能看到一个更小的数据集。因此,你可能会失去一些在微调数据集中没有表现出来的能力。


在微调过程中会有更多的噪声。所以我认为会有一点这方面的问题。我们对模型进行了各种各样的基准测试,与预训练的基础模型进行了比较,以确保这些能力不会过多地融合在一起。我相当肯定在最新的方法中,它们并没有退化太多。


其它巨大变革的领域


Pieter Abbeel 

我想很快会谈到你的发展轨迹,但就我们目前的情况而言, LLM 主导了讨论,因为它们在与其他领域相比取得了最大的飞跃。由于其巨大的变革能力,基本上每个人都在谈论它。你是否看到还有其他可能会出现类似飞跃的领域?会是什么领域?


John Schulman 

我没有一个具体的领域认为会真正起飞。我认为像语言模型这样的东西将成为许多其他领域的核心基础。因此,我认为其他形式的模态可能会构建在语言模型的基础之上。你可能会将 LLM 与视觉、视频等相结合。然后,也许会进行一些处理,因为语言的一个重要优势是信息密度很高。而且,与视频等其他类型的数据相比,它的噪音较少。因此,我认为在很长一段时间内,语言将是吸收大量智能的良好途径,而计算量有限。


语言和其他模态之间存在转换。因此,我认为你会看到人们在语言模型的基础上添加视频等内容。甚至可能会出现某种类似的情况,我是指在机器人领域,我预测机器人最终将使用某种多模态模型,它在语言、视频和控制方面都进行了联合训练。所以我认为这种情况在 AI 的未来是必然发展方向。我可以说,与你正在训练的模型类型完全无关的领域也将变得越来越重要。


因此,我认为可扩展的、超级可扩展的监督或改善监督质量的想法将变得更加重要。因此,这里的想法是,如何在即使在很难让人类产生高质量标签或高质量演示的领域中收集数据?那么我们如何将模型与人类结合起来,以创建比人类能够创建的高质量数据更高质量的数据,并监督在真正困难的领域中的模型?所以我认为这是一个有趣的,一个重要的问题,可能在机器学习研究领域会变得更加流行。


Pieter Abbeel 

我想到的一个例子是,未来可能会有一种 AI 能够有效地进行科学研究,可能会阅读人类不太懂如何阅读的生物数据,如蛋白质序列、RNA、DNA序列,然后查看实验结果,并以某种方式将其结合起来,形成新的假设或结论,即使对于人类来说也很难想出来的。


John Schulman 

我同意。我认为这是一个非常令人兴奋的领域。也许有一些领域,比如生物学,对于人类来说太复杂了。而且,即使它们并不比人类聪明,它们肯定可以更快地完成更多的工作。所以可能我们可以让它们从生物学中筛选出大量复杂的数据,并找出某些东西。


从机器人到强化学习


Pieter Abbeel 

你在不同领域之间的转换。你从专注于模仿学习中取得良好结果,通过演示来教授机器人,然后决定采用强化学习来取得更大进展。那时为什么会有这种转变呢?


因为我认为对于许多研究人员来说,一个重要的问题是,你是否正在从事正确的事情?尤其是如果你已经在一个主题上投入了大量时间,那么决定转向到一个相邻但新的主题是一种高成本的决策,因为你可能会在新领域达到同样产出水平之前,减缓一段时间的产出速度。所以我很好奇你当时的思考过程,即使作为一个博士生,你已经在那里决定转换主题。从某种意义上说。


John Schulman 

对我而言,我认为模仿学习是一个自然而然的起点。因为我们想要在机器人上实现智能,但直接进行强化学习是非常困难的。所以在模仿学习中,你可以从人类示范中学习到许多有关任务的信息。


随着时间的推移,我开始认识到,强化学习对于机器人智能来说是非常关键的。这是因为在真实世界中,机器人需要自己采取行动来实现目标,而不是仅仅依赖于模仿人类。这导致我决定转向强化学习,因为我认为这将是实现更大进展的关键。尽管这个决定可能会导致产出减速,但我相信在长期内,这将为我的研究产生更大的影响。


当然,这不是一个容易的决定,但在科研中,有时候需要冒一些风险,追求更大的目标和潜在的突破。我觉得重要的是要对自己的直觉和研究方向保持开放,随着科技的发展和新的发现,可能需要不断调整和变化研究的方向。


当时我认为也许我们应该进行强化学习,针对像玩游戏和机器人等领域,也许我们应该训练视频模型,然后在强化学习任务上进行微调。所以我在这方面进行了一些工作,而且这种方法在某种程度上是有效的,但最终表现不够出色,无法让我真正兴奋起来。


到了 GPT3 时期,我对 GPT3 的表现更加惊叹。然后我决定将自己和团队的工作重点转向强化学习语言模型。实际上,我们并不是 OpenAI 中第一个自行开发语言模型的团队,但我们决定作为强化学习团队,朝这个方向发展是有道理的。所以那时,我们开始着手两个项目。一个是解决数学问题的项目。另一个是关于整合检索和网络浏览,使用强化学习来更好地使用这些工具。这就是我如何涉足语言模型领域的。


我记不清确切的时间表。可能是在 2020 年吗?还是说……我不记得时间表了,但可能是在 2019 年底或 2020 年初。大概是在 2019 年中。


学术界ROI高的领域


Pieter Abbeel 

回顾一下,虽然你已经离开博士阶段有一段时间了,但你一定还记得博士时代。工业界尤其是AI领域,OpenAI这样的公司,拥有巨大的预算,最新的投资来自微软,有100亿美元的投资,这个预算似乎主要用于计算和数据管理等方面,这种规模的预算在博士项目中显然是不可用的。从你目前在OpenAI的角度来看,是否有机会做一些既不需要大量计算和数据预算,同时又非常令人兴奋的事情呢?


John Schulman 

我认为有。我偶尔也会看到学术界的论文,你需要找到一些领域,它不会被工业界提前抢先,也不会被一些模型所取代,因此需要进行一些筛选。但我认为有很多这样的话题可供选择,无论是进行有趣的微调还是进行一些科学研究,以了解这些模型如何泛化或如何更好地进行监督。我认为有很多机会进行高质量的科学研究,深入了解事物,而在工业实验室中可能会更注重结果,更注重创造更好的产品。我认为有很多机会进行精确的事情,保持好奇心,试图深入了解问题。


Pieter Abbeel 

有没有一些你个人会对其感到兴奋的事情的例子,如果你有多余的时间,但我猜你现在已经非常忙了,但是你会说,哇,这些是问题,如果我是今天的博士生,我可能会着手解决。还是说,可能存在一个找到这样的问题的过程?


John Schulman 

或许我们可以谈谈找问题的过程。好吧,我可能会考虑什么。首先,我会思考什么。好吧,首先,有哪些能力可能会让模型变得更加令人兴奋,而且我们目前还不清楚如何实现。什么是当前方法的一些限制?也许不一定要是一个新的能力,比如让模型进行外科手术什么的,但是你可能会觉得,我们以这种方式进行工作似乎不太好。我们似乎不了解模型能力的来源在数据集中的哪个位置。


我认为这是一个有趣的领域,例如,将模型行为归因于数据集。最近的一些有趣研究也涉及到这一点。但我认为,我们预训练模型,然后在不同的数据子集上进行微调,最终得到一些结果,却不确定它的所有行为来自何处,这似乎不太好。因此,你可以提出这个想法,然后回过头来说,好吧,我们怎么解决这个问题,然后从这里开始。也许有一种结合对未来感兴趣的能力和分析当前方法弱点的方式,然后试图修复它们,避免看起来可能会在不需要你帮助的情况下达到的方向。如果我们从这个角度来看。


Pieter Abbeel

回想起与 Jeff Hinton、Yoshua Bengio 和 Yann LeCun 在深度学习的起源阶段的合作,他们在多年的时间里进行了工作,直到它真正取得成果,当然还有许多合作者。你认为现在我们可能正处于局部最优状态吗?


再次回到当时,除了少数几个人,没有人在从事深度学习方面的研究,然后突然爆发。现在每个人都在从事大型模型训练和大型数据集方面的工作。只是为了提出一些担忧。未来会是什么样子?也许不会有小型数据集,可能不会是超小型的,但是否可能还存在其他尚未发现的东西,与我们今天所做的工作相比有所不同?


John Schulman

我认为这是可能的,而且实际上很有可能。谁知道呢?也许我们可以在小数据集上取得更大的进展。我认为人类并不是从少量数据中学习的。我们有高带宽的数据从我们的眼睛进入,但我们看到的数据量与我们的预训练数据集相比是非常有限的,比如大部分时间我们都在一个房子里。所以从那里你可以学习到一个非常好的视觉系统,这是相当令人惊奇的。


所以我认为还有很多尚未被发现的东西,我认为可能有新的架构和损失函数,比我们现在所拥有的更好。而且,有一种诱惑是继续推动已经奏效的方法并进行规模化。但我认为还有很多东西我们尚未发现。我们可能处于某种类型的局部最优状态,但甚至很难预测哪里会有突破,就像 Jeff 和 Yoshua 和 Yann 那样。


Pieter Abbeel 

我猜可能在这里谈到 Jeff、Yoshua 和 Yann 时可能存在幸存者偏差,因为只有他们三个人在正确的事情上进行了工作并取得成功,而可能有很多人在当时从事了各种其他的、不知名的事情,但却从未看到自己的机会,也从未被承认他们所做的重要事情。


Pieter Abbeel 

现在很难说,有些人甚至会认为,今天要在学术界做一个有趣的工作,与在工业界做相同水平的工作可能很难。如果你可以直接进入工业界,你可以直接获得更大的资源,进行更大规模的实验等等,并且当然有更多显著的结果。

Source:

https://www.youtube.com/watch?v=nM_3d37lmcM


----- End -----
往期精选合集 🧃
NvidiaDeepMindTeslaAdobeAMDMicrosoftOpenAIChatGPTGPT4GrowthxAIAnthropicInflectionHuggingFaceCohereCoreWeaveSnowflakePalantirNotionSubstack|MiroAirtablePerplexitySynthesiaCharacterCovariantGammaTomeTypeFaceRewindSpeakXNerualinkWorldCoinRecursionElon MuskPaul GrahamMarc AndreessenJim KellerYann LeCunBill GatesBVPKhoslaLightspeedYosemite


活动1:ITA 创新科技与艺术发展高峰论坛2023  🌍
香港中国企业协会副会长兼总裁于晓、大中华文化全球协会创会主席赵曾学韫、投资推广署财经金融及金融科技主管梁瀚璟将出席“创新科技与艺术发展高峰论坛2023” (ITA2023)。于晓将担任论坛主礼嘉宾并与赵曾学韫一同出席“ITA2023暨数字艺术之门——慈善欢迎晚宴”。梁瀚璟将出席论坛,并在分论坛“投资人对话”致辞,与会者将在此关注到《开放与融合:香港投资机遇》、《Web3.0时代的艺术创新和趋势 》、《Web3的构建与发展》三大议题。 
本次论坛由紫荆杂志社主办、三角形科技(香港)有限公司联合主办,论坛以“Web3.0回归:建构黄金新起点”为主题,在对接国家战略和香港定位的同时,也致力于推动香港Web3.0产业的合规发展。

时间:2023.08.15

地点:香港君悦酒店

报名:下方扫码购票 👇



活动2:社交娱乐出海交流  🌍

时间:2023.08.11 13:45

地点:谷歌北京办公室

人数:35人左右

报名:下方扫码报名👇



活动3:机器·人·智能|重构未来哈佛大学(无锡)校友会周年庆暨AI高峰论坛(预告)

本次活动将定向邀请国内头部机构的投资人、明星创业公司、头部大厂从业者、全球顶尖高校的研究人员和学者,本次活动信息如下👇


时间:2023.08.26~2023.08.27

地点:无锡

人数:300人左右

嘉宾邀请:请添加微信 jiangtian26 与您对接









您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存