罕见同台:xAI、Llama 3和Mistral的核心科学家对谈,详解三家最强模型背后的一切
邮箱|JessicaZhang@pingwest.com
在硅谷叫一辆Uber,极大概率司机会和你聊到AI。
如今铺天盖地的信息轰炸,营造出一种生成式人工智能步入全盛时代的氛围。而对于真正身处其中、手搓大模型的开发者们来说,他们思考的却是现实世界里仍待解决的技术挑战与边界。
GenAI 旧金山峰会第一天,xAI联合创始人Tony Wu,Llama 2和Llama 3联合作者Sharan Narang,以及Mistral AI研究科学家Devendra Chaplot同场的小组讨论异常火爆,吸引了众多硅谷AI开发者。
三位都是资深技术专家,也都是业内顶尖模型的缔造者,各自带领一支炙手可热的AI团队:马斯克旗下xAI刚刚宣布完成史上最大的60亿美元B轮融资,估值180亿美元风头正盛;Llama独自顶起开源模型半边天,蓄势待发的Llama3-400B被视为“可能改写人工智能生态版图”;而欧洲最火AI公司Mistral凭实力获得微软垂青,在较小尺寸模型的开发上马不停蹄、一路狂奔。
在这场时长40分钟、主题为「A Deep Dive into the State-of-Art LLMs」的分享中,Tony、Sharan和Devendra透露了各自公司的最新动向,深入讨论了模型预训练、数据质量及合成数据、多模态模型挑战和Transformer创新替代架构,预测2025年的人工智能突破,也对观众关于小模型企业用例、杜绝幻觉与偏见和Mamba架构的提问进行了解答。
要点总结:
各家动向:xAI将把融资用于建设拥有10万个H100芯片的数据工厂;Mistral AI最新推出掌握80种编程语言的新模型Codestral;Llama3很快会发布400B参数版本和研究论文以供社区学习。
数据收集与质量:预训练数据需考虑数量、质量和多样性,评估和反馈机制是关键。合成数据有助于提升数据质量,有助通向AGI,但生成时需防止传播偏见和错误。
Transformer架构及替代方案:Mistral AI一直努力研究新架构,Transformer目前最适合扩展,替代方案需证明其在大规模上能与Transformer竞争,Mamba架构有前途但仍需优化。
模型规划和推理能力:强化学习可用于提高性能,多模态模型的计算量是主要挑战,需提高数据效率。
偏见和道德标准:使用基准测试能减少模型偏见,预训练和后期训练阶段可加入缓解措施。
未来预测:2025年数字代理和具身智能将会日趋成熟,合成数据将发挥关键作用,希望模型的持续改进和新技术超越当前扩展法则。
以下为硅星人整理的现场对话实录:
Sharan Narang:我是 Llama团队的研究经理,领导Llama预训练工作,并参与了Llama 2、Llama 3及后续项目的开发。非常高兴能在这里和大家讨论。
Devendra Chaplot:我是Mistral AI的研究员,参与了Mistral AI发布的所有模型。最近一直在研究多模态模型。
Tony Wu:我来自xAI。加入xAI之前从事数学推理工作,现在xAI也是如此,但更多是在基础方面。
Minfa Wang(主持人,CTO of 1Gen Labs):太棒了。我想先从一些个人故事和成就开始。首先是Tony。最近xAI刚刚宣布了60亿美元的B轮融资,祝贺你们。你能谈谈这次融资将如何推动xAI的下一步发展吗?
Tony Wu:是的,我们非常幸运地获得了这次融资,这是很大一笔钱,所以我们想要非常明智地使用它。我想现在唯一明智的花钱方式就是把钱给NVIDIA对吧?所以我们将建设一个数据中心,这是公开信息,我们将在未来几个月内建设这个数据中心,它将拥有大约10万个H100芯片。这将是迄今为止最大的单个数据中心,由包含10万个芯片的单一集群组成。这将使我们能够训练出我认为是最强的模型。
Minfa Wang:谢谢分享。Devendra,上个月Mistral AI发布了Mixture 8x22B,这是Mistral AI迄今为止发布的最大和最新的模型。你能简单介绍一下这个新模型的关键特性和亮点,以及你和Mistral AI接下来的重点工作吗?
Devendra Chaplot:上个月我们发布了基于稀疏混合专家架构的Mixture 8x22B模型。我们设计这个模型的主要目的是优化每个参数的性能。因此,我认为我们的模型在性价比方面是最优的。其实我们今早还发布了一个新模型,叫Codestral,这是一个专门为编程训练的模型,掌握了80种编程语言。它可以用于指令或人类聊天提示,也可以进行代码补全。这意味着你可以在编辑器中将其作为编码助手使用。它与VS Code和JetBrains集成,并且在发布当天可以在我们的API上免费使用八周。
Minfa Wang:这很酷。那么这个模型会进化成某种垂直基础模型吗?比如,它是否会作为基础设施层为从事AI软件工程的公司服务?
Devendra Chaplot:是的,我们希望为开发人员和AI构建者提供最好的体验,以便他们能开发出下一代AI应用程序。这是我们创建一个强大的代码模型的动机,不仅在编程时帮助开发人员,还可以使用这个模型构建新的代理技术应用。
Minfa Wang: 接下来是Sharan,现在Llama3已经成为新闻焦点,感谢你和团队为开源社区的杰出贡献。你能简要介绍一下Llama3的关键特性和用例吗?还有关于神秘的400B参数模型,有什么可以分享的吗?
Sharan Narang: Llama3是一个非常出色的团队合作成果。我们希望在许多方面推动边界。从小模型开始,我们希望看看能将它们训练到多远,能提高多少。8B和70B参数的模型现在向所有人开放,我认为它们在计算规模上非常强大。所有三个模型都是非常好的通用模型。我们的目标是构建最好的基础模型,所以希望它们在所有方面都表现出色。我们正在开发400B 参数的模型,这是一段冒险之旅,团队做得非常棒,我们很快会有更多的消息分享。我们希望发布一篇研究论文,详细介绍它,以便社区从中学习。所有这些都即将发布,我希望它能给所有在这个领域工作的人带来启发。
1. 数据收集与质量:
Minfa Wang:我们期待这篇研究报告。接下来我想深入探讨一些技术主题。在模型构建工作流程中,数据是所有模型研究的基石,也是发现扩展法则的前提。谈到数据收集,既要考虑质量,也要考虑数量。在预训练中,我们显然需要大量的数据。在后训练中,质量也是关键。各位有没有关于如何获取高质量和大规模数据的技术可以分享?你们使用哪些技术,如何做到?
Sharan Narang:我可以先谈谈预训练。在预训练中,我们考虑数据的数量、质量和多样性。我认为这三者都很重要。用大量低质量的数据训练出一个糟糕的模型其实很容易。因此,考虑这些因素非常重要。这里的挑战在于数量是一个可以量化的指标,很容易报告出来,大家也会关注这个指标。而多样性和质量则复杂得多。在Meta,我们非常重视后两者。我们依赖扩展法则和数据消融来确保我们数据集的质量和多样性都达到标准。数据是任何模型的基础,我们希望构建最佳的数据集来训练这些大型语言模型。
Devendra Chaplot:我认为人们往往低估了数据质量,尤其是在预训练期间。人们认为只要向模型投入更多数据,它就会变得更好,但我们发现数据质量在预训练中也起着非常重要的作用。如果你想让一个特定规模的模型表现最佳,质量是最重要的。如果你以更好的形式整理数据,你可以从一个非常小的模型中提升性能。
Tony Wu:是的,补充一下前两位的分享,我认为有两点需要注意。首先,评估在确保数据质量方面非常重要。你需要有某种反馈机制,以迭代地提高数据质量,这对预训练和后训练都适用。定义评估标准是一个非同寻常的问题。特别是对预训练来说,这是一个更普遍的任务,人们看重学术基准,但这些基准可能会受到污染。因此,这些都需要认真考虑。第二点是,一旦你有了一些初始模型,你也可以用它来改进数据质量。这也是一个迭代过程,你可以使用较旧、性能较差的模型来整理数据集,从而获得更高质量的数据,然后训练出更好的模型。这是一种自我改进的循环。
Minfa Wang:谢谢分享。作为一个曾经从事微调工作的人,我理所当然地认为预训练模型会有很好的质量,觉得预训练只需要数量,但显然多样性和质量也非常重要。这非常有见地,还有评估过程。接下来我想问关于专有数据和特定应用数据的问题。这可能更与Tony相关,考虑到xAI与x.com的特殊关系,xAI可能有某种推特数据的访问权限。这种专门数据会带来优势吗?
Tony Wu:这是个好问题。我不负责法律方面的问题,所以在法律方面可能有更合适的人来回答。但就这些数据带来的好处而言,我认为有两点。首先最大的优势是这些数据可以让我们的模型访问最新、最鲜活的X平台信息。我们与X公司合作,建立了Grok,能够检索相关的推文或帖子,为用户提供最新的信息。第二点是,在推理期间,你可以让模型检索和总结信息,但也有可能是你想将某些特定功能内置到模型权重中,比如让模型理解X上的特定内容。所有这些知识可以通过微调甚至预训练过程来获取,以便模型更好地理解平台上的动态。所以,总结来说,我认为我们有特权访问的数据使我们能够向用户提供更新鲜的结果。
Sharan Narang: 我同意Tony的观点,将专有数据添加到预训练中很棘手,除非数据已经经过审核且质量保证。预训练非常昂贵,相比之下,在后期训练中添加特定应用数据更容易。
Minfa Wang:有个相关的问题是,如果有特定应用数据并在后期训练中微调,会不会损害模型的通用知识,比如通用推理能力?如何权衡模型能力的不同方面?
Tony Wu:这取决于你是否需要模型仍然具有通用能力。如果有非常具体的应用,有时不需要模型具有那么广泛的通用性。另一方面,如果你有一个非常好的基础模型,虽然运行成本会更高,但这个模型在微调后仍然会非常通用。
Sharan Narang: 你可以通过微调添加一些能力,而不会失去预训练期间获得的通用规划或推理能力。但谨慎的后期训练非常重要。
2. 数据稀缺问题、怎样看待合成数据
Minfa Wang:下面是一个相对有争议的话题,随着我们几乎用尽互联网上的数据,是否会遇到数据稀缺的问题?合成数据会是解决这个问题的方法吗?
Devendra Chaplot:我认为我们短期内不会遇到数据稀缺的问题。目前训练的模型几乎只用了开放网络上一小部分的数据,我们现在只是在玩文本数据。还有大量的图像、视频、音频数据,然后当我们能够扩展到所有这些多模态模型时,还有数字行为、物理行为等可以利用。所以我认为短期内不会有数据数量的问题,但我仍然认为合成数据在提升整体数据集质量方面是有用的。你还可以使用半合成数据,通过模型来改进你的原始数据,例如进行分类、重述、摘要等操作,以提高数据质量。
Tony Wu:我对这个问题有比较强烈的看法。我在合成数据方面工作了一段时间,我确实认为这是通向AGI的道路。尽管从长远来看,我们可以从开放网络获取更多的tokens,但考虑到当前的扩展速度,每年计算能力(flops)可能会增加10倍,至少也会增加5倍,而数据增长可能需要以平方根的速度增加,也就是两到三倍。因此需要收集、爬取和处理大量数据。我个人认为,如果能找到一种方法让合成数据在预训练中起作用,意味着它可以很好地扩展,那么我们就不需要一直从互联网收集更多数据,或总是遇到数据短缺的问题。这个问题已经迫使我们进行思考。X.AI正在建立一个拥有10万个H100芯片的数据中心集群,预训练需要大量数据。因此,我们必须投入大量精力来使合成数据起作用。
Sharan Narang:我同意他们两位的观点,数据量很大,合成数据可以发挥很大的作用。我认为在生成合成数据时,需要非常小心,因为很容易将先前训练模型的偏见和错误传播到下一个模型中。因此拥有一个良好的策划流程,并确保你能捕捉到先前模型的错误和偏见是非常重要的,否则我们可能会陷入同样的困境。
Tony Wu:再补充一点,如果我们有一天希望这些模型或机器真正具备像人类甚至超越人类的智能,它需要能够生成非常新颖、原创的内容,以某种方式成为自我改进过程的一部分。那么我认为,你不能从人类大规模地获取高质量的推理数据,唯一的生成方式是通过合成数据。
Minfa Wang:对于合成数据生成,你们认为会有人类参与其中,还是完全由模型自我生成和自我改进?现在社区中也有一些怀疑论者,他们认为如果模型纯粹为自己生成数据,就没有真正的新信息输入模型中。
Tony Wu: 我认为有不同类型的合成数据。正如之前提到的,我们可以进行简单的、半合成的数据生成,比如重写、重述,这几乎是相同的信息内容。但这几乎可以被视为一种不同的数据增强方法,只是增加数据量以使模型更壮大。但最终,一旦超越这一点,我认为某种反馈循环需要发生。无论是来自人类的反馈,还是来自机器本身或其他验证工具的反馈,这是生成大量高质量数据的真正途径。
Sharan Narang: 我们已经在后期训练中看到这一点了,对吧?我们用于RLHF(强化学习奖励模型)循环的数据都是由人类验证的合成数据。因此在预训练中进行某种反馈也是非常有价值的。
3. Transformer架构与替代创新
Minfa Wang:谢谢分享。接下来我想谈谈模型的问题。Transformer模型是在2017年那篇《Attention Is All You Need》论文中出现的,自那以后,它就占据了整个行业的主导地位。现在它已经无处不在,大家都在使用它。然而,不时会有一些创新的模型架构被提出,挑战Transformer的地位。你们是否进行过关于Transformer替代方案或模型架构搜索的研究?你们觉得这值得继续探索吗,还是认为Transformer足以引领我们最终实现AGI?
Devendra Chaplot: Mistral AI确实在新架构研究方面做了不少工作。比如稀疏专家混合模型,这仍然是基于Transformer架构,但在某些方面有很大不同,因为它帮助你在内存需求和推理速度之间取得平衡。学术界定期会提出新的架构,那些看起来有前途的我们也会尝试。关于Transformer是否是最终的解决方案,我认为不是。我认为在我们实现AGI之前,这个领域会有更多的创新。
Sharan Narang: 我可能会分享一些不同的看法。我花了大约两年时间与一个相当大的团队一起努力尝试构建更好的架构,但我们得出的结论是,Transformer是最适合扩展的模型。我认为所有新的架构都值得在学术界进行探索,但在它们能够扩展并与Transformer竞争之前,还有很多工作要做。人们应该继续研究这些新架构,并且要考虑扩展法则,不仅要在简单任务上显示评估改进,还要覆盖广泛的任务。展示这些改进不仅在小规模上有效,在大规模上也能保持优势,才可以与Transformer相比。至于Transformer是否能带我们实现AGI,这取决于你对AGI的定义。有些人可能会认为我们已经实现了某种形式的AGI。但如果你说的是高度智能的通用代理,那么可能我们还需要更多。
Devendra Chaplot:我明白这个观点,但我也理解那些构建新架构的人的感受。人们总是将新架构与Transformer进行比较,但Transformer已经过了多年优化,我们有专门为Transformer架构构建的硬件,推理过程、训练过程中的超参数等都已优化过。因此,如果有人提出一个新架构,你必须将其与2017年或2018年的Transformer进行比较。这在今天是很难做到的,因为这个领域竞争非常激烈,人们总是想要最好的东西,而不愿意投入时间去优化一个替代架构,这可能会有很大的风险,同时商业需求又很高。所以我认为我们处于某种局部最小值。我们有一个高度优化的架构,它工作得非常好,在达到饱和之前,还有很长的路要走。但一旦我们达到饱和,替代架构仍然很难出现,除非我们摆脱这个局部最小值。
4. 强化学习与自回归学习、如何提升模型的长效推理能力
Minfa Wang:希望在这个领域会有持续的研究,总有创新架构被提出。下一个话题是,随着我们迈向AGI,我们需要更强的规划和推理能力。目前大多数LLM仍然围绕着预测下一个词的目标,有人质疑它是否能真正带我们实现AGI。对此你们有任何想要分享的内容吗?
Devendra Chaplot: 我们已经在使用强化学习,这是一种长期反馈机制,因为模型在长生成过程中获得奖励,而不仅仅是在预测下一个词时获得奖励。我之前在机器人学领域也使用强化学习,它对学习规划或推理非常有用。到目前为止,我们在语言或其他任务中使用的奖励模型都是基于人类数据训练的,但在数学或编程等任务中,我们可以有形式验证或编程测试作为模型的外部反馈,这在某种程度上是自动化的,也具有长期性,因此模型可以基于这种反馈优化推理和规划。
Sharan Narang:我认为提高规划和推理能力的一种方法是将其更多地纳入预训练中。正如Tony之前提到的,我们从互联网上获取的推理数据有限,我们如何扩展数据集?我们如何使用合成数据?我们能在多大程度上改进基础模型?另一个关于下一个词预测目标的考虑是,如果你仔细想想,对于任何一个人来说,预测句子里的下一个词其实非常复杂,即便你非常了解某人。因此,这个目标本身就具有一些长期规划的性质。但正如Devendra提到的,在后期训练阶段使用强化学习确实也可以改进规划能力。
5. 多模态模型
Minfa Wang:接下来我想谈谈多模态大模型。X.ai最近宣布了其多模态模型。到目前为止,开源版的Llama和Mistral还不是多模态的,但显然你们正在朝这个方向努力。我想知道你们在研究多模态模型时遇到的最大挑战是什么?有哪些关键技术可以让它们成功?
Devendra Chaplot: 是的,其中一个最大挑战是多模态模型计算量增长非常快。即使是一张图片也可以包含数千个tokens。如果你训练数十亿张图片,计算量就变得非常巨大。而且因为你想在这些图片中进行推理,或者在图片和文本之间交织数据,你还需要增加模型的上下文窗口,以便模型能接受多张图片,进行推理并使用一些文本。所以当你增加上下文窗口时,它再次增加了计算强度。这只是图片,如果涉及视频,计算量会增加一个数量级。因此,我认为现在的多模态模型仍然处于其能力的初级阶段。它们可以扩展10倍、100倍,仍然可以获得大量的性能提升。因此,挑战在于如何使其在数据效率方面更高,以便我们不需要100倍的计算能力来使用100倍的数据。
Sharan Narang:我同意。语音也是一个非常复杂的问题,因为当你考虑文本到语音时,延迟就成了一个问题。而且,正如Devendra提到的,数据非常重要,尤其是当你尝试获取图文或视频文本的交织数据时,如果视频很长而文本本身很短,这将变得非常有挑战性。多模态模型的设计空间实际上非常广阔,有许多不同的方法可以在预训练、后期训练中使用。我认为这些技术现在正在起飞,所以看看下一波多模态模型会带来什么将会非常有趣。
6. 未来预期
Minfa Wang:在我们进入观众提问环节之前,让我最后问一个问题。2024年被称为多模态模型之年,我们确实看到了多模态模型和其产品化方面的突破。如果你们要对2025年做一个预测,你们认为大型语言模型或基础模型的下一个重大里程碑会是什么?
Devendra Chaplot: 我认为会是数字和物理代理。我有机器人学背景,对具身智能非常有热情。今年在初创领域围绕构建通用类人机器人有很多兴奋情绪。我认为它们可能会在明年或两年后开始起飞,变得有用。此外,我认为数字代理方面,例如软件工程代理或可以执行操作的代理,像预订航班或叫车,这些也将在明年变得非常成熟。
Sharan Narang:这个领域同时发生了这么多事情,很难预测。但我会说两件事。首先,我认为我们会看到扩展带来的持续改进。比如现有模型的阶梯式改进,小模型和大模型之间的差距也会缩小,因为我们在尝试使用蒸馏、量化等技术来训练更强大的小模型。其次,我希望能找到一些技术来超越当前的Scaling Law趋势,无论是通过创新模型,还是通过合成数据或高参数等技术,来做得比现在更好。
Tony Wu:我的赌注在于合成数据。
观众提问:
Q1:对于企业用例来说,很多非结构化数据都存在于文本中。且大多数是基于RAG(检索增强生成)和一些微调。所以我的问题是,你们的公司是否在研究更适合语言能力和推理能力的小模型,可能并不需要大量数据和多模态数据,以便我们能处理更长的上下文并回答问题?
Tony Wu:是的,首先,我实际上认为企业用例仍然有一些多模态的需求。如果你考虑X.ai的情况,我们正在与特斯拉和X平台合作,X平台上有很多图像。我认为我们可以尝试理解这些图像。在特斯拉的情况下,我们希望帮助自动驾驶和机器人工作,很多这些都需要多模态能力。第二点,是的,我们确实在做小模型。我们正在努力降低API成本,这是我们的工作,提供好服务的同时降低客户成本。为此我们需要训练非常小的模型,这些模型可以非常快速地运行,成本非常低。
Devendra Chaplot:Mistral AI专注于小模型,因为我们希望将性能与成本的比率推到最高。我们去年9月发布的7B模型在企业和开发人员中很受欢迎,他们部署到笔记本电脑、手机等设备上运行,或者在数据处理管道中使用它进行摘要或某种自动化。我们也听说很多企业在内部使用它,虽然它很小,但它在特定用例中仍然非常强大,运行成本也非常低。
Q2:非常感谢你们分享这些非常有启发性和信息丰富的讨论。我的问题是,迄今为止调试大语言模型的最佳策略是什么?例如很多人都遇到过的幻觉问题。我很好奇你们如何调试LLM,特别是在看到这些故障案例时。第二个问题是,作为普通用户,我们能做些什么来应对这些故障案例?除了RAG技术,还有其他补救措施吗?还是我们给你们当拉拉队员,希望你们解决问题?谢谢。
Sharan Narang:我认为幻觉是一个大问题。解决事实准确性的问题非常棘手。比如,你问一个基础模型任何问题,很难知道它是否在产生幻觉。而且事实也在变化。不过,像RAG和改进的微调技术可以帮助减少模型幻觉。总的来说,调试LLM非常具有挑战性,无论是预训练还是后期训练,调试LLM的故事甚至可以写一本书。我无法详细介绍所有内容,但我认为投资于一个好的微调和RAG管道可以大大减少幻觉。
Q3:谢谢你们深入探讨如何通过预训练和合成数据提高数据质量。除了防止幻觉,我对这些方法如何防止模型中潜在的偏见和错误信息感到困惑,特别是当我们开始使用像推文这样的专有数据时。我想听听你们如何确保未来的AI模型保留道德标准并包含多样化的观点,特别是在涉及推理、情感和意见时。
Devendra Chaplot:这是我们训练模型时的优先事项之一。我们有学术基准测试,它们专门测试种族、民族、性别等方面的偏见。无论是预训练还是微调时,我们都会关注模型在这些基准测试上的表现。这也作为一种模型选择方法。如果某个模型在这些基准测试上表现不好,我们就会避免使用那个数据集或训练技术,通过这种方法可以大大减少模型的偏见。
Sharan Narang: 除了一些基准测试,我们还可以改进基准测试。因为在预训练期间捕捉和测量偏见非常棘手,数据多样性也很难衡量。在Meta我们非常重视这一点。还有一个是在后期训练阶段,我们加入了许多缓解措施,有很多团队在研究如何改进后期训练阶段以减少偏见。合成数据的一个主要问题是它是否会迭代传播偏见。安全性是一个非常重要的话题,我们需要更多的人关注和研究。
Q4:我有两个问题,都是关于前沿模型的。第一个问题是关于Transformer的替代方案,你们怎么看待Mamba?它在过去一两年里非常火。第二个问题是关于视频生成模型。我们在GPU上优化视频生成时遇到了很多计算和内存带宽的挑战。不知道是否有一些前沿的研究方向可以改变视频生成的设计?
Sharan Narang:我来尝试回答一下。我不是视频生成方面的专家,所以没有答案。关于第一个问题,Mamba,我认为这是一个有前途的架构,但还有很多工作要做才能与Transformer相比。正如Devendra提到的,Transformer非常优化,而且在它的工作方面非常高效。Mamba来自RNN世界,但经过了简化和改进。不过,我认为还有很多工作要证明Mamba可以与Transformer架构相媲美。
Minfa Wang:希望这回答了你的问题。由于时间限制,我们只能到此为止。再次感谢所有演讲者慷慨分享他们的观点。期待你们在未来推动技术前沿的发展。谢谢。