查看原文
其他

速递 | Meta 发布迄今最大的开源大模型,4050亿参数,比肩GPT-4o!

Kyle Z Potentials
2024-08-23

Meta 的最新开源人工智能模型是迄今为止最大的。

今天,Meta 表示将发布 Llama 3.1 405B,这是一个包含 4050 亿个参数的模型。参数大致相当于模型解决问题的能力,参数多的模型通常比参数少的模型表现更好。

Llama 3.1 405B 拥有 4 050 亿个参数,虽然不是绝对最大的开源模型,但却是近年来最大的开源模型。该模型使用 16,000 个 Nvidia H100 GPU 进行训练,还得益于较新的训练和开发技术,Meta 声称这使其与 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3.5 Sonnet 等领先的专有模型相比具有竞争力(但有一些注意事项)。

与 Meta 以前的型号一样,Llama 3.1 405B 可在 AWS、Azure 和 Google Cloud 等云平台上下载或使用。它还被用于 WhatsApp 和 Meta.ai,为美国用户提供聊天机器人体验。

获取Llama 3.1的链接为:https://llama.meta.com/

新的改进

与其他开源和闭源的生成式人工智能模型一样,Llama 3.1 405B 可以执行一系列不同的任务,从编码和回答基本数学问题,到总结八种语言(英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语)的文档。它只能处理文本,这意味着它无法回答有关图像的问题,但大多数基于文本的工作负载(例如分析 PDF 和电子表格等文件)都在它的处理范围之内。

Meta 公司希望让人们知道,它正在进行多模态试验。在今天发表的一篇论文中,该公司的研究人员写道,他们正在积极开发能够识别图像和视频、理解(并生成)语音的 Llama 模型。不过,这些模型还不能公开发布。

为了训练 Llama 3.1 405B,Meta 使用了一个包含 15 万亿个词组的数据集,该数据集的有效期截止到 2024 年(词组是单词的一部分,模型比整个单词更容易将其内化,15 万亿个词组相当于令人震惊的 7500 亿个单词)。这本身并不是一个新的训练集,因为 Meta 曾用这个基础集来训练早期的 Llama 模型,但该公司声称,在开发这个模型的过程中,它改进了数据整理管道,并采用了 "更严格 "的质量保证和数据过滤方法。

该公司还利用合成数据(由其他人工智能模型生成的数据)对 Llama 3.1 405B 进行了微调。包括 OpenAI 和 Anthropic 在内的大多数主要人工智能供应商都在探索合成数据的应用,以扩大人工智能训练的规模,但一些专家认为,合成数据可能会加剧模型的偏差,因此应将其作为最后的手段。

Meta 公司则坚称,它 "仔细平衡 "了Llama 3.1 405B 的训练数据,但拒绝透露这些数据的确切来源(网页和公共网络文件除外)。许多生成式人工智能供应商将训练数据视为竞争优势,因此对训练数据和任何相关信息都守口如瓶。但训练数据的细节也是知识产权相关诉讼的潜在来源,这也是公司不愿透露太多信息的另一个原因。

图片来源:Meta

在上述论文中,Meta 公司的研究人员写道,与早期的 Llama 模型相比,Llama 3.1 405B 在训练时使用了更多的非英语数据(以提高其在非英语语言上的表现)、更多的 "数学数据 "和代码(以提高模型的数学推理能力)以及最新的网络数据(以增强其对时事的了解)。

路透社最近的报道显示,Meta 公司不顾自己律师的警告,一度将受版权保护的电子书用于人工智能训练。该公司还利用 Instagram 和 Facebook 上的帖子、照片和标题来训练人工智能,而且用户很难退出,这一点备受争议。此外,Meta 和 OpenAI 还受到包括喜剧演员莎拉-西尔弗曼(Sarah Silverman)在内的作者的起诉,指控这两家公司未经授权使用受版权保护的数据进行模型训练。

Meta公司人工智能项目管理副总裁拉加万-斯里尼瓦桑(Ragavan Srinivasan)在接受TechCrunch采访时说:"从很多方面来说,训练数据就像是构建这些模型的秘方和调味汁。因此,从我们的角度来看,我们在这方面投入了大量资金。我们将继续完善它。"

更大的背景和工具

Llama 3.1 405B 的上下文窗口比以前的 Llama 型号更大:128,000 个词组,大约相当于一本书 50 页的长度。模型的上下文或上下文窗口指的是模型在生成输出(如附加文本)之前所考虑的输入数据(如文本)。

具有较大上下文的模型的优势之一是可以总结较长的文本片段和文件。在为聊天机器人提供支持时,这种模型也不容易忘记最近讨论过的话题。

Meta 今天发布的另外两款较小的新机型 Llama 3.1 8B 和 Llama 3.1 70B 是该公司四月份发布的 Llama 3 8B 和 Llama 3 70B 机型的升级版,也拥有 128,000 个令牌的上下文窗口。以前型号的上下文窗口最多只有 8,000 个Token,这使得这次升级相当可观--前提是新的 Llama 型号能有效地在所有这些上下文中进行推理。

图片来源:Meta

所有的 Llama 3.1 模型都可以使用第三方工具、应用程序和 API 来完成任务,就像 Anthropic 和 OpenAI 的竞争对手模型一样。在开箱即用的情况下,它们经过训练可以使用 Brave Search 回答有关近期事件的问题,使用 Wolfram Alpha API 进行数学和科学相关的查询,使用 Python 解释器验证代码。此外,Meta 声称 Llama 3.1 模型还能在一定程度上使用某些它们从未见过的工具。

建立生态系统

如果基准测试是可信的(并不是说基准测试就是生成式人工智能的全部),那么 Llama 3.1 405B 确实是一个非常强大的模型。考虑到上一代 Llama 模型存在的一些显而易见的局限性,这无疑是件好事。

论文指出,Llama 3 405B 的表现与 OpenAI 的 GPT-4 不相上下,而与 GPT-4o 和 Claude 3.5 Sonnet 相比,Meta 雇用的人类评估员认为 Llama 3 405B 的表现 "好坏参半"。虽然 Llama 3 405B 在执行代码和生成绘图方面优于 GPT-4o,但其多语言能力总体较弱,而且在编程和一般推理方面落后于 Claude 3.5 Sonnet。

由于其体积庞大,运行时需要强大的硬件。Meta 建议至少使用一个服务器节点。

这也许就是 Meta 公司将其较小的新模型 Llama 3.1 8B 和 Llama 3.1 70B 用于通用应用(如为聊天机器人提供动力和生成代码)的原因。该公司表示,Llama 3.1 405B 更适合用于模型提炼(将知识从大型模型转移到更小、更高效的模型的过程)和生成合成数据以训练(或微调)替代模型。

为了鼓励合成数据用例,Meta 表示已经更新了 Llama 的许可证,允许开发者使用 Llama 3.1 模型系列的输出结果来开发第三方人工智能生成模型(这是否是个明智的想法还有待商榷)。重要的是,许可证仍然限制了开发者部署 Llama 模型的方式:月活用户超过 7 亿的应用开发者必须向 Meta 申请特殊许可,由 Meta 自行决定是否批准。

图片来源:Meta

围绕输出授权的这一变化,缓解了人工智能界对 Meta 模型的主要批评,也是该公司在生成式人工智能领域积极争取心智份额的一部分。

在发布Llama 3.1系列的同时,Meta公司还发布了所谓的 "参考系统 "和新的安全工具--其中一些工具可以阻止可能导致Llama模型出现不可预测或不良行为的提示--以鼓励开发人员在更多地方使用Llama。该公司还在预览 Llama Stack 并征求意见,Llama Stack 是一个即将推出的工具 API,可用于微调 Llama 模型、用 Llama 生成合成数据和构建 "代理 "应用(agentic)--由 Llama 支持的应用可以代表用户采取行动。

Srinivasan说:"我们从开发人员那里反复听到的是,他们对学习如何在生产中实际部署[Llama模型]很感兴趣。"因此,我们正试图为他们提供各种不同的工具和选项。"

争夺市场份额

在今天上午发表的一封公开信中,Meta 公司首席执行官马克-扎克伯格(Mark Zuckerberg)描绘了未来的愿景,即让人工智能工具和模型进入全球更多开发者的手中,确保人们能够享受人工智能带来的 "好处和机遇"。

这封信的措辞非常慈善,但隐含的意思是扎克伯格希望这些工具和模型由 Meta 制作。

Meta 公司正在奋起直追 OpenAI 和 Anthropic 等公司,并采用了一种屡试不爽的策略:免费提供工具,培育生态系统,然后在此基础上慢慢增加产品和服务,有些是付费的。斥资数十亿美元建立模型,然后将其商品化,这样做还能降低 Meta 竞争对手的价格,并广泛传播公司的人工智能版本。它还能让公司将开源社区的改进融入到未来的模型中。

Llama 当然受到了开发人员的关注。Meta 声称,Llama 模型的下载次数已超过 3 亿次,迄今为止已创建了 2 万多个 Llama 衍生模型。

别误会,Meta 公司是在 "玩儿命"。它正在花费数百万美元游说监管机构,以支持其偏好的 "开放式 "生成式人工智能。Llama 3.1 模型没有一个能解决当今生成式人工智能技术难以解决的问题,比如容易胡编乱造和重复有问题的训练数据。但它们确实推进了 Meta 的关键目标之一:成为生成式人工智能的代名词。

这样做是有代价的。在这篇研究论文中,合著者与扎克伯格最近的评论不谋而合,讨论了在训练 Meta 不断增长的生成式人工智能模型时与能源相关的可靠性问题。

他们写道:"在训练过程中,数以万计的 GPU 可能会同时增加或减少功耗,例如,由于所有 GPU 都在等待检查点或集体通信完成,或者整个训练任务的启动或关闭。"

他们写道:"当这种情况发生时,可能会导致整个数据中心的功耗出现数十兆瓦级的瞬间波动,从而使电网的负荷达到极限。这对我们来说是一个持续的挑战,因为我们要为未来更大的 Llama 模型扩大训练规模。"

人们希望,培训这些大型机型不会迫使更多的公用事业公司继续保留老旧的燃煤发电厂。

本文翻译自:https://techcrunch.com/2024/07/23/meta-releases-its-biggest-open-ai-model-yet/
编译:ChatGPT

-----------END-----------

🚀 我们正在招募新一期的实习生
🚀 我们正在寻找有创造力的00后创业者

关于Z Potentials
继续滑动看下一个
Z Potentials
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存