OneFlow

其他

开源语言大模型演进史:高质量基础模型竞赛

语料库的例子表明,可以从网络上有效管理大量高质量文本数据(超出了之前探索的数据集规模)。经过滤后,通过这些数据训练的模型效果甚至可以优于通过精选数据源训练的同类模型。(引自[12])上图为
2023年11月3日
其他

GPU架构与计算入门指南

大多数工程师对CPU和顺序编程都十分熟悉,这是因为自从他们开始编写CPU代码以来,就与之密切接触。然而,对于GPU的内部工作原理及其独特之处,他们的了解则相对较少。过去十年,由于GPU在深度学习中得到广泛应用而变得极为重要。因此,每位软件工程师都有必要了解其基本工作原理。本文旨在为读者提供这方面的背景知识。本文作者为软件工程师Abhinav
2023年11月1日
其他

LoRA和QLoRA微调语言大模型:数百次实验后的见解

7B可能是在基准测试数据集上进行训练的,所以我在实验中排除了这两个模型。此外,我认为选择剩余模型中最小的模型可以提供最大的改进空间,同时保持较低的硬件要求。因此,本文的剩余部分将重点关注LLaMA
2023年10月27日
其他

语言大模型推理性能工程:最佳实践

在这篇文章中,MosaicML工程师团队分享了如何在生产环境中充分利用流行开源语言大模型(LLM)的最佳实践。此外,他们还提供了围绕模型部署推理服务的指南,以帮助用户更好地选择模型和部署硬件。他们在生产环境中使用了多个基于PyTorch的后端。这些指南是MosaicML工程师团队基于FasterTransformers、vLLM以及NVIDIA的TensorRT-LLM等背后的经验总结而来。MosaicML在今年年中先后开源了MPT-7B、MPT-30B语言大模型,随后被Databricks以13亿美元的价格收购。(以下内容由OneFlow编译发布,转载请联系授权。原文:https://www.databricks.com/blog/llm-inference-performance-engineering-best-practices)来源
2023年10月25日
其他

开源语言大模型演进史:早期革新

尽管业内最初强调专有模型,但随着GPT-3等流行语言模型的发布,LLM研究社区开始发布相关开源变体。最早的开源语言模型在性能上落后于最佳的专有模型,不过,它们为提升LLM的研究透明度奠定了基础,并促进了后续LLaMA-2等强大模型的开发。本系列内容分为三部分,主要探讨开源语言大模型的发展历史。本文是该系列文章的第一篇,本文作者将探讨开源LLM历史的起始阶段,它们对于我们理解开源LLM革命至关重要,后来开源LLM的发展完全建立在这些模型的基础上。在本系列内容的后两部分,作者将进一步介绍最新的开源LLM并探讨如何使用模仿和对齐技术来提升模型性能。(本文作者为Rebuy公司AI总监、深度学习博士Cameron
2023年10月18日
其他

OpenAI的规模化经济效益与第二护城河

尽管业内相继开源了不少表现出色的语言大模型,但相对OpenAI的闭源模型的高昂部署成本,让大多数想使用开源LLM模型的组织往往望而却步。OpenAI在成本方面的优势,一方面来自规模效应,另一方面来自其基础设施方面的深厚积累。开源LLM提供商要取得成功,必须在这两方面追上甚至超越OpenAI。此外,作者认为,开源LLM还需要不断改进,降低应用复杂性,并发挥在定制需求方面的优势。本文作者Vikram
2023年10月17日
其他

为什么多数情况下GPT-3.5比LLaMA 2更便宜?

不重视时延的离线批处理任务。增加批次大小需要有相对较大的工作负载,而这对于大多数创业公司来说是不可能的!对于大多数用户和大多数工作负载而言,使用量极不稳定。当然,一种解决方案是,根据需求自动调整
2023年10月14日
其他

开源语言大模型的正确姿势

1/20。每个团队都在用不同的方法追求相似的目标,拥有更多的人员确实能够完成更多事。开源的优势在于参与各方能够彼此分享最显著的细节,然后通过整合(尤其是通过无偿社区的调试和改进),开源阵营能够汇集
2023年10月12日
其他

LLVM之父Chris Lattner:我的AI基础设施软件构建理念

则负责产品和业务方面的工作,他访谈了上百家不同的公司,了解这些公司的痛点和他们面临的挑战,以便更好地向这些公司提供帮助。通过这些深入访谈,我们真正明确了公司的发展愿景,并将同事真正地团结在一起。
2023年10月5日
其他

为什么开源大模型终将胜出?

的依赖。理想情况下,你可以使用闭源供应商来启动智能层,通过与用户的互动建立数据飞轮,并对自己的模型进行微调,从而提高任务的准确性、降低时延并增强控制力。每个企业都需要拥有自己的核心产品,对于
2023年10月2日
其他

ChatGPT架构师:语言大模型的多模态能力、幻觉与研究经验

因此,微调的确会导致模型性能的略微下降。我们对模型进行了各种基准测试,并与预训练的基础模型进行了比较,尽量抑制模型能力的下降。不过可以肯定的是,在最新配置下,模型的性能下降并不严重。4闭源还是开源?
2023年9月27日
其他

NCCL源码解析⑦:机器间Channel连接

作者|KIDGINBROOK上节中完成了单机内部的channel搜索,仍然以ringGraph为例的话,相当于在单台机器内部搜索出来了一系列的环,接下来需要将机器之间的环连接起来。为了方便理解,假设两机十六卡的情况下第一台机器的一个ring为:graph->intra:
2023年9月22日
其他

大模型长上下文运行的关键问题

基础模型微调而来。MPT-7B-StoryWriter(65K上下文)从MPT-7B(2K上下文)微调而来。GPT-4经历了两个阶段的训练过程,分别为8K的基础训练阶段和32K的微调阶段。
2023年9月20日
其他

英伟达的AI霸主地位会持久吗?

上进行分片(sharding)来减少时延变得不现实。不过,对于推理阶段,情况则不同。模型权重是固定的,因此可以在初始化阶段轻松地在许多机器上进行复制,而无需通信。这使得大量的商用
2023年9月15日
其他

OpenAI首席科学家:直面AGI的可能性

首先是对齐。很多机器学习领域的人可能还没有接触过与对齐相关的概念。从基础层面出发,我们将探讨对齐面临的问题和挑战。即使不涉及具体的解决方案,对上述问题的探讨本身就很有价值。
2023年9月13日
其他

TorchDynamo初探②:Torch.FX调研和实践

或者函数的输入;call_function,函数调用;call_method,对象上的方法调用;call_module,nn.Module
2023年9月7日
其他

揭秘编码器与解码器语言模型

Transformer架构的问世标志着现代语言大模型时代的开启。自2018年以来,各类语言大模型层出不穷。通过LLM进化树(github.com/Mooler0410/LLMsPracticalGuide)来看,这些语言模型主要分为三类:一是“仅编码器”,该类语言模型擅长文本理解,因为它们允许信息在文本的两个方向上流动;二是“仅解码器”,该类语言模型擅长文本生成,因为信息只能从文本的左侧向右侧流动,并以自回归方式有效生成新词汇;三“编码器-解码器”组,该类语言模型对上述两种模型进行了结合,用于完成需要理解输入并生成输出的任务,例如翻译。本文作者Sebastian
2023年9月5日
其他

PyTorch创始人:开源成功的方法论

Biewald:我听说很多开源社区都面临一个问题:可能会出现不良氛围,或者在这种高度分散的状态下难以做出决策,你是否遇到过一些棘手的情况,比如某件事需要大家共同解决,但却无法达成一致?Soumith
2023年8月31日
其他

OpenAI首席科学家:通向无监督学习之路

基于学习方法,机器学习大致可分为监督学习和无监督学习两种。在无监督学习中,我们需要用某种算法去训练无标签数据集,从而帮助模型找到这组数据的潜在结构。为了进行无监督学习,在OpenAI成立早期,他们认为通过压缩可以通向这一路径。随后,他们发现“预测下一个词元(token)”正是无监督学习可以追求的目标,并且意识到,预测就是压缩。这也正是后来ChatGPT成功的关键思想之一。他们通过不断训练自回归生成模型实现了数据压缩,如果数据被压缩得足够好,就能提取其中存在的所有隐藏信息。这样GPT模型就可以准确地预测下一个词元,文本生成的准确度也就越高。近期,OpenAI联合创始人和首席科学家Ilya
2023年8月24日
其他

NCCL源码解析⑥:Channel搜索

作者|KIDGINBROOK更新|潘丽晨上节讲到已经计算出GPU和NIC节点到其他任意节点的最优路径了,本节看下NCCL中channel的搜索过程。NCCL中channel的概念表示一个通信路径,为了更好地利用带宽和网卡,以及同一块数据可以通过多个channel并发通信,另外后续可以看到一个channel对应了一个GPU
2023年8月18日
其他

OpenAI超级对齐负责人:“驾驭”超级智能的四年计划

随着AI领域的快速发展,OpenAI预言超级智能将在十年内出现。对人类而言,超级智能既是机遇也是挑战,它可以帮助人类解决很多重大问题,但也可能产生巨大风险,因此,超级智能对齐问题成为人们当下关注的重点,我们需要确保超级智能与人类整体意志保持一致,让它们理解和满足人类的愿望与需求。
2023年8月16日
其他

GPT-4.5前瞻:代码解释器,编程新纪元

Shameem等人对其进行实现。这是第一个迹象,表明修复LLM的缺陷(如做数学计算、与外部环境交互、可解释性、速度/成本等方面)的最佳方法是利用其编写代码的能力,实现超越LLM范畴的任务。
2023年8月11日
其他

通俗解构语言大模型的工作原理

Heads)的两个注意力头。他们将第二个John向量标记为第一个John向量的重复副本,这帮助主语抑制头决定不应该复制John。简而言之,这九个注意力头使得GPT-2能够理解“John
2023年8月1日
其他

大模型的无限上下文与数据集组合艺术

Map上添加一个偏置(bias),这就像一个斜坡,如果在推理时需要更长的位置范围,它会将这个斜坡延长到更长的位置数。由于斜坡是连续的,且可以进行解释,所以这种方法是可行的。有趣的是,通过Flash
2023年7月27日
其他

NCCL源码解析⑤:路径计算

如果remNode不是GPU,那么将remNode添加到nextNodeList,等nodeList遍历完之后,将nextNodeList赋给nodeList继续遍历。
2023年7月20日
其他

Transformer作者:指令型智能体的构建之法

Gomez:这取决于个人兴趣、想要介入的技术面以及想要在其中花多少时间。若想成为研究人员,则需要深入学习多元微积分、线性代数、优化理论等,逐步深入神经网络和机器学习,当然,阅读相关论文也必不可少。
2023年7月13日
其他

ChatGPT训练三阶段与RLHF的威力

在探讨“ChatGPT为什么能够捕捉我们的想象力”的文献中,一般可以看到两种说法:规模化为其提供更多的数据和计算资源;提示界面转向更自然聊天界面的用户体验。然而,人们常忽略了这样一个事实,即:创造像ChatGPT这样的模型需要令人难以置信的技术创造力。其中一个很酷的想法是RLHF(Reinforcement
2023年7月6日
其他

语言大模型的进化轨迹

ChatGPT的发布是语言大模型(LLM)发展史的转折点,它让人们意识到LLM的潜力,并引发了“AI竞赛”,世界上主要人工智能实验室和初创公司都参与其中。在这之后,基于LLM的聊天机器人层出不穷。ChatGPT及相关LLM模型让我们共同见证了AI的历史性变革,很多人好奇,LLM和它们的运作方式究竟是怎样的?它们是如何被构建的?未来又将走向何方?本文对此进行了深入探讨。本文作者Etienne
2023年7月4日
其他

NCCL源码解析④:建图过程

作者|KIDGINBROOK更新|潘丽晨上次分析了NCCL对机器PCI系统进行拓扑分析的过程,产出的结果为xml格式,接下来,NCCL会根据这个xml进图的建立过程以便之后进行路径搜索。ncclTopoGetSystem的最后会执行ncclTopoGetSystemFromXml将xml格式转成图格式。
2023年6月27日
其他

关于语言大模型的八大论断

这种精确预测能力在软件史,甚至现代人工智能研究史上都是不同寻常的。这也是推动投资的强大工具,有了这一预测能力,研发团队可以进行耗资数百万美元的模型训练项目,并确保这些项目能成功产生有经济价值的系统。
2023年6月26日
其他

语言大模型100K上下文窗口的秘诀

我们有一个查找嵌入层,用于接收词元作为输入,并返回大小为(1,d)的向量。因此,对于一个由n个词元组成的序列,我们得到大小为(n,d)的文本嵌入矩阵X,然后将其与位置正弦嵌入相加。2.
2023年6月21日
其他

揭示GPT Tokenizer的工作原理

在GPT模型中,tokenization(词元化)指的是将用户输入的文本分割成token(词元)的过程,以让GPT能更好地理解输入文本的词义、句法和语义,以及生成更连贯的输出内容。这是非常重要的预处理操作,对模型的最终效果有重大影响。而tokenizer(词元生成器)是将文本切分成token的工具或组件。它将原始文本转换成模型可处理的数字形式,为GPT的生成与推理提供基础能力。本文详细介绍了GPT
2023年6月14日
其他

GPT总设计师:大型语言模型的未来

Belani:此前,我们认为机器是无法进行学习的,但现在发现机器可以学习,对即将发生的结果进行预测。如果人类处于1X学习阶段,那么与人类相比,ChatGPT等模型处于何种阶段?Ilya
2023年6月9日
其他

AI算力反碎片化:世界上最快的统一矩阵乘法

1.8倍,代表着新的SOTA。我们在AMD系统上看到了类似的强势结果,其中Modular方法的性能比OneDNN高出了2.1倍,比Eigen高出了2.3倍。Amazon
2023年6月1日
其他

“AI教父”Geoffrey Hinton:智能进化的下一个阶段

Abbeel:你一直在尝试构建AI,现在成为这个行业的先驱。AI的发展程度已经远超你最初的预想,曾经你希望AI能达到与人类匹敌的智力水平,但现在可能找到了超越人类智能的方法。Geoffrey
2023年5月25日
其他

关于大型语言模型的争论和局限

从人们谈论狗的内容中进行推断)。此外,将训练数据的分布转向这些注释用例,可以从根本上改变模型的行为和其所具备的“接地(grounding)”程度。相比之下,使用显式指令数据需要的训练文本要少得多。
2023年5月19日
其他

揭秘RLHF;可商用开源LLM列表;领域编译器的前世今生

链接:https://mp.weixin.qq.com/s/RMF38IlkRcxza6A8W6fG-w其他人都在看大型语言模型的推理演算向量嵌入:AutoGPT的幻觉解法?John
2023年5月17日
其他

《分布式人工智能系统》讲习班开始报名|CCF ADL

深度学习正以“软件2.0”的姿态进入到AIGC、生物制药、新材料以及科学计算等领域。这些领域的模型规模越来越大,尤其以ChatGPT为代表的大模型层出不穷,但由于算力增速不足、分布式编程门槛高,分布式人工智能系统成为产学两界共同关注的焦点。CCF学科前沿讲习班The
2023年5月16日
其他

Transformer模型的基础演算

训练除了模型参数之外,训练还需要在设备内存中存储优化器状态和梯度。这就是为什么当问及“我需要多少内存来拟合模型X”时,会立即得到“这取决于训练或推理”的答案。通常情况下,训练需要的内存比推理更多。
2023年5月12日
其他

复杂推理:大型语言模型的"北极星"能力

发布文章中已经讨论过。复杂推理是使模型成为下一代操作系统的核心能力。将语言模型视为下一代操作系统的愿景尤为有趣,因为它为构建新应用程序和创建基于语言模型的计算生态系统(可能比超级应用程序如
2023年5月10日
其他

为什么ChatGPT用强化学习而非监督学习?

如果我们希望模型能够持续回答查询而不是仅仅完成当前指令,就需要对其进行引导,这个过程称之为“微调”,即继续训练预训练模型,进而使其表现出我们想要的行为(有些人称这是“对齐”模型与使用者期望行为)。
2023年5月9日
其他

John Schulman:强化学习与真实性,通往TruthGPT之路

OneFlow编译翻译|贾川、徐佳渝、杨婷大型语言模型(LLM)有一个众所周知的“硬伤”——它们经常会一本正经编造貌似真实的内容。OpenAI团队希望通过改进强化学习反馈步骤“原生地”阻止神经网络产生幻觉,OpenAI首席科学家Ilya
2023年5月6日
其他

NCCL源码解析③:机器内拓扑分析

作者|KIDGINBROOK更新|潘丽晨上节介绍所有节点执行了bootstrap网络连接的建立,接下来介绍下拓扑分析。由于GPU机器架构是多种多样的,一台机器上可能有多个网卡,多个GPU卡,卡间连接也各不相同,因此需要对机器内设备连接拓扑进行分析,以使性能在各种拓扑结构下都尽可能好。接着上回继续看initTransportsRank。static
2023年4月27日
其他

向量嵌入:AutoGPT的幻觉解法?

EDO:Pinecone是一个向量数据库,但其并未采用结构或语法树等文本表示方式,而是使用一种数值形式的内部表示方式,这种方式被用于深度学习模型、语言模型或聊天引擎等文本处理任务中。
2023年4月25日
其他

AI算力碎片化:矩阵乘法的启示

fusion)带来了显著的性能改进,但问题是有成千上万的AI算子。此外,模型使用了很多不同运算的排列组合,手动融合所有重要组合是不切实际的(虽然有些人已经尝试过了!),特别是在AI高速发展的情况下。
2023年4月21日
其他

推演语言模型的大小与计算开销

2020年,OpenAI提出了在增加模型尺寸与提高模型性能之间的扩展定律,指出人们应该将大部分预算用于扩大模型规模。这篇论文直接推动了增大模型规模的浪潮。然而,在预算和内存有限的情况下,盲目扩大模型规模并不是提升模型性能的最佳选择。2022年,DeepMind团队发表了一篇论文(https://arxiv.org/pdf/2203.15556.pdf),文中对比了模型大小和训练数据,最终结论是:多数语言模型明显训练不足。也就是说,在不增加模型大小的情况下,在更大的数据集上训练模型将受益匪浅。文中,DeepMind团队训练了一个相对较小的LLM,名为Chinchilla,这个模型只有700亿个参数,但却有1.4万亿个训练token。经过训练,Chinchilla模型的性能超越了诸如GPT-3、Gopher、Jurassic-1和MT-NLG等更大的语言模型,这些语言模型的参数都在1750亿-5300亿之间,但训练token却在2700亿-3000亿之间。更小的模型参数意味着更低的推理成本和更小的内存占用,实际上,对于大部分用例来说,小型语言模型的性价比更高。本文就从数学角度推算了为何在更多token上训练更小的LLM是更优选择。(以下内容在遵循CC
2023年4月18日
其他

狂追ChatGPT:开源社区的“平替”热潮

目前,不少优质的类ChatGPT模型都只能通过API接入,而一些开源LLM的效果与ChatGPT相比差距不小。不过,近期开源社区开始密集发力了。其中,Meta的LLaMA模型泄漏是开源“ChatGPT”运动的代表性事件。基于LLaMA模型,开源社区近期接连发布了ChatLLaMa、Alpaca、Vicuna、Koala等模型,效果直追GPT-3.5,它也因此成为了开源LLM领域的创新地。4月12日,Databricks完全开源了12B参数的指令跟随LLMDolly
2023年4月14日
其他

全球首个完全开源的指令跟随大模型;T5到GPT-4最全盘点

不管你是在学习CUDA,还是在优化算子,掌握一些CUDA编程技巧,能够提升你的工作效率,甚至找到更优解。本文主要是介绍一些常用的技巧/方法,并配上实践code,希望对读者有所帮助。
2023年4月13日
其他

谷歌研究科学家:ChatGPT秘密武器的演进与局限

来源|TalkRLOneFlow编译翻译|徐佳渝、贾川同样是基于GPT预训练模型,为什么ChatGPT的效果要远远超出GPT-3等前几代模型?答案已经揭晓,成就ChatGPT的秘密武器在于RLHF,也就是人类反馈的强化学习。
2023年4月12日
其他

NCCL源码解析②:Bootstrap网络连接的建立

作者|KIDGINBROOK更新|潘丽晨上次介绍到rank0的机器生成了ncclUniqueId,并完成了机器的bootstrap网络和通信网络的初始化,这节接着看下所有节点间bootstrap的连接是如何建立的。rank0节点执行ncclGetUniqueId生成ncclUniqueId,通过mpi将Id广播到所有节点,然后所有节点都会执行ncclCommInitRank,这里其他节点也会进行初始化bootstrap网络和通信网络的操作,然后会执行到ncclCommInitRankSync。ncclResult_t
2023年4月7日