OneFlow

开源语言大模型演进史：高质量基础模型竞赛

语料库的例子表明，可以从网络上有效管理大量高质量文本数据（超出了之前探索的数据集规模）。经过滤后，通过这些数据训练的模型效果甚至可以优于通过精选数据源训练的同类模型。（引自[12]）上图为

2023年11月3日

GPU架构与计算入门指南

大多数工程师对CPU和顺序编程都十分熟悉，这是因为自从他们开始编写CPU代码以来，就与之密切接触。然而，对于GPU的内部工作原理及其独特之处，他们的了解则相对较少。过去十年，由于GPU在深度学习中得到广泛应用而变得极为重要。因此，每位软件工程师都有必要了解其基本工作原理。本文旨在为读者提供这方面的背景知识。本文作者为软件工程师Abhinav

2023年11月1日

其他

LoRA和QLoRA微调语言大模型：数百次实验后的见解

7B可能是在基准测试数据集上进行训练的，所以我在实验中排除了这两个模型。此外，我认为选择剩余模型中最小的模型可以提供最大的改进空间，同时保持较低的硬件要求。因此，本文的剩余部分将重点关注LLaMA

2023年10月27日

其他

在这篇文章中，MosaicML工程师团队分享了如何在生产环境中充分利用流行开源语言大模型（LLM）的最佳实践。此外，他们还提供了围绕模型部署推理服务的指南，以帮助用户更好地选择模型和部署硬件。他们在生产环境中使用了多个基于PyTorch的后端。这些指南是MosaicML工程师团队基于FasterTransformers、vLLM以及NVIDIA的TensorRT-LLM等背后的经验总结而来。MosaicML在今年年中先后开源了MPT-7B、MPT-30B语言大模型，随后被Databricks以13亿美元的价格收购。（以下内容由OneFlow编译发布，转载请联系授权。原文：https://www.databricks.com/blog/llm-inference-performance-engineering-best-practices）来源

2023年10月25日

其他

开源语言大模型演进史：早期革新

尽管业内最初强调专有模型，但随着GPT-3等流行语言模型的发布，LLM研究社区开始发布相关开源变体。最早的开源语言模型在性能上落后于最佳的专有模型，不过，它们为提升LLM的研究透明度奠定了基础，并促进了后续LLaMA-2等强大模型的开发。本系列内容分为三部分，主要探讨开源语言大模型的发展历史。本文是该系列文章的第一篇，本文作者将探讨开源LLM历史的起始阶段，它们对于我们理解开源LLM革命至关重要，后来开源LLM的发展完全建立在这些模型的基础上。在本系列内容的后两部分，作者将进一步介绍最新的开源LLM并探讨如何使用模仿和对齐技术来提升模型性能。（本文作者为Rebuy公司AI总监、深度学习博士Cameron

2023年10月18日

其他

OpenAI的规模化经济效益与第二护城河

尽管业内相继开源了不少表现出色的语言大模型，但相对OpenAI的闭源模型的高昂部署成本，让大多数想使用开源LLM模型的组织往往望而却步。OpenAI在成本方面的优势，一方面来自规模效应，另一方面来自其基础设施方面的深厚积累。开源LLM提供商要取得成功，必须在这两方面追上甚至超越OpenAI。此外，作者认为，开源LLM还需要不断改进，降低应用复杂性，并发挥在定制需求方面的优势。本文作者Vikram

2023年10月17日

其他

为什么多数情况下GPT-3.5比LLaMA 2更便宜？

不重视时延的离线批处理任务。增加批次大小需要有相对较大的工作负载，而这对于大多数创业公司来说是不可能的！对于大多数用户和大多数工作负载而言，使用量极不稳定。当然，一种解决方案是，根据需求自动调整

2023年10月14日

其他

开源语言大模型的正确姿势

1/20。每个团队都在用不同的方法追求相似的目标，拥有更多的人员确实能够完成更多事。开源的优势在于参与各方能够彼此分享最显著的细节，然后通过整合（尤其是通过无偿社区的调试和改进），开源阵营能够汇集

2023年10月12日

其他

LLVM之父Chris Lattner：我的AI基础设施软件构建理念

则负责产品和业务方面的工作，他访谈了上百家不同的公司，了解这些公司的痛点和他们面临的挑战，以便更好地向这些公司提供帮助。通过这些深入访谈，我们真正明确了公司的发展愿景，并将同事真正地团结在一起。

2023年10月5日

其他

为什么开源大模型终将胜出？

的依赖。理想情况下，你可以使用闭源供应商来启动智能层，通过与用户的互动建立数据飞轮，并对自己的模型进行微调，从而提高任务的准确性、降低时延并增强控制力。每个企业都需要拥有自己的核心产品，对于

2023年10月2日

其他

ChatGPT架构师：语言大模型的多模态能力、幻觉与研究经验

因此，微调的确会导致模型性能的略微下降。我们对模型进行了各种基准测试，并与预训练的基础模型进行了比较，尽量抑制模型能力的下降。不过可以肯定的是，在最新配置下，模型的性能下降并不严重。4闭源还是开源？

2023年9月27日

其他

NCCL源码解析⑦：机器间Channel连接

作者｜KIDGINBROOK上节中完成了单机内部的channel搜索，仍然以ringGraph为例的话，相当于在单台机器内部搜索出来了一系列的环，接下来需要将机器之间的环连接起来。为了方便理解，假设两机十六卡的情况下第一台机器的一个ring为：graph->intra:

2023年9月22日

其他

大模型长上下文运行的关键问题

基础模型微调而来。MPT-7B-StoryWriter（65K上下文）从MPT-7B（2K上下文）微调而来。GPT-4经历了两个阶段的训练过程，分别为8K的基础训练阶段和32K的微调阶段。

2023年9月20日

其他

英伟达的AI霸主地位会持久吗？

上进行分片（sharding）来减少时延变得不现实。不过，对于推理阶段，情况则不同。模型权重是固定的，因此可以在初始化阶段轻松地在许多机器上进行复制，而无需通信。这使得大量的商用

2023年9月15日

其他

OpenAI首席科学家：直面AGI的可能性

首先是对齐。很多机器学习领域的人可能还没有接触过与对齐相关的概念。从基础层面出发，我们将探讨对齐面临的问题和挑战。即使不涉及具体的解决方案，对上述问题的探讨本身就很有价值。

2023年9月13日

其他

TorchDynamo初探②：Torch.FX调研和实践

或者函数的输入；call_function，函数调用；call_method，对象上的方法调用；call_module，nn.Module

2023年9月7日

其他

揭秘编码器与解码器语言模型

Transformer架构的问世标志着现代语言大模型时代的开启。自2018年以来，各类语言大模型层出不穷。通过LLM进化树（github.com/Mooler0410/LLMsPracticalGuide）来看，这些语言模型主要分为三类：一是“仅编码器”，该类语言模型擅长文本理解，因为它们允许信息在文本的两个方向上流动；二是“仅解码器”，该类语言模型擅长文本生成，因为信息只能从文本的左侧向右侧流动，并以自回归方式有效生成新词汇；三“编码器-解码器”组，该类语言模型对上述两种模型进行了结合，用于完成需要理解输入并生成输出的任务，例如翻译。本文作者Sebastian

2023年9月5日

其他

PyTorch创始人：开源成功的方法论

Biewald：我听说很多开源社区都面临一个问题：可能会出现不良氛围，或者在这种高度分散的状态下难以做出决策，你是否遇到过一些棘手的情况，比如某件事需要大家共同解决，但却无法达成一致？Soumith

2023年8月31日

其他

OpenAI首席科学家：通向无监督学习之路

基于学习方法，机器学习大致可分为监督学习和无监督学习两种。在无监督学习中，我们需要用某种算法去训练无标签数据集，从而帮助模型找到这组数据的潜在结构。为了进行无监督学习，在OpenAI成立早期，他们认为通过压缩可以通向这一路径。随后，他们发现“预测下一个词元（token）”正是无监督学习可以追求的目标，并且意识到，预测就是压缩。这也正是后来ChatGPT成功的关键思想之一。他们通过不断训练自回归生成模型实现了数据压缩，如果数据被压缩得足够好，就能提取其中存在的所有隐藏信息。这样GPT模型就可以准确地预测下一个词元，文本生成的准确度也就越高。近期，OpenAI联合创始人和首席科学家Ilya

2023年8月24日

其他

NCCL源码解析⑥：Channel搜索

作者｜KIDGINBROOK更新｜潘丽晨上节讲到已经计算出GPU和NIC节点到其他任意节点的最优路径了，本节看下NCCL中channel的搜索过程。NCCL中channel的概念表示一个通信路径，为了更好地利用带宽和网卡，以及同一块数据可以通过多个channel并发通信，另外后续可以看到一个channel对应了一个GPU

2023年8月18日

其他

OpenAI超级对齐负责人：“驾驭”超级智能的四年计划

随着AI领域的快速发展，OpenAI预言超级智能将在十年内出现。对人类而言，超级智能既是机遇也是挑战，它可以帮助人类解决很多重大问题，但也可能产生巨大风险，因此，超级智能对齐问题成为人们当下关注的重点，我们需要确保超级智能与人类整体意志保持一致，让它们理解和满足人类的愿望与需求。

2023年8月16日

其他

GPT-4.5前瞻：代码解释器，编程新纪元

Shameem等人对其进行实现。这是第一个迹象，表明修复LLM的缺陷（如做数学计算、与外部环境交互、可解释性、速度/成本等方面）的最佳方法是利用其编写代码的能力，实现超越LLM范畴的任务。

2023年8月11日

其他

通俗解构语言大模型的工作原理

Heads）的两个注意力头。他们将第二个John向量标记为第一个John向量的重复副本，这帮助主语抑制头决定不应该复制John。简而言之，这九个注意力头使得GPT-2能够理解“John

2023年8月1日

其他

大模型的无限上下文与数据集组合艺术

Map上添加一个偏置（bias），这就像一个斜坡，如果在推理时需要更长的位置范围，它会将这个斜坡延长到更长的位置数。由于斜坡是连续的，且可以进行解释，所以这种方法是可行的。有趣的是，通过Flash

2023年7月27日

其他

NCCL源码解析⑤：路径计算

如果remNode不是GPU，那么将remNode添加到nextNodeList，等nodeList遍历完之后，将nextNodeList赋给nodeList继续遍历。

2023年7月20日

其他

Transformer作者：指令型智能体的构建之法

Gomez：这取决于个人兴趣、想要介入的技术面以及想要在其中花多少时间。若想成为研究人员，则需要深入学习多元微积分、线性代数、优化理论等，逐步深入神经网络和机器学习，当然，阅读相关论文也必不可少。

2023年7月13日

其他

ChatGPT训练三阶段与RLHF的威力

在探讨“ChatGPT为什么能够捕捉我们的想象力”的文献中，一般可以看到两种说法：规模化为其提供更多的数据和计算资源；提示界面转向更自然聊天界面的用户体验。然而，人们常忽略了这样一个事实，即：创造像ChatGPT这样的模型需要令人难以置信的技术创造力。其中一个很酷的想法是RLHF（Reinforcement

2023年7月6日

其他

语言大模型的进化轨迹

ChatGPT的发布是语言大模型（LLM）发展史的转折点，它让人们意识到LLM的潜力，并引发了“AI竞赛”，世界上主要人工智能实验室和初创公司都参与其中。在这之后，基于LLM的聊天机器人层出不穷。ChatGPT及相关LLM模型让我们共同见证了AI的历史性变革，很多人好奇，LLM和它们的运作方式究竟是怎样的？它们是如何被构建的？未来又将走向何方？本文对此进行了深入探讨。本文作者Etienne

2023年7月4日

其他

NCCL源码解析④：建图过程

作者｜KIDGINBROOK更新｜潘丽晨上次分析了NCCL对机器PCI系统进行拓扑分析的过程，产出的结果为xml格式，接下来，NCCL会根据这个xml进图的建立过程以便之后进行路径搜索。ncclTopoGetSystem的最后会执行ncclTopoGetSystemFromXml将xml格式转成图格式。

2023年6月27日

其他

关于语言大模型的八大论断

这种精确预测能力在软件史，甚至现代人工智能研究史上都是不同寻常的。这也是推动投资的强大工具，有了这一预测能力，研发团队可以进行耗资数百万美元的模型训练项目，并确保这些项目能成功产生有经济价值的系统。

2023年6月26日

其他

语言大模型100K上下文窗口的秘诀

我们有一个查找嵌入层，用于接收词元作为输入，并返回大小为（1，d）的向量。因此，对于一个由n个词元组成的序列，我们得到大小为（n，d）的文本嵌入矩阵X，然后将其与位置正弦嵌入相加。2.

反向激励，在加速这个社会的黑化

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

券商大佬卸任，曾任多家券商及公募基金一把手！

有些秘密注定只被少数人知道.....2024我们不再错过

豪放女乘客扯掉裤子当场“硬要”，的哥乖乖“束手就擒”……