为什么现在的大语言模型（LLM）都是Decoder-only的架构？

Original 苏剑林 PaperWeekly 2023-03-18

收录于合集

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

LLM 是“Large Language Model”的简写，目前一般指百亿参数以上的语言模型，主要面向文本生成任务。跟小尺度模型（10 亿或以内量级）的“百花齐放”不同，目前 LLM 的一个现状是 Decoder-only 架构的研究居多，像 OpenAI 一直坚持 Decoder-only 的 GPT 系列就不说了，即便是 Google 这样的并非全部押注在 Decoder-only 的公司，也确实投入了不少的精力去研究 Decoder-only 的模型，如 PaLM 就是其中之一。那么，为什么 Decoder-only 架构会成为 LLM 的主流选择呢？

知乎上也有同款问题《为什么现在的 LLM 都是 Decoder only 的架构？》[1]，上面的回答大多数聚焦于 Decoder-only 在训练效率和工程实现上的优势，那么它有没有理论上的优势呢？本文试图从这个角度进行简单的分析。

统一视角

需要指出的是，笔者目前训练过的模型，最大也就是 10 亿级别的，所以从 LLM 的一般概念来看是没资格回答这个问题的，下面的内容只是笔者根据一些研究经验，从偏理论的角度强行回答一波。

我们知道，一般的 NLP 任务都是根据给定的输入来预测输出，完全无条件的随机生成是很少的，换句话说，任何 NLP 任务都可以分解为“输入”跟“输出”两部分，我们可以把处理“输入”的模型叫做 Encoder，生成“输出”的模型叫做 Decoder，那么所有任务都可以从“Encoder-Decoder”的视角来理解，而不同模型之间的差距在于 Encoder、Decoder 的注意力模式以及是否共享参数：

这里的 GPT 就是 Decoder-only 的代表作；UniLM 则是跟 GPT 相似的 Decoder 架构，但它是混合的注意力模式；T5 则是 Encoder-Decoder 架构的代表作，主要是 Google 比较感兴趣。

Google 在 T5 [2] 和 UL2 [3] 两篇论文中做了较为充分的对比实验，结果均体现出了 Encoder-Decoder 架构相比于 Decoder-only 的优势，但由于从 LLM 的角度看这两篇论文的模型尺度都还不算大，以及多数的 LLM 确实都是在做 Decoder-only 的，所以这个优势能否延续到更大尺度的 LLM 以及这个优势本身的缘由，依然都还没有答案。

对比实验

从上表可以看出，其实 GPT 跟 UniLM 相比才算是严格控制变量的，如果 GPT 直接跟 T5 相比，那实际上产生了两个变量：输入部分的注意力改为双向以及参数翻了一倍。而之所以会将它们三个一起对比，是因为它们的推理成本大致是相同的。

相比 GPT，既然 T5 有两个变量，那么我们就无法确定刚才说的 Encoder-Decoder 架构的优势，究竟是输入部分改为双向注意力导致的，还是参数翻倍导致的。为此，笔者在 10 亿参数规模的模型上做了 GPT 和 UniLM 的对比实验，结果显示对于同样输入输出进行从零训练（Loss 都是只对输出部分算，唯一的区别就是输入部分的注意力模式不同），UniLM 相比 GPT 并无任何优势，甚至某些任务更差。

假设这个结论具有代表性，那么我们就可以初步得到结论：

输入部分的注意力改为双向不会带来收益，Encoder-Decoder 架构的优势很可能只是源于参数翻倍。

换句话说，在同等参数量、同等推理成本下，Decoder-only 架构很可能是最优选择。当然，要充分验证这个猜测，还需要补做一些实验，比如 Encoder 和 Decoder 依然不共享参数，但 Encoder 也改为单向注意力，或者改为下一节介绍的正反向混合注意力，然后再对比常规的 Encoder-Decoder 架构。但笔者的算力有限，这些实验就留给有兴趣的读者了。

低秩问题

为什么“输入部分的注意力改为双向不会带来收益”呢？明明输入部分不需要考虑自回归生成，直觉上应该完整的注意力矩阵更好呀？笔者猜测，这很可能是因为双向注意力的低秩问题带来的效果下降。

众所周知，Attention 矩阵一般是由一个低秩分解的矩阵加 softmax 而来，具体来说是一个的矩阵与的矩阵相乘后再加 softmax（），这种形式的 Attention 的矩阵因为低秩问题而带来表达能力的下降，具体分析可以参考《Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth》[4]。

而 Decoder-only 架构的 Attention 矩阵是一个下三角阵，注意三角阵的行列式等于它对角线元素之积，由于 softmax 的存在，对角线必然都是正数，所以它的行列式必然是正数，即 Decoder-only 架构的 Attention 矩阵一定是满秩的！满秩意味着理论上有更强的表达能力，也就是说，Decoder-only 架构的 Attention 矩阵在理论上具有更强的表达能力，改为双向注意力反而会变得不足。

还有个间接支持这一观点的现象，那就是线性 Attention 在语言模型任务上（单向注意力）与标准 Attention 的差距，小于它在 MLM 任务上（双向注意力）与标准 Attention 的差距，也就是说，线性 Attention 在双向注意力任务上的效果相对更差。

这是因为线性 Attention 在做语言模型任务时，它的 Attention 矩阵跟标准 Attention 一样都是满秩的下三角阵；在做 MLM 任务时，线性 Attention 矩阵的秩比标准 Attention 矩阵更低（线性 Attention 是的矩阵与的矩阵相乘，秩一定不超过 d，标准 Attention 是的矩阵与的矩阵相乘后加 softmax，softmax 会有一定的升秩作用）。

反过来，这个结论能不能用来改进像 BERT 这样的双向注意力模型呢？思路并不难想，比如在 Multi-Head Attention 中，一半 Head 的 Attention 矩阵截断为下三角阵（正向注意力），另一半 Head 的 Attention 矩阵截断为上三角阵（反向注意力）；又或者说奇数层的 Attention 矩阵截断为下三角阵（正向注意力），偶数层的 Attention 矩阵截断为上三角阵（反向注意力）。

这两种设计都可以既保持模型整体交互的双向性（而不是像 GPT 一样，前一个 token 无法跟后一个 token 交互），又融合单向注意力的满秩优点。笔者也简单做了对比实验，发现正反向混合的注意力在 MLM 任务上是比像 BERT 这样的全双向注意力模型效果稍微要好点的：

▲ 全双向注意力与正反向混合注意力的训练曲线比较

坏消息是这实验的只是一个 base 版本（1 亿参数）的模型，更大模型的效果尚未清楚。

文章小结

所以，笔者作出的回答是：LLM 之所以主要都用 Decoder-only 架构，除了训练效率和工程实现上的优势外，在理论上是因为 Encoder 的双向注意力会存在低秩问题，这可能会削弱模型表达能力，就生成任务而言，引入双向注意力并无实质好处。而 Encoder-Decoder 架构之所以能够在某些场景下表现更好，大概只是因为它多了一倍参数。所以，在同等参数量、同等推理成本下，Decoder-only 架构就是最优选择了。

参考文献

[1] https://www.zhihu.com/question/588325646

[2] https://arxiv.org/abs/1910.10683

[3] https://arxiv.org/abs/2205.05131

[4] https://arxiv.org/abs/2103.03404

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

紧急呼救！上海报恩寺普渡众生身陷困境，恳请大家伸出援手共渡难关！

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

13岁！史上最严重霸凌案宣判，如何亡羊补牢？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

为什么现在的大语言模型（LLM）都是Decoder-only的架构？

统一视角

对比实验

低秩问题

文章小结

您可能也对以下帖子感兴趣

紧急呼救！上海报恩寺普渡众生身陷困境，恳请大家伸出援手共渡难关！

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

13岁！史上最严重霸凌案宣判，如何亡羊补牢？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

生成图片，分享到微信朋友圈

为什么现在的大语言模型（LLM）都是Decoder-only的架构？

统一视角

对比实验

低秩问题

文章小结

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡