补齐大模型注意力短板,7B模型工具使用比肩GPT-4!
Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use
巩固注意力的短板:通过增强上下文感知提高大型语言模型在工具使用方面的表现
论文作者:
作者单位:
论文链接:
三分钟读论文
Powered by AI © PaperWeekly
来自中国人民大学和阿里巴巴的研究者关注到模型的注意力分配随上下文位置的变化呈现一种“波形”,而模型的上下文感知能力与这种“波形”紧密相关。具体来说,当一段关键信息恰好位于注意力分配的波形低谷时,这部分的重要信息很容易被模型忽略从而影响输出质量。
为解决这一问题,作者们提出了一种创新的模型推理方法,命名为“注意力桶(Attention Buckets)”。该方法通过并行执行多个推理过程,并对每个过程中的 Attention 模块赋予一个独特的 RoPE(旋转位置编码)底数,确保上文中一旦某一个位置恰好处于注意力的低谷,在另一并行推理过程中,该位置的信息会被调整到注意力高峰进行补偿,最终输出通过加权多个推理过程的输出得到。
该方法大幅度降低了 LLMs 忽略上文关键信息的风险。在公认的工具使用基准测试中,作者的大量实验证实了这种方法的有效性。采用了“注意力桶”技术的 7B 参数开源模型,在性能上达到了与 GPT-4 相当的水平。
旋转位置编码(RoPE)与语言模型上下文利用
许多工作研究过 RoPE 底数的性质,如增大底数并在长序列上微调 [2],可以帮助模型外推;或通过设定一个较大的底数进行 continue training [3],增强了模型的长文本生成能力。
而本文的作者则关注到 RoPE 底数可以控制模型注意力上界的波形,提出了一个猜想:位于注意力波形波谷的信息可能会受到较少的关注。如果这些信息对当前的预测很重要,可能会限制模型的准确生成能力。对此猜想,作者设计了一个实验来进行验证。
猜想验证:注意力波形影响上文感知
参考 Liu 等人 [4] 的实验设定,作者向模型输入 K 个键值对,所有的键值都是字符串格式。当指定一个目标键,模型需要从上下文中找到对应的值并生成。一个输入的示例如下图所示:
为了探究将目标键值分别置于注意力波峰和波谷位置时,模型上下文感知能力的差异,作者通过调整目标键值在上文中的位置,并在多组 RoPE 底数,即多组注意力波形上做了实验。同时,作者还通过调整上文文档数 K,考察了不同上文长度的效应。
实验结果表明,将键值对置于注意力波峰位置确实比放在波谷位置,对于准确地生成期望的值更为有效。这一现象在不同的上下文长度和 RoPE 底数条件下都都成立。此外,作者发现,最佳的 RoPE 底数与上下文长度有关。例如,当上文文档数 K 设为 40 时,15,000 的底数表现最佳;而当 K 为 50 时,最佳底数则为 20,000。
这些发现引出了以下见解与挑战:
见解:增强对注意力波形波谷位置信息的关注,可能会提升大型语言模型对上下文的敏感度,并进一步提高其整体性能。
挑战:在实际应用中,确定关键信息的准确位置通常非常困难,这使得选择合适的 RoPE 底数以确保对关键信息的有效关注成为一个重要挑战。
通过交织注意力波形增强上文感知
具体来说,作者通过修改 RoPE 底数来控制注意力波形,并将最终结果进行加权融合来得到最后的输出。如下图所示,该方法主要包括以下步骤:给定一个上文 C,为了基于 C 生成响应 R,作者选择了 N 个不同的 RoPE 底数,即使用 N 个不同的注意力模式并行处理 C。最后将对应的输出加权求和,来获取最终的预测概率,并进行解码。
对于每个并行实例,其最终的加权权重基于一个假设:如果所采用的注意力模式成功捕捉到了关键信息,那么模型在生成当前 token 时会表现出高度的自信。因此,自信度更大的并行实例应被赋予更大的权重。作者采用以下方法量化预测的“自信度”:其中 V 代表模型词汇表,Bj 为选定的 RoPE 底数,Rk 代表当前生成响应中的第 k 个 token。
最近的研究将大型语言模型与工具结合起来,已经在多个领域取得了进步,例如人机交互、自动化多模态任务以及提高语言相关应用的整体效率。
在这一范式中,大型语言模型在接收到用户意图后,会访问多个工具文档,并选择最合适的一个工具。基于工具执行结果,模型提供准确适当的回应。鉴于大模型在工具使用的过程中,上文有如此多样且复杂的信息,工具使用任务要求 LLMs 有极高的感知和理解能力。因此,作者采用该任务,来验证其方法的有效性。
作者的方法在几乎所有任务级别和场景中都增强了 ToolLlama 的得分。值得注意的是,当与 DFSDT-Retriever 设置(在表格的最后一行)结合使用时,作者的方法不仅与 GPT-4 的性能水平相匹配,而且多数超越。平均而言,作者的方法以 71.3% 的最高测试通过率和 71.5% 相对 ChatGPT-ReACT 的质量胜率取得了超过 GPT4 的表现。
对于不同的推理方法,作者都在各自的基线上显示出显著的改进,展示了作者方法的多功能性和兼容性。这些结果共同表明,作者提出的“Attention Buckets”算法提高了 ToolLlama 的工具使用能力,这一成功作者归因于其增强的上下文意识。
这些结果使作者认为,语言模型拥有许多未被挖掘的潜力。通过有效利用这些能力,LLMs 可能比人们想象的要强大得多。希望本文的发现能激发进一步研究 LLMs 更基本能力的研究。
参考文献
[1] Su J, Ahmed M, Lu Y, et al. Roformer: Enhanced transformer with rotary position embedding[J]. Neurocomputing, 2023: 127063.
[2] Chen S, Wong S, Chen L, et al. Extending context window of large language models via positional interpolation[J]. arXiv preprint arXiv:2306.15595, 2023.
[3] Xiong W, Liu J, Molybog I, et al. Effective long-context scaling of foundation models[J]. arXiv preprint arXiv:2309.16039, 2023.
[4] Liu N F, Lin K, Hewitt J, et al. Lost in the middle: How language models use long contexts[J]. arXiv preprint arXiv:2307.03172, 2023.
[5] Qin Y, Liang S, Ye Y, et al. Toolllm: Facilitating large language models to master 16000+ real-world apis[J]. arXiv preprint arXiv:2307.16789, 2023.
欢迎加入我们
如果对我们的工作感兴趣的话,欢迎加入我们!
团队介绍:阿里通义实验室,主要负责通义系列大模型研究与产品落地。其中对话智能团队,以大模型研究和应用为中心,以对话为核心交互形态,推进大模型的大规模商业化应用,主要技术包括:1)对话大模型;2)代码大模型;3)AI Agents;4)对话、问答、Code、摘要、plugin、planning、人类对齐、高效训练等。
过去三年发表60+篇国际顶会论文, ACL 2023中稿9篇,NeurIPS 2023中稿2篇,EMNLP 2023中稿7篇;主要业务场景包括1)通义晓蜜—阿里云智能客服;2)通义百炼-企业专属大模型;3)通义灵码;4)通义听悟;5)钉钉斜杠。其中,阿里云智能客服在国内对话式AI市占率第一。
团队Google scholar:
https://scholar.google.com/citations?user=5QkHNpkAAAAJ
团队Github:
https://github.com/AlibabaResearch/DAMO-ConvAI
招聘岗位:大语言模型算法专家(P6/P7)/ Research Intern
工作地点:北京 & 杭州
岗位职责:
1. 负责代码大模型的训练和研究,包括但不限于Code Pretraining、SFT、Alignment等,并基于代码大模型打造具备代码生成、代码问答、单元测试、Code Review等功能的软件工程全链路智能化产品应用;
2. 负责对话大模型的训练与研究,打造multi-turn、grounding、planning、plugin等核心能力,并基于对话大模型构建新一代服务各行各业的AI Agents;
3. 负责构建企业专属大模型的相关技术研究和应用,包括但不限于prompt优化、数据合成、高效训练和自动评测等技术,并基于上述技术快速打造企业专属Agent的产品化落地;
4. 将上述技术在通义灵码、通义晓蜜、通义听悟、阿里云百炼等大模型产品进行大规模应用落地,并探索新的大模型应用产品形态。
岗位要求:
1. 在人工智能相关方向的硕士/博士,社招需要有扎实基础和丰富经验,Research Intern有NeurIPS/ICLR/ACL/EMNLP等顶会论文者优先;
2. 热爱技术,乐于用创新技术解决业务问题,有大模型经验者优先;
3. 具备优秀的分析问题和解决问题的能力,以及良好的沟通协作能力;
4. 具备技术洞察力、业务敏感度和数据分析能力,能应对复杂业务的算法需求。
简历投递:ting-en.lte@alibaba-inc.com
邮件标题和简历标明:姓名-岗位名称-PaperWeekly
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧