引言
今天给大家整理分享的7篇paper,是谷歌、微软、麻省理工、Meta等知名国际公司/机构在上个月最新公布的文章,基本上代表着最近这段时间关于大型语言模型(LLMs)的研究动态。其中主要包括:视频字幕生成,基于LLMs多模态模型、LLMs算术能力提升、LLMs上下文学习,稀疏LLMs训练等,其中「麻省理工(MIT)的提出的量化模型解释了随着模型扩展而突然出现的新功能,该量化模型有可能重塑我们对LLMs的理解」。本文所有论文获取放到最后,有需要可自行下载。
Vid2Seq字幕生成
本篇文章是「Google」与「DeepMind」今年3月份公布的一篇文章。在本文中,「作者介绍了Vid2Seq,这是一种前沿的多模态、单阶段、密集事件字幕模型」,可以在有叙述的视频上进行预训练(叙述视频是一种丰富且随时可用的资源)。Vid2Seq体系结构使用特殊的时间标记增强了语言模型,使其能够同时预测同一输出序列中的事件边界和文本描述。由于这样的统一模型需要大量的训练数据,而这些数据在当前的带注释的数据集中是没有的,作者通过巧妙地重新定义转录语音的句子边界为伪事件边界,并使用转录语音句子作为伪事件标题,证明了利用未标记的叙述视频进行密集视频字幕的可能性。 由此产生的Vid2Seq模型在YT-Temporal-1B数据集上进行了预训练,在各种密集视频字幕基准测试中超过了最先进的水平,包括YouCook2、ViTT和ActivityNet字幕。此外,Vid2Seq在视频段落字幕、视频剪辑字幕和少样本设置方面展示了出色的泛化能力。随着作者将他们的代码公开访问,「Vid2Seq将彻底改变视频字幕领域,为更先进和更高效的模型铺平道路」。https://arxiv.org/pdf/2302.14115.pdf
PaLM-E多模态模型
本篇文章是「Google」在今年3月份公布的一篇文章,它改变语言模型只是针对文本处理的固有想法。而是将语言模型应用到实际应用程序中,例如机器人操作等,从而提出了PaLM-E多模态模型,「该模型将来自现实世界的连续传感器数据(如视觉和状态估计输入)直接纳入语言模型,在文字和感知之间建立联系」。将这些编码端到端与预训练的大型语言模型一起训练,作者证明了他们的方法在各种具体任务中的有效性,包括机器人操作规划、视觉问答和图片说明。 「PaLM-E是一种单一的大型多模态模型,它可以处理基于多种观察模式的具体推理任务」。PaLM-E不仅展示了跨语言、视觉和视觉语言领域的多样化联合训练的力量,而且还具有很强的迁移能力。最大的模型 PaLM-E-562B 拥有 5620 亿个参数,并在 OK-VQA 上取得了最先进的性能,同时在扩展时保持了其通才语言能力。https://palm-e.github.io/assets/palm-e.pdf
Komos-1多模态模型
本篇是「Microsoft」在今年3月份公布的一篇文章。在本文中,「作者提出了Komos-1,这是一个突破性的多模态大型语言模型(MLLM)「,它融合了语言、多模态感知、动作和世界建模,朝着人工通用智能迈出了重要的一步。Kosmos-1能够感知一般模式,在上下文中进行少样本学习,并遵循指令进行零样本学习。该模型通过抓取网络上的多模态语料库数据(文本、图像、图像+标题等数据)从头开始进行训练。 实验结果表明,」Kosmos-1在语言理解、生成、OCR-free NLP、感知语言任务(如多模态对话)、图像说明、视觉问答等方面表现突出」。作者还表明,MLLM可以从跨模态迁移中受益,使语言和多模态域之间的知识迁移成为可能。此外,研究人员还介绍了一个基于Raven IQ测试的数据集,该数据集评估了MLLM的非语言推理能力,为模型超越语言的推理能力提供了有价值的见解。https://arxiv.org/pdf/2302.14045.pdf
提高LLMs算术水平
本篇文章是「Microsoft」在今年3月份公布的一篇文章。在本文中,作者「解决了大型语言模型(LLMs)在解决算术推理任务时效果不佳的问题」。LLMs经常为数学问题提供错误的答案,这些问题通常只有一个正确答案,这与自然语言理解不同。此外,此类模型给出的结果并不相同,这导致人们对LLMs的算术能力的信任危机。为了提高大型语言模型的算术水平,作者提出了MathPrompter,这一技术不仅增强了LLMs在算术问题上的性能,而且还增加了对其预测的信任。 「MathPrompter利用零样本思维链提示(Zero-shot-CoT)技术生成多个代数表达式或Python函数,以各种方式解决相同的数学问题,并最终提高输出结果的置信度」。这种方法不同于其它基于提示的思维链方法(此类算法缺乏对中间步骤有效性的检查)。作者通过在 MultiArith 数据集上实现显着的性能改进(78.7% 到 92.5%)证明了他们技术的有效性,使用 1750 亿参数的基于 GPT 的 LLM 进行了评估。
LLMs上下文学习
本篇文章是「Google」在今年3月份公布的一篇文章。在本文中,作者深入研究了大型语言模型中的上下文学习 (ICL,In-context Learning) ,其中主要包括:语义先验与输入标签映射的影响。具体的:「他们应用各种模型(例如:GPT-3、InstructGPT、Codex、PaLM 和 Flan-PaLM),探索了带有翻转标签的 ICL 和带有语义无关标签的 ICL两种设置的影响」。 首先,在带有翻转标签的 ICL 上的实验表明,「语义先验是一种与模型规模相关的新能力」。虽然较小的语言模型主要依赖于预训练的语义先验并忽略上下文中呈现的翻转标签,但较大的模型在面对相互矛盾的上下文示例时可以覆盖这些先验。然后,作者研究了语义无关的标签 ICL (SUL-ICL),其中标签与其输入没有语义关系,迫使语言模型从上下文范例中学习输入标签映射。他们发现「执行 SUL-ICL 的能力也主要取决于规模,更大的模型甚至能够在 SUL-ICL 设置中进行线性分类」。最后,他们评估了指令调整模型,发现「指令调整提高了语义先验的利用和学习输入标签映射的能力」,其中对于语义先验的改进更为显着。https://arxiv.org/pdf/2303.03846.pdf
LLMs学习能力研究
本篇文章由麻省理工(MIT)在今年3月份发布,「在这篇论文中作者介绍了神经缩放定律的量化模型,这是一种新方法,它不仅阐明了随模型和数据大小观察到的损失的幂律下降,而且还解释了随着模型扩展而突然出现的新功能」。该模型的基础在于量化假设,该假设假设学习到的网络功能被划分为离散的块或量子。作者证明,当按使用频率的降序学习量子时,使用频率的幂律可以有效地解释观察到的损失的幂律缩放。
为了验证他们的开创性理论,研究人员首先在玩具数据集上对其进行测试,然后再深入研究大型语言模型的复杂性。通过检查语言模型的内部结构,他们发现了一系列不同的模型能力(量子),并找到了初步证据表明自然文本预测中相应子问题的分布与神经缩放指数预测的幂律一致。「这一惊人的发现为作者创新性的量化模型提供了支持,该模型有可能重塑我们对神经缩放定律和大型模型未来发展的理解」。https://arxiv.org/pdf/2303.13506.pdf
大型稀疏语言模型训练
本篇文章由MetaAI在今年3月份发布,在本文中,「作者提出了一种突破性的方法,用于在任意文本语料库上异步训练大型稀疏语言模型」。这种创新的方法将语料库聚类为相关文档集,在每个聚类上训练单独的专家语言模型,并将它们组合成一个稀疏的集合以进行推理。这种技术不仅通过自动识别每个专家的领域来解决并行训练的难题,而且实际上还消除了与现有相关稀疏语言模型的通信开销。 作者的方法在多语料库和少样本任务上始终优于紧凑语言模型基线,他们的分析还表明,将expert用于有意义的聚类对于实现这些收益至关重要。此外,随着expert数量和训练数据规模的增加,性能不断提高,这表明这种新方法提供了一种高效的方法来训练大型语言模型。「这种范式转换技术改变了目前的NLP训练方式,为未来更强大、更高效的模型打开了大门」。https://arxiv.org/pdf/2303.14177.pdf
所有论文获取,后台回复:20230406
推荐阅读
[1] 十分钟部署清华ChatGLM-6B,实测效果还可以!
[2]收藏!ChatGPT等大语言模型(LLMs)测试数据集
[3] 2023年!自然语言处理 10 大预训练模型
[4] NLP突破界限,2023 十篇必读的顶级NLP论文!
[5] 你必须要知道的 “ 十二个国际顶级会议 ”!
点击下方链接🔗关注我们