查看原文
其他

北大、腾讯推出 ReVideo:通过动作和内容精确编辑视频|大模型周报

库珀 学术头条 2024-05-27

本周值得关注的大模型 / AIGC 前沿研究:

  • MIT 新研究:并非所有语言模型特征都是线性的
  • 大型语言模型的分布式推测推理
  • 北大、腾讯推出 ReVideo:通过动作和内容精确编辑视频
  • GameVLM:基于视觉语言模型和零和博弈的机器人任务规划决策框架
  • AlignGPT:可自适应对齐的多模态大型语言模型
  • 清华团队推出 DisenStudio:可定制的多主体文本到视频生成
  • 在扩散世界模型中训练强化学习智能体
  • MIT 新研究:通过跨层注意力减少 Transformer 键值缓存大小
  • 大型语言模型的元认知能力:数学问题解决探索
  • Octo:一个开源的通用机器人政策
  • OpenRLHF:易用、可扩展、高性能的 RLHF 框架
  • MoRA:面向参数高效微调的高阶更新
  • 综述:基于 LLM 的多智能体强化学习
  • 斯坦福大学、多伦多大学提出可观测 Scaling law
  • 综述:高效多模态大型语言模型
  • 剑桥大学新研究:大模型预训练要靠“联邦学习”
  • 超越静态 AI 评测:针对 LLM 危害和风险的人机交互评估

想要第一时间获取每日最新大模型热门论文?扫描下方二维码,加入「大模型技术分享群」。或点击“阅读原文”,获取「2024 必读大模型论文」合集(包括日报、周报、月报,持续更新中~)。



1.MIT新研究:并非所有语言模型特征都是线性的

最近的研究提出了线性表征假说:语言模型通过操作激活空间中概念(“特征”)的一维表征来执行计算。与此相反,来自麻省理工学院(MIT)的研究团队探讨了某些语言模型表征是否可能本质上是多维的。

他们首先为不可还原的多维特征下了一个严格的定义,该定义基于这些特征是否可以分解为独立或不共存的低维特征。受这些定义的启发,他们设计了一种可扩展的方法,利用稀疏自动编码器自动发现 GPT-2 和 Mistral 7B 中的多维特征。这些自动发现的特征包括可解释示例,例如代表星期和月份的 circular 特征。他们确定了一些任务,在这些任务中,这些精确的 circular 被用来解决涉及一周中的天数和一年中的月份的模块运算问题。最后,通过对 Mistral 7B 和 Llama 3 8B 的干预实验,他们证明这些 circular 特征确实是这些任务中的基本计算单元。


论文链接:
https://arxiv.org/abs/2405.14860
GitHub 地址:
https://github.com/JoshEngels/MultiDimensionalFeatures


2.大型语言模型的分布式推测推理

大型语言模型(LLM)的推理是人工智能领域的一项重要挑战。

来自魏茨曼科学研究所、英特尔和麻省理工学院(MIT)的研究团队提出了一种新颖的分布式推理算法——分布式推测推理(DSI),与推测推理(SI)和传统的自回归推理(non-SI)相比,其推理速度更快。与其他自回归推理算法一样,DSI 在冻结的 LLM 上工作,不需要训练或架构修改,并能保留目标分布。

之前关于 SI 的研究表明,与 non-SI 相比,DSI 算法的经验速度有所提高,但这需要快速、准确的起草 LLM。在实践中,现成的 LLM 通常不具备足够快速和准确的匹配起草器。他们发现:当使用速度较慢或准确度较低的起草员时,SI 的速度会比非 SI 慢。他们通过证明 DSI 在使用任何起草器的情况下都比 SI 和 non-SI 更快,弥补了这一差距。通过协调目标和起草器的多个实例,DSI 不仅比 SI 更快,而且还支持 SI 无法加速的 LLM。仿真显示,在现实环境中,现成的 LLMs 的速度都有所提高:DSI 比 SI 快 1.29-1.92 倍。

论文链接:
https://arxiv.org/abs/2405.14105


3.北大、腾讯推出 ReVideo:通过动作和内容精确编辑视频

尽管在利用扩散模型生成和编辑视频方面取得了重大进展,但实现精确的本地化视频编辑仍是一项巨大挑战。此外,现有的大多数视频编辑方法主要集中在改变视觉内容上,对动作编辑的研究十分有限。

在这项研究中,来自北京大学和腾讯的研究团队及其合作者,提出了一种新颖的“重塑视频”(ReVideo)尝试,通过指定内容和动作,在特定区域进行精确的视频编辑。内容编辑通过修改第一帧来实现,而基于轨迹的动作控制则提供了直观的用户交互体验。ReVideo 解决了内容和动作控制之间的耦合和训练不平衡问题。为了解决这个问题,他们开发了一种三阶段训练策略,从粗到细逐步解耦这两个方面。此外,他们还提出了一个时空自适应融合模块,以整合不同采样步骤和空间位置的内容和动作控制。

广泛的实验证明,ReVideo 在几种精确的视频编辑应用中具有良好的性能,即:1)局部改变视频内容,同时保持动作不变;2)保持内容不变,同时定制新的动作轨迹;3)同时修改内容和动作轨迹。该方法还可以无缝地将这些应用扩展到多区域编辑,而无需特定的训练,这证明了它的灵活性和鲁棒性。


论文链接:
https://arxiv.org/abs/2405.13865
项目地址:
https://mc-e.github.io/project/ReVideo/


4.GameVLM:基于视觉语言模型和零和博弈的机器人任务规划决策框架

GPT-4V 等预训练视觉语言模型(VLM)具有突出的场景理解和推理能力,因此在机器人任务规划中受到越来越多的关注。与传统的任务规划策略相比,视觉语言模型在多模态信息解析和代码生成方面具有很强的优势,并显示出显著的效率。虽然 VLM 在机器人任务规划中展现出巨大潜力,但它也面临着幻觉、语义复杂性和上下文有限等挑战。

为了解决这些问题,来自复旦大学的研究团队提出了一种多智能体框架——GameVLM,从而增强机器人任务规划中的决策过程。该研究提出了基于 VLM 的决策智能体和专家智能体来执行任务规划。具体来说,决策智能体用于规划任务,专家智能体用于评估这些任务计划。研究引入了零和博弈理论来解决不同智能体之间的不一致性,并确定最佳解决方案。在真实机器人上进行的实验结果表明,所提出的框架非常有效,平均成功率高达 83.3%。


论文链接:
https://arxiv.org/abs/2405.13751


5.AlignGPT:可自适应对齐的多模态大型语言模型

多模态大型语言模型(MLLM)被广泛认为是探索通用人工智能(AGI)的关键。MLLM 的核心在于其实现跨模态对齐的能力。为了实现这一目标,目前的 MLLM 通常采用两阶段训练模式:预训练阶段和指令微调阶段。

尽管这些模型取得了成功,但在对齐能力建模方面仍存在不足。首先,在预训练阶段,模型通常假定所有图像-文本对都是统一对齐的,但实际上不同图像-文本对之间的对齐程度并不一致。其次,目前用于微调的指令包含多种任务,不同任务的指令通常需要不同程度的对齐能力,但以往的 MLLM 忽视了这些差异化的对齐需求。

为了解决这些问题,来自南京大学的研究团队提出了一种新的多模态大型语言模型——AlignGPT。在预训练阶段,他们并不是对所有图像-文本对一视同仁,而是为不同的图像-文本对分配不同级别的对齐能力。然后,在指令微调阶段,他们自适应地组合这些不同级别的对齐能力,以满足不同指令的动态对齐需求。广泛的实验结果表明,AlignGPT 在 12 个基准测试中取得了具有竞争力的性能。


论文链接:
https://arxiv.org/abs/2405.14129
项目地址:
https://aligngpt-vl.github.io/


6.清华团队推出 DisenStudio:可定制的多主体文本到视频生成

近来,在视频中生成定制内容受到越来越多的关注。然而,现有工作主要集中在为单个主体生成定制的文本到视频,当视频预计包含多个主体时,就会出现主体缺失和属性绑定问题。此外,现有模型难以将所需的动作分配给相应的主体(动作绑定问题),因此无法实现令人满意的多主体生成性能。

为了解决这些问题,来自清华大学的研究团队提出了一个新颖的框架 DisenStudio,其可以在每个主体只有少量图像的情况下,为定制的多个主体生成文本引导视频。

具体来说,DisenStudio 利用空间分离交叉注意机制增强了基于扩散的预训练文本到视频模型,从而将每个主体与所需的动作联系起来。然后,利用运动保留分离微调技术为多个主体定制模型,其中包括三种微调策略:多主体共现微调、屏蔽单主体微调和多主体运动保留微调。前两种策略能保证主体出现并保留其视觉属性,第三种策略则能帮助模型在对静态图像进行微调时保持时间运动生成能力。

大量实验证明,DisenStudio 在各种指标上都明显优于现有方法,可用作各种可控生成应用的强大工具。


论文链接:
https://arxiv.org/abs/2405.12796


7.在扩散世界模型中训练强化学习智能体

世界模型是一种很有前途的方法,可用于以安全、样本效率高的方式训练强化学习智能体。最新的世界模型主要通过离散潜变量序列来模拟环境动态。然而,这种压缩为紧凑的离散表示法可能会忽略对强化学习非常重要的视觉细节。与此同时,扩散模型已成为图像生成的主流方法,对离散潜变量建模的成熟方法提出了挑战。

在这一模式转变的推动下,来自日内瓦大学、爱丁堡大学和微软的研究团队推出了 DIAMOND(DIffusion As a Model Of eNvironment Dreams),这是一种在扩散世界模型中训练的强化学习智能体。

他们分析了使扩散适合世界建模所需的关键设计选择,并演示了改进视觉细节如何提高智能体性能。在竞争激烈的 Atari 100k 基准测试中,DIAMOND 获得了 1.46 的人类标准化平均分;这是完全在世界模型中训练的智能体的新最佳成绩。


论文链接:
https://arxiv.org/abs/2405.12399
GitHub 地址:
https://github.com/eloialonso/diamond


8.MIT 新研究:通过跨层注意力减少 Transformer 键值缓存大小

键值(KV)缓存在加速基于 Transformer 的自回归大型语言模型(LLM)的解码过程中发挥着至关重要的作用。然而,在序列长度较长、批量较大的情况下,存储 KV 缓存所需的内存量可能会变得过大。

自 Transformer 被提出以来,为减少 KV 缓存大小而发现的两种最有效的干预措施是多查询注意力(MQA)和分组查询注意力(GQA)。MQA 和 GQA 都修改了注意力块的设计,使多个查询头可以共享一个键/值头,从而将不同键/值头的数量减少了一大截,同时只将准确性降低到最低程度。

在这项工作中,来自麻省理工学院(MIT)的研究团队展示了通过在相邻层之间共享键和值头,进一步推进 MQA 的可能性,从而产生一种新的注意力设计——跨层注意力(CLA)。通过 CLA,他们发现可以将 KV 缓存的大小再减少 2 倍,同时保持与未修改 MQA 几乎相同的准确性。在从头开始训练 1B 参数和 3B 参数模型的实验中,CLA 在传统 MQA 的内存/准确率权衡上提供了帕累托改进,使推理的序列长度更长、batch 规模更大,这在其他情况下是不可能实现的。


论文链接:
https://arxiv.org/abs/2405.12981


9.大型语言模型的元认知能力:数学问题解决探索

元认知知识是指人类对自身思维和推理过程的直观认识。当今的大型语言模型(LLMs)显然拥有一些推理过程。来自这篇论文的证据表明,LLMs 还拥有元认知知识,包括在给定任务中说出应用技能和程序的能力。

来自蒙特利尔大学、Google DeepMind、普林斯顿大学和剑桥大学的研究团队,主要从数学推理的角度探讨了这一问题,开发了一个 prompt 引导的交互程序,让强大的 LLM 为数学问题分配合理的技能标签,然后让它进行语义聚类,从而获得更粗略的技能标签系列。这些粗略的技能标签在人类看来是可以解释的。

为了验证这些技能标签是否有意义,是否与 LLM 的推理过程相关,他们进行了以下实验:1)要求 GPT-4 为数学数据集 GSM8K 和 MATH 中的训练题分配技能标签;2)在使用 LLM 解决测试题时,向它提供完整的技能标签列表,并要求它识别所需的技能,然后,他们会随机向它展示与该技能标签相关的示范解题。

这种方法提高了 GSM8k 和 MATH 上几种 LLM(包括代码辅助模型)的准确性。尽管本文将其应用于数学问题,但所介绍的方法与领域无关。


论文链接:
https://arxiv.org/abs/2405.12205


10.Octo:一个开源的通用机器人政策

在各种机器人数据集上预先训练的大型策略有可能改变机器人的学习方式:这种通用型机器人策略无需从头开始训练新策略,只需少量域内数据即可进行微调,具有广泛的通用性。然而,为了广泛适用于各种机器人学习场景、环境和任务,这些策略需要处理不同的传感器和行动空间,适应各种常用的机器人平台,并根据新领域随时高效地进行微调。

在这项工作中,来自 UC 伯克利、斯坦福、卡内基梅隆大学和 Google DeepMind 的研究团队及其合作者旨在为开发开源、广泛适用的机器人操纵通用策略奠定基础。作为第一步,他们提出了一种基于 transformer 的大型策略——Octo,这是在迄今为止最大的机器人操纵数据集 Open X-Embodiment 数据集中的 800k 个轨迹上训练出来的。它可以通过语言命令或目标图像进行指导,并可在标准消费级 GPU 上进行有效微调,从而适应具有新的感官输入和动作空间的机器人设置。

在跨越 9 个机器人平台的实验中,Octo 被证明是一种多功能策略初始化工具,可根据新的观察和行动空间进行有效微调。他们还对 Octo 模型的设计决策(从架构到训练数据)进行了详细分析,从而指导未来建立通用机器人模型的研究。


论文链接:
https://arxiv.org/abs/2405.12213
项目地址:
https://octo-models.github.io/


11.OpenRLHF:易用、可扩展、高性能的 RLHF 框架

随着大型语言模型(LLMs)通过 scaling laws 不断增长,基于人类反馈的强化学习(RLHF)因其出色的性能而备受关注。然而,与单个模型的预训练或微调不同,扩展 RLHF 来训练大型语言模型,对四种模型的协调提出了挑战。

来自 OpenLLMAI、字节跳动、网易、阿里的研究团队提出了是一个可实现 RLHF 高效扩展的开源框架——OpenRLHF。

现有的 RLHF 框架将四个模型放在同一个 GPU 上,与此不同,OpenRLHF 利用 Ray、vLLM 和 DeepSpeed 重新设计了超过 70B 参数的模型调度,提高了资源利用率并采用了多种训练方法。OpenRLHF 与 Hugging Face 无缝集成,提供了一个具有优化算法和启动脚本的开箱即用解决方案,确保了用户友好性。OpenRLHF 实现了 RLHF、DPO、剔除采样和其他配准技术。


论文链接:
https://arxiv.org/abs/2405.11143
项目地址:
https://github.com/OpenLLMAI/OpenRLHF


12.MoRA:面向参数高效微调的高阶更新

低阶适应(Low-rank)是一种针对大型语言模型的流行参数高效微调方法。

在这项工作中,来自北京航空航天大学和微软的研究团队,分析了 LoRA 中实现的低阶更新的影响。研究结果表明,低阶更新机制可能会限制 LLM 有效学习和记忆新知识的能力。

受此启发,他们提出了一种名为 MoRA 的新方法,其采用方形矩阵来实现高阶更新,同时保持相同数量的可训练参数。为了实现这一目标,他们引入了相应的非参数算子,以减少方阵的输入维度,增加输出维度。此外,这些算子确保了权重可以合并回 LLM,这使得该方法可以像 LoRA 一样部署。

他们在指令微调、数学推理、持续预训练、记忆和预训练五项任务中对该方法进行了全面评估。在内存密集型任务上,该方法优于 LoRA,而在其他任务上,也取得了相当的性能。


论文链接:
https://arxiv.org/abs/2405.12130


13.综述:基于 LLM 的多智能体强化学习

近年来,大型语言模型(LLM)在各种任务中显示出了强大的能力,包括问题解答、算术解题和诗歌写作等。尽管有关 LLM 即智能体(LLM-as-an-agent)的研究表明,LLM 可以应用于强化学习(RL)并取得不错的效果,但将基于 LLM 的 RL 扩展到多智能体系统(MAS)并非易事,因为单个智能体的 RL 框架没有考虑智能体之间的协调和通信等方面。

为了激发对基于 LLM 的多智能体强化学习的更多研究,来自罗格斯大学研究团队调查了现有的基于 LLM 的单智能体和多智能体 RL 框架,并为未来研究提供了潜在的研究方向。他们尤其关注具有共同目标的多个智能体的合作任务以及它们之间的通信。


论文链接:
https://arxiv.org/abs/2405.11106


14.斯坦福大学、多伦多大学提出可观测 Scaling law

了解语言模型的性能如何随规模变化对基准和算法开发至关重要。Scaling law 是建立这种理解的一种方法,但由于需要在许多不同尺度上对模型进行训练,因此限制了其使用。

来自斯坦福大学、多伦多大学的研究团队提出了另外一种观察方法,即绕过模型训练,从约 80 个公开可用的模型中建立 Scaling law。由于多个模型系列在训练计算效率和能力方面存在巨大差异,因此从这些模型系列中建立单一的 Scaling law 具有挑战性。然而,他们的研究表明,这些差异与简单的广义 Scaling law 是一致的,即语言模型的性能是低维能力空间的函数,而模型族仅在将训练计算转换为能力的效率上存在差异。

利用这种方法,他们展示了复杂的 Scaling 现象令人惊讶的可预测性:展示了几种新出现的现象遵循平滑的 S 型增长模式,并且可以从小型模型中预测;展示了 GPT-4 等模型的智能体性能可以从更简单的非智能体基准中精确预测;还展示了随着语言模型能力的不断提高,如何预测思维链和自我一致性(Self-Consistency)等训练后干预措施的影响。


论文链接:
https://arxiv.org/abs/2405.10938


15.综述:高效多模态大型语言模型

在过去的一年里,多模态大语言模型(MLLMs)在视觉问题解答、视觉理解和推理等任务中表现出了卓越的性能。然而,庞大的模型规模以及高昂的训练和推理成本阻碍了 MLLM 在学术界和工业界的广泛应用。因此,研究高效、轻量级的 MLLM 具有巨大的潜力,尤其是在边缘计算场景中。

在这项工作中,来自腾讯、上海交通大学、北京智源人工智能研究院和华东师范大学的研究团队,对高效 MLLM 的现状进行了全面系统的回顾。具体来说,他们总结了具有代表性的高效 MLLM 的时间轴、高效结构和策略的研究现状以及应用。最后,他们讨论了当前高效 MLLM 研究的局限性以及未来的发展方向。


论文链接:
https://arxiv.org/abs/2405.10739
GitHub 地址:
https://github.com/lijiannuist/Efficient-Multimodal-LLMs-Survey


16.剑桥大学新研究:大模型预训练要靠“联邦学习”

生成式预训练大型语言模型(LLMs)在各种任务中表现出了令人印象深刻的性能,这要归功于它们所训练的前所未有的数据量。正如既定的 Scaling law 所表明的那样,LLMs 未来的性能提升取决于我们可以用于预训练的计算量和数据源。联邦学习(FL)有可能释放地球上的大部分数据和计算资源,而目前的 LLM 实践中,以数据中心为中心的训练方法并没有充分利用这些资源。

来自剑桥大学的研究团队提出了一种鲁棒、灵活、可复制的 FL 方法,该方法可在训练 LLM 时实现跨机构的大规模合作。这将调动更多的计算和数据资源,同时达到或可能超过集中式的性能。他们进一步证明了联合训练的有效性随着模型规模的扩大而扩大,并介绍了他们利用有限资源训练十亿规模联合 LLM 的方法。


论文链接:
https://arxiv.org/abs/2405.10853


17.超越静态 AI 评测:针对 LLM 危害和风险的人机交互评估

模型评测对于了解人工智能系统的安全性、风险和社会影响至关重要。虽然现实世界中的大多数人工智能应用都涉及人与人工智能的互动,但目前对人工智能模型的大多数评测(如通用基准)都不涉及人与人工智能的互动。相反,它们以有限的方式将人的因素纳入其中,孤立地评估模型的安全性,从而无法捕捉人与模型互动的复杂性。

在这项工作中,来自牛津大学、Centre for the Governance of AI、Collective Intelligence Project 和 OpenAI 的研究团队,讨论了一种新兴的评估类别——“人机交互评估”(HIEs)——并对其进行了操作化定义,该类别侧重于评估人机交互或人类使用模型的过程和结果。

首先,他们认为人机交互评估可用于提高安全评估的有效性,评估对人类的直接影响和特定互动的危害,并指导未来对模型社会影响的评估。其次,他们提出了一个以安全为重点的 HIE 设计框架——包含人类与 LLM 交互分类法——分为三个阶段:(1)确定风险或危害领域;(2)描述使用环境;(3)选择评测参数。然后,他们将这一框架应用于对过度依赖和劝说风险的两种潜在评估。最后,他们针对成本、可复制性和 HIE 的缺乏代表性等问题提出了切实可行的建议。

论文链接:
https://arxiv.org/abs/2405.10632

|点击关注我 👇 记得标星|

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存