当歌曲创作遇上大模型,无所不能的AI音乐家SongComposer
【社区开放麦】开播啦!!!技术下饭番追起来,每周一个新芝士。欢迎广大社区同学加入直播间参与讨论的同时,也非常鼓励社区同学拿起话筒登上舞台,社区知识开放麦等你来玩~
本期精彩
大语言模型(LLM)的发展为人工智能和自然语言处理领域带来了重大变化,使机器能理解和生成接近人类水平的语言。然而研究学者对歌曲生成这一需要高度专业知识的领域探索不足。
为填补这一空白,本期开放麦,我们特别邀请香港中文大学在读博士生丁双睿为大家带来用于歌曲生成的大语言模型 SongComposer。作为时下关注度很高的音乐大模型,SongComposer 能高效生成旋律和歌词,并按指令创作歌曲。
分享内容
前大语言模型时代的音乐生成
大语言模型如何高效地学习歌曲生成
未来音乐模型的展望
分享时间
北京时间
2024 年 3 月 10 日(周日)
20: 00 - 20: 40(分享)
20: 40 - 21: 00(Q&A)
分享嘉宾
丁双睿
香港中文大学 MMLab 组一年级博士生,研究方向包括大语言模型和视频理解等。曾有多篇工作发表在 CVPR、ICCV 等顶会,长期担任计算机视觉和机器学习顶会审稿人。
个人主页:https://mark12ding.github.io/
内容详情
大语言模型(LLM)的发展显著地改变了人工智能和自然语言处理的格局。这些模型为解析和生成人类语言设定了新的基准,能够理解和生成类似人类的回应,涵盖广泛的话题和场景,展示了在从翻译到推理等任务中人类级别的能力。
(大语言模型发展时间线,image source:Hailin Chen et al., "ChatGPT’s One-year Anniversary: Are Open-Source Large Language Models Catching up?")
在探索大型语言模型(LLMs)能力的边界中,我们不免会问:在那些需要更多情感投入、抽象思考以及专业技术的领域里,大型语言模型能否达到人类的表现水平?例如,它们能否像人类那样创作出歌曲?本次分享将介绍一款最新的用于歌曲创作的大型语言模型——SongComposer。
讲者首先将回顾音乐生成模型在大型语言模型时代之前的历史,选取符号化音乐生成与端到端音频生成这两种技术路径进行介绍。符号化音乐生成因其能显著降低所需令牌(token)的长度并显式包含歌词信息,相比于直接音频生成,被视为一种更高效的音乐载体。然而,在大型语言模型时代到来后,符号化音乐的生成未受到足够的探索。
(符号化音乐形式示例。可以由歌词,音符,持续时间,休止时间组成。)
SongComposer 是首个实现将符号化形式的歌曲输入大型语言模型,并让模型完成基于指令的歌曲生成任务的模型。它能够利用符号化的歌曲表现形式,像人类作曲家一样创作出具有和谐旋律和歌词的作品。
(SongComposer 可以实现的四个任务。歌词和旋律的相互转换,歌曲续写,文生歌曲。)
在训练 LLM 学习音乐方面,我们将旋律拆解为音高、持续时间和休止时间的三元组,并将它们设定为 LLM 词汇表中的新词。为了让 LLM 掌握音乐的基本知识,我们创建了一个预训练数据集 SongCompose-PT,该数据集包括280K 首只有歌词的歌曲、20K 首只有旋律的歌曲和 15K 首歌词与旋律配对的歌曲。此外,为了使 LLM 能够根据指令进行作曲,我们还设计了一系列包含 10K 个问答风格对话的任务集合。这些策略共同使 SongComposer 能够在歌曲生成领域执行广泛的任务。
最终,讲者将探讨 SongComposer 的局限性,并展望未来音乐生成模型的发展方向,讨论如何更有效地发掘现有大型语言模型的潜力以促进音乐创作。
更多精彩内容,尽情锁定本周日晚 20:00 社区开放麦直播。
相关内容
论文标题:
SongComposer: A Large Language Model for Lyric and Melody Composition in Song Generation
paper:
https://arxiv.org/abs/2402.17645
homepage:
https://pjlab-songcomposer.github.io/
交流群
同时为了方便大家交流沟通,我们建立了相关的交流群,本期分享的大佬也在群里哦,可与大佬进行 1v1 沟通 ,扫码即可入群~
往期回顾
上期开放麦,我们邀请到了上海人工智能实验室青年研究员王泰带来《具身智能中的多模态三维感知思考》的分享,该研究近期被 CVPR 2024 接收。
感兴趣的同学,可以通过直播回放学习一下哦~
2024-03-07
2024-02-29