查看原文
其他

谷歌发布音乐生成式AI模型MusicLM既令人印象深刻,又令人恐惧

小鹿角编辑部 音乐财经
2024-08-11

无论你喜欢与否,人工智能的春天已然到来,并正在大举侵入音乐制作领域。事实上,生成式AI一直是近两年最炙手可热的话题。

近日,谷歌发布了全新生成式AI模型MusicLM,吸引了大众的注意。通过AI模型MusicLM,文字可以直接生成高保真的音乐。

谷歌声称,新系统将计算机创作的作曲和音乐高保真度提高到了一个新的水平。目前谷歌只是发布了MusicLM的研究成果,因为版权等问题,还未向公众开放MusicLM。

01

MusicLM能生成高保真音乐

MusicLM的创建是深度学习人工智能应用浪潮的一部分,其开发目标是复制人类的思维能力,如写论文、绘画、考试、说话等。MusicLM,可直接将文字、图像自动生成音乐。曲风多变,凡是你想听的音乐,都能生成,算是在技术上取得了重大突破。

生成式AI一直是各大公司科技突破的重中之重。之前也有其他研究团队在创建歌曲生成应用程序方面也做出了一些努力,如建立在AI绘图的基础上,但将其应用于声音的Rifffusion、针对音乐制作人和音乐人的AI音频生成工具Dance Diffusion和可自动生成音乐的ML框架Jukebox。这些系统都有明显的局限性,它们创作的歌曲永远不会被误认为是人类作曲家创作的音乐。

谷歌研究部门的开发团队声称:“这不是人类历史上首个AI音乐生成工具,但MusicLM在音频质量和文本描述的依从性方面都优于以前的系统。它可创作特别复杂和保真度特别高的音乐,通过AI技术不仅可以识别乐器,融合音乐流派,还可以通过更抽象的概念生成音乐。

此外,MusicLM将条件音乐生成过程转换为分层序列到序列的建模任务,并以24kHz的频率生成音乐,并在几分钟内保持这个频率。”

优于以前的系统,除了上文提到的Rifffusion、Dance Diffusion和Jukebox之外,还有什么系统呢?MusicLM是在哪些方面优于其他系统呢?

一般来说,MusicLM主要分为两个部分:首先,它接受一系列音频标记(声音片段),并将它们映射到字幕中的语义标记(表示含义的单词)进行训练。第二部分接收用户字幕和/或输入音频,并生成声学标记(构成最终歌曲输出的声音片段)。这些都让其保真效果比其它系统好,该系统依赖于早期的人工智能模型AudioLM(谷歌于9月推出)以及SoundStream和MuLan等其他组件。

AudioLM是纯音频模型,不需要转录或标记,只需收听音频,AudioLM就能生成和提示风格相符的连贯音乐,包括钢琴音或人声对话等复杂声音。从这一角度来看,AudioLM可视为MusicLM的前身,因为MusicLM,就是利用了AudioLM的多阶段自回归建模作为生成条件,且以此为基础进行拓展,使其可以通过文本提示来生成和修改音乐。

因为早期技术还不成熟,自动生成的音乐痕迹明显,听起来不太自然,所以经历海量的数据训练和模拟必不可少,MusicLM更是拥有海量训练数据库,才能提供多样化和深度的音乐。

除了文本输入生成高保真音乐外,MusicLM还可以建立在现有的旋律之上,即无论是哼唱、演唱、吹口哨还是在乐器上演奏,MusicLM都可以继续创建音乐,保障音乐不失真,带来各种创造性的可能。 

02

MusicLM可进行5分钟即兴创作

MusicLM最大的亮点莫过于根据一个或两个单词提示生成完整的5分钟曲目(例如有旋律的电子乐、摇摆乐和轻松的爵士乐),只需提供一段描述,MusicLM模型就可以文本自动生成符合场景的音乐。

为了展示MusicLM的实力,谷歌发布了数十个音频片段和用于创建它们的文本。举个例子,一个标题所写:“合成器正在播放带有大量混响的琶音,它由衬垫、低音线和软鼓支撑,这就营造出舒缓和冒险的氛围。又或者,输入文本“在太空中迷失的体验”,不出所料,电子音乐往往比那些用真实乐器演奏的经典歌曲效果更好。

再比如,街机游戏的主配乐。只要输入“街机游戏的主配乐,它节奏快且乐观”等文字,MusicLM便可自动生成音乐。

此外,MusicLM还可以生成由特定类型的乐器或特定类型的乐器“播放”的音频。甚至“音乐人”的演奏水平也可以设定,你可以根据地点、时代或要求创作音乐(例如,体育运动的激励性音乐)。

MusicLM背靠280000小时音乐的训练数据库,通过训练后,可以制作出更加具有多样性和深度的音乐,不仅如此还可以创作长度可变的歌曲。例如,它可以生成一个快速的即兴片段,或一整首歌。

此外,MusicLM还具有故事模式,能够将几种描述拼接在一起,创造出唤起特定情感的配乐。

当然,MusicLM目前还并不是一个成熟的模型,就以模拟人声为例,虽然它可以正确处理声音的音调,但是质感还存在问题。此外,很多自动生成的“歌词”有些含糊不清,就像是根本无人能听懂的外星语。

不过谷歌的研究人员已经在展望未来的改进方向:“未来的工作可能会集中在歌词生成,同时改善提示文本准确性和提高生成质量。复杂歌曲结构的建模,如前奏、主歌和副歌也将是重点发展方向。”

此外值得一提的是,针对任务缺乏评估数据等问题,谷歌专门引入了MusicCaps,MusicCaps由专业人士共建,涵盖5500个音乐-文本对,用于文本到音乐的生成任务评估。

通过定量指标和人工评估,MusicLM在音频质量和文本契合度等方面都优于此前的音乐生成AI。

当前,生成式AI已经迎来爆发,未来还有巨大的发展潜力,音乐或将成为AI内容生成的前沿领域。根据Gartner统计数据,预计到2025年,生成式AI将占所有生成数据的10%,而目前的比例还不到1%。

任何技术都是一把双刃剑,这项新技术既令人印象深刻,又令人恐惧,那些认为人工智能有可能摧毁我们所知道的音乐制作方式的人提供话柄。目前,这一技术还离不开人为干预,但长远来看,生成式AI将会是大势所趋。

可以毫不夸张地说,AI研究人员将继续改进音乐生成技术,直到每个人都能通过描述创造出任何风格的工作室质量的音乐。尽管没有人能准确预测这个目标何时能实现,或者它将如何影响音乐产业,但可以预见的是,这一天一定会到来。

因为担心该系统存在一些潜在风险,谷歌将不会对外发布MusicLM。

测试表明,该系统生成的音乐中约有1%是直接从人类音乐人那里复刻得来,这一点就足以让谷歌有所顾虑,但它确实也提供了一个音乐生成能力的例子。

也许在不久的将来,待谷歌摸索出合适的道路,我们就可以真正地一睹MusicLM的风采。

继续滑动看下一个
音乐财经
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存