查看原文
其他

会议报道|人是AIGC时代最后的守门员?听中央音乐学院刘家丰谈AI音乐创作

追问 追问nextquestion 2024-03-19

继AI绘画之后,包括谷歌等在内的科技巨头也纷纷推出自家的AI音乐产品。而不久前爆火的“AI孙燕姿”更是引发了歌手本人的回应。人人皆可创作音乐的时代似乎正在加速到来。


2023年8月3日,天桥脑科学研究院(Tianqiao and Chrissy Chen Institute,TCCI)举办了“AI问脑”系列第七期,主题是“AI创作的音乐会更动听吗?”,与观众一起探讨AI音乐相关的话题。


本次会议由天桥脑科学研究院科普会议负责人曹威主持,分享嘉宾是来自中央音乐学院音乐人工智能与音乐信息科技系的刘家丰副教授。


本文通过追问形式呈现会议中的精彩内容,希望能给读者一些启发和思考。


AI音乐的机制

@曹威

首先请您做一下自我介绍。

@刘家丰

我目前就职于中央音乐学院音乐人工智能与音乐信息科技系,主要做的方向是音乐生成以及音乐音频的信号处理,包括多轨道交响乐声源分离等等。我从小学习弹钢琴,所以算是半个音乐科班出身,后来读了理工科,在这两方面都有一个比较好的基础,所以博士期间的工作是把音乐跟AI结合起来。我的研究主要结合了现在最新的AI技术,从而区别于上一代的规则化的编程方法。中央音乐学院也是国内首个把音乐和AI结合起来的学术组织机构,现在正大力向此方向进行拓展研究。

@曹威

您作为跨界音乐和AI的业内人士,请跟我们分享一下用AI创作音乐的基本原理是什么?跟人类创作音乐的方式有什么不同?

@刘家丰

以打印机为例,我们人在画画时,可能会先去勾勒出大概的形状,然后再去画具体的细节,但是打印机是根据像素点去一排一排打印的。如果我们用图片举例子,AI创作的基本原理是以像素级别的方式去操作,通过强大的学习能力,它能够研究清楚像素和像素之间的关系,形成最终的照片。


显然人没有办法通过像素级别的操作去创作,所以我觉得这是他们最大的区别。

@曹威

人是如何把自己脑子里的想法变成一段音乐的?

@刘家丰

其实每个人的方式不一样。举个例子,有些人心中突然想出来一段旋律,觉得很喜欢,然后他会不断发展旋律,不管是横向还是纵向,比如给旋律配更多的乐器;有些是做音效的,他心中会有一个声音的效果,然后通过这个音效进行发展;当然也有人会根据发生的事情、自己内心的感受、情绪波动等等去写作。总的来说,人在进行创作时,更多关注的是宏观层面的规划,但是AI可以以像素级去进行很高细腻度的工作,但至少目前为止,AI很难进行高层次的创作。




如火如荼的AI音乐

@曹威

您能否举例说明,近年来有哪些AI音乐的产品或者创作工具/平台获得了比较多的认可?

@刘家丰

其实有很多,比如说Google在音乐创作方面推出了一个比较重量级的工具叫MusicLM,相当于音乐界的首个大模型。过去更多是让AI写音符,MusicLM能够直接从音频底层进行合成,并且是比较大数量级的。


Meta(原Facebook)公司最近也推出了一个音乐大模型MusicGen,并同时推出了AudioCraft音频工具,这也是一个非常强力的音乐生成工具。


包括字节跳动也有自己的工具Ripple,他们称Ripple通过一段哼唱就可以调整AI生成的音乐的节奏、曲调、风格等等属性,并且它还提供了比较多的素材库。


同时,也有其他的解决音乐生成的思路,例如网易天音倾向于可以给用户提供更多的可操作性。


整体比较热门的AI音乐的创作平台,各自有各自的思路,对应着不同的需求。

@曹威

有没有哪些AI音乐类的产品已经投入艺术领域或者商业使用?

@刘家丰

这个不太好说,因为像Google现在发展AI音乐主要侧重于推进前沿科研。但我可以确定,字节跳动做AI音乐背后是基于非常强大的商业考量的,因为抖音BGM(背景音乐)有非常大的应用市场。由AI模型输出的无版权音乐,可以解决很大的音乐版权问题,从而能够真正给他们降低成本,也能规避法律上面的很多风险。


像网易天音这样可以给音乐人辅助创作的工具,未来是否进行收费,也会有商业上面的考量。

@曹威

目前是否有技术可以根据上传视频的内容,实时生成一段与之契合的BGM?

@刘家丰

确实已经有相应的技术可以做到。要完成这样的操作可能需要先搞懂视频里面有哪些元素,比如转场、起伏、视频里面有哪些属性的声音等等,根据这些元素和信息从而帮助用户生成音乐或者筛选音乐。但由于能够解析的视频信息是有限的,比如有些视频会有特殊的内涵,所以挑选出来的音乐不一定符合用户的口味。但是我相信随着技术的进步,它能够对视频有更深入的理解,然后给出更适合的音乐。


今年比较火的“AI孙燕姿”,它并没有生成新的音乐,而是用大量的语料训练,来模拟孙燕姿的声线,然后用她惯用的表达、声线和音色,把一首歌模拟地唱出来。这两种类型的AI音乐,它们的实现路径是完全不一样的,一个是用AI创作音乐,另外一个是用AI来模拟现有音乐的表达。

@曹威

有没有可能将这两种方式结合到一起?比如说完全创造一个虚拟歌手,他既能够创作原创的音乐,声音也是完全原创的,目前有人在做这样的工作吗?

@刘家丰

已经有了并且做得非常好。国内一家做歌声合成的公司叫Ace studio,AI通过学习大量干净的人声,不仅可以演唱出来,还能够创造出这个世界上不存在的声线,用户还可以通过调节不同声音的比例,生成不同类型的声音。


我觉得“AI孙燕姿”只是其中的一个过渡形态而已,理论上我觉得随着未来歌声合成的继续发展,肯定是可以把这个世界上所有的声音都量化、模拟出来的。

@曹威

现阶段的音乐人或是您周围或是您自己在学术研究中是否已经在利用AI来辅助进行创作?能否举一些例子?比如利用AI生成一些简单的旋律或和声,或对已有的创作进行改进?

@刘家丰

据我所知,暂时还没有利用AI进行音乐的改进的情况,但未来一定是可以做到的。


举个例子,AI音乐教育其实是一个非常重要的领域,比如小孩子学唱歌,唱过一段后需要AI来评判一下唱得好不好,音准对不对,这个方向可能一两年之内可以实现。


具备您所说的AI已经是完全体了,完全体是指AI模型完全可以帮助我解决各种问题,像是AI音乐导师一样的存在。我相信这是可以做到的,但目前技术上还是有难度的。


大模型之于AI音乐

@曹威

GPT这样的大模型对于现在的AI音乐有帮助吗?

@刘家丰

必然是有的,实际上像Google和Meta都已经把大模型相关的技术应用在音乐上了,而且确确实实是有效果的。


所以无论是在文字上还是在音乐上,都证明了大模型相关的技术对于AI整体的表现是有非常大的加成的。


我认为,在未来音乐生成的趋势中,大模型一定是必不可少的,无论是商业公司还是研究机构都会不断投入资金和精力去探寻大模型在音乐生成上面的应用,只不过现在还在一个非常初级的阶段。

@曹威

您现在是在相对比较传统的音乐院校里面开辟了非常前沿的、和AI相关的专业。从学术层面来说,有没有人尝试将日常的音乐创作和AI结合到一起?

@刘家丰

这一块还不多,有个最大的原因在于现在的音乐创作工具。第一,它不像想象中那样可以非常丝滑地交互,同时由于涉及一些代码,使得非计算机背景的人不能很好地使用;第二点是现在的AI创作工具整体能够达到的音乐效果,还不能使音乐家满意。中央音乐学院作为中国乃至世界的头部音乐院校,学校的作曲或者电子音乐专业的同学的水平是很高的,所以真正能够到达他们对音乐质量和审美的追求,并让这个东西嵌入到他们的创作流程中,我觉得还有一段距离要走,但是这一天会来得很快,就像ChatGPT一样。

@曹威

由于AI模型需要大量已有的音乐作品进行训练,才能得到一定的音乐创作能力,那么AI创作的音乐会不会跟已有的曲库存在相似性?

@刘家丰

这是个非常常见的问题,一首AI歌曲跟已有的歌曲非常相似,甚至有完全重合复用的片段,这种情况很多。首先AI受限于它学习的数据集。由于AI工具是用有限的数据库进行学习的,自然而然它输出的风格也是有限的,当被大家大量使用后,容易发生互联网上面出现铺天盖地的同质化内容的情况。一旦音乐界的AI出现后,我们一定也会看到大量同质化、但是质量又还可以的音乐的出现。

@曹威

可能AIGC(人工智能生成内容)领域都会有类似的情况。最终可能会产生大量但又极其同质化的AI生成曲目,并对整个音乐产业产生负面的影响,会有这种潜在的风险吗?

@刘家丰

我可以从两点来讨论一下这个问题。


第一点,从更高的角度来说,当AI能够产生还不错的内容(例如ChatGPT),到底会不会污染互联网整体的环境,我其实持保留态度。因为假如有人对这个信息不做任何筛选,而直接让AI像机器人一样疯狂在网上发各种帖子和流言,这肯定会造成污染。但是以ChatGPT为例,我让ChatGPT写一段东西,写完后我自己会进行审核,最后把我删改修订过后的内容发到网上去,这样的内容我觉得其实是可以接受的。


所以我的核心观点是,我认为人是AIGC时代里面最后的守门员,或者说人是筛选器。不管是文字还是音乐,我们每个人都会有所偏好,AI只是一个无限的信息流去产生这样一些内容,我们的喜好则会帮助我们筛选出不同的信息。


第二点就是,现在AI音乐的工具还没有很成熟,但其实我们已经听到了很多同质化的音乐了,例如一些下沉市场的BGM具有很大的相似性,但我觉得这可能是人的审美出现了问题,导致没有过滤掉这些同质化的音乐,反而让它们成为流行。这个到底是AI工具的问题吗?我觉得可能值得深入去思考一下。


AI音乐助力音乐治疗

@曹威

AI音乐出现以后对人类可能会带来一些帮助,比如说像Google的MusicLM有个功能是可以根据人类大脑的脑波信号来生成一些音乐。另外也有研究发现中国的一些古典音乐去对精神健康不太好的人会有比较好的疗愈作用,能让他们心情更加舒缓,但是这些音乐可能不具有个性化,是否有可能围绕个人的脑波信号,为其生成一些特别个性化的音乐,从而起到更好的一个疗愈作用。这个想法在AI音乐领域的可行性是怎么样的?

@刘家丰

我认为这是一个非常重要并且非常有前景的方向,是一个把AI和传统音乐治疗结合起来的全新的交叉学科。中央音乐学院本身就有音乐治疗专业,成立音乐人工智能系后,我们正在推进使用AI技术帮助赋能音乐治疗。


简单来说,我们先研究不同的音乐是怎样影响我们的大脑,当研究清楚了对应关系后,就可以找寻到音乐之间的规律。我举个不恰当的例子,比如说有整体情绪比较接近的10首古琴曲子,如果我们能够搞清楚大脑对这些不同情绪的古琴曲子的解码过程,其实就可以反向推出什么样的古琴音频或者曲子能够对人产生其他的影响,这也是目前中央音乐学院音乐人工智能学科重点要去探索和研究的一个方向。


我对于音乐治疗方面有着比较深入的体验,我相信大家或多或少都会有人生中比较低谷的时光,此时一定会有一首真正打动你的曲子,能让你听后释怀。这样的曲子可能讲述了一个和你类似的故事,让你感同身受,或是曲子的声音符合你现在整个人的能量状态,所以你能感受到一个与你相似的存在。


正是因为我有这样的主观感受,所以我非常相信并且愿意用我个人的能力,和其他组织机构一起共同推进这个方向。我相信一定会出现针对每个人的可定制化的AI音乐治疗方案。

@曹威

无论是鼓舞人心的歌曲、文学作品,还是画作,它们在被创作的时候其实糅杂了创作者本人大量的思考以及人生体验,从而让一些处在类似境地的人可能会产生某种共鸣。但是AI音乐在创作的时候是没有个人体验的,这样创作出来的音乐会不会缺少了“灵魂层面”的东西?

@刘家丰

我个人的观点是:不会。可能每个人会遇到各种各样的问题,但是这些问题在整个人类文明长河里是有一定的可归类性的,逃不出一个框架,那么在众多的作品里面,总有一个点会跟我产生交集和共鸣。

@曹威

在您看来,随着AI的不断进步,有没有可能某一天AI生成的音乐可以被视为真正的大师级作品?

@刘家丰

我是非常坚定的人工智能派别的人。这里有一个很基本的思考,我们从小被教育说这个世界是一个唯物的世界,那么人所表现出来的智能以及所创造出来的杰作,其实也是原子和分子运动的一种结果。基于这种世界观,我无法否认这个世界有另外一种原子和分子的组合,能够产生智能,并且智能不输人类的大脑。我非常坚信随着技术的发展和算力的进步,一定会出现一个非常强的人工智能,其整体的智能程度是远远超过人类的。


从技术层面来看,目前我们所使用的AI,我仍然把它看作一种“找规律”的高效工具。


通过大量学习人类乐曲的数据规律从而能够自动作曲,这是比较局限的。而多模态技术能够不只学习音频,还要学习文字跟音频的关系,甚至未来要学习图片跟音频的关系,当应用了更大规模的多模态技术之后,AI对于音频的理解或许又能达到一个全新的层次,不再仅限于研究音频内部的规律。这个时候AI的能力可能又上了一层,此时AI或许就能创作出大师级的作品。


观众提问

@曹威

如果AI能写出特别厉害的曲目,会不会让人类作曲家的创造力受到很大的影响?人类作曲家、音乐人存在的价值是什么?

@刘家丰

我有一个很乐观的看法。作曲行为本身,其实就是人脑子里产生了灵感,然后通过各种方式将它表现出来,从而表达自己内心的感受。现在有AI工具可以帮他/她直接表达,节省了很多时间,有什么不好的呢?


所有领域内的人都在担心,ChatGPT出现之后,好多文字工作者担心自己会失业,我觉得这是一个趋势。当AI能力越来越强以后,不会用AI的人就会被淘汰。


如果从非常长远的角度思考这个事情的话,我觉得最终所有人都会失业,因为AI在所有领域都超越人类的智力了,人类需要做的事情就是享受。


当AI工具越来越能辅助到普通人的时候,大家都有兴趣去玩音乐、去学习音乐的话,我觉得这个世界其实会更好。

@曹威

刀郎最近新出的歌曲《罗刹海市》很火,无论是在曲调上还是作词上都让人有意外之喜,AI是否也能产出这样另类的作品?

@刘家丰

我觉得AI肯定是可以做到的,只是时间问题。就像刚才说的,我觉得这个世界上所有的创作其实就是高维空间的某一个点,我们所说的“惊喜”“另类”其实就是高维空间的一些边边角角,之所以给我们很大的惊喜,是因为我们没怎么听过。

@曹威

一名MIR(Music Information Retriveal,音乐信息检索)工程师最近想自学一下音乐生成的内容,有没有适合自学的资料、课程,或者有哪些方面值得关注、学习?

@刘家丰

假设你有一定的音乐科技和编程的基础了,那么,我建议你可以读完近五年来音乐生成(music generation)领域最重要的20篇论文,了解目前常见的套路,有一个概览。然后再去看Meta或者Google等公布的一些音乐生成的代码。一定不要一上来就去看代码,这样会让你迷失掉。


扫描海报二维码,观看会议回放


集贤令

关于「AI 问脑」

「AI问脑」,由TCCI打造的一档由AI科学家和脑科学家进行交叉对话的Live Podcast。


本节目希望通过不同领域的跨界对话,进而关注:

• 人工智能与人类智能碰撞产生的一切可能性

• 新型AI技术对探索大脑奥秘的推动作用

• 大脑研究为AI技术提供的新思路新方法


同时,「AI问脑」还会探讨公众普遍关注的议题,比如:

AI能否治愈人类的焦虑和抑郁?

AI能否产生自主意识?

人类意识能否上传到云端?


「AI问脑」将借助互联网平台和社交媒体,用轻量化方式,传播深度思考,让AI+Brain Science成为改变未来的科学领域。

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存