人工智能和音乐制作(上篇):AI 音乐制作的现状
当人们提起 “人工智能” 这个词,总是会引发一连串复杂的情绪。它可以激发人们对未来的想象和期盼,也会让人们对即将到来的未知感到恐惧。在过去的几年里,人工智能已经从一个遥远的承诺变成了日常的现实。我们中的许多人开始使用 ChatGPT 写电子邮件,使用 Midjourney 生成图像。似乎每周都有一项新的人工智能技术有望改变我们生活的另一方面。
音乐也不例外。人工智能技术已经被应用于音频处理,可以执行从轨道分离到高度伪造人声的任务,并为经典制作工具和音乐制作软件提供新功能。不久的将来,人工智能甚至可以自主制作音乐。
人工智能技术的到来在音乐界引发了激烈的争论。关于创造力、所有权和原创性的认知正在被重新审视。一些人对新工具的诞生感到兴奋并愿意接纳,而另一些人则认为这项技术被高估了,不会对未来有什么太大的改变。还有一些人则感到恐惧,他们表示担心会担心失去他们所热爱的音乐制作事业,同时与其相关的文化环境会遭到破坏。
在这篇由上下两部分组成的文章中,我们将深入研究人工智能音乐制作,尝试去剖析这个复杂而迅速发展的课题。我们将调查现有的人工智能音乐制作工具,探索它们开启的创造可能性和涉及到的哲学问题。我们将试着展望未来,探讨人工智能工具将如何改变未来的音乐制作。
你越深入这个话题,这些复杂的情绪就会变得越强烈。未来可能是光明的,但也有点可怕。
定义术语
在我们进一步讨论之前,我们应该弄清楚一些术语。
首先,什么是人工智能? 答案并不像你想象的那么简单。这个词创造于 20 世纪 50 年代,后来被应用于一系列不同的技术。从最广泛的意义上讲,人工智能指的是许多计算机程序似乎拥有与人脑相同的能力去处理数据,或者可以完成我们认为需要人类智能的任务。
过去几年,人工智能的繁荣依赖于一种叫做机器学习的特殊技术。机器学习系统不需要完全由人工来教授,它能够利用输入的数据来改进自己。不过机器学习已经存在了几十年,现在的新技术是一种特殊的机器学习,称为深度学习。
深度学习系统是由神经网络组成的: 一组大致与人类大脑类似的算法,可以解释传入的数据并识别模式。“深度” 一词告诉我们,这些网络有许多层,允许系统以更复杂的方式解析数据。这使得深度学习系统在理解非结构化数据方面非常熟练。换句话说,你可以随便向其输入一个图片或文本,它就能很好地识别数据中的模式。
但深度学习系统并不像反乌托邦科幻电影中描述的那样 “智能”。它们并不像我们理解的那样拥有 “意识” — 它们只是非常善于发现数据中的模式。出于这个原因,一些人认为用 “人工智能” 一词来描述并不恰当。
深度学习的复杂性使得它需要巨大的处理能力,因此这项技术直到最近几年才被广泛使用。但深度学习技术在我们生活中存在的时间比你想象的要长,而且以更多的方式存在。深度学习被用于在线语言翻译、信用卡欺诈检测,甚至是音乐流媒体服务中的推荐算法。
人工智能与深度学习的这些既定用途大多还隐藏在产品和服务的底层。但最近,人工智能开始成为着重发展的焦点。像 Dall-E 和 ChatGPT 这样的工具不仅仅是筛选输入的数据来帮助人们识别模式。它们能够产生一个输出,试图猜测数据接下来会做什么 — 这被称为生成式人工智能。
当其它形式的深度学习在日常生活的背景下蹒跚前行时,生成式人工智能吸引了人们的关注。通过向我们展示图像、文本或其它形式的媒体,让人们能够与机器进行对话。它反映了人类的创造力,并使人工智能技术的潜力和所面临的挑战更加清晰。
没有专门做音乐的 ChatGPT吗?
深度学习技术可以应用于数字音频,就像它可以应用于图像、文本和其它形式的数据一样。其含义是广泛的,我们将在这个文章中深入展开探讨,但人工智能音频落后于当前使用该技术的其它应用。到目前为止,音乐制作领域的 Chatgpt 还没有出现。也就是说:没有一种经过大量音频数据训练的工具,可以接受文本或其它类型的提示,并生成符合要求的高质量音乐。(虽然可能很快就会出现 — 在下篇中会有更多介绍)。
这里有几个可能的原因。首先,正如玛丽女王大学人工智能音频研究员 Christian Steinmetz 所解释的那样,音频是一种与图像或文本完全不同的数据。“ [音频] 具有相对较高的采样率 — 假设它是单声道音频,在每个时间点你得到一个样本,每秒能得到 44000 个这样的样本。” 这意味着生成几分钟的音频相当于生成一幅巨大的图像。
正如人工智能音频研究人员和创新者 the Dadabots 所观察到的那样,这限制了当前可用系统的工作速度。“为了以最佳质量生成一首歌的原始音频,一些工具可能需要长达一天的时间。”
与图像或文本不同,音频具有时间维度。对我们来说,一首歌的最后一分钟与第一分钟有很重要的关系,这对人工智能构成了特殊的挑战。音乐似乎也更难用文字去准确地描述,这使得它无法用文本提示的方式来描述图像。“音乐是我们最抽象的艺术形式之一,” Dadabots 说,“音色、和声、节奏这些完全取决于听者的理解。很难用一种简洁的方式客观地描述一首完整的歌曲,让其他人能够立即想象出来。”
除此之外,我们的听觉感知似乎异常精细。Steinmetz 说: “我们能够敏感的捕捉声音中的失真,但与视觉系统的敏感方式有所不同。” 他以 OpenAI 在 2020 年推出的自动点唱机 (OpenAI’s Jukebox) 为例,这是当时最强大的生成式音乐模型。它可以创造出 “令人超级信服的音乐”,因为重要的元素都包含在里面了。“但从质量的角度来看,它听起来着实很糟糕。对于音频来说,如果所有东西都不在正确的位置,即使是未经训练的听众也会意识到有问题。但对于一张图片来说,你似乎可以获得大部分正确的细节,而且更容易有说服力。你不需要让每个像素都精确无误。”
人们很容易得出这样的结论:音乐是一种太难破解的东西: 它太过神秘,转瞬即逝,是一种无法被机器捕捉的审美体验。如果这样想那就太天真了 — 事实上,近年来,人工智能音乐工具的开发正在迅猛推进。
创建 “通用音乐模型” 的竞赛正在进行中 — 也就是说一个具有与 Stable Diffusion 或 ChatGPT 的功能性和熟练度相当的生成式音乐 AI。我们将在本文章的第 2 部分探讨这一点及其对音乐制作的影响。
但在音乐领域,人工智能还有许多潜在的用途,而不仅仅是一个单一的综合系统。从生成 MIDI 到古怪的声音合成,自动混音到模拟建模,人工智能工具有可能动摇音乐制作的传统工作过程。在第 1 部分中,我们将探索目前存在的一些工具,并了解这些工具将来可能如何发展。在这个过程中,我们将讨论这些工具对音乐制作的意义。人工智能威胁到了人类的创造力,还是只是增强了人类的创造力? 音乐创作的哪些方面可能会改变,哪些方面可能会保持不变?
自动化生产任务
在这一点上,你可能会感到困惑。如果你是一名音乐制作人或其他音频专业人士,“AI 音乐制作工具”可能听起来并不是一个新颖的想法。事实上,“人工智能” 这个标签在音乐技术领域已经流传多年。
例如,iZotope 已经将 AI 集成到他们的多功能混合工具 Neutron 4 等产品中。这个插件的 Mix Assistant 会监听你的整个混音,并分析声音之间的关系,为你提供一个自动混音,你可以根据自己的需求进行调整。
与此同时,像 Sonible 这样的公司提供了经典插件效果的 “智能” 版本,比如压缩、混响和 EQ。这些插件会听取传入的音频,并自动适应,然后为用户提供一组更简单的宏控件来调整设置。例如, Pure:comp 只提供了一个主要的 “压缩” 旋钮,可以同时控制阈值、比率、起始时间和释放等参数。
其他工具为一些工作程序提供了自动化的处理,通常这些工作程序会被外包出去。LANDR 提供人工智能自动化的母带处理,相比雇佣专业母带工程师可以大大缩减成本。你只需将你的 demo 上传到他们的网站上,在几个母带处理风格和响度平衡之间进行选择,然后下载成品即可。
这些工具和现在正在突破的深度学习技术之间有什么关系呢?这里,让我们回到 “人工智能” 这个模糊的术语。深度学习是一种人工智能技术,但它不是唯一的一种。在那之前,我们有 “专家系统”。
正如 Steinmetz 解释的那样,这种方法的原理是通过 “创建一个选项树” 进行工作。他描述了自动混音工具是如何按照这种方法运行的。“如果音乐类型是爵士乐,那么你就去树的这一个部分。如果是爵士乐,乐器是低音大提琴,那么你就去树的那一部分。如果是低音大提琴,60 赫兹的频段厚重,那么就减小它。你需要为每一种可能的情况想出一个规则,一旦你能建立一套足够复杂的规则,你最终会得到一个看起来很智能的系统。”
很难确切地描述,每个具体的产品使用了什么特定的技术。但很有可能已经存在多年的人工智能音乐技术工具使用了这种方法的一些变体。(当然,深度学习方法最近可能已经集成到这些工具中了)。
如果执行得当,这种方法是有效的,但它也有局限性。正如 Steinmetz 所解释的那样,这种技术需要专业的音频工程师与程序员坐下来编写所有规则。任何混过音的人都知道,遵循规则从来都不是那么简单。一个熟练的混音工程师会做出无数微妙的决定和富有想象力的操作。完全捕获这种复杂性所需的规则数量实在是太大了。“基本上,问题在于规模,” Steinmetz 说道。
这就是深度学习的用武之地。记住: 深度学习系统可以从数据中自我学习。他们不需要知识渊博的人事无巨细地管理。提供给他们的相关数据越多,他们可以使用的处理器能力就越强,他们就能越熟练地完成分配给他们的任务。
这意味着,基于大量音乐的深度学习模型可能比专业系统的处理方法做得更好——从某些指标来看,甚至可能超过人类混音工程师。
这在音频领域目前还未实现,但 Steinmetz 指出,图像分类是人工智能工具达到这一水平的一个例子。“在对图像内容进行分类方面,最好的模型基本上比人类更准确,因为我们已经在数百万张图像上对它进行了训练 — 比人类能够看到的图像还要多。所以这真的很强大。”
这意味着人工智能可能会非常擅长各种技术任务,而这些任务一直被音乐制作人视为工作的重要组成部分。从像设置压缩器 attack 和 decay 这样的细节,到像完成整个混音这样的分散任务,AI 可能很快就会成为你自己的随身音频工程师。
这将如何改变音乐制作人的处境? Steinmetz 将其与智能手机相机带来的摄影全民化进行了类比。从事记录生活等日常工作的专业摄影师被淘汰; 对艺术摄影师的需求则保持不变。
“在混音或音频工程的工作中,这也是类似的情况。如果你所做的工作在理论上是可以被自动化的 — 这意味着没有人关心艺术输出的细节,我们只需要它符合一些模式,那么这项工作最终可能会被自动化。” 但是,当人们去做创造性的内容时,技术将无法取代决策者。音乐家将 “把人工智能当作一种工具,但他们仍然坐在驾驶员的座位上。他们可能会让工具做一些决定,但最终,他们才是执行决策者。”
当然,对于那些以实用性和功能性为主业的工程师来说,这是会令人担忧的。令人好奇的是,下一代制作人是否会因此而遭殃。压缩器、EQ 等工具的使用都具有创造性的一面。如果技术使这些过程自动化,制作人是否会错过为老问题寻找创造性解决方案的新机会,比如去发现意外的错误?
另一方面,通过自动化这些任务,音乐制作人会节省一些时间和精力 — 他们可以用这些时间和精力在其他方面扩大他们音乐的创作范围。在模拟工作室时代,许多任务那时候需要耗费大量资源、数小时工作时间和技能,而当今的宿主软件在几秒钟就能完成。与此同时,我们并不认为用现代宿主软件制作的音乐缺乏创造性。相反,随着越来越多的音乐创作者能够接触到新的声音、技术和方法,创造力的重心已经发生了转移。
人工智能初创企业 Spawning 的联合创始人 Matt Dryhurst 表示: “的确,一些生硬的音乐制作很可能会被一些工具所取代,而这些工具可以让这些任务变得轻而易举。” Dryhurst 与他的合作伙伴、音乐人 Holly Herndon 共同创立了这家公司。“但这只是改变了我们对艺术的定义。一般来说,我们珍惜的艺术家都是那些因为某种原因而偏离主线的艺术家,就像任何时代都有伟大的艺术家一样,人工智能时代也会有伟大的艺术家。”
MIDI 是 AI 学习的第一步
在考虑混音等技术任务时,区分功能性生产任务和艺术性相对容易。但是作曲这块呢? 人工智能在这方面也会有所改变。
在这一领域早期开始尝试机器学习的是 Magenta Studio,这是谷歌 Magenta 研究实验室的一个项目,于 2019 年作为一套 Max For Live 工具推出。这些工具提供了一系列的 MIDI 音符生成技术: 从头开始创建一段新的旋律或节奏; 根据给定的音符完成一段旋律; 在两个旋律片段之间 “变形”。经过 “数百万” 旋律和节奏的训练,这些模型提供了比传统生成工具更复杂的音乐结果输出,也许也更有音乐性。
像 Orb Plugins 这样的公司还进一步开发了人工智能 MIDI 音符生成的功能,他们已经将这一功能打包成一组传统的软件合成器 — 类似于 Mixed In Key 的 Captain 插件。与此同时,鼓音序器也开始采用这种技术为用户提供节奏灵感。
为什么早期先从 MIDI 开始? 与音频每秒 44,000 个样本相比,MIDI 信号是非常精简的数据,这意味着模型可以更简单,运行更便捷。当这项技术还处于起步阶段时,MIDI 显然是一个起点。
当然,MIDI 也具有局限性。音高和节奏只是音乐的一部分。几年前,在谈到机器学习/音乐黑客对 MIDI 的偏向时,Dadabots 写道: “MIDI 只能表现音乐精髓的 2%。你不能用 MIDI 去演奏 Merzbow,也没法营造黑金属音乐的氛围。你不能拥有 Jimi Hendrix 的音色,也无法重塑 Coltrane 的萨克斯,或者 MC Ride 的特点。MIDI 只是纯粹的仿制品。”
随着人工智能技术的日益成熟和处理器能力的不断提高,允许音乐家直接处理原始音频的工具不断涌现。那么,基于 MIDI 的人工智能工具是否已经成为过去?
可能不会。大多数现代音乐家深度依靠 MIDI 和其它“符号性” 的音乐语言。电子音乐制作人将节奏输入音序器,在钢琴卷帘中借鉴音乐理论 (如调和调式) 来绘制音符,人工智能在这里可以提供很多东西。除了生成音符,我们还可以使用基于 MIDI 的 AI 工具来准确地扒出音频的音符,并执行 MIDI 数据的复杂转换。(例如,将节奏或旋律从一种风格或流派转变为另一种风格或流派)。
人工智能音乐公司 Qosmo 的 Julian Lenz 在一次演讲中指出,“符号音乐生成” 的重要性仍在继续,他指出,原始音频模型还不能很好地掌握音乐的基础理论。例如,谷歌最近推出的 MusicLM 通用音乐模型,在数十万个音频片段上进行了训练,却无法区分大调和小调。Lenz 最后展示了一个新的 Qosmo 插件,它可以把一个简单的节奏变成一个复杂的、完整的鼓片段。虽然原始音频 AI 工具仍然有些简陋,但基于 MIDI 的工具可能会帮助你更快地获取灵感来源。
这些工具对创造力的来源提出了棘手的问题。如果基于 AI 的插件为你生成旋律,你是否还能被视为这段旋律的 “作者”?如果你使用经过披头士乐队歌曲训练的人工智能模型来生成旋律呢?旋律是你的,还是 AI 的,亦或是披头士的功劳?
这些问题适用于多种形式的 AI 音乐创作,我们将在下篇展开讨论。现在我们只能说,当涉及到基于 MIDI 的旋律和节奏生成时,版权问题像是一潭被搅浑的水,很长一段时间没能得出结论。现代电子音乐作曲家经常使用到音符随机生成器、复杂的琶音器,欧几里得节奏生成器,等等。生成的素材是创作的一个起点,需要根据音乐制作人的思路继续进行筛选、编辑和安排。人工智能工具可能会直接给我们带来更惊喜的结果,但人类的主观能动性仍需决定生成的结果如何与他们的创作愿景相匹配。
音色转换:探索新的声音
当我们想到像人工智能这样激进的新技术时,我们可能会想象出天马行空的新音色或更抽象的声音纹理。但是 MIDI 永远不会帮我们实现这个目标,因此我们需要转向音频领域。
在新兴的 “神经合成” 领域,占主导地位的技术之一是音色转换。简单地说,音色转换是将一个声音转换成另外一个声音。人声变成了小提琴; 吱吱作响的门声变成了 “Amen break”(一段很有名的鼓节奏)。
这是如何做到的呢? 音色传输模型,如 IRCAM 的 RAVE ( “Realtime Audio Variational autoEncoder” ),具有两个神经网络协同工作的特点。一个神经网络对接收到的音频进行编码,并根据特定参数(如响度或音高)进行捕捉。然后,另一个神经网络利用记录的数据尝试重建(或解码)输入。
自动编码器发出的声音取决于它所训练的音频。如果你使用长笛的录音对其进行训练,那么解码器将输出类似笛子的声音,这就是 “音色转换”的作用所在。如果你向经过长笛训练的编码器输入人声,它仍然会输出笛子的声音。结果是一种奇怪的混合体: 人声的特点与长笛的音色。
音色转换已经在许多插件中出现,但还没有一个进入大众市场。也许最容易获得的是 Qosmo 的 Neutone — 这是一个免费下载的插件,允许你在宿主软件中尝试一些神经合成技术,其中包括 RAVE 和另一种称为 DDSP (可变数字信号处理) 的音色转换方法。DDSP 是传统合成技术中编码器技术与 DSP 技术的一种结合。它更容易训练,并且可以提供更好的声音输出 — 前提是输入音频必须是单音的。
几年前,音色转换技术就已开始应用于发行的音乐作品中。一个早期的例子,在 Holly Herndon 的专辑《PROTO》中的作品 "Godmother" 中,由制作人 Jlin 制作的打击乐通过音色转换模型进行人声训练。其结果是一个不可思议的 Beatboxe 演绎,充满了奇怪的细节和颗粒状的人工痕迹。
“Godmother” 这个作品具有一种探索的精神,就好像它在摸索一个新的声音景观。这是使用音色转换技术制作音乐的常见特质。在《A Model Within》中,制作人 Scott Young 发布了五首具有这种特质的实验性作品。每首歌都探索了 Neutone 中不同的预设模型,捕捉了人与机器之间生涩的互动。
甚至在他接触人工智能工具之前,忙碌的生活就让 Young 对生成作曲方法产生了兴趣。这位音乐制作人回忆说:“刚开始做音乐时,我花了一个月的时间制作一首曲子。这样的过程是浪漫的,但我在香港的生活不允许我总是这么慢。所以我渐渐地适应了 Reaktor 生成器,制作音序并将它们拼接在一起。”
去年,音乐人 Eames 表示,他可以用生成式人工智能进一步加快速度。Young 开始探索并发现了 RAVE,尽管他有软件工程的背景,却很难让它发挥作用。后来他发现了 Neutone。“预设模型给我留下了深刻印象,我迫不及待地开始用它们创作曲子。结果令人大吃一惊,输出的声音非常逼真。”
围绕人工智能工具的一个典型担忧是,它们可能会消除音乐创作中的创造力。Young 在音色转换方面的经验正好相反。音色转换模型是喜怒无常的,至少现在是这样。音质是不稳定的,它们对输入的反应是不可预测的。对 Young 来说,这种不可预测性提供了一条途径,以摆脱疲惫的音乐创作习惯。“在制作 (过程) 中更强调偶然性,因为你不能总是根据你演奏的内容来预测输出结果。”
一旦素材生成,他必须做出抉择,将素材拼接成有感染力的作品 — 他把这个过程比作早期现场爵士乐录音的编辑。“当使用这种生成方法时,作为人类创作者的关键是知道在哪里修剪,并将这些碎片连接成有意义的、能引起我们共鸣的东西。”
EP 中最不可思议的曲目 “Crytrumpet”,Young 通过一个小号模型输入女儿哭泣的录音。像这样的尝试巧妙地捕捉到了人工智能技术的奇异之处,但音色转换远非人工智能在插件中的唯一潜在应用。
今年3月,Steinmetz 与 Qosmo 的 Andrew Fyfe 和 Audio Programmer 平台共同组织了神经音频插件大赛。比赛旨在通过为最令人印象深刻的参赛作品提供现金奖励来鼓励创新。Steinmetz 说: “目前插件中的神经网络还没有真正建立起来。“我们需要一种方法来鼓励更多人在这个领域做研究,因为我知道这个范畴还有很多事情要做,而这些事情将产生真正的影响。”
在 18 个参赛作品中,一些作品对压缩等传统效果进行了神经处理,另一些作品则提出了基于 MIDI 的生成式工具。此外还有一些更令人惊讶的想法 — Vroom 是一款声音设计工具,允许你使用文本提示生成单一声音;HARD 是一款新颖的 “音频调音台” ,可让用户在两个音轨的和声和节奏部分之间单独进行交叉混音。Steinmetz 希望未来的插件设计者能够在这项工作的基础上再接再厉。他看到了对这一主题感兴趣的人们已经开始了动作。
模拟建模
因此,人工智能可以创造新的声音。但它也可以制作老的声音,也许比我们以前做得更好。模拟建模是插件行业的基石。有些人认为,人工智能可能是它的未来。像 Baby Audio 的 TAIP (模拟 “1971年的欧洲磁带机” )和 Tone Empire 的 Neural Q ( 著名的德国老式均衡器 ) 这样的插件使用基于神经网络的方法来代替传统的建模技术。
Baby Audio 在他们的网站上解释了这是如何工作的:
“正常的 DSP 仿真需要 ‘猜测’ 各种模拟组件的效果及其相互依存关系,我们可以使用人工智能/神经网络来准确地破译磁带机的声音特征,并以磁带机的方式运行。这是通过向算法提供原始音频和处理音频的各种训练数据,并教它识别构成差异的确切特征来实现的。一旦人工智能了解了这些差异,我们就可以将它们应用到新的音频中。”
为什么用人工智能代替传统的建模方法?第一个原因是能获得更好的结果。Tone Empire 声称,传统的电路建模 “永远无法像基于人工智能的方法那样产生真实的模拟仿真”。
另一个原因是速度。使用神经处理的模拟建模可以为插件公司节省大量的时间和金钱。这意味着我们可能会看到低成本、高质量的模拟模型大量涌现 — 对于喜欢玩新玩具的制造人来说并非坏事。
更激动人心的是,这意味着模型可以由音乐制作人自己来完成。TONEX 和 Neural DSP 等公司已经在吉他领域实现了这一目标。Neural DSP 的 Quad Cortex 地板建模单元带有人工智能驱动的 Neural Capture 功能,允许吉他手为自己的吉他音箱和单块建模。这很简单: Quad Cortex 通过目标单元发送测试音,并基于输出音频,在瞬间创建高质量的模型。
这呈现出令人兴奋的可能性。许多人都有一块老旧的效果器单块或我们钟爱某一样乐器的音色。如果你可以直接在它里面为它建模,甚至还能与朋友分享这个模型,那会是怎样的一种场景呢?到目前为止,建模主要是技术专家的领域。想想音乐人们可以用它做些什么,真是令人兴奋。
民主化音乐技术
在探索人工智能音乐制作工具时,“将专业技术任务交到音乐人手中” 这一话题反复出现。对于 Steinmetz 来说,模拟建模只是深度学习技术的一种应用,而不是最令人兴奋的应用。他邀请我们想象一个像 Midjourney 或 Stable Diffusion 这样的工具,但它不是根据命令生成图像,而是生成新的音频效果。
“ (这) 让任何人都能创造一种效果器,因为你不需要是程序员就能做到。我可以为音色或效果搜索一个空间的生成,就像我怎么使用 Stable Diffusion 一样。我可以发现一些新的效果,然后与我的朋友分享,或者把它应用到我自己的作品中。它为创造力开辟了更多的可能性。”
我们之前看到了某些制作任务是如何被人工智能自动化的,让音乐家可以将他们的创造力集中在其他领域。其中一个领域可能是他们正在使用的制作工具。人工智能技术可以让每个人都拥有自己的定制音乐制作工具箱。也许使这个工具箱尽可能具有创造性和独特性就好比现在如何使用EQ或压缩一样重要。
Steinmetz 设想 “程序员/音乐家/音频工程师等既懂技术又懂音乐的人将会越来越多。” 这些人要么会找到创造性的方法来 “打破” 现有的人工智能模型,要么“建立自己的新模型,为他们的音乐获得某种新的声音。” 他认为这是艺术家与其工具之间长期关系的最新迭代。“每当一个 (新的) 合成器出现时,总有一些音乐人想出一些点子来改造它,使之成为个人的工具。”
Dryhurst 也预测到了未来艺术家们会建立自己的定制模型,就像他和 Herndon 为 PROTO 和其它项目所做的那样。“我觉得这更接近于许多制作人未来想要使用模型的方式 — 也就是说,打造自己的 ‘设备’,从而产生特别的结果。我认为,随着时间的推移,我们也可能开始将模型本身视为一种新的表达媒介,用来分享和体验。我认为这是非常令人期待的; 与艺术家所建的模型互动就像与他们的专辑或其他传统形式互动一样普遍。目前,我们连这个可能性的表面都还没有触及到。”