一句话生成一首歌,AI音乐嗨翻国庆派对,专访Udio CEO:用AI技术释放每个人的音乐潜能
(关注公众号并设为🌟标,获取最新人工智能资讯和产品)
全文约11,000 字,阅读约需 24分钟
那么,Udio 是如何实现如此出色的音乐创作能力的呢?David 解释道,这个过程与图像和文本生成的原理类似。Udio 的大型模型通过"聆听"海量的音乐样本来学习创作。模型不仅仅是简单地模仿,而是深入理解音乐的方方面面,包括音乐理论、风格特征、乐器声学原理,甚至录音技术对声音的影响。对于那些想要在假期中尝试新鲜音乐体验的人来说,Udio无疑是一个引人注目的选择。那么,是什么让Udio在众多AI音乐工具中脱颖而出呢?
官网链接:https://www.udio.com/
官方使用指南:https://www.udio.com/faq
文稿整理
主持人 : 当人工智能革命在过去几年里影响到音乐领域时,我非常好奇。有两家公司引起了我们注意,分别是 Udio 和它的竞争对手 Suno。今天我们邀请到了 Udio 的联合创始人兼 CEO David Ding,他会告诉我们 Udio 是什么,谁在为此买单,以及人工智能音乐创作的未来发展方向。今天我们将讨论 AI 和音乐。David,你好吗?欢迎来到节目。
嘉宾David Ding: 你好,大家好,非常高兴能来到这里。
1、AI音乐技术
主持人 : 我想从一些背景开始,因为我知道你曾在 DeepMind 工作过,而 Udio 作为一家公司相对还很年轻,我记得它是在 2023 年成立的。能否告诉我们你的个人历程,以及 Udio 的创立背景?是什么促使你决定离开当时的岗位,去创建这家公司?
David Ding: 好的,正如你所说,Udio 是在去年 2023 年 11 月创立的。在此之前,我是一名 DeepMind 的研究员。从小到大,我一直对两件事非常感兴趣:一是科技,二是音乐。在孩提时代,我一直想要打造能够模拟人类大脑运作方式的计算机,试着用神经元进行连接,模拟大脑的运作。结果当我上大学时,这个领域开始变得非常热门。在大学一年级时,我选修了一门机器学习课程,希望能参与到这个领域中。
我成长过程中另一个热爱是音乐,我从小就学习古典钢琴,至少弹了十年,直到上大学。我一直觉得,如果计算机技术能够作曲并创作音乐,那将会非常酷。后来,当我在 DeepMind 工作时,生成模型技术真正开始崛起。你会看到像 ChatGPT、DALL-E、Midjourney 这样的技术开始出现,彻底改变了计算机创作艺术的方式。于是我当时想,是否可以将我所学到的技术应用到音乐领域,让机器帮助人们创作音乐,产生灵感并创作歌曲。因此,我们离开了 DeepMind,创立了这家公司,致力于推出一款能够帮助艺术家和词曲创作者将他们的想法变成现实的产品。
主持人 : 我想回到关于大型语言模型(LLM)到图像生成再到音乐生成的这个话题。我的日常工作是写作,这方面我很熟悉,所以我能够理解大型语言模型通过大量数据学习并进行下一个词预测的原理,虽然实际上比这更复杂一些,但我可以理解。而且,我也能理解如何用 LLM 进行图像生成。但当这个技术扩展到音乐时,我感觉自己有些跟不上了。能否在不透露核心机密的情况下,解释一下这些 AI 模型是如何生成音乐的?因为在我看来,这似乎是一件非常复杂的事情,虽然明显已经可行了。
David Ding: 好的,跟图像和文本生成一样,这些大型模型也是通过聆听大量音乐样本来学习如何创作音乐的。模型会聆听音乐,然后尝试合成 AI 音乐创作,并对音乐的各种元素进行用户控制。这些元素包括音乐理论的共性,比如哪些和弦跟随哪些和弦、节奏如何与歌曲的整体结构相互作用等。此外,还包括音乐风格之间的区别,比如乡村音乐与摇滚音乐的差异,吉他弦是如何振动的,钢琴的声音是如何在房间里回响的,等等。最后,模型还需要理解这些声音与录音技术的相互作用,如何将这些声音转化为立体声效果。所以这个模型因为它是通过学习最终的音乐作品来进行训练的,所以它学会了从最基本的音乐理论到声音如何通过麦克风录制的一切。
主持人 : 在为今天的对话做准备时,我顺便玩了一下 Udio,顺便说一下,我现在也是你们最新的付费用户,顺便打个招呼。我想给你们的软件来一点挑战,我想做一首类似于我最喜欢的乐队 Periphery 风格的前卫金属歌曲,但我希望它是 6/8 拍的。你是经过古典训练的钢琴家,我是经过古典训练的小号演奏家,我们都知道在音乐领域,6/8 拍并不复杂,对吧?我们不是在做 11/8 之类的超高难度,只是简单地以 6 拍和 8 拍交替。这其实是相对简单的节拍,它确实做到了,但并不是完美无缺。我知道这项技术还在不断改进,所以我并不是想批评,但你觉得将来我们是否能够告诉像 Udio 这样的服务“我想做一首前半部分是 6/8,后半部分是 7/8 的歌曲,还想从 C 调到 C 大调”,能够实现这种高度的定制吗?并且这是基于对音乐如何构成的非常细致的理解,还是说软件更擅长理解音乐的整体结构而不是细节?
David Ding: 这是我们非常希望支持的一个方向,我们希望能够给用户和音乐人更多方式来控制模型,比如拍号、调性、节奏 BPM、乐器配置,甚至是音乐的动态,比如从安静开始,逐渐增强,然后再减弱等等。目前我们还不支持拍号控制,因为在我们训练模型的过程中,我们没有教它拍号的概念,也没有在数据标注中加入这一部分。然而,调性是我们目前支持的功能。最初我们在今年四月推出模型时还不支持调性控制,但在七月份我们加入了这个功能,因为我们意识到用户希望能够控制音乐的调性。因此,我们重新对数据集进行了标注,比如标明这是 D 大调或 C 小调。现在,当你在 Udio 中指定 A 小调时,它会生成 A 小调的音乐。
主持人 : 关于 AI 音乐创作和数据标注方面的进展。听起来我要求 Udio 做的事情还不是它目前能够完全胜任的,所以它有些偏离了轨道。但你刚才说了一件很有意思的事,就是数据标注,这正是我之前缺少的部分。听起来你们的人类团队会对数据进行标注,帮助模型理解“这是 4/4 拍的摇滚鼓点”,那么这是不是就相当于创建了一个标签,让软件或模型可以回溯并理解?
David Ding: 是的,通过在训练数据集中进行标注,你可以教会模型将特定的描述词与音乐元素关联起来。它看到 3/4 拍的标注,并听到 3/4 拍的音乐时,就知道 3/4 意味着有三拍,每一小节的第一拍被强调。这样,当用户要求模型创作 3/4 拍的音乐时,模型就能够根据它对 3/4 的理解来创作歌曲的结构。这就像一个人类学习一样,如果你从未告诉他“这是 3/4 拍”,那么即使他能创作 3/4 拍的音乐,他也不知道“3/4”这个词的实际含义是什么。数据标注就像是为音乐和用户的请求之间提供了一层连接,帮助自然语言输入转化成计算机能够理解的指令,几乎像是一个命令提示符一样。我们希望通过对模型进行更多的标注,让它能理解更多的音乐元素,这样模型就能按照指令来生成这些元素。
主持人 : 好吧,不过我想回到过去,因为我一直在玩 Udio,而且 Udio 的 AI 模型也在不断进化,早期版本的确有些故事。我有一个朋友,他开始在我们的群聊里给我们发他自己制作的搞笑歌曲,比如“Alex 明天不想去上班”之类的,我就问他这些歌曲是从哪里来的,结果发现就是从你们那里出来的。所以我得以提前接触到这个软件,也创作了不同的歌曲,并有机会尝试了新的模型。但是回到最开始,当你们刚推出 0.1 版本的时候,那个时候效果到底有多好或者多糟糕呢?从概念验证到一个你们觉得人们可能会真正使用的产品,这个过程是有多容易呢?
David Ding: 哈哈,很有意思你提到了我们模型的第一个版本,真的是一个“婴儿版”的模型,当时我们还在调试整个代码库和训练结构。我们花了几周时间试图弄清楚为什么模型无法生成任何歌词——你提供歌词,但模型就是拒绝唱出来。然后我们花了很长时间分析模型,查看各种损失曲线,最后我们发现原因其实非常简单。当时我们给模型提供数据集时,出现了一个小错误,导致歌词没有被正确输入到模型中,所以模型从来没有“看到”过歌词,也就不可能把歌词变成一首歌。换句话说,它无法“运行”歌词的引擎,因为根本没有输入任何歌词。
所以,这真的说明了这个过程对细节的关注是多么重要,一切都取决于输入数据。我们修复了这个错误之后,模型真的开始“起飞”了。每一周我们都能看到进步。在第一周,模型可能只能区分一些大致的音乐类型,比如摇滚和爵士。随着模型训练的推进,它开始学会了更多更具体的关键词,比如“有活力的”、“硬摇滚”或者“轻柔爵士”。同时,声音质量也得到了提升,从最初那种非常嘈杂的效果,逐渐变得更加精致,更接近录音棚里的效果。
2、产品迭代
主持人 : 我的体验是,现在的音质确实非常好。作为重金属音乐的粉丝,我熟悉很多重金属亚流派,其中一些非常依赖于编程的管弦乐元素。我对目前录音棚音乐与数字元素的结合状态很熟悉,可以说 Udio 的音乐创作软件已经非常接近这些效果了,这真的是很令人兴奋。听起来从模型最初“它能工作”到推向市场,再到 1.5 版本的发布,整个过程非常迅速,而且模型质量和音质都在不断提升。你认为这种上升趋势会持续很长一段时间吗?还是说最初有一些“快速获胜”的机会,让你们能比现在和将来发展得更快呢?
David Ding: 显然,从零开始到能产生一些成果是最大的进展,如你所见,我们的音质其实已经相当不错了,尽管还有一些改进的空间,我们也在努力改进。但未来的主要关注点是为用户提供更多控制选项。我们希望能够让用户有更多的方式来控制音乐创作,比如你可能已经有一个旋律线,想让模型跟随这个旋律线并添加音乐元素;或者你有一种音乐风格,但不确定如何用语言描述,那么如何将这种风格合成并作为模型要遵循的范例呢?我们希望实现这些额外的控制,因为我们认识到音乐创作对于创作者来说,控制权非常重要,因为那是他们自己的作品。
主持人 : 我想稍后做一些演示,让大家看看我们在说什么,因为你和我都已经用了很多次,但其他人可能还没有接触过。不过,我一直在想,这个产品到底是为谁准备的……Udio 的目标用户和 AI 在音乐领域的未来。因为我是一个超级音乐爱好者,音乐对我来说是每天生活的一部分,从我起床到我上床睡觉,我要么在听有声书,要么在听音乐。所以对我来说,音乐是非常个人化、非常重要的,我也了解音乐理论,而且非常热爱它。但不是每个人都是这样,大家的音乐品味和消费习惯都各不相同。所以我想知道,Udio 是面向那些希望自己创作音乐的人,还是主要为那些希望创作草稿的艺术家提供灵感的工具?又或者说,它是用来制作电梯背景音乐的工具?我想问的是,你觉得 Udio 现在和将来是为谁而准备的呢?
David Ding: 我们认为 Udio 是为热爱音乐的人们准备的,就像你这样的音乐爱好者,还有那些艺术家和词曲创作者,他们显然也热爱音乐。我们希望创造一个工具,让音乐创作变得比以前更容易。就像过去出现的一些工具,比如 DAWs(数字音频工作站)、采样器和鼓机等,这些都是创新,能够让以前有点困难的事情通过新技术的帮助变得更容易。这些工具让更多的人能够参与到音乐创作的过程中,也让现有的艺术家能够更快地尝试出新点子,创作出融入这些元素的音乐,甚至这些技术的创造者自己都未曾想到的方式。我觉得一个很好的例子就是自动调音,当自动调音刚出现时,很多人对此颇有微词,说它让不会唱歌的人也能唱得很好,这是在作弊。
很多人觉得它降低了音乐的价值,让不会唱歌的人也能唱得好。但实际上,自动调音彻底改变了整个行业,人们开始使用它,并找到非常有创意的用法,比如提升到超过正常音域的范围,最终把自动调音的声音本身变成了一种音乐风格。所以我们认为,这些技术让音乐创作变得更简单,人们会找到非常有创意的方式去使用它。
主持人 : 听起来,对于像我这样热爱音乐的人,我可以用它来为自己创作一些有趣的音乐;而作为一个音乐人,我可以用它来扩展想法,激发新的创作灵感。但这并不会取代我配偶的 Spotify 账号,对吧?更像是未来独立的创作行为,而不是被动的音乐消费。
David Ding: 完全正确。就像你说你吹小号,对吧?但你的小号并不会取代你在 Spotify 上听那些伟大小号演奏家的作品。你喜欢听别人创作的音乐,但你也希望自己能够享受创作音乐的乐趣。
主持人 : 没错,我非常喜欢把现代 AI 技术应用到音乐创作中的想法,因为这让更多的人有机会参与创作。五年前,人们经常谈论低代码(low code)和无代码(no code),那时关于软件开发民主化的讨论非常多,结果确实也是成功的。我喜欢“赋予更多人更多力量”的理念,而这似乎正符合这个方向。不过从批评的角度来看,有些音乐人担心自己会被整个替代或被削弱。我想和你分享一下我的看法,我认为这不会发生,因为我喜欢的音乐人都有非常独特的风格,有时甚至是实验性的风格,这可能无法被即使是非常智能的模型所复制。所以在我看来,这种技术会与当今的音乐创作方式并存。你怎么看?
David Ding: 是的,我完全同意你的观点。我相信人们会继续以他们习惯的方式创作音乐,而这只不过是他们可以选择使用的另一种工具而已。他们不一定要使用它,但它确实是一个额外的工具。就像电吉他被发明出来后,并没有完全取代原声吉他一样,它只是另一个可以加入到乐队中的乐器。
主持人 : 我确实想问一个关于 Udio 的问题,因为你之前提到了 DAWs,也就是数字音频工作站,现在它们在音乐领域非常有名。那么,Udio 将来会成为其中的一部分吗?会不会以插件或者 API 的形式供人调用,脱离你们的网站,进入其他地方呢?
David Ding:这完全有可能。我们认为,很多 Udio 的高阶用户会用它来激发灵感,然后下载各个独立的音轨(stems),这是我们提供的一个功能。用户可以下载音轨,然后将它们导入他们的 DAW 进行后期处理。
主持人 : 哦,明白了,他们可以拿到原始草稿,然后将音轨导入 DAW 进行处理。这很酷。那么,单独处理这些音轨很难吗?这意味着模型要生成一系列独立的轨道,然后再将它们混合在一起。这一直是模型的工作方式,还是最近才加入的功能?
David Ding: 模型一直以来都会生成一个完全混音的音轨。不过,最近在 1.5 版本中,我们增加了用户下载独立音轨的功能,这些音轨是通过混音后的后处理来分离出来的。
主持人 : 哦,是通过后处理来分离的,这很有趣。你是先创建一个完整的混音作品,然后再进行分离。我原以为会是先分离再混合,但这正是我为什么要问这个问题的原因。在我们谈论其他话题之前,音轨(stems)是指歌曲中各个独立的轨道,例如贝斯、吉他、钢琴等等。我想确保听众都能理解这个概念。David,你对音轨的定义也是这样吗?
David Ding:是的,完全正确。
主持人 : 我们可以拿 OpenAI 的 GPT 系列模型举个例子。比如说,当 GPT-4 刚出来的时候,它的成本比较高,后来好像下降了。我们看到这种情况非常常见。那这是否意味着你们也能够从底层模型中挖掘出很多效率,随着时间推移,运行成本会变得更低?或者说,因为你们是在做音乐,而音乐比文本更复杂,所以是不是“低垂的果实”更少呢?
David Ding: 我们认为确实有很大的改进空间。我不敢说是不是能和 OpenAI 相提并论,因为 OpenAI 显然有非常多才华横溢的工程师团队,而我们是一家规模小得多的公司。但我们相信,我们也能在效率方面获得类似的提升。
3、公司规模
主持人 : 也就是说,虽然 Udio 是一家小公司,但可以沿着类似的曲线进行优化。我有一个很好奇的问题,贵公司目前有多大,员工有多少?
David Ding: 我们目前大约有 17 名员工,增长了不少。当我们在四月份推出公司和模型时,只有 8 个人。主要是办公室办公,但有些人是远程工作的。对于今年剩下的时间,你们会继续像之前一样积极招聘吗?还是会放缓一点,我们可能会保持相对稳定,不会像之前那样快速扩张。
主持人 : 我知道你们从 Andreessen Horowitz 融到了资金,大家都知道你们筹集了 1000 万美元。David,你觉得这笔钱够吗?因为你们的一些竞争对手筹集了更多资金,而现在是 AI 公司筹集大量资金的时代。我很好奇,为什么你们选择了 1000 万这个数字?另外,你什么时候会回到这个节目,告诉我你们又筹集到了一轮新的融资呢?
David Ding: 当我们开始的时候,我们选择筹集 1000 万美元,因为我们希望在资金使用上保持纪律性。我们相信,在一定程度上,资源有限会促使创新。因此,我们努力在资金使用方面保持高效。
主持人 : 那你能告诉我更多关于这一点吗?因为人们总是说训练一个模型最终可能会花费十亿美元,但那是针对非常通用的模型。对于你们来说,如何确保在模型创建和改进方面的资本支出是高效的呢?
David Ding: 我们做的一件事就是尽量寻找最便宜的计算资源,选择每秒浮点运算与成本比最划算的芯片。因此,我们选择了 Google Cloud 的 TPU,因为我们发现它比其他芯片(比如 NVIDIA 的 GPU)能节省不少成本。
主持人 : 既然你们在做这些非常深入的工作,那为什么不自己购买 H100 或者类似的硬件,建立自己的数据中心呢?毕竟,计算资源是你们“数字大脑”的核心,为什么不拥有“神经元”呢?
David Ding: 对我们来说,作为一家初创公司,我们并不想处理自己运行数据中心的后勤问题,所以我们认为使用云服务更简单。这总是一个平衡。最终我们能够获得所需的计算资源,但有时候确实需要一段时间,云服务商才能找到可用的芯片。
4、AI产品演示
主持人 : 现在我想从这个话题转到一个演示上,让大家看看我们从计算角度讨论的这个产品到底是什么样的。所以,David,我们之前已经决定好了,你将负责演示,因为你告诉我你有一些新东西要展示。那么,让我们打开 Udio。如果你在 YouTube 上观看,你可以看到我们正在进行的操作。如果你在 Spotify 或 Apple Podcast 上收听,我们会尽力用语言描述整个过程。David,告诉我,你要展示什么?
David Ding: 好的,我现在向你展示的是 Udio 的创作页面,这是一个专门的创作工作室。你可以在右侧看到你最近的创作列表,左侧是你可以指定想要创作的音乐类型以及任何想要添加的歌词的区域。我们可以从一个非常简单的例子开始,比如创作一首摇滚歌曲。我会在这里输入“Rock(摇滚)”,然后为了简单起见,我会创作一首关于纽约的歌曲。这是我们昨天刚刚发布的新功能,你可以先请语言模型为你写歌词,然后提交歌曲创作。你甚至可以给它一些建议,比如我们可以让它更简短一些。
主持人 : 哦,很好,你基本上可以让它更详细或更简洁。你还能做其他事情吗?比如说,确保歌词中提到“New York”。当你在添加“确保提到纽约”的指示时,它是否会保留之前“简短一些”的要求?
David Ding: 哦……是的,我们实际上有一个提示历史,显示到目前为止积累的所有提示。我们希望通过这个功能改善以前的歌词创作体验,为那些可能遇到创作瓶颈,不知道该写什么的人提供帮助。例如,就像我现在这样。所以现在我已经有了音乐类型和歌词,我可以点击“Create(创作)”,这就会开始生成歌曲。
主持人 : 好的。在歌曲生成的过程中,我一直在思考这个问题。每当我坐下来使用 Udio 或类似的产品时,我往往不会以音乐类型为中心,而是以我喜欢的乐队为出发点,思考他们是如何接触这个世界的。我很好奇,当你在使用 Udio 时,你更倾向于只关注“摇滚”这样的音乐类型,还是会更具体一点,比如“给我一首带有 Tom Petty 风格的摇滚歌曲”?因为你实际上可以融入不同的音乐风格。
David Ding: 我通常只会坚持使用音乐类型的信息,但对于那些有特定艺术家风格的用户,我们提供了一个功能,可以让用户输入艺术家的名字,我们会查找该艺术家的风格。当然,我们不会在提示中直接放入艺术家的名字,因为我们并不想创作出与该艺术家风格完全一致的作品。例如,如果你输入“Led Zeppelin”,系统会用该艺术家常见的风格特征来替代,比如“硬摇滚”、“男性主唱”、“70 年代风格”等等。
主持人 : 哦,所以如果我输入像 Periphery 这样的小众风格,它会认为这是“前卫金属、吉他为主、男性主唱”的组合。那么,基本上,艺术家名称就成了音乐类型和风格的速记符号,对吗?
David Ding: 是的,完全正确。而且我们尽量确保生成的作品受该艺术家风格的影响,但不会完全复制,因为我们非常希望避免直接模仿。
主持人 : 感觉你在小心翼翼地避开潜在的法律诉讼问题,而我也在刻意提问一些你可能不方便回答的问题,不过谢谢你的回答。我们可以播放刚刚生成的音乐吗?让我们听一听。
David Ding: 好的,这是第一个生成的例子:[音乐播放]混凝土丛林在升起,人们在匆忙穿梭,困在思绪中,梦想在心中……
这是我们生成的一个例子。然后,您可以添加额外的描述,比如将类型从“摇滚”变成“a 小调”,然后再次点击“Create(创作)”,它会开始生成新作品。
主持人 : 我很好奇,为什么从点击“Create(创作)”到 Udio 为你生成一首歌需要一些时间?对我来说,这不是什么大问题,但似乎时间有长有短,是什么决定了这个过程的长短呢?
David Ding: 在用户界面上,我们将请求提交到服务器,服务器会读取提示信息,比如“摇滚”和“a 小调”,然后决定如何处理它,再将请求发送给模型。在此过程中,我们还会对每首提交的歌曲进行检查,尤其是对歌词进行版权检查,以确保没有使用受版权保护的歌词。这个检查可能有点严格,很多公共领域的歌曲或者其实没有版权的内容也会被标记出来,但我们宁愿过于谨慎,也不希望遗漏任何实际受版权保护的内容。
现在我们有了这首新的 a 小调歌曲,让我们听听它:[音乐播放]。追逐…混凝土丛林在升起,灯光永不熄灭,人们在迷失中穿梭……
我不确定你是否有“完美音感”,但对我来说稍微有点难以判断,不过它确实听起来是 a 小调。
主持人 : 我得承认,我没有“完美音感”。如果你听过我唱摇篮曲,你会觉得“这个家伙演奏音乐的技术真不错,因为他的歌声听起来不像音乐。”所以我也不能确定这是否真的是 a 小调,但听起来确实是的。不过当副歌或者桥段部分出现和声时,并不是从第一个音开始,而是稍微延后了一点,这听起来非常有风格化的感觉,因此……
我想说,这让我感到非常惊讶,感觉像是一个音乐编辑会做出的决定——让主唱先唱,然后加入和声。这种处理让我感觉到它有一种“人性化”的特质。我总是在这两种感觉之间挣扎:一方面觉得这是我见过最酷的事情,另一方面又担心,“天啊,人类是不是会因此而失去一些东西?”因为我曾经坐在交响乐团中,和大家一起将贝多芬的第五交响曲拆解到最基础的部分再重建。我不希望看到一个没有这种人类创作的未来,但与此同时,我也会忍不住点这些按钮一百次,因为这真的太有趣了。所以,也许我自己也是问题的一部分。
David Ding: 是的,我觉得那些在乐队里演奏的人不会因为有了额外的音乐来源就停止创作。我们的联合创始人之一实际上是一个乐队成员,他经常在英国巡演。我认为他仍然非常享受这种创作的乐趣。对于人类来说,创作音乐本身就是一种乐趣。我们希望让更多的人有机会去创作音乐。他可以和乐队一起创作音乐,但之前他无法在卧室里、或者躺在沙发上说“哦,我想创作一首歌”。以前这是不可能的,而现在却成为了可能。
主持人 : 说到这里,我要任性一下。我们节目里的一位制作人 Cour 给我发了一个提示,他希望我们尝试一下。在 Zoom 聊天中有一个提示,标题是“一首关于恐龙的爵士新黑色风格的节奏说唱”,这证明 Cour 是一位典型的 X 世代。不过我们先放一边,你愿意尝试一下这个提示吗?
David Ding: 当然可以,看看我们能得到什么。爵士、新黑色、节奏说唱、恐龙,让我们试试看。
主持人 : 对于后来收听的人来说,提出这个建议的人曾经是一个朋克乐队的成员。所以,让我们看看一个朋克爱好者会在 Udio 生成器中输入什么内容。好吧,David,趁着我们等待的这段时间,我有个问题想问你。你们见过用户创作出最疯狂的歌曲是什么?因为我目前做的都是相对标准的内容,但我很好奇,有没有哪首歌曲真的让你感到震惊?
David Ding: 有一个非常意想不到的例子,是一首叫《BBL Drizzy》的歌曲,是由我们的一个用户创作的。他自己并不是一位音乐家,而是一位喜剧演员。他写了非常搞笑的歌词,然后用 Udio 把这些歌词变成了一首歌。结果,它被 Metro Boomin 采样并制作了一段节奏,成为 Drake 和 Kendrick Lamar 之间一场争论的一部分,并挑战大家在这之上创作自己的作品。有趣的是,Drake 本人也用这首歌做了说唱。看着我们的工具真正融入流行文化,这真的很令人惊讶。
主持人 : 我们稍后再回到这个话题,现在我想让大家听一下这首歌。所以这里是“一首关于恐龙的爵士新黑色风格的节奏说唱”的第一个片段,开始吧,David。
[音乐播放] 穿越黑夜,迷失在城市的灯光中,恐龙在节奏中舞动,岁月的节奏展现出古老的魅力,在星光下,城市与荒野交织……
主持人 : 我不得不说,这相当不错。布朗托龙在摇摆,霸王龙在前进,翼龙在飞翔,节奏在我灵魂中激荡。这其实比我现在在 Spotify 上听到的一些音乐还要好。
David Ding: 是的,歌词非常特别。这是语言模型的产物。
主持人 : 不,我不是在开玩笑。我从没想到会在一首歌中看到“布朗托龙”、“霸王龙”和“翼龙”在同一个押韵句子里。顺便问一下,生成歌词的模型和创作音乐的模型是同一个模型,还是不同的模型呢?
David Ding: 我们用的是不同的模型。创作音乐的模型是我们自己训练的一个专有模型,因为市场上没有类似的模型。而写歌词的模型,我们用的是 GPT。
5、最新v1.5版本
主持人 : 哦,简单明了,但效果很好。现在我想聊聊 1.5 版本,然后再讨论一下传播性。1.5 版本在 7 月发布,带来了调性控制、改进的全球语言支持以及更好的音质。用户对 1.5 版本的反应如何?接下来,Udio 有哪些新功能计划?
David Ding: 用户对这些变化非常兴奋。特别是改进的全球语言支持,很多中文用户表示模型在生成中文歌词方面突然变得更好了。调性控制是用户一直期待的功能,现在人们非常喜欢能够指定调性并在歌曲中进行调性变化的能力。你可以指定自由部分的调性,然后当你扩展这部分时,可以为其指定不同的调性,你还可以在整首歌曲中指定自己的和声进程。
主持人 : 多久才能让这个过程变得更加可视化呢?我可以想象自己在编辑一首三分钟的歌曲时,比如我画一条线,然后说这部分应该是 a 小调,并设定快节奏,之后我希望有六小节的这种风格。这是否会变成一个可视化的工具,而不仅仅是用文字来提示?
David Ding: 这是我们未来想要逐步实现的目标。我们意识到目前的界面有一些不足之处,可能让用户觉得操作比实际需要的更复杂。因此,我们希望进行用户研究,以找到最直观、最符合音乐人习惯的界面设计方式。
主持人 : 因为音乐人已经非常熟悉编辑软件等界面了,所以这样的界面对他们来说应该会非常自然。现在,我想谈谈传播性的问题。回到你们宣布融资的时候,我记得 Bloomberg 报道你们每分钟大约有 10 首歌曲被创作出来,不过我记不太清具体的数字。过去几个月,公司在使用量方面表现如何?与四月到六月的时间段相比,现在增长了多少?
David Ding: 实际上,不是每分钟 10 首,而是每秒 10 首。用户仍然非常积极地参与整个过程。我们有一群非常忠实的核心用户,他们经常在 Discord 上分享他们创作的歌曲。这种创作过程有些协作性质,大家会一起创作歌词和歌曲,最终的作品中还会相互致谢,比如“这首歌的创作得到了某某用户的帮助”。看到人们以这种方式共同创作音乐真的很有趣,这有点像过去人们一起即兴演奏的感觉。当然,人们现在依然会即兴演奏,只是我们提供了另一种方式让他们共同创作。我觉得音乐的本质之一就是把热爱音乐的人聚集在一起。
主持人 : 我完全同意。我刚刚还在想,现在大家不再需要去到一个即兴演奏室,这样他们也就不会像我年轻时在斯卡乐队演奏时那样因长时间暴露于噪音而听力受损了。可惜的是,我的乐队并没有走红,也没有让我们成为百万富翁。回到传播性的问题,你提到了 Discord 和核心用户。我是通过一个朋友了解到你们的产品的,但我有点好奇,这个产品本身是否具有病毒传播的特性?因为我朋友给我发了一首关于我和我的朋友的歌,我非常喜欢用它,然后也会分享给其他人。所以我想知道,这是否减少了你们的销售和营销成本,因为用户实际上自己在将你们的产品传播到他们的社交网络中。
David Ding:是的,我们的增长几乎完全来自于自然传播,用户们会分享他们创作的精彩作品,然后其他人会问他们是怎么做到的,接着就开始传播。
6、公司盈利模式
主持人 : 那么公司的注册用户增长情况如何?是和之前一样快速,还是更稳定?我应该如何看待公司增长呢?
David Ding: 当然,在我们刚推出时,用户增长非常迅速,但我们现在依然看到每个月都有稳定的增长。我们相信,一旦我们推出模型的新版本,会再次引发用户的兴趣,因为用户会找到新的方法来控制创作,满足他们的制作需求。
主持人 : 我自己也是 Udio 的用户和现在的付费客户,但最近我听到了一些风投的观点。我记得 Benchmark 的 Sarah Tavell 写过这样一篇文章,她说很多大型 AI 模型公司,比如 OpenAI 等,将会随着时间的推移逐渐向上堆叠发展。这意味着一些初创公司,那些依赖知名商业模型来构建产品的初创公司,最终可能会被他们的模型提供商“截胡”,因为这些提供商可能会直接进军该领域,把市场份额抢走。你们是否担心这些更大的模型公司,比如 Mistral、Anthropic 和 OpenAI,可能会说“音乐很酷,我们也想做这个”,然后闯入你们的市场呢?
David Ding: 我们认为,在未来,肯定会有更多公司进入音乐创作领域。我们相信音乐与文本有着足够的区别,音乐创作还包含了很多产品元素。用户需要适合的界面来与这些模型互动,比如说,像 ChatGPT 这样的聊天界面可能不是创作音乐的最佳界面。因此,如何构建这个产品其实是一个开放性的问题,这也是我们一直在努力解决的。我们希望在模型和产品之间实现紧密的结合,确保模型的控制程度是合适的,从而在产品中以一种直观的方式呈现给用户。
主持人 : 好的,最后一个问题,David。在结束之前,我想再问你一个问题。我一直把 Udio 和 Sunno 看作是这个领域里最被大家熟知的两家公司。我很好奇,你如何看待 Udio 与 Suno 在当今市场上的对比?你们目前是否尝试挖走他们的工程师呢?
David Ding: 我们希望将自己定位为艺术家、词曲创作者和音乐制作人的盟友。我们专注于为他们提供最高质量的工具,而不是专注于制作“搞笑歌曲”或“迷因歌曲”。我们更想专注于提供强大的创作工具,帮助创意工作者制作出高质量的音乐,让他们为自己的作品感到自豪,甚至希望将这些作品融入到他们的其他音乐创作流程中。
主持人 : 这个回答相当巧妙。让我再尝试一下,你认为 Udio 的音乐模型是目前市场上最好的模型吗?
David Ding: 我会这么说。我们的模型是唯一一个能够以 44 kHz 采样率生成立体声音乐的模型,它的音质比市场上其他音乐模型要高得多。而且它对音乐类型的理解比任何其他音乐模型都要深刻。
原视频链接:https://www.youtube.com/watch?v=wAafTvfBtC0&t=506s
喜欢这篇文章吗?别忘了点赞、收藏、转发支持一下!期待在评论区听到你的看法!
往期回顾
1、[在卡内基梅隆大学,谷歌CEO Sundar Pichai演讲AI正创造一个全新生态系统, 为个人提供更多成功机会]
2、[万字整理一小时采访:谷歌AI首席科学家 Jeff Dean详解AI的前生今世,并预测AGI实现时间表]
3、[新公司融资2.3亿美元,李飞飞亲自解读空间智能公司的AI创新与独特盈利模式(附采访视频)]
我们旨在将先进科技与创新想法完美融合!
想要掌握人工智能,但不知从何开始?告诉我们你的需求,学习AI让你抓住这波浪潮
告别昂贵服务和缺人烦恼,再见漫长交付周期
无限创意,分分钟生成专业级产品
感受 AI 带来的全新工作体验!
欢迎各大品牌方、媒体、企业和个人等
请联系负责人微信:Milo-1101
--END--