查看原文
其他

互联网传媒行业深度报告:AI音乐或至奇点时刻,关注应用落地投资机会(附下载)



需要下载本报告的朋友,可以扫描下方二维码进圈,2万+份报告,3000+会员,高清原版,无限制下载,持续更新

(公众号资源有限,仅能展示部分少数报告,加入星球获取更多精选报告)




(精选报告来源:报告研究所)


1、Suno——音乐界的ChatGPT,让人人都能做音乐


1.1. SunoV3 出圈,成为“音乐界的ChatGPT”


SunoV3 生成效果进步神速,或成为现象级应用:2024 年 3 月 22 日,Suno 发布了V3版本,支持生成2分钟长度、广播质量级别的音乐,对prompt的理 解更深,幻觉更少。这个版本被许多人视为“音乐界的ChatGPT”,因为它 不需要专业的prompt词汇,甚至不需要理解音乐的专业知识,普通人就可以 生成自己想要的音乐。


选项丰富:用户可以输入音乐风格、流派、歌词内容、音色等提示词, 可以自定义歌曲的不同部分,如引子、主歌、副歌等。 


多样化风格:Suno支持包括古典音乐、爵士乐、Hiphop、电子等在内的 丰富音乐风格和流派。 


多语言支持:Suno支持多种语言,包括中文和英文,对中文生成的AI歌 曲非常友好。 


收费模式:Suno为新注册用户提供每天生成10首歌曲的免费试用额度。用户如果需要更多生成额度或额外功能,可以选择订阅Suno的“Pro”版 本(每个月500首歌,8美元)或“Premier”计划(每个月2000首歌,24美 元)。


1.2. Suno 背后的团队是何来历?他们是如何做出 Suno 的?


小型高效的新创业团队:Suno 成立不到两年。四位联合创始人 Shulman、Freyberg、Georg Kucsko 和 Martin Camacho 都是机器学习领域的专家,在 2022 年之前,他们曾在另一家剑桥公司 Kensho Technologies 共事,后来联合创立了Suno。团队于2023年4月推出文本转音频模型Bark,7月在音频生成模型上增加人声音乐,12月用户可以在网页上使用,再到如今推出Suno V3版本,这家成立不 到两年的公司,在不到一年时间内,实现了AI音乐专家口中需要数年才能完成的突破。Suno 目前只有大约 12 名员工,但他们正在计划扩展团队。


1.3. Suno的技术原理:基于transformer架构,和文本生成类似


音频生成具体场景分为三大类:音乐、语音和音效。Suno 是这波将音乐与语音相结合的音频生成探索中的最新产物,其历史可以追溯至 Tensorflow Magenta。其他相关尝试还包括翻译与语音生成的无缝混合、Audiobox 加语音与音效,以及专门生成音乐和音效的 Stable Audio。 


Suno背后主要由自研的两个大模型支撑,分别是基于transformer的Bark语音模型和Chirp音乐模型,前者主要用来生成人声,后者提供音乐旋律和音 效,两者让Suno生成的音乐旋律更智能化、复杂化。Suno的原理跟文本生成相似。通过训练模型来预测接下来将要出现的 token 的概率。Suno团队使 用多种模型和多种素材训练模型,确保Suno能够生成各种类型的音频,能够区分语音、背景音乐和人声等元素;并强调让模型自主学习和探索,而不 是强加规则表示,尽量减少对模型的显式知识输入。Suno团队认为,过多的人为干涉可能会限制模型的自我学习能力,强调泛化能力和端到端学习的 方法更为有效。 


Mikey Shulman 认为尽管目前取得了一些成果,但音频生成领域仍处于早期阶段,可能落后图像和文本一到两年时间,仍有改进的空间。“现在的我 们必须像 2022 年思考文本生成那样考虑音频生成”。


 Suno并不完美,在时长、语言理解力,以及音乐分轨等方面都有问题。 


首先,目前Suno生成的曲子都不到两分钟,很多作品经常戛然而止,影响了听觉效果。 


其次,虽然Suno支持多国语言创作,但其最了解的还是英文,在理解中文歌词及音乐风格上,存在明显偏差。在生成电子、R&B、摇滚等音乐 风格时,Suno能处理得很好,但华语流行风格不太行。


此外,Suno创作出的作品不支持调整分轨,专业人士没有办法对生成的歌曲进行调整,这也是目前困扰Suno商业化的最大难点。虽然目前Suno 生成的音乐能轻松达到广告配乐、影视配音标准,但如果客户听完后想修改细节,Suno就办不到了,只能再次随机生成另一首曲子。 


最后,Suno生成音乐音频清晰度不够高,这也让其很难改编。曲子的高频和低频损失比较严重,还会伴有杂音、噪音等。所以目前Suno更多的 是用来娱乐。想要解决这些问题,需要数据、时间和一定的技术突破。


1.4. 技术演进:Meta和谷歌等科技巨头推动AI音乐技术发展


单纯用计算机合成音乐这件事,早在上世纪五十年代就已经出现了。这些模型通过将音乐理论的原则转换成算法指令和概率表,来确定音符和和弦 的进行。虽然这些作品在音乐上是合理的,但在创造性上却受限。 


2015~2017 年的创业浪潮当中,先后涌现出了多家 AI 生成音乐相关的项目。2023 年以来,toC的 AI 生成音频产品之间的竞争也日益激烈, Meta 和 Google 等巨头先后推出了能够创作歌曲和声音的AI 工具。 


技术的突变出现在 2023 年 8 月,当时 Meta 发布了 AudioCraft 的源代码,这是一套基于机器学习构建的大型生成式音乐模型。全球的 AI 公司 迅速开始使用 Meta 的软件来训练新的音乐生成器,并加入了额外的代码。其中MusicGen通过分析约 40 万首录音中的模式,提出了 33 亿个 「参数」,使得算法能够根据提示生成声音,为AI 创作音乐作品带来了新的可能。 


2023年9月 Stability AI 发布了 Stable Audio 模型,该模型在大约 80 万首歌曲上进行了训练。用户通过输入文本和音频片段来指导 AI。这使得用 户可以轻松上传一段吉他独奏,并将其重新编排成具有爵士钢琴风格的作品,甚至带有黑胶播放的感觉。澳大利亚新南威尔士大学的Oliver Bown 表示,音频提示词之所以重要,一方面是因为即使是熟练的音乐家也难以用言语描述音乐,另一方面是因为大多数音乐训练数据的标记 都非常粗略,即使是大型模型也可能无法理解复杂的音乐请求。 


谷歌子公司 DeepMind 也与 Youtube 联合推出了人工智能音乐生成模型 Lyria,并先后推出了一系列具有实验性质的 AI 音乐工具。2023年11月 推出了 Dream Track,它可以按照选定的著名歌手的风格创作原创歌曲。这一工具现阶段可以在 YouTube Shorts 中与其他 AI 音乐工具配合使用, 创作者借助这些工具可依据文本提示和哼唱自动生成一首完整的音乐作品。2023年12月,谷歌又推出 AI 音乐创作工具 MusicFX,仅需几句话, 用户即可生成原创的音乐作品。这一创作工具还结合了 DeepMind 的水印技术 SynthID,以便在事后识别出它们是否由 AI 制作而成,一定程度 上可以解决音乐创作者对于版权问题的担忧。 


2023年12 月,微软宣布,已将 Suno 整合到Copilot 中。 


2024年3月,Suno发布V3版本,相较于V2版本支持更多样化的风格、更准确的prompt理解能力和更少的幻觉。


1.5. Suno为何出圈:易上手、低门槛、社区活跃、质量较高


此前陆续推出的 AI 音乐生成器并不少,比如 Adobe 的 Project Music GenAI , YouTube 的 Dream Track 和 Voicify AI。但只有 Suno 被称为“音乐界的 ChatGPT”,主要系Suno将优秀的模型算法转化为 具有实用价值的产品。 


傻瓜式操作:Suno四步即可创作一首歌(登录 官网注册→点击AI创作→输入文字→点击创作 按钮),从打开软件到生成歌曲,全程不到一 分钟。如果用户不会作词或者懒得作词,只用 选择希望的曲风,Suno就能自动生成。 


社区氛围活跃:Suno 建立了一个活跃的社区, 围绕该模型的用户和开发者分享创作经验和技 巧,共同创作出有趣且悦耳的音乐作品。 


 兼具低门槛和高质量:多位专业人士认为,部 分Suno生成的歌曲已经能达到商用程度,即在 不涉及版权风险的情况下,直接对外出售。


1.6. 版权争议仍是绕不过去的问题


版权是AI音乐发展绕不过去的问题。声音具有强烈的人身属性,更是歌手赖以生存的根本。“声音保护”也被写入《民法典》:“对姓名等的许可使用,参照适用肖像许可使用的有关规定。对自然人声音的保护,参照适用肖像权保护的有关规定。”那么未经 本人允许,通过AI技术伪造声音,无疑是对其人身权益的损害。此外还可能伪造虚假的录音、言论,进行诈骗或者造谣诽谤他人。 


2023年已有多起使用AI合成语音电诈的案例曝光。 


2023年年初,谷歌开发的AI音乐生成器MusicLM模型已经取得良好的效果,但由于存在潜在的版权风险,谷歌并未公开发布该模型。该模型基于280,000小时的音乐数据集进行训练,研究发现,模型生成的音乐中约有1%直接复制自训练数据中的歌曲,这可能导致版 权侵犯问题。因此,谷歌的研究人员强调,在解决音乐生成相关的法律和道德风险之前,需要更多的工作。 


2023年8月,谷歌和环球音乐进行谈判,希望在授权AI使用艺人的声音和音乐方面达成合作伙伴关系,让用户可以合法地创作AI歌曲, 向版权方付费,歌手们可以自由选择是否加入。 


2024年4月,由约200名音乐艺术家支持的艺术家权利联盟发布公开信,呼吁数字音乐开发商“停止使用AI侵犯和贬低人类艺术家的 权利”。这场运动对AI开发者使用音乐作品发出了警告,这些开放平台未经版权方授权许可,大规模训练和制作AI模仿品,亦或者 使用AI声音来稀释版税池,对音乐内容行业的健康发展产生了巨大的冲击。


2. AI降低音乐创作门槛,有望释放UGC音乐潜力


完整报告下载:因篇幅限制,本报告完整版PDF已分享到报告研究所知识星球,扫描图片中二维码进圈即可下载!


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。


全文完。感谢您的耐心阅读,请顺手点个"在看"吧~



业务咨询、商务合作:136 3162 3664(同微信)


欢迎加入报告研究所知识星球社群,入圈后您可以享受以下服务:

  1. 报告持续更新,分享最新、最深度的行业研究报告、投行报告、白皮书、蓝皮书、公司研报、统计报告等。公众号发布的报告也可同步下载;

  2. 海量研究报告均可下载PDF高清版,无限制;

  3. 以提问方式获取具体报告需求;


扫描下方二维码加入星球


关于我们

我们是报告专业研究机构及知识服务平台。专注于分享国内外各类行业研究报告、热点专题报告、调研分析报告、白皮书、蓝皮书等。所有报告来源于国内外数百家知名研究机构,覆盖新能源汽车、数字经济、新材料、新能源、信息技术、先进制造、节能环保等新兴产业,并涉及医药生物、金融、互联网+、医疗大健康等众多行业及细分领域。目前报告已累积近50000+,并持续更新。


报告涵盖但不限于:

1、新能源汽车、数字经济、新材料、新能源、信息技术、先进制造、节能环保;

2、互联网、新媒体、短视频、抖音、快手、小红书;

3、元宇宙、5G、区块链、人工智能;

4、房地产、金融、券商、保险、私募;

5、零售、快消品、餐饮、教育、医疗、化妆品、旅游酒店;


温馨提示


应广大粉丝要求,「报告研究所」成立了报告交流群,欢迎各位公司企业、投行、投资机构、政府机构、基金、创业者及金融资本圈朋友加入!


这里能且不限于:“行业交流、报告交流、信息交流、寻求合作等......”


入群方式:扫描 / 识别二维码加助理好友,发送「个人纸质名片」或「电子名片」审核后即可入群。

免责声明:
本平台只做内容的收集及分享,报告版权归原撰写发布机构所有,报告均通过公开合法渠道获得,如涉及侵权,请联系我们删除;如对报告内容存疑,请与撰写、发布机构联系


继续滑动看下一个
报告研究所
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存