AI还停留在做背景音乐？我用Suno v4写出了真能用来听的歌

Original AI沃茨卡尔的AI沃茨

2024-11-25

Make any song you can imagine.-- suno ai

Suno 一直定位自己是一款 AI 歌曲软件，

从它跟音乐播放器一样的主页面、音乐分区、音乐排行榜等不难看出。

但很长一段时间，我都只把 Suno 当作背景音乐生成器。

大家知道现在 Suno 已经可以轻松生成四分钟的歌曲了吗？但放到 AI 视频里使用的时候，通常只能节选出 10-20s。

这不是夸张，一是因为做的不是 AI MV，二是因为中文人声的不可控性。带电音的人声实在是太出戏了，还不如只保留乐器。

不同于 V2 到 V3，V3 到 V3.5 集中于生成时间、提示语理解、音质等固定几项的更新，Suno V4 带来的几项更新，让我感觉到它想要摆脱背景音乐这个标签：

✨ Remaster：将现有的曲目升级到 v4 的音质
📝 歌词模型 ReMi：不再依赖Claude写歌词了
🎨 封面设计：确保视觉元素能够匹配音乐的风格
🎶 翻唱 (Covers)：将作品重新演绎成不同风格
🎭 Personas（人声克隆）：解锁你独一无二的声线

先来听听看 Suno 放出的这个声音小样，就这声线让我苦等了两周。

感觉 Suno 越做越像 AI 声音克隆的 ElvenLabs 了，提到做英文的时候 Top1 肯定是它，但换成中文后，马上就拉胯。可惜现在的中文音乐生成还没有迎来它的 GPT-SoVITS。

这次测评我将按照制作难度分为中文歌曲（寄明月、陶喆）、纯音乐（古风、Jazz）、外文歌曲（APT、Random）三个维度，Here we go！

中文歌曲

为了更直观体现出 V4 的效果，我会采用一样的歌词和提示语。

最近在看永夜星河，被《寄明月》洗脑了，而在百科里《寄明月》的定义是“全新电子国风EP，将中国传统乐器与现代电子乐融合，借鉴多民族元素，创造出丰富多彩的视听盛宴”，听上去实现的难度还蛮很大：

V3.5

辣评一下：

歌曲本身是线性的，但是提示语只有一句。所以我通常在提示语里会按照出现的顺序放乐器，比如“古筝与琵琶交织，唢呐点缀”，但是 V3.5 看不懂，会打乱顺序，而V4对旋律的理解会更好，乐器过渡更加自然。
直观能听到，V4 出来的人声更加清晰，能实现群唱的效果，高低音的部分的转换也更加平滑。虽然有些歌词的转折还是会觉得突兀，但这个片段我还是能打个7.5分。
将歌词片段拓展到2mins的长度后，还是会出现旋律重复、歌词乱出的老毛病。

曲风切换

翻唱 (Covers)这个功能有给到我惊喜，将原曲切换成R&B后，前奏很抓耳，整体过渡比较平滑，曲风起换的同时没有丢失原曲的特点。

这里额外说说我作为一个音乐小白，平时是怎么得到我想要的曲风的，在 GPTs 里找到 suno prompt，将自己想要的【场景】+【乐器】+【音乐流派】作为输出，基本就能得到初版的提示语。

AI音乐的提示语不适宜过长，如果效果不是你想要的，我建议先去掉将场景，情感等较难量化的词。

一起听听更多的效果：

陶喆用《天天》旋律唱《小镇姑娘》- R&B - Suno版

结尾还有掌声，以及live版本的经典对话，

写到一半都觉得自己是个音乐🎵频道了～

纯音乐

对纯音乐的话，我会有更高的标准。开头我也提到日常制作 AI 视频的时候，就会用到 Suno。在Suno 出圈的几个视频里，它也都起到了背景音乐的作用，也可以说它的商业价值更体验在纯音乐上。

而背景音乐主要是为了画面服务，所以我打算挑战一下我半年前反复失败的古风：

v3

当时的缺点还是蛮明显的。一是重复片段多，可用的时长少，其次就是高音部分，乐器很容易破音。

v4

现在每个音更加清晰了，古筝为主乐器的前提下，鼓的加入也不会显得突兀。整体来说更加跌宕起伏，可以使用的片段变长了，遗憾的是还存在一小部分的破音。

那我们再听听 Suno 官方支持的其他音乐流派：

Happy Jazz

听 Suno 生成的纯音乐的时候，就觉得四分钟不够用了～

英文歌曲

英文歌曲的部分我打算用来测试一下 Personas（人声克隆）和歌词模型 ReMi。这两个功能目前都仅限英文。

具体来说，人声部分用于检验 Suno 对音乐审美的把控，而随机填词部分则用于评估 Suno 的填词创意：

Personas（人声克隆）

人声克隆会将环境音也复制进去，对人的发音保留得很完整，听下来跟原唱相似度有个7成。但因为人声克隆目前只能录入一首歌，如果生成的歌曲与人的曲风差异过大，效果会有点抽风。完整听下来，更多的感受是方便，之前实现AI孙燕姿的那套工作流可以退休了。

随机歌词 + City-Pop

生成出来的音乐可以说是跟 City-Pop 这个曲风没啥关系。歌词听着挺像回事，但翻译成中文就能看出太过于离谱。图一乐就好，玩歌词还是要上 Claude。

一篇文章只能插十个视频，根本没听够啊！

写在最后

总体来说，Suno V4 给我一种意犹未尽的感觉，让我期待听到 V5，甚至V6。

V4在人声、乐器、曲调旋律、以及音乐风格等都有不同程度的提升，最难得的是这一切是发生在对手们都几乎停下来不再更新的时间点，

当时我的第一反应是：“Suno 怎么还能更新？”

跟 AI 图像、视频相比，AI 音乐是似乎因为每个人听歌的风味不同，多了一点“隐私性”。

好了，但好在哪？说不出口。

我听着 V4 发出的声音，

有种强烈的实感，

“太好了，AI音乐还有更多的创意继续在被实现。”

@ 作者 / 卡尔@ 动手学AI知识库 / learnprompt.pro

最后，感谢你看到这里👏如果喜欢这篇文章，不妨顺手给我们点赞👍｜在看👀｜转发📪更多的内容正在不断填坑中……

今日份的彩蛋码是🎲🎲🎲 评论区发送suno抽取一位幸运鹅

继续滑动看下一个

卡尔的AI沃茨

向上滑动看下一个

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊

薅广电羊毛！100元话费实付94.6元，还有电费96.9充100元！招团长~

警察踢打校园欺凌者：当事人不愿返校，派出所拒收锦旗

疯传！广州地铁突发！警方介入

AI还停留在做背景音乐？我用Suno v4写出了真能用来听的歌

曲风切换

v3

v4

Personas（人声克隆）

随机歌词 + City-Pop

您可能也对以下帖子感兴趣

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊​

薅广电羊毛！100元话费实付94.6元，还有电费96.9充100元！招团长~

警察踢打校园欺凌者：当事人不愿返校，派出所拒收锦旗

疯传！广州地铁突发！警方介入

生成图片，分享到微信朋友圈

AI还停留在做背景音乐？我用Suno v4写出了真能用来听的歌

曲风切换

v3

v4

Personas（人声克隆）

随机歌词 + City-Pop

您可能也对以下帖子感兴趣

你手放哪呢，出生啊