AI杀疯了 | AI歌手出道了
孙燕姿、周杰伦可以说是我们这代人的青春,随着时光的飞逝,他们慢慢老去了,我们也慢慢老去了。我很遗憾的是学生时代买不起演唱会的票,现在挣钱了,但他们不开演唱会了……没想到AI技术的发展,可以让那些年你追的明星用你记忆中的音色,唱歌给你听!先来一起品味一下用AI+孙燕姿的音色,唱周杰伦的《一路向北》:
AI生成歌曲介绍
能实现AI生成歌曲,主要是依赖于一个开源项目:so-vits-svc
它的原理简单来说,就是下图的过程,用一句话来总结,就是用AI模拟目标音色特征,然后再通过AI模型推理替换输入源的声音。
原开源项目地址:https://github.com/svc-develop-team/so-vits-svc
上述项目,目前已经停止维护了,但有大神共建了其他项目,使得AI生成音频领域一夜爆火。
我本来也费劲地想从原始项目里,进行研究,发现门槛还是比较高的,浪费了很多时间后,决定还是站在巨人的肩膀上,后续的教程内容均采用了B站AI生成音频领域的大神“羽毛布団”,主要参考视频:
https://www.bilibili.com/video/BV1H24y187Ko
那么我们马上开始吧,火速拥有你自己的AI歌手~
安装so-vits-svc
①获得所需的软件:可以去B站“羽毛布団”,视频备注里获得下载链接。(https://www.bilibili.com/video/BV1H24y187Ko)
需要下载以下内容:
新版整合包:so-vits-svc整合包,不用自己配置环境,大大节省了时间
UVR5:用来对音频做人声和背景拆分的软件
Audio Slicer:用来将音频切分和数据预处理的软件
②收集待训练音频数据:即你想要训练的AI模型的音频目标,比如孙燕姿,但需要注意,这块有版权风险,原则上需要取得数据集音声来源的授权许可,如果没有授权,那么生产出的内容不要拿来进行商业化哦~
③分离人声和背景音:安装UVR5软件,并按安装包里的说明,把安装包里的模型文件夹解压到Ultimate Vocal Remover\models里。
分离人声和背景音:首先需要分离人声和背景音,打开UVR5软件,按下图中的配置选项处理。
CHOOSE PROCESS METHOE:Demucs
CHOOSE STEM:Vocals
SEGMENT:10
CHOOSE DEMUCS MODEL:v3 | UVR_Model_1
同时需要勾选GPU Conversion,使用GPU加速,不然处理会非常慢
这一步处理完成后,每一个源音频都会拆分为2个文件:
我们需要对Vocals的文件继续处理。
消除混响和声:对上一步产生的Vocals文件继续处理,将UVR5软件的参数按下图配置,这一步是将分离出来的人声去消除混响和声,以使训练效果更好。
CHOOSE PROCESS METHOE:VR Architechure
WINDOEWS SIZE:320
AGGRESSION SETTING:10
CHOOSE VR MODEL:5_HP-Karaoke-UVR
同时需要勾选GPU Conversion和Vocals Only
处理完成后,会得到目标人声的训练数据集,记得名称不能带中文哦,不然后续训练会报错。
④切分训练集音频:
上一步得到的音频,文件比较大,这时需要使用Audio Slicer软件来切分数据集,双击“slicer-gui.exe”以运行软件,将上一步中得到的音频文件拖入到软件中,右侧的参数先采用默认的即可,点击“Start”开始切分数据集。
有时你得到的切分文件还是很大,这时可以将文件再次拖入软件,然后调小下图红框中的数值,使切分的音频在3~15秒之间。
处理完训练音频后,将整个训练集音频,复制到so-vits-svc整合包中的dataset_raw文件夹下,至此,准备工作完成。
开始训练你的专属AI歌手
①载入训练数据:点击so-vits-svc整合包中的“启动webui.bat”文件,等待片刻后会自动打开可视化训练界面。此时,选择“训练”,点击“识别数据集”,如果没有报错,说明数据集存放正确。
②数据预处理:选择训练分支这里,建议选择“vec768-layer12”,然后点击“数据预处理”按钮。
等待处理训练数据集,进度正常到100%时,没有报错,则数据准备工作完成。
③设置超参数:下图中,全部选择默认的设置即可,注意检查一下“当前使用训练分支”这个部分,需要跟之前的选择训练分支和训练集名称保持一致。
④开始训练:点击“从头开始训练”按钮,会弹出一个新的窗口,模型训练开始,这里大家需要关注一下“reference_loss”的数值,越低越好。
模型的训练是不会自己停的,一般训练个2000步,基本就够用了,点击Ctrl+C键即可暂停训练,并且会保留之前训练的节点,之后还可以继续训练。
试试效果
选择“推理”,在“模型选择”里,选一个刚才训练好的模型,点击“加载模型”按钮,如果展示“模型加载成功”即代表模型可用。
上传目标音频:这里指你想要替换音色的目标音频,也需要用UVR5软件对目标音频进行人声分离和消除混响和声,得到的目标音频也是一个只有人声的音频。
然后直接点击“音频转换”,等待片刻后,即可在下方得到AI生成的全新音频。
之后再使用剪影等软件,将生成的人声和背景音重新合成一下,即可得到最终的成果!
备注:如果你从别人那里得到了训练好的现成模型,可以放在以下目录中,直接使用:
G模型放在:.logs\44k
配置文件放在:.\configs
以上就是今天的所有内容了,有问题可以随时问我,知无不言~
可以在公众号输入【AI生成语音】,快速获得所需的文件。
干声来自:Seammy赵乃吉,https://www.bilibili.com/video/BV1Sf4y1U76o
往期回顾
AI绘画相关:
补全AI绘画最后一块拼图 | 用ControlNet精准绘图
ChatGPT相关:
推荐一款工作提效小程序:
关注我,跟我一起疯狂学习AI,请在右下角点一下“在看”~