查看原文
其他

玩转 Heygen“视频翻译”!附白嫖大法+数字人开源免费技术介绍

风清徐徐来 AI变现研习社 2024-06-01

你好,我是清风徐来

这是《ChatGPT ,从入门到精通》 系列第 126 篇原创文章。

今天新开一个系列,数字人

AI 消费领域,文本、图像技术都比较成熟,有很重磅的产品;但在视频领域,发展空间还比较大。

今天介绍下“数字人”技术,顺便介绍下heygen和它近期大火的功能“视频翻译"。

heygen是收费的,新用户有1分钟免费体验劵,白嫖方式见文末!

先看两段视频:

女演员霉霉说中文,流利、地道,完全不是配音,口型完美匹配


郭德纲说英语相声:



以上视频其实都是用heygen做的!

下面讲一讲原理和制作方法

一、数字人

(一)数字人的定义

数字人(Digital Human)是一种基于信息技术创造的虚拟人物,

广义上,比如各种游戏、动画里面的人物,都是数字人,

本所讲的数字人,主要指 AI 技术生成的数字人。

我认为 AI 技术生成的数字人有两种:

一种是「虚拟人」

凭空创造的人物,有自己的人设,由 AI 驱动,具备更高级的认知和交互能力,

可以理解自然语言、识别图像和声音,甚至可以生成新的内容,

模拟人类的面部表情、肢体动作和语言交流。

比如,最近短视频"和尚讲佛经"啥的,都是虚拟人。

一种是「克隆真人」

AI 你自己,最高境界是数字孪生。

科幻小说《雪崩》、美剧《上载》、《异次元骇客》里面的数字人 就是此类型。他们在一起,将构成元宇宙。

比如,你完全可以克隆一个自己,放到直播间,和大家交流。

我见过一个产品,一个直播间,左边是克隆的老板,右边是真人销售美女,同台直播带货,两个人还有交互!

至于换脸、更换唇形、声音克隆,只是实现数字人的技术。

(二)数字人的应用场景

应用场景丰富!

「行业多样」

这种数字人可以用于客户服务、虚拟助手、在线教育、娱乐、广告、教育、售前、客户服务、情感陪伴等。

可以基于通识,销售说辞等知识库,与真人进面对面行交互!

前两天,在知识库学习群和同学们交流,

有个同学是面包店老板,他准备在面包商城用知识库 AI 做售前引导

他根据《fastgpt 知识库教程》搭建了 AI 客服如下:

这位同学不禁感叹,ai助理知识丰富,态度好!

知识库 AI 已经可以做到根据消费者的不同提问+个性化需求,综合回答,给出针对性的解决方案!

除了文字外,我们完全可以虚拟一个数字人员工,浓眉大眼地 7X24 小时在线,答疑解惑,

未来再加上人形机器人,虚拟的灵魂+真实的身体,不敢想象!

「跨空间」

不限空间、不限时间。有了数字人,白天黑夜,刮风下雨。就都可以直播。

「跨语言」

比如,heygen 的视频翻译,最常见的场景就是电商!

你想想,抖音上的短视频,一键翻译,直接就可以搬到全球不同国家的 tiktok 上!

(三)数字人的生财之道

如果你有心,完全可以构建自己的数字人!

克隆你自己,用你的声音、你的语言,你的样子、你的思维方式,让这个数字分身做一些事务性或重复性的工作

只要你找到有价值的、有同好的点,写好台词,交给数字分身,让它在你上班的时候,替你搞副业赚钱!

如果你是律师,一个好的医生,一个知识分享者,可以用数字人实现咨询工作;

如果你是一个创业者,你每天清晨、半夜直播,为了拉取大 V 们没时间顾及的流量,有了数字人,再不用熬更守夜;

如果你是一个老板,你可通过数字人,随时随地与消费者互动,引流自己的渠道。

这是一个趋势。我大胆预言!数字人将是未来每个人的标配!

(四)实现数字人的技术

要模拟一个人的音、容、笑、貌,需要用到不同的技术。

大致流程:先用真人数据训练,然后分别克隆声音、口型、面容,最后合成!

使用的时候,把文字台词转化为声音,让数字人表达出来!

「1、收费版」

一些商用平台,有一站解决方案,你只需要按要求上传一段视频,就可以完成克隆,比如 D-ID,heygen

都有免费试用额度!

有些小伙伴会说,现在主流数字人,效果好都是收费的,比如硅基、腾讯、芽势、heygen,最便宜的小冰数字人都要几大千。太贵,用不起!

别急!首先,收费版都有一些试用额度,多注册几个账号,玩一玩还是可以的;

其次,有一些开源免费的软件,如果你懂一点技术,还可以得到相对不错的效果。比如, AI 绘画领域, MJ收费,但还有免费的 SD!

最后,技术在不断发展,成本也在下降。只要有需求,肯定会有低价的那一天。先把技术掌握了,掌握先机!

「2、免费版」

文本语音互转:文本语音互转不难,用之前分享的《通义听悟:免费语音视频转文字》、主流剪辑软件就可以做到!

声音到文字: whisper

翻译:chatgpt

语音克隆:MockingBird(号称 5 秒完成克隆),bark(文字到声音),so-vits-svc(Github:https://github.com/svc-develop-team/so-vits-svc

口型调整 GeneFace++,生成符合音频的嘴型视频,github.com/yerfor/GeneFace

视频+语音合成:Wav2Lip(对口型)、video-retalking

图片+口型训练: so-vits-svc

「3、直播」

前期AI辅导直播,大致是先录好,然后直播的时候抓弹幕,让 chatgpt 回答,然后转换为语音、视频,插到录播中。

目前采用较多的是“直播延迟10秒”大法。

二、Heygen 视频翻译

前面的霉霉说中文,郭德纲说英语相声,都是 AI 视频工具 heygen 的作品!

下面教你如何操作

一、原理

「声音克隆+自动翻译+嘴型调整」

比如,郭德纲飚英文相声。

原视频是郭的天津相声!通过 AI 技术处理后,先克隆了郭德纲的声音,然后将语音转成文字,翻译后,再用克隆好的郭的腔调发音!AI调整口型,最后音频视频合并!

二、技术实现

(一)本地部署:开源免费版

开源方案:

  • 语音转文字:whisper 或 前天介绍的 通义听悟

  • 文字翻译:GPT

  • 声音克隆+生成音频:so-vits-svc

  • 嘴型调整:GeneFace++

(二) Heygen 网站:收费版,一站搞定

付费方案:HeyGen 的视频翻译功能(新用户有1分钟免费额度)

全套解决地址:https://labs.heygen.com/video-translate

对于 heygen,我们并不陌生

中国人的公司,定位就是服务境外电商

5 月份介绍过一期 《保姆级教程:5 分钟, AI 你自己》

这个教程详细介绍了 heygen 的注册、一张图片制作口播数字人。

当时 heygen 在数字人领域,效果已是公认的行业领先

过了几个月,技术再次升级!界面也做了较大调整。

三、 Heygen 视频翻译

Heygen :公司名叫诗云科技(没错,三体那个诗云),创始人 Joshua Xu ,成立于 2020 年。

公司定位于“做不输 Midjourney 的 AI 视频生成器

「具体操作步骤」

只需要 两 步即可完成视频翻译。

  1. 注册账号
  2. 视频翻译

(一)注册 heygen

「1. 访问网站」

官网:heygen.com

点击本文左下角“阅读原文”,可以观看视频效果(5月份的早期技术,效果一般),然后点击注册!

或者访问 91AItools 网站,找到“数字人”栏目,点击第一个“Heygen AI 视频“:

打开 HeyGen 网站后,界面如下,白衣帅哥不是模特,是公司创始人!

「2. 验证邮箱」

未注册点击“sing up ",在注册界面输入你的邮箱地址,点击“send code”。

系统会给你的邮箱发一封邮件,给你一个随机验证码。

在浏览器新开一个页面,打开你的邮件。打开收到的 hengen 官方邮件,点开界面如下:

复制这个数字,输入到刚才的注册界面,点击“next step”

「3. 设置密码」

在这个界面输入你的登录密码,密码要求 8 位及以上长度,必须同时包含大写字母、小写字母,数字。完成后点“done”。

注意,验证码 60 秒内有效,你必须在“send code” 后 60 秒内,完成密码输入。

「4. 完成登录」

用你设置的邮箱和密码,登录进入 HenGen 网站。

进入后,会跳出一个页面,让你选择你的基本情况,这是软件厂商在收集数用户信息啊,按你的情况选择即可,选好一个点一次 continue

二、基本版块

完成基本信息设置后,显示界面如下:

几个栏目说明一下:

「① 点数」

新用户注册即送 1 个点,1 个点=1 分钟。你可以用于训练 1 分钟的视频或克隆 1 分钟的语音。

本文最后我会分享免费白嫖方法。

「② Template(模版)」

里面有大量官方模版,你也可以在这里训练自己的模版。

点击官方模版后,点新建,即可基于此模版新建数字人。

以下是基本操作:大概原理,输入你想让数字人说的台词,然后选择配音类型,点创建即可。近期我会单独分享一期具体教程。

「② Avatar」

数字人,用户上传自己的照片或者视频,训练自己的数字孪生。

具体操作可见《5 分钟,AI 你自己》,我对照了下,照片训练功能基本相同。

「④ Voice:声音克隆」

「⑤ video:」

这里是你所有的视频项目

新用户,所以是空的

「⑥ ASSET」:用户可自定义公司的 vi 系统

「⑦ Video Translate」:今天的主角,视频翻译!

(二)视频翻译

进入“视频翻译”后,界面如下

「1、选择一个视频」

上传的视频要求
  • 尽量避免背景音乐和噪音,因为它们会降低输出音频的质量。
  • 尽量避免多人。
  • 分辨率必须介于 360x360 和 4096x4096 之间。
  • 持续时间必须在 30 秒到 5 分钟之间。

「2、选择目标语言」

主流语言基本都支持

“目标语言”选择“普通话”,选择一段大表姐的视频。视频不能少于30秒。

提示将消耗 1 个卡点

上传后显示排队人数。不多,也就小 4 万人,:)

不愿意等,可以点升级!

按年付,1 个月 48 美元,可生成每月合计 30 分钟,单个最长 5 分钟的视频,三个上传的模板

1 分钟约 12 元人民币!

HeyGen 免费试用,需要等待很长时间。

以下为白嫖方式,不清楚可以进学习群问我!

1、多注册几个邮箱!

2、分享制作的heygen,官方送积分

网站为了扩大影响力,也给出了福利:只要通过创作者本人分享的链接注册了新用户,且该新用户创作了一个视频,那么邀请者就会获得一个积分!

懂技术的小伙伴也可以寻找开源替代方案,比如前面讲的语音转文字 whisper、文字翻译 GPT、声音克隆 + 生成音频 MockingBird、so-vits-svc、bark;生成符合音频的嘴型视频 GeneFace++,Sync labs;视频+语音合成_:Wav2Lip(对口型)、video-retalking。

我会结合场景,和大家逐一分享上述开源软件!

好啦,今天就讲到这里!

最后,欢迎加入学习群,免费群名额有限!


或者直接加入 VIP 群,干货更多,答疑更及时,每天分享最新 ChatGPT 实用干货和AI赚钱方法!

加入VIP方式点击公众号文章《VIP 学习群已开通!入群方式+文章集锦》(定期涨价,早入早好!)

不懂就问,言多必得!


5分钟搞定!AI 写工作总结+ 自动生成 PPT
月之暗面 AI ,1秒搞定20 万字贵州茅台年报
通义听悟:免费!语音视频转文字 AI 利器
保姆级教程!手把手教你支付宝开通 ChatGPT plus!
可视化!用 GPT4 十分钟内完成泰坦尼克号生存分析
FastGPT + Chatgpt-on-wechat + 亚马逊免费VPS+AI助理:企业知识库接入微信群! 保姆级教程
国内直联 GPT!清风 AIchat 手把手教程

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存