玩转 Heygen“视频翻译”！附白嫖大法+数字人开源免费技术介绍

Original 风清徐徐来 AI变现研习社 2024-06-01

你好，我是清风徐来

这是《ChatGPT ，从入门到精通》系列第 126 篇原创文章。

今天新开一个系列，数字人。

AI 消费领域，文本、图像技术都比较成熟，有很重磅的产品；但在视频领域，发展空间还比较大。

今天介绍下“数字人”技术，顺便介绍下heygen和它近期大火的功能“视频翻译"。

heygen是收费的，新用户有1分钟免费体验劵，白嫖方式见文末！

先看两段视频：

女演员霉霉说中文，流利、地道，完全不是配音，口型完美匹配

郭德纲说英语相声：

以上视频其实都是用heygen做的！

下面讲一讲原理和制作方法

一、数字人

（一）数字人的定义

数字人（Digital Human）是一种基于信息技术创造的虚拟人物，

广义上，比如各种游戏、动画里面的人物，都是数字人，

本所讲的数字人，主要指 AI 技术生成的数字人。

我认为 AI 技术生成的数字人有两种：

一种是「虚拟人」

凭空创造的人物，有自己的人设，由 AI 驱动,具备更高级的认知和交互能力,

可以理解自然语言、识别图像和声音，甚至可以生成新的内容,

模拟人类的面部表情、肢体动作和语言交流。

比如，最近短视频"和尚讲佛经"啥的，都是虚拟人。

一种是「克隆真人」

AI 你自己，最高境界是数字孪生。

科幻小说《雪崩》、美剧《上载》、《异次元骇客》里面的数字人就是此类型。他们在一起，将构成元宇宙。

比如，你完全可以克隆一个自己，放到直播间，和大家交流。

我见过一个产品，一个直播间，左边是克隆的老板，右边是真人销售美女，同台直播带货，两个人还有交互！

至于换脸、更换唇形、声音克隆，只是实现数字人的技术。

（二）数字人的应用场景

应用场景丰富！

「行业多样」

这种数字人可以用于客户服务、虚拟助手、在线教育、娱乐、广告、教育、售前、客户服务、情感陪伴等。

可以基于通识，销售说辞等知识库，与真人进面对面行交互！

前两天，在知识库学习群和同学们交流，

有个同学是面包店老板，他准备在面包商城用知识库 AI 做售前引导

他根据《fastgpt 知识库教程》搭建了 AI 客服如下：

这位同学不禁感叹，ai助理知识丰富，态度好！

知识库 AI 已经可以做到根据消费者的不同提问+个性化需求，综合回答，给出针对性的解决方案！

除了文字外，我们完全可以虚拟一个数字人员工，浓眉大眼地 7X24 小时在线，答疑解惑，

未来再加上人形机器人，虚拟的灵魂+真实的身体，不敢想象！

「跨空间」

不限空间、不限时间。有了数字人，白天黑夜，刮风下雨。就都可以直播。

「跨语言」

比如，heygen 的视频翻译，最常见的场景就是电商！

你想想，抖音上的短视频，一键翻译，直接就可以搬到全球不同国家的 tiktok 上！

（三）数字人的生财之道

如果你有心，完全可以构建自己的数字人！

克隆你自己，用你的声音、你的语言，你的样子、你的思维方式，让这个数字分身做一些事务性或重复性的工作

只要你找到有价值的、有同好的点，写好台词，交给数字分身，让它在你上班的时候，替你搞副业赚钱！

如果你是律师，一个好的医生，一个知识分享者，可以用数字人实现咨询工作；

如果你是一个创业者，你每天清晨、半夜直播，为了拉取大 V 们没时间顾及的流量，有了数字人，再不用熬更守夜；

如果你是一个老板，你可通过数字人，随时随地与消费者互动，引流自己的渠道。

这是一个趋势。我大胆预言！数字人将是未来每个人的标配！

（四）实现数字人的技术

要模拟一个人的音、容、笑、貌，需要用到不同的技术。

大致流程:先用真人数据训练，然后分别克隆声音、口型、面容，最后合成！

使用的时候，把文字台词转化为声音，让数字人表达出来！

「1、收费版」

一些商用平台，有一站解决方案，你只需要按要求上传一段视频，就可以完成克隆，比如 D-ID，heygen

都有免费试用额度！

有些小伙伴会说，现在主流数字人，效果好都是收费的，比如硅基、腾讯、芽势、heygen，最便宜的小冰数字人都要几大千。太贵，用不起！

别急！首先，收费版都有一些试用额度，多注册几个账号，玩一玩还是可以的；

其次，有一些开源免费的软件，如果你懂一点技术，还可以得到相对不错的效果。比如， AI 绘画领域， MJ收费，但还有免费的 SD！

最后，技术在不断发展，成本也在下降。只要有需求，肯定会有低价的那一天。先把技术掌握了，掌握先机！

「2、免费版」

文本语音互转：文本语音互转不难，用之前分享的《通义听悟：免费语音视频转文字》、主流剪辑软件就可以做到！

声音到文字: whisper

翻译:chatgpt

语音克隆：MockingBird（号称 5 秒完成克隆）,bark（文字到声音），so-vits-svc（Github：https://github.com/svc-develop-team/so-vits-svc

口型调整： GeneFace++，生成符合音频的嘴型视频，github.com/yerfor/GeneFace

视频+语音合成：Wav2Lip（对口型）、video-retalking

图片+口型训练： so-vits-svc

「3、直播」

前期AI辅导直播，大致是先录好，然后直播的时候抓弹幕，让 chatgpt 回答，然后转换为语音、视频，插到录播中。

目前采用较多的是“直播延迟10秒”大法。

二、Heygen 视频翻译

前面的霉霉说中文，郭德纲说英语相声，都是 AI 视频工具 heygen 的作品！

下面教你如何操作

一、原理

「声音克隆+自动翻译+嘴型调整」

比如，郭德纲飚英文相声。

原视频是郭的天津相声！通过 AI 技术处理后，先克隆了郭德纲的声音，然后将语音转成文字，翻译后，再用克隆好的郭的腔调发音！AI调整口型，最后音频视频合并！

二、技术实现

（一）本地部署：开源免费版

开源方案：

语音转文字：whisper 或前天介绍的通义听悟
文字翻译：GPT
声音克隆+生成音频：so-vits-svc
嘴型调整：GeneFace++

（二） Heygen 网站：收费版，一站搞定

付费方案：HeyGen 的视频翻译功能（新用户有1分钟免费额度）

全套解决地址：https://labs.heygen.com/video-translate

对于 heygen，我们并不陌生

中国人的公司，定位就是服务境外电商

5 月份介绍过一期《保姆级教程：5 分钟， AI 你自己》

这个教程详细介绍了 heygen 的注册、一张图片制作口播数字人。

当时 heygen 在数字人领域，效果已是公认的行业领先

过了几个月，技术再次升级！界面也做了较大调整。

三、 Heygen 视频翻译

Heygen :公司名叫诗云科技（没错，三体那个诗云），创始人 Joshua Xu ，成立于 2020 年。

公司定位于“做不输 Midjourney 的 AI 视频生成器”

「具体操作步骤」

只需要两步即可完成视频翻译。

注册账号
视频翻译

（一）注册 heygen

「1. 访问网站」

官网：heygen.com

点击本文左下角“阅读原文”，可以观看视频效果（5月份的早期技术，效果一般），然后点击注册！

或者访问 91AItools 网站，找到“数字人”栏目，点击第一个“Heygen AI 视频“：

打开 HeyGen 网站后,界面如下，白衣帅哥不是模特，是公司创始人！

「2. 验证邮箱」

未注册点击“sing up "，在注册界面输入你的邮箱地址，点击“send code”。

系统会给你的邮箱发一封邮件，给你一个随机验证码。

在浏览器新开一个页面，打开你的邮件。打开收到的 hengen 官方邮件，点开界面如下：

复制这个数字，输入到刚才的注册界面，点击“next step”

「3. 设置密码」

在这个界面输入你的登录密码，密码要求 8 位及以上长度，必须同时包含大写字母、小写字母，数字。完成后点“done”。

注意，验证码 60 秒内有效，你必须在“send code” 后 60 秒内，完成密码输入。

「4. 完成登录」

用你设置的邮箱和密码，登录进入 HenGen 网站。

进入后，会跳出一个页面，让你选择你的基本情况，这是软件厂商在收集数用户信息啊，按你的情况选择即可，选好一个点一次 continue

二、基本版块

完成基本信息设置后，显示界面如下：

几个栏目说明一下：

「① 点数」：

新用户注册即送 1 个点，1 个点=1 分钟。你可以用于训练 1 分钟的视频或克隆 1 分钟的语音。

本文最后我会分享免费白嫖方法。

「② Template（模版）」：

里面有大量官方模版，你也可以在这里训练自己的模版。

点击官方模版后，点新建，即可基于此模版新建数字人。

以下是基本操作:大概原理，输入你想让数字人说的台词，然后选择配音类型，点创建即可。近期我会单独分享一期具体教程。

「② Avatar」：

数字人，用户上传自己的照片或者视频，训练自己的数字孪生。

具体操作可见《5 分钟，AI 你自己》，我对照了下，照片训练功能基本相同。

「④ Voice：声音克隆」

「⑤ video：」

这里是你所有的视频项目

新用户，所以是空的

「⑥ ASSET」：用户可自定义公司的 vi 系统

「⑦ Video Translate」：今天的主角，视频翻译！

（二）视频翻译

进入“视频翻译”后，界面如下

「1、选择一个视频」

上传的视频要求

尽量避免背景音乐和噪音，因为它们会降低输出音频的质量。
尽量避免多人。
分辨率必须介于 360x360 和 4096x4096 之间。
持续时间必须在 30 秒到 5 分钟之间。

「2、选择目标语言」

主流语言基本都支持

“目标语言”选择“普通话”，选择一段大表姐的视频。视频不能少于30秒。

提示将消耗 1 个卡点

上传后显示排队人数。不多，也就小 4 万人，：）

不愿意等，可以点升级！

按年付，1 个月 48 美元，可生成每月合计 30 分钟，单个最长 5 分钟的视频，三个上传的模板

1 分钟约 12 元人民币！

HeyGen 免费试用，需要等待很长时间。

以下为白嫖方式，不清楚可以进学习群问我！

1、多注册几个邮箱！

2、分享制作的heygen，官方送积分

网站为了扩大影响力，也给出了福利：只要通过创作者本人分享的链接注册了新用户，且该新用户创作了一个视频，那么邀请者就会获得一个积分！

懂技术的小伙伴也可以寻找开源替代方案，比如前面讲的语音转文字 whisper、文字翻译 GPT、声音克隆 + 生成音频 MockingBird、so-vits-svc、bark；生成符合音频的嘴型视频 GeneFace++，Sync labs；视频+语音合成_：Wav2Lip（对口型）、video-retalking。

我会结合场景，和大家逐一分享上述开源软件！

好啦，今天就讲到这里！

最后，欢迎加入学习群，免费群名额有限！

或者直接加入 VIP 群，干货更多，答疑更及时，每天分享最新 ChatGPT 实用干货和AI赚钱方法！

加入VIP方式点击公众号文章《VIP 学习群已开通！入群方式+文章集锦》（定期涨价，早入早好！）

不懂就问，言多必得！

5分钟搞定！AI 写工作总结+ 自动生成 PPT
月之暗面 AI ，1秒搞定20 万字贵州茅台年报
通义听悟：免费！语音视频转文字 AI 利器
保姆级教程！手把手教你支付宝开通 ChatGPT plus！
可视化！用 GPT4 十分钟内完成泰坦尼克号生存分析
FastGPT + Chatgpt-on-wechat + 亚马逊免费VPS+AI助理：企业知识库接入微信群! 保姆级教程
国内直联 GPT！清风 AIchat 手把手教程

继续滑动看下一个

AI变现研习社

向上滑动看下一个

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

突然意外坠落！2人身亡！

中美友好合作故事——十万名中国弃婴长大了

中美友好合作故事——十万名中国弃婴长大了

中美友好合作故事——十万名中国弃婴长大了

玩转 Heygen“视频翻译”！附白嫖大法+数字人开源免费技术介绍

一、数字人

（一）数字人的定义

（二）数字人的应用场景

（三）数字人的生财之道

（四）实现数字人的技术

二、Heygen 视频翻译

一、原理

二、技术实现

（一）本地部署：开源免费版

三、 Heygen 视频翻译

（一）注册 heygen

二、基本版块

（二）视频翻译

您可能也对以下帖子感兴趣

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

突然意外坠落！2人身亡！

中美友好合作故事——十万名中国弃婴长大了

中美友好合作故事——十万名中国弃婴长大了

中美友好合作故事——十万名中国弃婴长大了

生成图片，分享到微信朋友圈

玩转 Heygen“视频翻译”！附白嫖大法+数字人开源免费技术介绍

一、数字人

（一）数字人的定义

（二）数字人的应用场景

（三）数字人的生财之道

（四）实现数字人的技术

二、Heygen 视频翻译

一、原理

二、技术实现

（一）本地部署：开源免费版

三、 Heygen 视频翻译

（一）注册 heygen

二、基本版块

（二）视频翻译

您可能也对以下帖子感兴趣