不止换脸、配音,连同步口型的AI工具都开始盈利了
The Information 最近对 AI 口型同步翻译工具进行了梳理,介绍了几家以深度换脸、模拟配音和口型匹配为主要方向的创业公司。Founder Park 在原文的基础上有所调整。
Captions
利用 AI 轻松实现视频翻译本地化
LipDub 由初创公司Captions开发,这家公司成立于 2021 年,由 Gaurav Misra 和 Dwight Churchill 联合成立。Captions 目前已经获得了红杉资本、a16z、Instagram 联合创始人 Kevin Systrom 和 Mike Krieger 以及 Facebook 前产品设计副总裁 Julie Zhuo 的投资支持。
创始人 Gaurav Misra 来自印度新德里,曾是 Snap 的设计工程主管。Misra 表示,他的成长环境中充满了印地语、英语、旁遮普语和乌尔都语等各种不同的语言。而 Gaurav Misra 还花了数年时间学习法语,这帮助他在欧洲、非洲和中东建立了专业的关系网。
Misra 相信,AI 驱动的翻译和口型匹配技术可以帮助人们更轻松地联系和理解他人。
Captions 以制作 AI 生成的字幕、语音纠正以及在后期制作中纠正视频创作者眼球位置的技术而闻名。Misra 和 Churchill 曾在高盛集团担任产品开发人员,他们早就想在配音翻译中加入口型匹配功能,但没想到会这么快实现。Misra 说:「我们最初认为这项技术需要 10 年时间才能够实现,但现在的技术发展实在太快了,几乎每月甚至每周都有新东西出现。」
LipDub 正在进入一个很有前景的 AI 翻译市场。它的竞争对手包括语音克隆翻译应用 HeyGen 和 Verbalate,以及 Spotify 和视觉特效工作室 Monsters Aliens Robots Zombies 等公司推出的新工具。
过去,许多企业需要聘请多个视频主持人用不同的语言表达同一个故事,而现在,他们可以通过生成式 AI 来实现同样的功能。这些应用程序允许用户上传视频,然后在几分钟内将其转换成流利的土耳其语、法语、阿拉伯语或意大利语。
DeepMedia 公司的创始人 Rijul Gupta 表示:「我们基本上已经完美地实现了这项新技术,任何人都可以克隆任何人的声音,并通过 5 秒钟的音频参考,让它用不同的语言说话。」
在 X 和 Reddit 等网站上,一些知名人士的配音视频已经出现了数千次。Spotify 上个月也加入了这一行列,他们宣布将提供人工智能翻译的播客,让这些播客保持原本音色和语调的同时转换为不同的语言。
目前,演员 Dax Shepard 和 Kristen Bell、麻省理工学院研究员 Lex Fridman 和 Steven Bartlett 等人都有了西班牙语播客,法语和德语翻译也将很快推出。新的 Spotify 工具利用了 OpenAI 最新发布的语音生成技术,可提供更真实的听觉体验。
去年年初,Misra 和 Captions 的团队开始尝试口型匹配技术,并与合作伙伴测试该技术在 Captions 应用程序中的效果。
Misra 坦言,口型匹配技术发展速度比他预期的要快。「这看起来就像是自然地进入下一阶段,创造出一种不像是配音或者人工调整的视频。新的技术让视频看起来非常自然且易于理解。」从测试开始,一种新的可能性便已展示在他们面前。Misra 表示:「就像我们以前在《星际迷航》中看到的那些科技一样,这简直就是科幻!」
Captions 今年 6 月获得了来自 Kleiner Perkins 领投的 2500 万美元的 B 轮融资。目前 Captions 的日活跃用户已达 10 万,Misra 认为 LipDub 推出后该公司将会拥有更多的活跃用户。
目前 LipDub 支持 28 种语言,包括韩语、西班牙语、捷克语、泰米尔语和乌克兰语,它采用零镜头模式,可以在 Captions 的视频生成模型在没见过主题的情况下推出流畅的视频。
LipDubs 的内部机器学习算法经过训练,可以识别讲话人的唇部动作,公司还使用 OpenAI 的 GPT-4 模型,在应用中将视频翻译成不同的语言和方言。这种 AI 配音技术已在 Captions 应用程序中使用,并于今年 3 月发布,吸引了来自世界各地的用户。
Misra 说:「原本无法接触到特定受众的人现在可以做到了。这项技术是乌托邦式未来的完美范例,所以我对此感到非常兴奋。」
Misra 认为,新技术的可能性是无穷无尽的。「我认为直播是一个非常可靠的案例。」Misra 表示:「无论是 Twitch 上的游戏直播,还是不知名的演讲,这些类型的内容都可以通过 AI 轻易地本地化。」
HeyGen
来自中国,7 个月收入百万美元
除了 Captions,还有很多同类型 AI 翻译的公司,比如 HeyGen。HeyGen 是一家拥有数百万用户的 AI 公司,是短视频内容 AI 口型匹配和翻译领域最大的参与者之一。该公司在 9 月 7 日上线视频翻译功能后,在 X 上迅速走红。自此以后,数十个逼真的视频在网上疯传,用户分享了埃隆·马斯克、梅西和马克·扎克伯格用多种外语讲话的片段。
Mark Burginger 是玩具公司 Qubits 的负责人,他曾在一个名为 "鲨鱼坦克"节目中推销他以 STEM 为中心的公司。出于好奇,他于 9 月 13 日试用了 HeyGen 的人工智能翻译功能。他在 X 上发布了一段自己用西班牙语说话的视频,尽管他并不懂西班牙语。
「你能想象一家一年收入不到一百万美元的小型玩具公司能够使用这些价格相当低廉的工具吗?」Burginger 说,他是一名艺术家和发明家,工作地点在北卡罗来纳州亨德森维尔,Burginger 表示,「这有助于与大公司公平竞争。」
HeyGen 的目标是「消除语言障碍」,公司联合创始人兼首席执行官 Joshua Xu 说:「我们设想在未来,用不同语言制作视频内容和传播信息,就像打字一样简单」。
在 X 上发布的一段人工智能生成的视频中,Xu 补充说,Coursera、Khan Academy、和 MasterClass 等教育平台可以通过"多语言化"来扩大影响力。HeyGen 目前支持 10 种输入语言和 8 种输出语言,包括英语、西班牙语、中文、意大利语、印地语和日语等。
HeyGen 首席执行官 Joshua Xu 在创办原名为 Movio 的 HeyGen 之前,来自 Snap 的 XU 和前字节跳动工程师 Wayne Liang 于 2020 年创办了 Surreal(诗云科技)。
当时,Surreal 提供逼真的「深度伪造」产品,「深度伪造」是一种视频合成技术,可以创作出以假乱真的合成视频。这种技术吸引了希望以更有效方式宣传产品的电子商务公司。Surreal 在中国深圳启动运营四个月后,在一轮天使投资中获得了 100 万美元的投资。时至今日,Surreal 仍活跃在中国,在中国的就业和大学网站上发布招聘和实习信息,但 Surreal 的 HeyGen 平台主要在洛杉矶运营,XU 和 Liang 在洛杉矶工作。
Movio 是一个基于 Surreal 引擎的 AI 视频平台,于 2022 年 7 月推出。HeyGen 的产品正式上线后的一年不到,创始人 Joshua Xu 就发表博文表示:HeyGen 在 7 个月内实现了 100 万美元的 ARR(年度经常性收入),并保持连续 9 个月 50% 的月环比增长率。
之后 XU 和 Liang 将 Movio 更名为 HeyGen,自 2020 年以来,HeyGen 和 Surreal 已从红杉资本、IDG 资本、真格基金和百度的风险投资部门百度风投(Baidu Ventures)获得了至少 900 万美元的融资。
盈利模式方面,HeyGen 主要依靠 C 端客户付费,视频生成付费模式分为「创作者(Creator)和商务(Business)」两种,最低 24 美元/月。也支持「声音克隆、人像精调」单独付费。未来将逐步开放 API 接口、团队协作和企业功能。
Verbalate
被播客启发而诞生
除了 LipDub 和 HeyGen 之外,还有一个平台也在涉足该领域,Verbalate也能将用户的视频同步配音成目标语言。不同的是,Verbalate 可以为长达 30 分钟的视频配音。
据该平台创始人 Grant Davies 表示,Verbalate 纯粹是因为疫情流行期间的无聊而诞生的。在 2022 年的一天,Davies 在骑车时听到 Joe Rogan 和 MrBeast 的播客访谈。当时这位 YouTuber 提到,他的频道正在使用配音演员将视频配音成西班牙语、俄语、印地语、葡萄牙语等语言,因为全世界只有不到 10% 的人说英语。Davies 当时正在研究 AI 技术,他们没撒航就觉得他们的团队肯定能够实现这个功能。
Davies 利用自己的营销网络向希望与海外员工沟通的企业客户介绍并销售 Verbalate 的服务。据悉尼一家外包公司 OutSourced Staff 的创始人 Dom Procter 表示:「对我这个销售和营销人员来说,它让我的生活变得更轻松。」
他曾使用 Verbalate 视频向亚洲或东欧的远程员工发送信息,Dom Procter 指出:「用他们的母语制作内容,这改变了游戏规则。」Verbalate 最基本的订阅计划每月 9 美元,允许用户创建一个 10 分钟长的视频,每分钟的额外费用为 1 美元。而 HeyGen 的创作者包月套餐每月 29 美元,可以制作多个视频,每个视频 5 分钟。
其他平台则着眼于更大的市场和更长的视频播放时间。总部位于多伦多的 MARZ 公司主要通过其 LipDub AI 平台(并非 Captions 的 LipDub)吸引对逼真配音感兴趣的电影和电视制作公司。
LipDub AI目前处理一分钟包含多个镜头的视频片段的运行时间不到 20 分钟。虽然该公司目前使用训练片段来制作这些配音,但它希望在年内通过放弃训练片段而只依靠音频和原始片段来加快处理速度。与其他配音平台不同,LipDub AI 不使用大型语言模型,而是使用自己的生成模型,该模型在录音基础上进行训练。
MARZ 市场总监 Tim Reyes 认为,口型合成技术将帮助制片人扩大电影或电视节目的影响力,同时又不会危及演员的工作保障。Reyes 认为:「LipDub AI 实际上为新市场开辟了一大堆机会,这不像其他一些人工智能技术,他们破坏了电影业目前的工作流程。」
除了开拓新市场,这些应用程序的创造者们还有更崇高的理想。Davies 希望,像 Verbalate 这样的翻译程序能够打破人们对自己语言的隐性偏见,甚至培养一种更加全球化的思维方式。
Davies 说,在他的团队在 X 上分享的一个视频中,可以看到来自不同地区的人们用不同语言发表自己的观点,这帮助他思考人们是如何能够跨越国界进行沟通。Davies 认为这有可能让人们变得更人性化一些,因为不同文化背景的人们可以更好地理解彼此。
Davies 表示,即使是政治信息,用你自己的语言也会产生不同的效果,如果我们能够相互倾听,就有可能帮助人类。