首页
下载应用
提交文章
关于我们
🔥 热搜 🔥
1
1
2
1'"
3
123456
4
1'
5
朱令去世一周年,清华学子控诉清华在朱令案中的冷血和无耻
6
kN
7
张靓颖
8
抖音
9
朱令
10
鱿鱼游戏
分类
社会
娱乐
国际
人权
科技
经济
其它
首页
下载应用
提交文章
关于我们
🔥
热搜
🔥
1
1
2
1'"
3
123456
4
1'
5
朱令去世一周年,清华学子控诉清华在朱令案中的冷血和无耻
6
kN
7
张靓颖
8
抖音
9
朱令
10
鱿鱼游戏
分类
社会
娱乐
国际
人权
科技
经济
其它
《鱿鱼游戏2》今天下午四点开播,网友无心上班了,导演悄悄剧透
人民日报征集“中美友好合作故事”,令人感奋
刘恺威近况曝光,父亲刘丹证实已分手,目前失业在家,没有资源
紧急通告!三高的“克星”终于被找到了!!不是吃素和控糖,而是多喝它....
话费充值活动来了:95元充值100元电话费!
生成图片,分享到微信朋友圈
查看原文
其他
DeepMind推出新型AI,为视频生成音轨和对话
Kyle Wiggers
AI新智能
2024-09-06
//
DeepMind,是谷歌的人工智能研究实验室,宣布他们正在开发一种为视频生成音轨的AI技术。
在其官方博客的帖子中,DeepMind表示,他们将这项技术称为V2A(“视频到音频”的缩写),并视其为AI生成媒体拼图中的重要一环。
虽然包括DeepMind在内的许多机构都开发了视频生成 AI 模型,但这些模型无法生成与视频同步的音效。
“视频生成模型正以惊人的速度发展,但许多现有系统只能生成无声输出,”DeepMind写道。“V2A技术[可能] 成为将生成电影带入现实的有希望的方法。”
DeepMind的V2A技术通过视频搭配音轨描述(例如“水母在水下脉动,海洋生物,海洋”),创建与视频角色和基调相匹配的音乐、音效甚至对话,并由 DeepMind的
防深度伪造技术SynthID添加水印。DeepMind表示,支持 V2A的AI模型是一个扩散模型,通过结合声音、对话记录以及视频片段进行训练。
“通过训练视频、音频和附加注释,我们的技术学会将特定的
音频事件与各种视觉场景联系起来,同时响应注释或记录中提供的信息,”DeepMind说道。
关于训练数据是否受版权保护,以及数据创建者是否被告知DeepMind的工作,目前尚无确切消息。我们已联系Dee
pMind以获取进一步澄清,如果有回复将更新此帖子。
AI驱动的声音生成工具并非新鲜事物。初创公司Stability AI上周刚刚发布了一个此类工具,ElevenLabs也在今年五月推出了一个类似工具。生成视频音效的模型也并不罕见。微软(Microsoft)的一个项目可以从静态图像生成说话和唱歌的视频,Pika和GenreX等平台已经训练模型,可以根据视频内容预测适当的音乐或音效。
但是DeepMind声称其V2A技术具有独特之处,它能够理解视频的原始像素,并自动将生成的声音与视频同步,即使没有描述也是如此。
尽管如此,V2A并不完美,DeepMind也承认这一点。由于基础模型没有在大量带有伪影或失真的视频上进行训练,因此它无法为这些视频生成特别高质量的音频。
总体而言,生成的音频并不十分令人信服;我的同事娜塔莎·洛马斯(Natasha Lomas)形容它为“一堆刻板印象的声音”,对此我也表示赞同。
基于这些原因以及防止滥用,DeepMind表示,他们不会在近期,甚至可能永远都不会向公众发布这项技术。
DeepMind写道:“为了确保我们的V2A技术能够对创意社区产生积极影响,我们正在收集来自领先创作者和电影制片人的多样化观点和见解,并利用这些宝贵的反馈来指导我们的持续研究和开发。在考虑向更广泛的公众开放访问之前,我们的V2A技术将接受严格的安全评估和测试。”
DeepMind将其V2A技术宣传为对档案工作者和处理历史影像的人尤其有用的工具。但沿着这些路线发展的生成式AI也可能颠覆电影和电视行业。这需要一些非常强有力的劳动保护措施,以确保生成式媒体工具不会消除工作岗位,甚至整个职业。(TechCrunch)
继续滑动看下一个
轻触阅读原文
AI新智能
向上滑动看下一个
您可能也对以下帖子感兴趣
{{{title}}}
文章有问题?点此查看未经处理的缓存