查看原文
其他

速递|ChatGPT向用户推出超逼真语音模式

Maxwell Z Potentials
2024-08-23

图片来源:OpenAI

OpenAI 于本周二开始推出 ChatGPT 的高级语音模式,让用户首次使用 GPT-4o 的超现实音频回复。今天,一小部分 ChatGPT Plus 用户可以使用 alpha 版本,OpenAI 表示该功能将在 2024 年秋季逐步推广到所有 Plus 用户。

今年 5 月,OpenAI 首次展示了 GPT-4o 的语音功能,其快速反应和与真人--尤其是其中一人--惊人相似的声音震惊了观众。这个名叫 Sky 的声音酷似电影《她》中人工助手的扮演者斯嘉丽-约翰逊(Scarlett Johansson)。在 OpenAI 演示之后不久,约翰逊表示,她拒绝了首席执行官山姆-阿尔特曼(Sam Altman)关于使用她的声音的多次询问。OpenAI 否认使用了约翰逊的声音,但随后删除了其演示中显示的声音。今年 6 月,OpenAI 表示将推迟发布高级语音模式,以改进其安全措施。

一个月后,等待结束了(算是吧)。OpenAI 表示,在春季更新中展示的视频和屏幕共享功能将不在本次 alpha 中,而是在 "稍后 "推出。目前,让大家大开眼界的 GPT-4o 演示还只是一个演示,但一些高级用户现在可以使用 ChatGPT 的语音功能了。

ChatGPT 现在可以边说边听

您可能已经尝试过 ChatGPT 目前提供的语音模式,但 OpenAI 表示高级语音模式有所不同。ChatGPT 以前的音频解决方案使用了三个独立的模型:一个模型将你的语音转换成文本,GPT-4 处理你的提示,然后第三个模型将 ChatGPT 的文本转换成语音。但是,GPT-4o 是多模态的,能够在没有辅助模型的帮助下处理这些任务,从而大大降低了对话的延迟。OpenAI 还声称,GPT-4o 可以感知语音中的情感语调,包括悲伤、兴奋或歌唱。

在这次试运行中,ChatGPT Plus 用户将亲眼目睹 OpenAI 的高级语音模式到底有多逼真。TechCrunch 无法在本文发布前对该功能进行测试,但我们将在获得访问权限后对其进行评测。

OpenAI 表示,它将逐步发布 ChatGPT 的新语音,以密切监控其使用情况。阿尔法组的用户会在 ChatGPT 应用程序中收到提示,随后会收到一封电子邮件,说明如何使用它。

在 OpenAI 演示之后的几个月里,该公司表示已与 100 多名会说 45 种不同语言的外部红队人员测试了 GPT-4o 的语音功能。OpenAI 表示,有关这些安全工作的报告将于 8 月初发布。

该公司表示,高级语音模式将仅限于 ChatGPT 与付费配音演员合作制作的四种预设语音--Juniper、Breeze、Cove和Ember。在 OpenAI 5 月份的演示中展示的 Sky 语音已不再适用于 ChatGPT。OpenAI 发言人Lindsay McCallum说:"ChatGPT 不能冒充他人的声音,包括个人和公众人物的声音,并且会阻止与这些预设声音之一不同的输出。"

OpenAI 正努力避免 Deepfake 争议。今年 1 月,人工智能初创公司 ElevenLabs 的语音克隆技术被用于冒充美国总统拜登,欺骗了新罕布什尔州的初选选民。

OpenAI 还表示,它引入了新的过滤器来阻止某些生成音乐或其他受版权保护音频的请求。去年,人工智能公司因侵犯版权而陷入了法律纠纷,而像GPT-4o这样的音频模型则会引发全新类别的公司投诉。特别是唱片公司,他们历来喜欢打官司,已经起诉了人工智能歌曲生成器 Suno 和 Udio。

本文翻译自:https://techcrunch.com/2024/07/30/openai-releases-chatgpts-super-realistic-voice-feature/
编译:ChatGPT

-----------END-----------

🚀 我们正在招募新一期的实习生
🚀 我们正在寻找有创造力的00后创业者

关于Z Potentials
继续滑动看下一个
Z Potentials
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存