跨时代更新！OpenAI 吹响多模态的号角！语音交互+图像交互+文字图片交互

风清徐徐来 AI变现研习社 2024-06-01

你好，我是清风徐来

这是《ChatGPT ，从入门到精通》系列第 105 篇原创文章。

就在刚刚，OpenAI 再次重大更新！

宣布2周内， ChatGPT将推出新的语音交互和图像识别功能!

这些新功能为 ChatGPT 提供了更直观的交互方式，使用户能够通过语音交谈或展示图像来与 ChatGPT 交流。

这是妥妥的多模态！

赶快更新到 PLUS！共同迎接划时代的更新吧！

《保姆级教程！手把手教你用支付宝开通 ChatGPT plus！》

一、什么是多模态

人类有五种主要感觉，它们是视觉（视觉感知）、听觉（听觉感知）、触觉（触觉感知）、味觉（味觉感知）和嗅觉（嗅觉感知）。

一种媒介就是一种感官的延伸！

多模态 = 多种媒介交互

现在是视觉，包括文本、音频，图片、视频的融合；

未来则是味觉、触觉、嗅觉，甚至红外感知的融合

各种模态进行交互！

未来1-2年，你可以一句话让 AI 生成视频，也可以让 AI 根据 1 幅静态图片，创作动画，编制故事，配上音效，做成电影！

人类媒介历史将迎来颠覆性时代！

二、ChatGPT 新功能

未来两周，GPT4更新如下：

1、语音交互

用户现在可以通过语音与 ChatGPT 进行交流，无论是在旅行中、在家里或是在解决数学问题时，都能通过语音交流来获取帮助。

语音功能在 iOS 和 Android 平台上可用，用户可以在设置中选择加入语音交谈功能。

GPT-4 的新语音功能由一个新的文本到语音模型驱动，能够生成类似人类的音频。

演示视频如下：

要开始使用语音，请前往GPT移动应用程序上的“设置”→“新功能”，然后选择加入语音对话。

点击主屏幕右上角的耳机按钮，从五种不同的声音中选择您喜欢的声音。

新的语音功能由新的文本转语音模型提供支持，能够仅从文本和几秒钟的样本语音中生成类似人类的音频。

OPENAI 与专业配音演员合作创作了每一个声音。使用其开源语音识别系统 Whisper 将用户的口语转录为文本。

这提供了一种新的、更直观的界面，允许用户进行语音对话或向 ChatGPT 显示用户正在谈论的内容。

2、图像交互

用户可以向 ChatGPT 展示一张或多张图片，无论是解决烧烤炉的问题、探索冰箱里的食物，还是分析工作相关的复杂图表，都能得到帮助。

图像理解功能由多模态的 GPT-3.5 和 GPT-4 驱动，这些模型能够应用其语言推理技能来处理各种类型的图像，如照片、截图和包含文本及图像的文档。

使用场景：随时随地，拍照发给 GPT4，即可得到文字+语音+图片的分析和回复！

以下是一个演示视频，演示了用户通过拍照发给 GPT4，AI分析图片，持续和用户交互、沟通！解决自行车故障！

你甚至可以将需要 ChatGPT 关注的部分圈出来，而 AI 也会只关注你圈起来的信息！

3、文字驱动图像

AI 根据用户一句话（可以是具体表述，也可以是一种感觉）生成图片，并根据用户反馈，对图片进行微调，直到用户满意！

还可以让AI推演故事，持续产生图片

另外，今天GPT还升级了用户界面，增加了“语言环境”，自动根据用户调整语言。

三、更新日期

OPENAI 将在接下来的两周内向 Plus 和 Enterprise 用户推出 ChatGPT 中的语音和图像。

语音将在 iOS 和 Android 上提供（在您的设置中选择加入）

图像（DALL-E 3 )将在所有平台上提供。参见《GPT4 + DALL·E 3 全面融合》

以上功能，只是 AI 多模态的冰山一角！

GPT3.5 的用户们，赶紧升级到 plus！《保姆级教程！手把手教你用支付宝开通 ChatGPT plus！》

还没用过 GPT 的小伙伴，先试试《国内直联 GPT！清风 AIchat 手把手保姆级使用教程》，初体验全球第一AI GPT 的魅力吧！

另外，据说 GPT5 已经训练好了，OPENAI 考虑到法律+道德，还在进行微调！

这次 OPEN AI 推出的语音和图像交互，仅是OPENAI 在多模态领域的第一次升级，未来几个月，还有更重大的升级！

谷歌，又一次落后了！

今天就聊到这里！

欢迎大家关注、收藏、点赞、分享哦！注册使用！

以便第一时间收到更多更好玩儿的 ChatGPT 技巧分享哦。

「礼包 1」点击“阅读原文”，访问国内直达的 GPT 网站，享受免费使用权限；

「礼包 2」只需在本公众号内回复“AI”，即可免费获得我们为您精心准备的学习大礼包。

「礼包 3」本公众号历史文章，[文章集锦]

「礼包 4 」如果你想学习 AI 知识，欢迎加入我们的学习群。

请后台发送“入群”或扫描下方二维码进入学习群

继续滑动看下一个

AI变现研习社

向上滑动看下一个

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

三联，刺痛了多少中国人

跨时代更新！OpenAI 吹响多模态的号角！语音交互+图像交互+文字图片交互

一、什么是多模态

二、ChatGPT 新功能

未来两周，GPT4更新如下：

1、语音交互

2、图像交互

3、文字驱动图像

三、更新日期

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

三联，刺痛了多少中国人

生成图片，分享到微信朋友圈

跨时代更新！OpenAI 吹响多模态的号角！语音交互+图像交互+文字图片交互

一、什么是多模态

二、ChatGPT 新功能

未来两周，GPT4更新如下：

1、语音交互

2、图像交互

3、文字驱动图像

三、更新日期

您可能也对以下帖子感兴趣