跨时代更新!OpenAI 吹响多模态的号角!语音交互+图像交互+文字图片交互
你好,我是清风徐来
这是《ChatGPT ,从入门到精通》 系列第 105 篇原创文章。
就在刚刚,OpenAI 再次重大更新!
宣布2周内, ChatGPT将 推出新的语音交互和图像识别功能!
这些新功能为 ChatGPT 提供了更直观的交互方式,使用户能够通过语音交谈或展示图像来与 ChatGPT 交流。
这是妥妥的多模态!
赶快更新到 PLUS!共同迎接划时代的更新吧!
《保姆级教程!手把手教你用支付宝开通 ChatGPT plus!》
一、什么是多模态
人类有五种主要感觉,它们是视觉(视觉感知)、听觉(听觉感知)、触觉(触觉感知)、味觉(味觉感知)和嗅觉(嗅觉感知)。
一种媒介就是一种感官的延伸!
多模态 = 多种媒介交互
现在是视觉,包括文本、音频,图片、视频的融合;
未来则是 味觉、触觉、嗅觉,甚至红外感知的融合
各种模态进行交互!
未来1-2年,你可以一句话让 AI 生成视频,也可以让 AI 根据 1 幅静态图片,创作动画,编制故事,配上音效,做成电影!
人类媒介历史将迎来颠覆性时代!
二、ChatGPT 新功能
未来两周,GPT4更新如下:
1、语音交互
用户现在可以通过语音与 ChatGPT 进行交流,无论是在旅行中、在家里或是在解决数学问题时,都能通过语音交流来获取帮助。
语音功能在 iOS 和 Android 平台上可用,用户可以在设置中选择加入语音交谈功能。
GPT-4 的新语音功能由一个新的文本到语音模型驱动,能够生成类似人类的音频。
演示视频如下:
要开始使用语音,请前往GPT移动应用程序上的“设置”→“新功能”,然后选择加入语音对话。
点击主屏幕右上角的耳机按钮,从五种不同的声音中选择您喜欢的声音。
新的语音功能由新的文本转语音模型提供支持,能够仅从文本和几秒钟的样本语音中生成类似人类的音频。
OPENAI 与专业配音演员合作创作了每一个声音。使用其开源语音识别系统 Whisper 将用户的口语转录为文本。
这提供了一种新的、更直观的界面,允许用户进行语音对话或向 ChatGPT 显示用户正在谈论的内容。
2、图像交互
用户可以向 ChatGPT 展示一张或多张图片,无论是解决烧烤炉的问题、探索冰箱里的食物,还是分析工作相关的复杂图表,都能得到帮助。
图像理解功能由多模态的 GPT-3.5 和 GPT-4 驱动,这些模型能够应用其语言推理技能来处理各种类型的图像,如照片、截图和包含文本及图像的文档。
使用场景:随时随地,拍照发给 GPT4,即可得到文字+语音+图片的分析和回复!
以下是一个演示视频,演示了用户通过拍照发给 GPT4,AI分析图片,持续和用户交互、沟通!解决自行车故障!
你甚至可以将需要 ChatGPT 关注的部分圈出来,而 AI 也会只关注你圈起来的信息!
3、文字驱动图像
AI 根据用户一句话(可以是具体表述,也可以是一种感觉)生成图片,并根据用户反馈,对图片进行微调,直到用户满意!
还可以让AI推演故事,持续产生图片
另外,今天GPT还升级了用户界面,增加了“语言环境”,自动根据用户调整语言。
三、更新日期
OPENAI 将在接下来的两周内向 Plus 和 Enterprise 用户推出 ChatGPT 中的语音和图像。
语音将在 iOS 和 Android 上提供(在您的设置中选择加入)
图像(DALL-E 3 )将在所有平台上提供。参见《GPT4 + DALL·E 3 全面融合》
以上功能,只是 AI 多模态的冰山一角!
GPT3.5 的用户们,赶紧升级到 plus!《保姆级教程!手把手教你用支付宝开通 ChatGPT plus!》
还没用过 GPT 的小伙伴,先试试《国内直联 GPT!清风 AIchat 手把手保姆级使用教程》,初体验全球第一AI GPT 的魅力吧!
另外,据说 GPT5 已经训练好了,OPENAI 考虑到法律+道德,还在进行微调!
这次 OPEN AI 推出的语音和图像交互,仅是OPENAI 在多模态领域的第一次升级,未来几个月,还有更重大的升级!
谷歌,又一次落后了!
今天就聊到这里!
欢迎大家关注、收藏、点赞、分享 哦!注册使用!
以便第一时间收到更多更好玩儿的 ChatGPT 技巧分享哦。
「礼包 1」 点击“阅读原文”,访问国内直达的 GPT 网站,享受免费使用权限;
「礼包 2」 只需在本公众号内回复“AI”,即可免费获得我们为您精心准备的学习大礼包。
「礼包 3」 本公众号历史文章,[文章集锦]
「礼包 4 」 如果你想学习 AI 知识,欢迎加入我们的学习群。
请后台发送“入群”或扫描下方二维码进入学习群