APP正式通知: 新语音模式即将推出!附: GPT-4o 极简操作手册
看来新语音模式快了!
#《GPT-4o文章集锦》
做了个极简操作手册如下,感兴趣的朋友可以看一看
一、GPT-4o 相关概念
1.什么是 GPT-4o?
GPT-4o 是 OpenAI 公司于 2024 年 5 月 13 日发布的一款多模态新旗舰模型,可以实时跨音频、视觉和文本进行推理。
GPT-4o 全称为 “ChatpGPT-4 Omni”
GPT-4 中的“4”表示是第四代 GPT。
“Omni”的意思是“全能”,GPT-4o 是能跨文本、语音、视觉工作
多模态,即用户可以发文本、声音、视频甚至摄像头直播给 Omni,Omni 会以文本、声音予以回复
有一个“新语音模式”,在这个模式下
最神奇的一点,对话过程中,正在说话的GPT-4o可以被用户用语音打断,用户补充新的信息,然后聊天继续,更符合人与人正常沟通场景
不要小看这个功能,这是独创的,之前的 AI 都没有办法实现,只有等 AI 说完再补充或者手动按停止键!
2.GPT-4o 所有功能正式发布了吗?
答:5 月 13 日只发布了 GPT-4o 的文本功能
语音功能将在未来几周内向 Plus 用户(OpenAI 的会员)发布,视频功能暂时未确定时间
3.什么是 OpenAI 公司?**
OpenAI 是目前全球公认排名第一的 AI 软件公司。成立于 2015 年,旗下产品包括文字 AI “ChatGPT”系列、图片 AI “DALL-E”系列、视频 AI "Sora"等。
4. 什么是 ChatGPT?
通俗讲,ChatGPT 就是 OpenAI 公司基于 GPT 模型构建的一个 AI 聊天机器人。
ChatGPT = Chat + GPT
CHAT 就是聊天,GPT 是创建 CHat 的模型。
用户可以像与人对话一样,使用文字、语音和 GPT 沟通
5.ChatGPT 有哪些版本
答:截止目前,GPT 发布了 4 代版本,即 GPT-1 到 GPT-4
据说,2024 年将发布 GPT-5!
2018 年 GPT1,2022 年底 GPT3.5,2023 年 3 月 GPT4
每个版本,又有不同的小版本。GPT4 目前常用版本包括 GPT-4 Turbo 和 GPT-4o
第一,GPT3.5 和之前的版本是单模 AI,只支持文字对话;GPT4 则是多模 AI(多模=文字+语音+图片+视频)
第二,GPT4 比 GPT3.5 更聪明,懂的东西更多(训练数据更多)。GPT3.5=高中毕业生,GPT4 则是 985 的本科生
6.GPT-4o 与 GPT-4 其他版本的区别?
GPT-4o 是 OpenAI 公司 Omni 团队第一个项目
通过优化算法,GPT-4o 性能提升 5%左右,速度比其他版本 GPT-4 快两倍,API 价格下降 50%
在与视觉能力相关的评估中,GPT-4o 的视觉能力表现优于 GPT-4 Turbo。
多语言:GPT-4o 比 GPT-4 Turbo 改进了对非英语语言的支持。
功能上:GPT-4o 有新语音模式,还可以通过声音、视频检测用户周边环境,对用户“察言观色”,识别用户的情绪和状态,反应又快,会是一个很会聊天的朋友!
7.什么是上下文长度?
答:上下文长度,即你与 AI 对话的总长度,包括你发给 AI 的,AI 回复你的,AI 记住的历史数据。
GPT-4o 目前的上下文窗口为 128k,约 1.4 万个汉字
8.ChatGPT 有记忆吗?
有记忆,分为短期记忆和长期记忆。
短期记忆:即当前对话记忆,所有版本 GPT 都有此功能。ChatGPT 是有记忆的,可以根据上下文连续给出建议,和 ChatGPT 沟通,就好像在和人对话一样。
长期记忆:最新版 GPT4 都有长期记忆功能,GPT4 会根据情况,判定是否是个人信息,然后更新到你的专属数据库。目前测试阶段,详见《GPT 比你自己还懂你?》
9.什么是 AI 的通识
包括 GPT 在内的 AI,都是人类用大量的数据训练出来的,这些数据称为“通识”。
通识有一个截止日,比如 gpt4o 的知识截止日是 2023 年 10 月。
2023 年 10 月至今的信息,由 GPT4o 内置的搜索引擎补充提供。
10.还有其他类似的聊天 AI 么?
答:主流有几十款 LLM AI.有的,除了已经介绍的 KIMI,质谱清言外,谷歌的伯德、Gemini,meta 的 llama 系列、马斯克的 Grock 等。
下图横坐标是速度,纵坐标是质量,圆形大小表示使用成本。
可以看到 GPT-4o,性能较高,速度较快,使用成本中等偏上。
11.GPT-4o 的应用场景
有了 GPT-4o 新语音模式加持,应用非常广泛!
在 GPT-4o 的新语音模式下,用户与 GPT-4o 沟通,感觉很自然,对话如真人般丝滑
有语音模式的加持,可以广泛的使用在日常交流、工作学习中,细分领域包括日常对话、教育、聊天、学外语、教育辅导
奥特曼在接受采访时说:
“因为我认为这是使用计算机的一种非常棒的方式。实际上,我们很久以前就有了语音控制计算机的想法。你知道的,我们有 Siri,之前还有其他类似的技术。但它们从来没有让我感觉到使用起来很自然。这个新技术,由于很多原因——它的功能、速度、增加的多模态支持、语调的自然性等——让使用体验大大提升。你可以轻松地调整说话速度或改变声音,它的流畅性和灵活性让我非常喜欢。
有个特别惊喜的用途是在我全神贯注工作时,将手机放在桌子上。然后在不需要切换窗口或改变我正在做的事情的情况下,将它作为另一个通信渠道。这样我就可以在继续工作的同时,询问并立即得到回答,而不需要转移视线,这真的很酷。”
采访全文见《OpenAI 创始人 Sam Altman 谈 GPT-4o》
使用场景见《10 年前是科幻,10 年后是现实》
12.GPT-4o 可以免费使用吗?
免费注册用户可以使用 GPT-4o!
对于免费用户,GPT-4o 每 3 小时有 10 条请求的限额,并且支持上传文件。一旦达到限额,它会自动切换回 GPT-3.5 模型
对于付费的 Plus 用户,GPT-4o 每 3 小时有 80 条请求的限额,而 GPT-4 每 3 小时有 40 条请求的限额
不过我有免费白嫖大法,如果你有一点技术,可以关注公众号“浩瀚的苍穹“,我传授你白嫖大法,省 20 美元/月。
13.GPT-4o 会犯错吗?
答:会!所有 AI 都会犯错
聪明的 AI 或能联网的 AI 犯错几率小一点。注意官网对话框下面那行小字:
“ChatGPT 也可能会犯错。请核查重要信息。”
二、GPT-4o 的安装
可以通过两个途径使用 GPT-4o
第一,官网使用;第二,国内调用官方 API 构建的网站比如“清风 AI”(点击“阅读原文”直达)
14. 如何安装 GPT-4o?
官方的 ChatGPT 有网页版、APP 版本(支持安卓/苹果),5 月 13 日刚推出的 MAC 桌面版(windows 年内推出)
同一账号登录,网页版、APP 版数据自动同步
(1)网页版
网页版不需要安装,科学后登录官网后使用,网址 chatgpt.com
(2)APP 版本
支持安卓和苹果手机,开通方式详见《手机安装 ChatGPT 方法》
安卓手机到谷歌应用商店安装,如果你是华为手机,安装难度较大,较为可行的是安装“华谷套件“(第三方收费软件),详见《答疑 1》
(3)桌面 MAC 版本
桌面版就是在台式电脑、笔记本电脑上可以使用的版本
5 月 13 日,OpenAI 推出了第 1 款桌面版 ChatGPT,暂时只有 MAC 版,Winddows 晚一点出来
仅支持 MacOS14 和 Apple Silicom(M1 或更高)
ChatGPT Mac 桌面版安装包(官方版)
下载链接:
https://pan.baidu.com/s/1zXd8BgJqf9-koYHiTXJeZA?pwd=dm8s
提取码: dm8s
安装后,通过简单的键盘快捷键(Option + Space),可以立即向 ChatGPT 提问。
您还可以直接在应用程序中截取屏幕截图并进行讨论:
您还可以直接在应用程序中截取屏幕截图并进行讨论。详细了解如何使用 MacOS 应用截取屏幕截图。
15.ChatGPT 国内能直接使用么
答:国内不能直接登录官网。但国内二次开发的镜像可以直接登录
如 www.91gpt.site,(点击“阅读原文”可达),注册后可免费(限额)GPT4o,仅支持文字对话。
16.官网使用 GPT 的方法
目前,官网使用 GPT 有三个状态:不登录状态、免费用户登录状态、Plus 用户登录状态
本文开头用的是“免费用户登录状态”
(1)不登录状态:
能:可以无限制使用 gpt3.5;调用第三方搜索引擎
不能:保留对话历史记录、个性化设置
界面如下:
(2)免费用户登录状态:
能:可以无限制使用 gpt3.5,限量使用 gpt-4o,保留历史记录,调用第三方搜索
限制次数:对高级数据分析、文件上传、视觉、网页浏览和自定义 GPT 等功能的有限访问权限
不能:没有长期记忆功能;没有 gpts 功能;不能优先使用新功能,比如 gpt4o 的新语音(未来几周发布)
界面如下:
免费和收费差别如下:
对于免费用户,GPT-4o 每 3 小时有 10 条请求的限额
对于付费的 Plus 用户,GPT-4o 每 3 小时有 80 条请求的限额,而 GPT-4 每 3 小时有 40 条请求的限额。也就是说 Plus 用户每 3 小时有 120 条 GPT4 可以用!
(3)Plus 用户登录状态
截至 2024 年 5 月 13 日,Plus 用户将能够在 GPT-4o 上每 3 小时最多发送 80 条消息,在 GPT-4 上每 3 小时最多发送 40 条消息。
三、GPT-4o 的注册
17. chatgpt 免费账户的注册
《一文看懂 GPT 注册》
18. Chatpgt Plus 收费会员账户的注册
《保姆级教程!手把手教你用支付宝开通 ChatGPT plus!》
本公众号推荐 wildcard
注册链接 wildcard.com.cn/i/xin7
点击左下角“阅读原文”可直接进入
目前这个平台采用邀请制,如果是没有邀请码,是没有办法注册成功的
填入邀请码有优惠,邀请码:XIN7
wildcard 有改版,改版后流程如下:
(1)注册免费
注册 wildcard,在“Openai 专区“找到 openai 专用浏览器,然后下载这个浏览器,打开,点击 7 天免费试用,登录 gpt 官网,完成注册
**(2)升级 plus ** 还是使用 openai 专用浏览器,在“Openai 专区“,找到 “ChatGPT Plus 一键升级”按钮,根据提示,完成升级
19. 官方 API 的注册
这条普通用户用不着,需要验证境外手机,另外 API 都要收费!
《官方 API 最新申请方法》
20. 第三方平台注册(清风 AI)
《六一促销!国内直联 GPT-4o,优惠最高达 100%!》
21. 第三方 API 申请(野卡)
《API 申请》,这个用于程序开发,小白可以不看
四、GPT-4o 的基础操作
鉴于官方只发布了 GPT-4o 的文字版!新语音功能将在 1、2 月内发布给 PLUS 用户
(关于这点,我已经发文吐槽过了)
下面我们来演示一下基础使用
22. 如何与 ChatGPT 对话?
你发消息给 AI,俗称“提示语”,AI 给出相应的答案。基本技巧是给他一个角色提示,加上清晰的背景,与主题相关的关键词语。
23. 如何得到高质量的回答?
要取得任何一个 AI 良好的回复,需要挑一个优质的 AI(天生丽质),然后会穿衣(套框架),会打扮(提示词)
GPT-4o 是优质的大模型,下面结合基础操作,给大家讲讲套框架和提示词
我们不登录用户、免费用户、Plus 用户 来演示下
以下提示词适用于所有状态
(一)不登录用户
1、演示基础对话
提示词1:“搜索一下中国的房地产住宅最新限购政策”
AI 拒绝了,因为它知识截止 2022 年,无法搜索最新的信息
我们打开第三方搜索插件,问同一个问题,得到了最新信息,每个信息后都有信息网址来源
(二)登录免费用户
我们登录一个免费账户,登录的时候可能会验证是否是真人
如下图,点击按钮,把朝向选得和右图一样即可
2、演示按一定格式输出
我们登录,系统默认是 gpt40,我们发出第二个题词
提示2:你是一个地产公司的HR,你要写一个年度培训计划,要求符合smart原则,量化相关指标
这里我们用了一个万能公式:
万能公式 = 定义用色 + 背景信息 + 任务目标 + 输出要求
得到以下回答:
可以看到格式较乱,我们可以让 AI 按一定格式输出
提示3:你是一个地产公司的HR,你要写一个年度培训计划,要求符合smart原则,量化相关指标,表格格式输出
得到以下回答:
因为我们有“表格格式输出”这几个字,系统显示了表格,而不是纯文本
其他格式还包括 “Markdown 源代码格式”、“流程图格式”
3、演示图片分析
现在免费用户可以使用 GPT-4o 了,虽然只有 10 条/3 小时
可以上传文件,图片分析,可视化数据分析
上传一个图片
提示 4:帮我挑个好吃的瓜
GPT 答复:
“挑选好吃的西瓜可以参考以下几个技巧:
看形状:西瓜的形状要对称,不要有凹凸不平的地方。图中的瓜大多形状都比较对称,但特别要注意 1、2、4、6、10、12 这些瓜,它们的形状比较圆润均匀。
看花纹:好的西瓜花纹清晰,颜色对比明显。2、6、7、10、12 这些瓜的花纹较为清晰明显。
看底部颜色:西瓜底部的颜色应该是黄色或奶油色,而不是白色。黄色的底部表示西瓜成熟度高。9 号瓜的底部有明显的黄色,可能是个不错的选择。
听声音:用手指轻弹西瓜,声音清脆表示瓜熟了,声音沉闷则可能瓜还不熟或过熟。由于图片无法判断声音,这一点可以在实际挑选时再考虑。
重量:同样大小的西瓜,较重的那个含水量较高,更甜。图中看不出具体重量,但可以结合以上几点进行挑选。
综合来看,9 号瓜底部黄色明显,12 号瓜花纹清晰,形状圆润,可能是较好的选择。可以考虑挑选 9 号或 12 号瓜。”
还可以调生鲜,挑榴莲
挑榴莲
4、演示可视化分析
上传一个员工花名册
提示词5:分析这个表格,可视化分析性别和年龄构成
免费的 gpt4o 只给出了 python 代码,没有直接生图
5、演示自定义 chatgpt 功能
点击右上角,录入小红书爆款文案的提示词
记住保存,将按钮点成绿色,另外要新开一个对话,否者保存不生效
提示词6:主题:六一儿童节瓜瓜童装与玩具反斗城联合促销
GPT 会根据内置的提示词,开始标题-正文的撰写
6、临时聊天
另外,免费用户也有“临时聊天”,
如果不想自己的数据用于训练 AI,可以在右上角系统设置中关掉
7、归档
如果觉得某个提示词很好,可以选择归档
归档后的信息可以在系统设置中查看或删除
以上就是免费 GPT 的功能演示
(三)Plus 用户
现在我们登录 PLUS 用户
PLUS 用户主要是在数据可视化分析、GPTs 更有优势
以上就是 GPT-4o 的基本操作
我将在新语音模式开通后,完成详细评测再和大家分享
,