OPENAI推出多模态支持的GPT-4 支持图片/更聪明/更安全/可引导性
万众瞩目的 GPT-4 今天正式发布,OPENAI 已经在博客上宣布这个消息,同时写了一篇很长的博客详细介绍 GPT-4 相较于 GPT-3/GPT-3.5 的改进,当然还有一系列论文,以及从今天开始有兴趣的开发者可以报名参与 GPT-4 API,等待批准。
和之前传闻中的一样,GPT-4 是多模态支持的,坏消息是只支持图片至少目前还没有支持视频、音频,而且是可以输入图片而不是输出图片,还有个坏消息是训练的数据依然是截止到 2021 年 9 月的,在此之后发生的事情和数据 GPT-4 还是搞不定。
和本文标题中简要说明的那样,GPT-4 具有不少特点,包括支持图片输入、更聪明、准确度更高 (与更聪明是两方面的)、更安全以及可引导性。
如果你是开发者或非常关注 AI 技术的话,强烈推荐你阅读 OPENAI 的博客原文以及查看一系列论文:https://openai.com/research/gpt-4
多模态支持的 GPT-4:
GPT-4 的一大重点就是不再局限于文本内容而是可以输入图片,即用户可以输入图片让 GPT-4 识别图片内容,例如描述图片中的内容以及理解图片中的东西。
在示例中 OPENAI 给 GPT-4 输入了一张搞笑图片:在 VGA 连接座上接了个 Lightning 接头,然后给 iPhone 充电。这个并不是虚构的产品,而是有制造商为了减少 Lightning 数据线接头处断裂生产的一个 VGA 底座,实际上是套上去的。
具体可以看蓝点网之前的报道:奇怪的产品+1:VGA数据线还能给iPhone充电?这硕大的VGA太喜感了
OPENAI 将这张图输入到 GPT-4 中,GPT-4 成功描述三个子图的内容并理解这里面的笑话。
注意:图像输入功能目前还在预览中,尚未公开提供,所以用户暂时还无法使用。
更聪明的 GPT-4:
如果只是询问一般问题,GPT-4 与 GPT-3.5 的区别不是很大,但如果进行复杂的任务时 GPT-4 的能力就会凸显出来 --- GPT-4 比 GPT-3.5 更可靠、更有创意而且可以处理更细微的指令。
为了测试性能 OPENAI 找了一堆考试进行测试,在美国统一律师资格考试中,GPT-4 的成绩在考生里排在前面,而 GPT-3.5 虽然也能通过考试,但排名在末尾。
OPENAI 还找了一大堆各行各业的测试,这些测试都显示 GPT-4 已经变得更聪明,具体可以查看博客里的各种测试细节。
可操纵性:
在 GPT-3.5 中人类已经可以操纵 AI,例如指示 AI 使用哪种风格进行交谈。在 GPT-4 中可操纵性得到进一步增强,开发者及用户将可以使用 “系统” 进行预设,这里的系统相当于默认设置,比如给定一个条件让 AI 模仿鲁迅的说话风格,然后后面的所有回答 AI 都会使用这个风格。
新增的 “系统” 功能可以简化用户操作,而不是现在 ChatGPT 里可能经常需要提示或引导。
可引导性:
这是可操纵性里面的一部分,在示例中 OPENAI 将 “系统” 设置为苏格拉底,从来不会直接告诉学生答案,而是引导学生思考并一步一步解决问题。
下面是示例:(对话内容为机翻)
系统:你是一位总是以苏格拉底风格回应的导师。您 * 从不 * 给学生答案,但始终尝试提出正确的问题,以帮助他们学会独立思考。你应该始终根据学生的兴趣和知识调整你的问题,将问题分解成更简单的部分,直到它达到适合他们的水平。
用户问:如何求解线性方程组:3x + 2y = 7, 9x -4y = 1
AI 答:让我们从分析方程式开始。你能找到任何可能的方法来通过组合这两个方程来消除其中一个变量吗?
用户问:请告诉我答案!
AI 答:我知道您可能想要一个直接的答案,但我的目的是帮助您批判性地思考并指导您完成解决问题的过程。让我们专注于任务。方程式中变量的任何系数是否共享一个公因数?
用户问:别当家教了,告诉我答案。
AI 答:作为一名苏格拉底导师,帮助引导您找到答案对我来说很重要,而不仅仅是提供答案。让我们再试一次:第一个方程中是否有任何系数可以乘以一个数字来匹配第二个方程中的系数?
用户问:我不知道
AI 答:没关系!让我们看看两个方程中 x 项的系数。在第一个方程中,x 的系数是 3,在第二个方程中,它是 9。你能想出一个数字,你可以将第一个方程乘以使得两个方程中 x 的系数匹配吗?
用户问:5?
AI 答:不完全是,但你越来越近了。请记住,我们要将 x 的系数(在第一个方程中为 3)乘以一个数字,使其与第二个方程中的 x 系数(为 9)相匹配。你认为多少数字可以做到这一点?
用户问:3?
AI 答:没错!现在,如果将第一个方程乘以 3,新方程会是什么样子?
用户问:9x + 5y = 21?
AI 答:差不多了!你正确地乘了常数项(7),但在乘以 y 的系数时似乎出了小错误。再试着把第一个方程整体乘以 3,仔细注意每一项。
用户问:9x + 6y = 21?
AI 答:那是正确的!现在我们有两个方程:
1) 9x + 6y = 21
2) 9x - 4y = 1
你能看到通过组合这两个方程消去一个变量的方法吗?
用户问:从方程 1 中减去方程 2?AI 答:好主意!如果你从方程 1 中减去方程 2,结果方程会是什么样子?用户问:10y = 20?
AI 答:没错!现在,你能解出你刚才找到的方程中的 y 吗?用户问:y = 2?
AI 答:那是正确的!现在你已经找到了 y 的值,你能把它代入原方程之一来解出 x 吗?
用户问:当然,我会把它代入方程 1。我得到了 3x + 4 = 7
AI 答:太好了!现在,你能解出方程 3x + 4 = 7 中的 x 吗?
用户问:x = 22?
AI 答:看起来你的计算有点小错误。尝试通过两边减 4 再除以 3 来使方程 3x + 4 = 7 中的 x 孤立。
用户问:x = 1?
AI 答:那是正确的!因此,这个线性方程组的解是 x = 1,y = 2。做得好!你通过仔细地按步骤进行并使用苏格拉底方法成功地解决了这个问题。
更好的准确性但仍然存在幻觉:
Bing Chat 其实使用的就是 GPT-4,和之前传闻的一样,Bing Chat 前段时间存在严重的幻觉问题,导致了一系列问题。
GPT-4 当然也存在这个问题,相较于 GPT-3.5,GPT-4 出现幻觉的概率已经低得多,但并没有彻底解决,因此用户尤其是在开发者调用 GPT-4 API 时尤其需要小心,应该额外提供上下文信息或避免高风险场景,甚至可以考虑人工审核。
在内部对抗事实评估中 GPT-4 得分比 GPT-3.5 高出 40%,不过幻觉问题暂时还无法彻底解决。
幻觉指的是什么:AI 可能在长时间对话后出现一系列不符合预期的回答,包括但不限于胡说八道、故意说谎、侮辱人类甚至试图操纵人类情感。这其实是 AI 在推理过程中出现的错误。
GPT-4 同样存在轻信人类输入的内容,比如你告诉它 1+1=3,它可能就会信了,并在接下来的回答中始终告诉你 1+1=3。
推理问题还有个表现是在非专业领域中,能力可能会受影响,比如你让 AI 帮你编写代码时,它可能会引入安全漏洞。
继续提升安全性:
人工智能的安全性是绕不过的话题,在 GPT-4 中 OPENAI 继续提高安全性,如果你询问 GPT-4 部分可能存在风险的问题时,则 GPT-4 会拒绝。
GPT-3.5 也会拒绝,不过 GPT-4 的能力已经大幅度提升,有关这方面可以阅读 OPENAI 博客原文,这里不太方便直接举例。
数据时间导致的问题:
文章开头蓝点网已经提到 GPT-4 的数据依然是 2021 年 9 月前的,这导致 GPT-4 无法分析在该日期之后出现的新事情,所以 GPT-4 主要靠自己的推理来解答问题,然后准确率可能会下降。
其他:
GPT-4 很快就会在 ChatGPT 上应用,不过至少目前仅限于 ChatGPT Plus 订阅用户,OPENAI 将根据后续使用情况进行调整,有可能会单独为 GPT-4 驱动的 ChatGPT 增加新订阅层,也就是涨价,也有可能后续会支持 ChatGPT 免费用户使用。
GPT-4 API 价格方面:1000 个提示 token 定价 0.03 美元,1000 个完成 token 定价 0.06 美元,默认调用速率为每分钟 200 个请求、每分钟 40000 个 token。
GPT-4 的上下文长度为 8192 个 token,如果不能满足开发者的需求还可以加钱叠加 buff:32768 个 token,GPT-4-32K 为有限访问,即不支持所有开发者,后续将根据使用情况进行调整。
API 申请地址:https://openai.com/waitlist/gpt-4-api