查看原文
其他

GPT-4又双叒叕刷屏,带你全面了解 GPT-4 看点 | 周末荐读

德外5号 2023-04-12

The following article is from AIGC研修社 Author 逗砂


2023 年3月15日凌晨1点,OpenAI 发布了全网期待已久的GPT-4。OpenAI 总裁兼联合创始人Greg Brockman参与开发人员演示,向大众展示了GPT-4 及其部分功能和限制。


GPT-4 的看点都有哪些呢?

  • 逻辑推理,强到可以代替你考律师啦;
  • 角色扮演,cosplay认定角色不轻易被忽悠;
  • 多模态,可以看到图片啦 (图片功能暂时不对外);
  • 更安全,想要再轻易忽悠它越狱很难了。

接下来的内容会详细介绍GPT-4的一切。

注:GPT-4的官方YouTube直播功能展示
注:OpenAI总裁兼联p‍p‍合创始人Greg Brockman参与开发人员演示

GPT-4具有更广泛的通识知识和问题解决力,

可以更有效地解决难题


1.它更有创造力

GPT-4 比以往任何时候都更具创造性和协作性。它可以与用户一起生成、编辑和迭代创意和技术写作任务,例如创作歌曲、编写剧本或学习用户的写作风格。


比如下面这个例子,输入是:用一个句子解释灰姑娘的情节,每个单词必须以字母表中从a到Z的下一个字母开头,而不重复任何字母。可以看到 GPT-4 表现的非常好。



2.视觉输入
多模态终于来啦,GPT-4 可以接受图像作为输入并生成说明、分类和分析。


比如下面个图片,GPT-4 可以识别出来并且理解其中的含义。这相当于机器拥有了视觉并且会思考了,在应用层面有非常广的空间。比如,完全可以成为视力障碍人群的眼睛,并且会给自动驾驶带来非常大的影响。



视觉输入的一些其他案例:
GPT4都能看得懂梗图了。


用户:这张图有什么好笑的?一个面板一个面板地描述它。


GPT-4:该图显示了带有三个面板的“Lightning Cable”适配器的包装:
面板 1:带有 VGA 连接器(一种大的蓝色 15 针连接器,通常用于计算机显示器)的智能手机已插入其充电端口;‍面板 2:“Lightning Cable”适配器的包装,上面有 VGA 连接器的图片;
面板 3:VGA 连接器特写,末端有一个小型闪电连接器(用于为 iPhone 和其他 Apple 设备充电)。

这张图片中的幽默来自将过时的大型 VGA 连接器插入小型现代智能手机充电端口的荒谬做法。

GPT4 能看得懂图表,还能帮你分析。

用户:格鲁吉亚和西亚的平均每日肉类消费量总和是多少?在提供你的答案之前提供一个循序渐进的推理。


GPT-4:要找到格鲁吉亚和西亚的平均每日肉类消费量总和,我们将遵循以下步骤:

1. 确定格鲁吉亚的平均每日肉类消费量。

2. 确定西亚的平均每日肉类消费量。

3. 添加步骤 1 和 2 中的值。
步骤1:从提供的图表中,我们看到格鲁吉亚的平均每日肉类消费量为每人每天 79.84 克。

步骤2:从图表中我们可以看出,西亚的人均每日肉类消费量为 69.62 克/人/天。

步骤3:将第 1 步和第 2 步中的值相加。79.84 克(格鲁吉亚)+ 69.62 克(西亚)= 149.46 克


因此,格鲁吉亚和西亚的平均每日肉类消费量总和为每人每天 149.46 克。

​​能够理解图片之中的逻辑

用户:这张图片有什么不寻常之处?


GPT-4:这张照片的不同寻常之处在于,一名男子正在行驶中的出租车车顶上的熨衣板上熨烫衣服。

3.更长的上下文
GPT-4能够处理超过25,000个单词的文本,允许使用长格式内容创建、扩展对话以及文档搜索和分析等用例。
下面这个例子显示了,大部分的时候你只需要丢给它一个链接,就可以帮你总结出其中的内容。而GPT-3.5只能分析一小段。


GPT-4的高级推理能力超越了ChatGPT


在下面这个例子中如果要进行这种多角度的复杂推理,ChatGPT最后给出了一个错误的答案。

然而,在这种类型的推理上,GPT4就完成得很好。确实三个人重叠的时间只有中午的12点到12点30。

GPT-4 在各种类型的考试中都表现得比ChatGPT优秀


在非正式的对话中,GPT-3.5和GPT-4之间的区别可能不太明显。但是当任务的复杂性达到足够的阈值时,差异就会显现出来——相比 GPT-3.5,GPT-4 更可靠、更有创造力,并能够处理比较微妙的指令。
为了理解这两个模型之间的差异,OpenAI 对多种基准进行了测试,包括模拟最初为人类设计的考试。下面是这些考试的测试结果,可以看到 GPT-4 的得分基本全部优于 GPT-3.5。


据了解,OpenAI花费了6个月的时间来使GPT-4更加安全和一致。在内部评估中,相比于 GPT-3.5,GPT-4 回应不允许的内容的可能性降低了 82%,更有可能产生事实性回应,提高了 40%。
安全级别提高了,想通过调教它,让它“越狱” 说一些不该说的话越来越难了。


通过人类反馈进行训练OpenAI加入了更多的人类反馈,包括ChatGPT用户提交的反馈,以改善GPT-4的行为。还与50多名专家合作,提前获得 AI 安全和安全领域的反馈意见。
来自实际使用的持续改进,OpenAI将从之前模型的实际使用中得出的经验教训应用于GPT-4的安全研究和监控系统中。与ChatGPT一样,随着更多人使用,OpenAI将定期更新和改进GPT-4。
GPT-4辅助的安全研究,GPT-4 的高级推理和指令遵循能力加快了安全工作。OpenAI使用GPT-4帮助创建模型微调的训练数据,并在训练、评估和监控中迭代分类器。
虽然越狱越来越难了,但是 OpenAI 对于大家调教和自定义 GPT 的性格也做了很好的迭代。下面这张图是官方展示的GPT4的页面,可以看到这里有一个新的system的输入框,就是输入AI的身份属性的。

尽管强大,但是GPT-4仍然不完全可靠


尽管 GPT-4 具有很强的功能,但它仍然存在与之前的GPT模型类似的局限性。最重要的是,它仍然不是完全可靠的(它会“幻想”事实并产生推理错误)。
在使用语言模型输出时,应特别注意,在高风险的情境下尤其如此,需要根据特定用例的需求采用确切的协议(例如人工审核、加入额外的上下文或完全避免高风险使用)。
虽然这仍然是一个真正的问题,但相对于之前的模型,GPT-4 显著减少了幻觉现象(这些模型在每次迭代中都在不断改进)。
在他们的内部对抗事实性评估中,GPT-4的得分比最新的GPT-3.5高40%。

这个模型的输出可能存在各种偏差,OpenAI 在这方面已经取得了进展,但还有更多工作要做。
OpenAI 的目标是使人工智能系统具有合理的默认行为,反映广泛用户的价值观,允许在广泛范围内对这些系统进行定制,并征求公众对这些范围的意见。
GPT-4还是缺乏对其数据截止日期(2021年9月)之后发生的事件的了解,并且不会从其经验中学习。
它有时会出现简单的推理错误,这些错误似乎不符合跨越如此多个领域的能力,或者在接受用户明显错误的陈述时过于轻信。有时,它可能像人类一样在解决难题时失败,例如在其生成的代码中引入安全漏洞。
GPT-4在其预测中也可能会自信地出现错误,并且不会在可能犯错时仔细检查工作。
有趣的是,基础预训练模型高度校准(其对答案的预测置信度通常与正确的概率相匹配)。
然而,通过OpenAI当前的后期训练过程,校准会降低。

基于GPT-4的产品


官方给了6个加入了 GPT-4的产品,借此我们可以看到它的应用空间。
1.Duolingo
一款语言学习类APP,Duolingo 把GPT-4接入产品,进行角色扮演,让人工智能跟用户去对话,纠正语法错误,并且把这一功能融入产品的游戏化。


2.Be My Eyes
这是一款为视力障碍人士提供的产品,其实一直以来大部分的盲人类产品都只能识别文字。现在他们可以借助GPT-4的图像识别分析来看这个世界。

3.摩根士丹利
作为财富管理领域的领导者,摩根士丹利维护着一个内容库,其中包含数十万页的知识,涵盖投资策略、市场研究和评论以及分析师见解。
大量的信息分布在许多内部网站上,主要是PDF格式,需要顾问浏览大量信息以找到特定问题的答案。这样的搜索可能既费时又麻烦。
借助OpenAI的GPT-4,摩根士丹利正在改变其财富管理人员查找相关信息的方式。


4.可汗学院
用来探索GPT-4在教育中的应用,对特定学生差异化教育,抹平教育资源带来的差距。
可汗学院是一家非营利组织,其使命是为任何地方的任何人提供免费的世界一流教育。该组织为所有年龄段的学生提供数以千计的数学、科学和人文课程。
但是每个学生都是独一无二的,他们对概念和技能的掌握也各不相同——相差很多。有些人可能会轻而易举地学会,而另一些人则需要手把手的帮助。当疫情扰乱了无数的教育系统时,这种差距只会加深。
“考虑到每个人的不同需求,让他们不断进步是一项挑战,”可汗学院的首席学习官 Kristen DiCerbo 说。“他们都处于不同的层次。他们都有不同的差距。他们都需要不同的东西来前进。这是我们长期以来一直试图解决的问题。”
今天,可汗学院宣布将使用 GPT-4 为 Khanmigo 提供支持,Khanmigo 是一种人工智能助手,既可以作为学生的虚拟导师,也可以作为教师的课堂助手。

越来越不Open的OpenAI



OpenAI 在介绍GPT-4的98页论文自豪地宣称他们 “没有” 披露他们训练集的内容。虽然这并不意外,但是这让大家开始对他们宣称的对安全性的顾虑开始怀疑,这种非常不开放的大模型真的会一直站在巅峰么?永远都没有挑战者么?
目前在语言大模型领域,Openai的GPT-4无疑是最强的,但是未来呢?会不会出现一个类似在 AI 绘画领域的 stable diffusion 来打破这个垄断的局面?

让我们在接下来的一年里拭目以待。
编者按:来源:AIGC研修社;作者:逗砂;原标题:【全网首发】万字长文全面了解 GPT-4;内容有删节。
  投稿 | 合作  | 应聘 | 交流   请联系一婷主编 VX:13581509119  
德外5号诚招兼职编译/特约作者若干名,要求文笔佳,逻辑性强,善于观察和思考。有新媒体、媒体融合相关研究、从业经验者优先。简历或作品投递,请添加一婷主编微信沟通。

本周头条

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存