万字长文全面解读:GPT-4 有什么不一样?
The following article is from AIGC研修社 Author 逗砂
北京时间 3 月 15 日凌晨 1 点,OpenAI 发布了全网期待已久的 GPT-4,到底这次大升级,都升级在哪里,新功能有哪些,未来会出现哪些新的创业机会?
基于 OpenAI 发布的官方说明论文,我们在此基础上编译整理了这篇文章,带你全面 GPT-4。
https://cdn.openai.com/papers/gpt-4.pdf
快速了解 GPT-4 看点:
逻辑推理,强到可以代替你考律师啦
角色扮演,cosplay 认定角色不轻易被忽悠 多模态,可以看到图片啦 (图片功能暂时不对外) 更安全,想要再轻易忽悠它越狱很难了
GPT-4 的官方宣传片
01
GPT-4 具有更广泛的通识知识和问题解决能力,
可以更有效解决难题
它更有创造力
GPT-4 比以往任何时候都更具创造性和协作性。它可以与用户一起生成、编辑和迭代创意和技术写作任务,例如创作歌曲、编写剧本或学习用户的写作风格。
比如下面这个例子,输入是:用一个句子解释灰姑娘的情节,每个单词必须以字母表中从 a 到 Z 的下一个字母开头,而不重复任何字母。可以看到 GPT-4 表现的非常好。
视觉输入
多模态终于来啦,GPT-4 可以接受图像作为输入并生成说明、分类和分析。
比如下面个图片,GPT-4 可以识别出来并且理解其中的含义。这相当于机器拥有了视觉并且会思考了,在应用层面有非常广的空间。比如,完全可以成为视力障碍人群的眼睛,并且会给自动驾驶带来非常大的影响。
视觉输入的一些其他案例:
GPT-4 都能看得懂梗图了!
GPT-4 还能看得懂图表,还能帮你分析!
能够理解图片之中的逻辑
更长的上下文
GPT-4 能够处理超过 25,000 个单词的文本,允许使用长格式内容创建、扩展对话以及文档搜索和分析等用例。下面这个例子显示了,大部分的时候你只需要丢给它一个链接,就可以帮你总结出其中的内容。而 GPT-3.5 只能分析一小段。
GPT-4 的高级推理能力
超越了 ChatGPT
在下面这个例子中如果要进行这种多角度的复杂推理,chatgpt 最后给出了一个错误的答案。
然而,在这种类型的推理上,GPT4 就完成得很好。确实三个人重叠的时间只有中午的 12 点到 12 点 30。
GPT-4 在各种类型的考试中都表现的
比 ChatGPT 优秀在非正式的对话中,GPT-3.5 和 GPT-4 之间的区别可能不太明显。但是当任务的复杂性达到足够的阈值时,差异就会显现出来——相比 GPT-3.5,GPT-4 更可靠、更有创造力,并能够处理比较微妙的指令。
为了理解这两个模型之间的差异,OpenAI 对多种基准进行了测试,包括模拟最初为人类设计的考试。下面是这些考试的测试结果,可以看到 GPT-4 的得分基本全部优于 GPT-3.5。
GPT-4 的身份扮演
更精准了
我们花费了 6 个月的时间来使 GPT-4 更加安全和一致。在我们的内部评估中,相比于 GPT-3.5,GPT-4 回应不允许的内容的可能性降低了 82%,更有可能产生事实性回应,提高了 40%。
这里是想告诉大家,安全级别提高了,想通过调教它,让它「越狱」说一些不该说的话越来越难了。
通过人类反馈进行训练
我们加入了更多的人类反馈,包括 ChatGPT 用户提交的反馈,以改善 GPT-4 的行为。我们还与 50 多名专家合作,提前获得 AI 安全和安全领域的反馈意见。
来自实际使用的持续改进
我们将从之前模型的实际使用中得出的经验教训应用于 GPT-4 的安全研究和监控系统中。与 ChatGPT 一样,随着更多人使用,我们将定期更新和改进 GPT-4。
GPT-4 辅助的安全研究
GPT-4 的高级推理和指令遵循能力加快了我们的安全工作。我们使用 GPT-4 帮助创建模型微调的训练数据,并在训练、评估和监控中迭代分类器。
虽然越狱越来越难了,但是 OpenAI 对于大家调教和自定义 GPT 的性格也做了很好的迭代。下面这张图是官方展示的 GPT4 的页面,可以看到这里有一个新的 system 的输入框,就是输入AI的身份属性的。
苏格拉底导师
(这种超级有耐心的老师每个学生都梦寐以求吧,人类真的很难做到这么有耐心,老师这个角色也危险了)
莎士比亚海盗
可以看到 GPT-4 对于角色的认同更加的稳定,不会被中间的对话带偏。
尽管强大
但是 GPT-4 仍然不完全可靠
尽管 GPT-4 具有很强的功能,但它仍然存在与之前的 GPT 模型类似的局限性。最重要的是,它仍然不是完全可靠的(它会「幻想」事实并产生推理错误)。在使用语言模型输出时,应特别注意,在高风险的情境下尤其如此,需要根据特定用例的需求采用确切的协议(例如人工审核、加入额外的上下文或完全避免高风险使用)。
虽然这仍然是一个真正的问题,但相对于之前的模型,GPT-4 显著减少了幻觉现象(这些模型在每次迭代中都在不断改进)。在他们的内部对抗事实性评估中,GPT-4 的得分比最新的 GPT-3.5 高 40%。
这个模型的输出可能存在各种偏差 - OpenAI 在这方面已经取得了进展,但还有更多工作要做。OpenAI 的目标是使人工智能系统具有合理的默认行为,反映广泛用户的价值观,允许在广泛范围内对这些系统进行定制,并征求公众对这些范围的意见。
GPT-4 还是缺乏对其数据截止日期(2021 年 9 月)之后发生的事件的了解,并且不会从其经验中学习。它有时会出现简单的推理错误,这些错误似乎不符合跨越如此多个领域的能力,或者在接受用户明显错误的陈述时过于轻信。有时,它可能像人类一样在解决难题时失败,例如在其生成的代码中引入安全漏洞。
GPT-4 在其预测中也可能会自信地出现错误,并且不会在可能犯错时仔细检查工作。有趣的是,基础预训练模型高度校准(其对答案的预测置信度通常与正确的概率相匹配)。然而,通过我们当前的后期训练过程,校准会降低。
基于 GPT-4 的产品
官方给了 6 个加入了 GPT-4 的产品,借此我们可以看到它的广阔应用空间。
Duolingo
一款语言学习类 APP,Duolingo 把 GPT-4 接入产品,进行角色扮演,让人工智能跟用户去对话,纠正语法错误,并且把这一功能融入产品的游戏化。
Be My Eyes
这是一款为视力障碍人士提供的产品,其实一直以来大部分的盲人类产品都只能识别文字。现在他们可以借助 GPT-4 的图像识别分析来看这个世界。
摩根士丹利
作为财富管理领域的领导者,摩根士丹利维护着一个内容库,其中包含数十万页的知识,涵盖投资策略、市场研究和评论以及分析师见解。
大量的信息分布在许多内部网站上,主要是 PDF 格式,需要顾问浏览大量信息以找到特定问题的答案。这样的搜索可能既费时又麻烦。借助 OpenAI 的 GPT-4,摩根士丹利正在改变其财富管理人员查找相关信息的方式。
可汗学院
用来探索 GPT-4 在教育中的应用,对特定学生差异化教育,抹平教育资源带来的差距。
可汗学院是一家非营利组织,其使命是为任何地方的任何人提供免费的世界一流教育。该组织为所有年龄段的学生提供数以千计的数学、科学和人文课程。
但是每个学生都是独一无二的,他们对概念和技能的掌握也各不相同——相差很多。有些人可能会轻而易举地学会,而另一些人则需要手把手的帮助。当疫情扰乱了无数的教育系统时,这种差距只会加深。
「考虑到每个人的不同需求,让他们不断进步是一项挑战,」可汗学院的首席学习官 Kristen DiCerbo 说。「他们都处于不同的层次。他们都有不同的差距。他们都需要不同的东西来前进。这是我们长期以来一直试图解决的问题。」
今天,可汗学院宣布将使用 GPT-4 为 Khanmigo 提供支持,Khanmigo 是一种人工智能助手,既可以作为学生的虚拟导师,也可以作为教师的课堂助手。
最后,
越来越不 OPEN 的 OpenAI
OpenAI 在介绍 GPT-4 的 98 页论文自豪地宣称他们「没有」披露他们训练集的内容。虽然这并不意外,但是这让大家开始对他们宣称的对安全性的顾虑开始怀疑,这种非常不开放的大模型真的会一直站在巅峰么?永远都没有挑战者么?
目前在语言大模型领域,OpenAI 的 GPT-4 无疑是最强的,但是未来呢?会不会出现一个类似在 AI 绘画领域的 stable diffusion 来打破这个垄断的局面?
让我们在接下来的一年里拭目以待。
*以上嘉宾观点不代表 Founder Park 立场,也不构成任何投资建议。
更多科技创业者的采访,欢迎在小宇宙或者苹果播客收听我们的播客节目「Founder 100」。