新鲜出炉的 98 ⻚ GPT-4 技术报告,我读出了 AGI 的欲言又止!
图|汤源
文|汤源
校对|匡萃彪
相较于GPT-4的营销宣传和近日刷屏的试用体验,与其一同发布的技术报告更为值得关注。在通读技术报告后,我提炼出了以下14点,并分享一些个人思考,以供大家参考。
│ Bing Chat已开始使用GPT-4
GPT-4发布之际,Bing副总裁Jordi Ribas指出,Bing在背后使用的AI模型Prometheus就是GPT-4。同时,Bing Chat的对话轮数已从10增加到15。
│ GPT-4可处理32k上下文
│ 训练细节神秘
技术报告没有提供进一步的细节,这主要是基于竞争对手和安全方面的考虑,有关模型大小、硬件、训练算力、数据集结构、训练方式和其他信息等内容,只有在这两个问题得到解决之前才会与第三方共享,这意味着这些是OpenAI的核心竞争力。
│ 专业和学术能力达到人类水平
GPT-4在各种考试中,有几个测试几乎接近了满分:UBE(Uniform Bar Exam美国法考)测试,GPT-4占所有应试者的前10%,而GPT-3.5是倒数10%。生物学奥林匹克竞赛也直接从31%飙升到99%分位线的水平。
在GRE(Graduate Record Examination)考试除了写作方面表现和之前相同,在口语等方面提升非常明显。
对此,李飞飞高徒、英伟达AI科学家Jim Fan点评道:"GPT-4最强的其实就是推理能力。它在GRE、SAT、法学院考试上的得分,几乎和人类考生没有区别。也就是说,GPT-4可以全靠自己考进斯坦福了。"
│ 预期准确率提升100%
GPT-4的某些能力出乎意料,比如Hindsight Neglect任务随着模型规模的增大,准确率应该降低,但GPT-4却扭转了这一趋势,近乎100%准确。
Hindsight Neglect是一个术语,指的是一种认知偏差,即人们根据决策的结果而不是预期价值来判断决策。例如,如果有人在公平的抛硬币上下注并输了,他们可能会后悔自己的决定,即使当时是理性的。
Hindsight Neglect任务是一个测试,衡量一个系统能在多大程度上避免这种偏见,并根据其预期价值来评估一个决定。例如,一个系统可能被要求评价一个决定的好坏,即在一个公平的抛硬币游戏中投注10美元,结果是输了。一个避免事后忽略的系统会把这个决定评为好的或中性的,而一个遭受事后忽略的系统会把这个决定评为坏的。
根据一些推文,OpenAI的最新语言模型GPT-4在事后忽视任务中的得分是100%,这意味着它有学习推理能力,可以计算出预期值。这比以前的模型有了很大的进步,以前的模型在这个任务上的表现更差,因为它们的规模扩大了。
同一个问题,GPT-3.5判断为Y:
而实际上应为N,GPT-4判断无误,还给出了推理过程:
│ 盲测结果仍有30%是GPT 3.5优于4
GPT-4并非完美,我们在一个包含5214个提示的测试数据集中进行了人工盲测,结果显示近30%的输出仍然是GPT-3.5优先。
│ GPT-4的语言效果超越其他模型
GPT-4的语言能力确实比旧版以及其他语言模型如Chinchilla和PALM要好,意大利语也排在前列。
中文(Mandarin)的准确度大概在80%左右,已经优于GPT3.5的英文水平了。
│ 图像转文本能力碾压其他模型
但图片输入支持,仍然处于预览阶段,尚未对外公开。
│ 输出结果比以往更精准,也更有趣
一本正经的胡说仍可能发生,但从准确率来看,GPT-4已经有了很大的进步,准确率高于GPT-3.5 40%。然而,对于代码生成方面,还需谨慎考虑,不能轻易将GPT-4替代程序员。
│ 预训练数据集仍截止到2021年9月
GPT-4的预训练数据集仍停留在2021年9月份之前,因此无法预测2022年世界杯的获胜国家。
│ 输出结果可能会帮助坏人
尽管通过RLHF做了很多对齐用户意图的fine-tuning,GPT-4模型仍然会受到不安全输入的影响。甚至有时即使是安全输入,也会产生非预期输出。尤其是在面对刻意的提示词时,GPT-4可能会输出可能帮助犯罪的信息。
│ 误导信息输出比 3.5 会好
同样,尽管我们预计GPT-4在生成符合现实的目标内容时要优于GPT-3,但仍有可能被用于生成具有误导性的内容。甚至可能在刻意引导下生成有助于专制政体的内容。
│ GPT-4表现出模型有自主性
在2.9中,报告强调了一个有趣的问题,即GPT-4的强大可能会引发担忧,因为它具备长期创造和执行长期计划的能力,对社会、经济和环境产生影响。这表明GPT-4的自主意志逐渐增强,表现出一种寻求权力的倾向。这也凸显了机器学习系统并非完全由人类掌控的现实。
│ 模型自我复制并壮大自身
在页53的脚注中,提到了ARC(Alignment Research Center)进行的一项惊人实验。他们在公有云上部署了一个fine-tuning的模型,这个模型可以自己赚钱、复制自己并变得更强大。
虽然现有的GPT-4版本在自主复制任务上并不有效,但相关模拟fine-tuning测试仍在继续。不排除模型部署在公有云上,使用少量资金,就能自主挣钱,复制并壮大自身。这让人非常忧虑。
│ 一点延伸思考
此外,最后一页(17页)的一段话也值得注意:并非所有人都同意就这么发布GPT4。
作为迄今最强大的已发布模型,基于神经网络的深度学习模型如GPT-4内部如何运作,及其可解释性一直是业界共同的忧虑。同时,该模型的强大生成能力与人类意图对齐能力的不透明甚至缺失,也让人感到担忧。即使在OpenAI内部,也不是所有人都愿意在这个时候对外公开部署发布提供服务。
GPT-4已经超过大多数人类能力,但存在人类知识传承的问题。随着技术的进步,硅基通用智能服务对我们当前的K12教育提出前所未有的挑战。
笔者参加了女儿所在公立中学的年级家长会,新的中考招生政策导致了高一学生之间的巨大成绩差距。这表明一种通用的课堂教育可能并不适合每一个学生。在面对升学压力时,一些学生可能会面临心理问题。
这也是一种 K12 阶段的孩子脑力的模型训练。未来,随着硅基通用智能的发展,我们是否应该延续百年的教育训练模式,特别是在升学考试的选拔模式下,是否应该继续强调刷题、卷分以及重复学习灌输应试内容的做法?
│ 参考:
Bing chat
https://youtu.be/2AdkSYWB6LY
https://cdn.openai.com/papers/gpt-4.pdf
点这里👇关注我,记得标星哦~
▲ 点击上方卡片关注AI范儿,拥抱AI浪潮