查看原文
其他

GPT-4打败ChatGPT

中欧EMBA 中欧EMBA 2024-04-30

2022年11月30日,ChatGPT横空出世,表现惊艳。在仅仅四个月后的3月15日,OpenAI又发布了GPT-4模型,相较于ChatGPT有令人兴奋的技术更迭,似乎只有魔法才能打败魔法了。

我们邀请到中欧杨蔚教授和李世平同学(中欧EMBA2022级),为准备拥抱浪潮的人,掰开GPT背后的技术细节,以及探讨人工智能替代人力资本的终极条件。

● ● ●

李世平 中欧EMBA2022

AI技术专家

1

ChatGPT火爆的技术原因

ChatGPT的成功,模型参数量大很重要(大力出奇迹),但不是唯一因素。如下图所示,微软和英伟达合作的MT-NLG模型参数量达5300亿,Google的PaLM模型参数量达5400亿,都超过了ChatGPT所用的GPT-3.5模型的1750亿参数量,但它们的效果都不如ChatGPT。

图片来源:Beeswarm/bubble plot, sizes linear to scale. Selected highlights only. Alan D. Thompson. December 2022

大模型之外,ChatGPT成功的另一个关键因素是基于人类反馈的强化学习(RLHF)。如下图所示,RLHF的三个关键步骤是:模型微调、奖励模型和强化学习。

图片来源:《Training language models to follow instructions with human feedback》

  • 模型微调

基于迁移学习的技术原理,ChatGTP所用的GTP-3.5模型是在GTP-3模型基础上通过模型微调训练得到的,这意味着GTP-3.5是站在GTP-3这个巨人肩膀上训练得到的,大大节省了训练时间和训练所需的人工标注数据量。模型微调阶段,推测OpenAI投入了40+人的专业标注团队,用了10万量级的精标prompt训练数据。

  • 奖励模型

为什么要有奖励模型?这是因为对于ChatGTP生成式的内容需要有个量化的评价指标,而且是机器可以给出的量化指标。

而所谓奖励模型,就是先让标注员对于一个promt生成的多个内容进行排序,然后计算机会计算生成内容两两之间的差异度。

训练之初,ChatGTP奖励模型对于差异度的评判是随机的,但经过不断地训练之后,奖励模型就能很好地进行区分,让排序第一和排序末尾的差异度最大,从而将排序第一的生成内容挑选出来。

  • 强化学习

强化学习的思想同小孩子学走路的例子很像,有孩子的朋友都有体会,教小孩走路,我们不需要精确地告诉小孩迈腿的高度、踩下的时机、身体的倾斜度等等,就是放手让小孩走,摔倒了鼓励他爬起来再走,走得好我们就给他掌声。

其实我们的掌声就是奖励模型,当小孩听到掌声的时候,就知道他走路的各个控制参数是对的,小孩一次次听到掌声,就会一次次强化他走路模型中的参数,这就是强化学习的原理。

ChatGPT的强化学习就是基于第二阶段的奖励模型,通过对海量的Prompt输出的生成内容进行打分,然后更新GPT-3.5模型的参数,从而得到了强大的ChatGPT。

2

中小企业如何拥抱ChatGPT浪潮?

ChatGPT的技术原理并不复杂,但其成功是基于GPT-1到GPT-3.5不断迭代进化的过程,这需要时间。
其次ChatGPT的训练是很昂贵的,据推测,ChatGPT训练使用的GPU资源达到万卡规模,单次训练费用大约是460万美元,训练时间为355个GPU年,总成本达到1200万美元。所以,研发那些类ChatGPT模型是头部AI公司的军备竞赛,不适合中小企业。

但是,ChatGPT的浪潮将惠及中小企业,对于中小企业来说,有两个切入点可以拥抱ChatGPT的浪潮。

对于偏做应用的企业,可以直接调用ChatGPT或者未来国内类ChatGPT模型的API接口,直接享受流畅的人机对话服务。

对于有特定领域数据积累的企业,可以基于ChatGPT的预训练模型进行模型微调,以及模型的蒸馏压缩,得到在特定领域能力更强的小模型,这背后的技术叫迁移学习。

在小数据量、低训练成本的情况下训练出一个高精度的模型,这个思想同现实中训练航天员很像。

航天员一般是从优秀的战斗机飞行员中选拔出来,就是因为航天员所需的体能和技能同飞行员的要求是相似的。优秀的飞行员经过长期的训练已经具备了相似的体能和技能,在此基础上训练成为合格航天员的速度和成功率就会更高。

3

GPT-4开始走向多模态

3月15日,OpenAI发布了GPT-4,相对于ChatGPT主要有以下提升点:

1. 更强的复杂问题的解答能力,在人类设计的各类模拟考试中表现优异,比如在模拟律师考试中,GPT-3.5的成绩在后10%,而GPT-4的成绩进步明显,达到了前10%。

2. 提升了角色设定的操控性,相比ChatGPT的回答总是显得冗长、固定语气和相似风格,GPT-4增强了对角色的设定能力,让回答符合用户设定的个性化风格。

3. 文字输入限制从3000字提升到了2.5万字,这个提升将进一步扩展其应用范围,如长篇内容创作、内容扩写、文档搜索等应用场景。

4. 支持图像输入,GPT-4已经升级为一个多模态的大模型,支持「图像+文本」的输入,输出文本。这是本次GPT-4发布最令人兴奋的特性点,它带给我们巨大的想象空间,预示着GPT未来还可以处理声音、视频等各种媒介。

关于GPT-4更深入的信息,目前能看到就是OpenAI官方公布的《GPT-4 技术报告》,但报告中并没有太多技术实现的细节,OpenAI的官方解释是出于竞争和安全考虑。

所以,对于本次发布最令人兴奋的多模态能力,我们也只能推测其技术实现。

《GPT-4技术报告》的附录中给出了多个图像输入的示例,效果都非常惊艳。比如:

图片来源:《GPT-4 Technical Report》

这个示例中,输入是一张文档图片,图片中是一道用法语写的物理题目,有文本、有公式、还有图形。

要解决这个问题,GPT4首先得具备OCR文字识别能力,目前印刷体的OCR识别技术已经非常成熟,但要识别图形中各个文字之间的关系还是非常有挑战的。把图片转换成文字以及文字之间的关系后,才能够通过已有的ChatGPT能力输出这道物理题目的答案。

图片来源GPT-4 Technical Report

再有这个示例中,用户的问题是「这张图片有什么异常之处」。GPT-4要回答这个问题,首先要理解图像的内容。对图像内容的理解又包含两个方面,首先是图像中都有哪些物体,其次是这些物体之间的关系。

对于不同物体的识别,要提到最有名的比赛数据集是ImageNet,它包含了1400万张手动标注图片,共2万多个类别。2015年,ResNet模型对于ImageNet数据集将识别错误率下降到了3.6%,即宣告了在物体识别上,计算机已经超过了人类,因为人类的识别错误率是5.1%。

所以,在这张示例图片中,要识别出租车、人、电熨斗等物体是比较成熟的技术。但要进一步理解物体之间的关系还是非常有挑战的。在这个示例中,就需要将图片转换成一段说明物体之间关系的文本后,才能够通过已有的ChatGPT能力给出答案。

● ● ●

杨蔚

中欧国际工商学院管理学助理教授

4

替代、机遇与竞争

ChatGPT的横空出世,是否意味着教育、软件开发、营销、金融这些当前依靠人力资源创造出巨大价值的行业,会经历颠覆式的改变?而人力资本和人类的智慧在这样的颠覆下,是否真的还有价值?

这样的灵魂拷问,在近几百年来技术突飞猛进的历史中,其实已经不止一次出现,从机械化到自动化,从互联网到数字化,似乎不断地验证着熊彼特关于市场经济驱动的创新所带来的创造性破坏。

我们有理由相信,ChatGPT及其背后日渐成熟的人工智能技术,也正在成为创造性的破坏力,推动着产业结构和劳动力技能的不断升级和迭代。

ChatGPT的直接影响在某种程度上是被高估了的,其对现有商业和经济活动中的创新和决策流程,或许并没有想象中的替代性。

战略管理研究中,卡耐基学派的开创者赫伯特·西蒙在1947年出版的《管理行为》和其后著作中曾指出:个体和组织所做的决策和创新,本质上都是以问题为导向的信息搜索、分析与整合。而信息搜索的广度和整合的能力,则决定了创新和决策的效果。人工智能替代人力资本的终极条件,是真正能够实现自主的创新和决策。

ChatGPT问答的方式首先意味着这样的生成式人工智能技术是无法自主发现问题的,那么由其主导的「创新」和「决策」也无从谈起。

同时,ChatGPT也不应成为决策中信息搜索的手段。与搜索引擎侧重信息的全面和准确性不同,自然语言模型的处理,侧重的是语言逻辑上的顺畅表达,因此也无法实现有效决策和创新过程中所必须的知识整合。

实际上,用生成式人工智能完全替代复杂决策中的信息搜索和整合是很危险的,这意味着将信息的筛选和权衡全部交给了算法,由此产生的信息茧房和认知偏差不仅无法达成创新,甚至会导致生产力和创造力的后退。

播客上新
欢迎扫码收听

/ 延伸阅读 /

6个关键词,看见2023年信心和趋势

上海半导体投资浪潮的前奏、高潮与转折

十问半导体的中国机会

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存