查看原文
其他

恐怖的GPT-4

浑水报告 2023-04-28

The following article is from 格隆 Author 万连山


来源:格隆(ID:guru-lama)

作者:万连山


NB!对不起,实在没忍住说出这两个字。


ChatGPT(GPT-3.5)引爆科技圈后,所有人都在讨论,AI下一步会往哪个方向发展。


上一次有这种感觉,还是初代iPhone发布的时候。


我们并没有等太久。


隔夜,OpenAI正式推出新品GPT-4,再次点燃了大家的想象力。


老板Sam Altman直接开门见山地介绍:


这是我们迄今为止功能最强大的模型!


有多强?


就像不少人感叹的:如果GPT-3.5尚属意料之中,GPT-4则让我自愧不如。


这一波,真是科幻照进现实了。


01

伟大变革的前奏


怎么证明一个人比另一个人水平高?


现实社会中,主要手段是考试、拿证。


所以,想让大部分人直观地感受到,新AI模型比旧的牛逼,同样是考试。

OpenAI用GPT-4参加了多项美国通用考试,成绩很惊艳:


在SAT数学和阅读考试中,GPT-4比GPT-3.5高150分;


它还能通过律师模拟考试,得分排在应试者前10%,而震撼全球的GPT-3.5只能排在倒数10%……


随后,在YouTube上进行的Live Demo中,OpenAI展示了GPT-4的真正实力:总结文章、写代码、报税、写诗……GPT-3.5做不到的,GPT-4轻松拿下。


而且,还不仅仅是这样。



根据OpenAI官网描述,相较于GPT3.5,GPT-4最大的进化在于:“多模态”和长内容生成。


其中的关键,就是多模态这个词,顾名思义,就是不同类型数据的融合。


目前GPT-4最大的突破,就是拥有了“读图能力”。


用户可以直接用图片提问,它能够在读懂图片内容的基础上,给出有逻辑的回答。


有个形象的例子。


下面这个人用笔在本子上画了个网站的草图,然后用手机拍下来,发送给GPT-4。


10秒钟后,它不仅识别出图片的含义,还生成了要建立这个网站的代码。

“您好,您的网站建好了。”



这个事件中,最核心的点并不在于编程、计算和分析能力,而是它能准确理解图片的含义,并给出解答,甚至是图片解答。


这就比GPT-3.5高出一个世代了。


两者的表现力根本不是一个级别的。我们可以理解为,在纯文字的年代,照相机的出现,对信息交流产生了多大的促进作用。


这就是AI进化史上类似的事件。


甚至,这也只是表象。更让我震惊加一点恐惧的,是GPT-4具备的的初步逻辑思维能力。


正如OpenAI在今天的博文中所说:


我们创建了GPT-4,这是 OpenAI 努力扩展深度学习的最新里程碑。虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平。


在OpenAI提供的一个示例中,GPT-4准确地回答了几个网络meme为什么搞笑的问题,虽然解释得并不好笑。



GPT-4还学会简单的逻辑推理了。比如你问,图片里的绳子剪断会发生什么。它答,气球会飞走。


它甚至可以讲出一些质量不咋地、模式化的冷笑话。虽然并不好笑,但至少,它已经开始理解“幽默”这一人类特质。


这两件小事看起来挺弱智的,却是AI向人类思维慢慢进化的标志。


就像古猿人第一次学会直立行走,石器时代的原始人第一次思考人与自然的关系。


微观角度看,这没什么大不了的。但拉长时间线,以后人的眼光看,这也许正是伟大变革的前奏曲。


就像我们研究原始人走路一样。



当然,GPT-4依然有局限性。


首先,它的知识范畴也存在时间限制,截止于 2021 年 9 月。


其次,AI毕竟是AI,OpenAI也表示目前GPT-4并不完美,它在很多场景下的能力都不如人类。


据称,该模型仍然存在“幻觉”或编造事实的问题,并且在事实方面也不一定总是可靠的,“它倾向于坚持认为它是正确的,即使它错了”。


OpenAI表示,GPT-4正在努力解决其局限性,例如社会偏见、幻觉和对抗性提示。


但尽管如此,没人能否认,GPT非常有潜力。


世界上任何事,最难的永远不是做不到,而是想不到。


只要有个雏形,哪怕很low、很简陋,距离做好就不会很远了。


OpenAI做出ChatGPT,最大的意义是是向大家证明,这种应用是存在的,这种技术是可行的。这件事,不是干不成的。


就好像多年前,大家都在空谈概念的时候,只有特斯拉先做出了成品。


02

成功绝非偶然


一个恐怖的事实:GPT-4早在去年8月就训练完成了。


之所以现在才面市,是OpenAI需要花6个月时间,让它变得更安全。


这就不得不让人浮想联翩。


会不会已经有GPT-5、GPT-6了,它们到底是什么样子?是否已经成长为无法掌控的巨兽?


OpenAI的内部技术,到底领先外界多少年?


巨大的压力给到全世界。


自ChatGPT发布以来,国内外众多科技公司对AIGC技术的追捧已达到空前绝后的热度了。


Chat GPT刚刚发布,百度便立即官宣了大模型新项目“文心一言”(ERNIE Bot),将在明天和大家见面。


在此后很短的一段时间内,阿里、京东、腾讯、字节跳动、360等多家互联网及IT企业纷纷表示对AIGC技术发展的关注和跟进,并同步提出了一些相关计划。


种种迹象表明,从科技巨头到行业龙头,中国企业已纷纷进入AIGC赛道竞逐。


但是,这块蛋糕,并不好吃。


GPT-4是人工智能生成内容——AIGC技术最新进展的代表。


所谓AIGC,是继专业生成内容(PGC)、职业生成内容(OGC)、用户生成内容(UGC)后,互联网内容生成的第四个阶段——神经网络深度学习。


这的确是人类科技史上翻天覆地的革命。


GPT-3.5和GPT-4,之所以能生成文字、代码、语音、图片、视频,完成语言翻译、文案撰写、脚本编程,是因为OpenAI对数据、算力、算法等关键要素进行了几个世代的升级。


先说数据。


仅GPT-3.5的训练参数,就达到1750亿个以上。


想要把如此海量的数据被反复投喂给AI模型,单次训练成本就高达460万美元。


如果不是先有马斯克、后有微软的支持,OpenAI是不可能耗费得起的。

再说算力。


2012-2018年,全球AI算力需求增长约为30万倍,这个数字已经很恐怖了。


但从2018年起,随着Google Duplex、Open AI Five以及新华社全球第一个“AI合成主播”上岗,人工智能技术开始加速落地。尤其是今年,称得上是爆发之年。


按照现在的进度,根据预测,AI所需算力每100天将翻一倍。


也就是说,到2030年,AI所需算力是现在的3200万倍。(2的25次方)


显然,如果不在软件服务、硬件支撑、芯片技术等方面协同创新,我们的算力水平不可能实现指数级别的增长。


GPT-4的训练是在微软云上进行的。而在全球云计算市场,微软云排名第二,再加上芯片技术的高速发展,这些都为ChatGPT的横空出世奠定了坚实的算力基础。



最后说算法。


相比传统的AI算法,GPT的优势在于,通过海量参数,进一步提升模型的精确度。


初代GPT模型的参数是1.17亿个;GPT-2事15亿个,增加了10倍;GPT-3达到1750亿,是GPT-2的 100 倍;而GPT-4的真实参数在1750亿-2800亿之间,并没有比GPT-3高出太多,其重点在数据处理优化上。


这种大模型算法的实现,必须有高效率的算法框架来支撑,因为参数量上去之后,需要把模型和数据分散放到多个GPU卡上,卡之间如何通信、调度,如何进行高效的反向传播,都需要大量高水平技术人才来推进和实施。


GPT之所以独特,就是在目前世界上最强大的LLM(大语言模型)为基础的同时,引入了基于人类反馈的强化学习方法,从而提高了对话的质量,而升级到多模态预训练大模型GPT-4版本后,其对话质量变得更加强大、完美。


同时也能看到,GPT-4之所以比GPT3.5强得有限,可能就是算法的效率达到瓶颈了。


GPT-5,可能没有我们想象的那么快到来。


综上,可以看出,ChatGPT是靠强大算力和高成本,用大规模的数据“喂”出来的AI模型,它的出圈看似是偶然的,但其成功却绝非偶然。


其他公司想要复制一款ChatGPT,绝非随便设计个对话模型就完事。


事实上,国内AI领域真正缺乏的是技术积累,包括数据的清洗和标注、模型的结构设计,以及怎么训练、推理等,这些技术很多都需要经验和积累,需要大量的科研人才和普通技术人员一步一个脚印走出来。


这方面,目前大公司更有优势。


比如百度,之所以能尽快推出“文心一言”,就是因为其十年多来累计投入了超过1000亿元的技术研发经费。


而小公司,不仅承担不起高昂的成本,也没有前期的技术研发沉淀。跟风入局,虽然在股市里有一时的风光,利用时间差赚一些块钱。


但长远来看,终究会被市场淘汰。


当然,并不是说小公司完全没有机会,若能真正脚踏实地做好AIGC相关的一个细分板块,依然有机会跑出来。


愿国内科技公司在追赶世界前沿科技的同时,少一些娇娆炒作,少一些急功近利,多一些创新实干,多一些厚积薄发。


03

尾声


最近有个热搜挺有意思的。


说是《校花的贴身高手》水了一万多章,十多年还没完结,被读者举报了。


看得人一脸懵逼,这不是刚上高中时躲被窝里看的么。作者鱼人二代,当年还挺火的,《极品修真强少》、《很纯很暧昧》都是青春期难忘的回忆。


印象中,这部小说早就被翻拍成电视剧,下意识便以为完本了。


其实想想也正常,追了一万多章的书,校花都成阿姨了,男主还是个雏儿,读者当然生气……


还有另一种说法。


平台和签约作者有协议,只要小说不断更,每个月就有几万元固定收入。所以本该完本的小说,作者又找了个代笔,磨磨唧唧水了近十年。


这波啊,是反向薅资本家羊毛,堪称吾辈楷模。


平台被薅得受不了了,于是自己找人偷偷举报。



联想一下。


当ChatGPT、“文心一言”在国内普及后,如果过气的老牌作者人手一个,天天水字数,能白嫖多少稿费?


想想就流口水啊。


对已经功成名就的部分网文作者而言,AI的普及,大概率是件好事。


但对其他人,不一定如此了。


根据上文,总的来说,GPT-4 的已经证明了,它有能力在很多领域,呈现出超越人类的表现。


甚至有传言称,GPT-4通过了“图灵测试”,在逻辑能力上与绝大部分人类已经无异。


现在唯一的门槛,就是成本问题了。


一旦算力、算法、数据得到突破性进展,成本降下来了,就真的会对一些产业形成冲击。


说不定吃着火锅唱着歌,突然就被 AI 把命给革了。


当然,我还是那个观点:快点学,快点用。


AI毕竟是工具,是被人奴役的对象。


即使将来淘汰一部分人,也是先淘汰那些不会使用先进工具的人。


我爱这个魔幻的世界。

——END——

行研君墙裂推荐干货↓↓↓

点击这里,800000+份报告免费下载!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存