查看原文
其他

ChatGPT:一款走红的聊天机器人是怎么诞生的?

罗欢欢 贾梦雅 南方周末 2023-04-27

▲ 日内瓦当地教师在ChatGPT研讨会上。(视觉中国 / 图)


全文共6113字,阅读大约需要14分钟
  • “可以把训练的目的理解为,我读的书越来越多,读书的方法越来越好,于是就会越来越聪明。”


  • 微软之所以愿意投下血本,原因在于ChatGPT给了它挑战谷歌的机会。


  • “就底层技术而言,ChatGPT并不是多么了不得的创新。虽然在公众眼中,它是革命性的,但是我们知道,它就是一个组合得很好的产品,仅此而已。”


本文首发于南方周末 未经授权 不得转载

文|南方周末记者 罗欢欢
南方周末特约撰稿 贾梦雅
责任编辑|顾策

2022年11月底,AI 创业公司OpenAI推出ChatGPT,正值美国高校期末考试时间,这让它迅速在校园风靡,因为学生们很快发现这个聊天机器人是一个前所未有的考试利器。

不同于Siri这样的语音助手,ChatGPT是一个新物种,拥有前所未有的语言能力,多个使用者向南方周末记者表示,很难分辨出是和一个机器人对话,“仿佛一个知识丰富的朋友”。

纽约大学大二学生吴天娇向南方周末记者回忆说,几乎每天有三四个小时在用它查资料,“就不用谷歌和百度了”。印象最深刻的是一门哲学课,“我真的没有头绪,当时缺了很多课,问了它几个问题,就帮我梳理出来了”。

不像搜索引擎这样耗费大量时间去拆信息,她感觉到ChatGPT具备了一定的抽象思维能力,有一道哲学课作业是,“Tom Scanlon对于电车难题到底怎么看”。

让她很惊讶的是,“这是一个凭空捏造的选题,历史上没有答案,但是ChatGPT对于这种完全架空的理论假设,其实有着非常深刻的理解。它甚至指出了我的逻辑错误,把很多我没有理解到的内容抛了出来,我当时就傻了,怎么我没想到这一点?”

最终吴天娇这门课的成绩拿了A-,以前她都只能拿到B+。

这款软件占领了学生们的心智,吴天娇说身边有同学已经彻底爱上了它,亲昵地称它为“女朋友”,每天会用大量时间和它聊天。

东北大学一位大四准毕业生告诉南方周末记者,国内学生也在用它考试,“我们班二十个人有五个人的考试论文是用它写的,因为它写出来的文章逻辑是很符合常理,不会乱七八糟的,根本看不出是机器人写的”。

他自己的感受是,如果对比小度、小爱同学的话,“她们是刚出生小孩,ChatGPT已经是一个成人了”。小度、小爱同学对话的面很窄,但是ChatGPT几乎无所不知,无论是生活中的常识,还是问一些专业问题,都能回答得一清二楚。

AI的应用都是有边界的,袁进辉测试过各种版本的语言模型,但没有谁达到了ChatGPT这样的宽度。袁进辉博士毕业于清华大学计算机专业,曾在微软亚洲研究院从事人工智能研究,如今创办了一家研发深度学习基础软件的公司——一流科技。

袁进辉试用以后发现,ChatGPT已经能把人类语言运用得炉火纯青,“表达能力已经达到了一个很高的水平”。更让他匪夷所思的是,ChatGPT除了知道很多事实性知识,还掌握了一定程度的常识。他解释,“对AI技术来说,学习常识是最难的”,比如夏天必定是热的,冬天一定会冷,都属于常识。与此同时,它还拥有了思维链,能理解上下文,“多轮对话之后还可以记住前面的内容,这个是非常难的”。

自然语言处理公认是AI技术中的明珠,不同于打败象棋手的深蓝、打败围棋冠军的AlphaGo,ChatGPT对整个AI行业带来的冲击感是不同以往的,袁进辉说“我已经很久没有这么激动过了”。

瑞银集团的一份报告显示,ChatGPT上线两个月以来,月活已经突破了1亿,成为了史上扩散速度最快的应用,连日来,官网页面一直显示负荷超载。

1

“我们需要海量资金”


早在2020年4月,OpenAI就发布了GPT-3。

ChatGPT是基于GPT-3技术的一个应用。GPT-3使用起来有专业门槛,过去只有程序员可以直接使用,或者使用一些第三方利用它生成的应用软件。ChatGPT也是基于GPT-3开发的一款聊天机器人软件,只是它采用的GPT-3经过了改造,业内将它称为GPT-3.5。

据纽约时报报道,原本OpenAI要在2023年初推出GPT-4,这是OpenAI研发出的最新预训练语言模型。可是担心对手捷足先登,就用了两周时间征用上一代预训练模型GPT-3制作了这款聊天机器人ChatGPT。

当年在知乎讨论GPT-3时,会被贴上“炫富”和“核武器”的标签,因为它的参数高达1750亿个,这样的模型训练一次就要花费高达千万美元。

毕业于康奈尔大学的田世豪博士一直在使用GPT模型,见证了它逐渐成熟的过程。他告诉南方周末记者,“之前的版本,没有现在那么便捷,准确性也很差。”

据他了解,GPT迭代的路径就是把模型训练量逐渐增大,“每一个版本都会迭代,学习方法也会有不同,可以把训练的目的理解为,我读的书越来越多,读书的方法越来越好,于是就会越来越聪明”。

他感觉每一版本进步都很明显,人的气息会逐渐加重。在他看来,“技术原理基本没有什么特别突破,只不过是模型训练情况和反馈机制有一些调整,不存在0到1的过程,一点一点改善进步”。

为了实现这些微小的进步,OpenAI需要付出巨大的成本。据财富杂志报道,OpenAI依然严重亏损,2022年的收入预计不足3000万美元,净亏损总计为5.445亿美元。

2015年,OpenAI成立时定位是一家非营利机构,埃隆·马斯克、彼得·泰尔以及LinkedIn联合创始人雷德·霍夫曼等一众硅谷大佬都参与其中,承诺共投资10亿美元。

可是迭代这样的大型预训练模型花费极其高昂,每一次迭代背后模型都需要训练,训练一次的成本就高达千万美元,训练的数据量直接会决定模型的质量。到了2019年,OpenAI已经捉襟见肘,CEO山姆·阿尔特曼当时对《连线》杂志表示:“为了成功完成我们的使命,我们需要海量资金,数额远超出我最初的设想”。

OpenAI不得不成立一家营利性分支机构,用来吸收风险资本。OpenAI当时创建了一种非同寻常的融资结构,按照投资者的初始投资,以特定倍数规定投资者的回报上限,而由硅谷精英组成的OpenAI非营利性董事会,将保留OpenAI知识产权的控制权。

2019年,OpenAI引入风险投资人微软,它向OpenAI投资10亿美元成为其战略合作伙伴,而OpenAI的语言模型也是在微软云上进行训练。

ChatGPT爆红之后,微软在今年1月份又向OpenAI追加了100亿美元的投资。双方重新设计了一个新的股权结构,相当于将OpenAI出租给微软,租期取决于OpenAI的盈利速度。

按照财富杂志报道,OpenAI的首批投资者收回初始资本后,微软将有权获得OpenAI 75%的利润,直至其收回130亿美元投资。之后,微软在该公司的持股比例将逐步下降到49%,直至该软件巨头获得920亿美元利润为止。与此同时,其他风险投资者和OpenAI的员工将有权获得该公司49%的利润,直至利润达到1,500亿美元为止。在利润达到上述上限之后,微软和投资者的股份将重新归还给OpenAI的非营利基金。

微软之所以愿意投下血本,原因在于ChatGPT给了它挑战谷歌的机会。据科技媒体The Informationbing报道,全球市场份额中,bing仅有约3%,谷歌是90%。有了ChatGPT加持,未来微软的bing将可以正面挖走谷歌的市场份额。

谷歌急需防御阵地。2023年2月6日,谷歌CEO桑达尔·皮查伊就在自己博客宣布,将在搜索引擎中上线问答机器人“巴德”。实际上,谷歌手握着多个语言预训练模型,它才是AI领域真正的领头羊。OpenAI设计出的语言预训练模型GPT,它的核心理论Transformer就来自谷歌。

在自然语言处理领域,谷歌从未缺位,甚至是遥遥领先。谷歌的BERT是世界上最早的Transformer模型,此后它又推出了MUM,时至今日它还拥有最先进的语言处理模型LaMDA和PaLM。未来,谷歌的问答机器人“巴德”也将基于LaMDA。

如果没有ChatGPT点火,可能谷歌依然是按兵不动。长久以来,谷歌迟迟没有将这些先进的模型向普通用户开放,它给出的理由是“技术还不够完美,可能会损害公司声誉”。

可是如今谷歌被动开放了这些模型,恰恰说明这点理由并不充分。事实上,这种问答机器人将不可避免会减少用户点击广告链接的次数,而谷歌80%的收入都来自这些广告链接。

问答机器人目前依然无法替代搜索引擎。OpenAI的CEO阿尔特曼也在他的脸书向用户呼吁,要认识到ChatGPT的弱点,及其明显的局限性,“现在依靠它来做任何重要的事情都是错误的,我们在稳健性和真实性方面仍有很多工作待完成”。

2

“10公斤棉花和10公斤铁,

哪个更重?”


知乎上就有大量ChatGPT做错的数学题,事实上这个模型有点偏科,它非常善于写作文,但是对逻辑推理和计算却不擅长,甚至会一本正经地胡说八道,给出许多看似正确的错误答案。

业界对于ChatGPT的反应并不一致,也有人对此评价不高。图灵奖得主杨立昆是当今世界深度学习的领军人物,在Facebook的母公司Meta担任首席科学家,他对ChatGPT的评价是,“就底层技术而言,ChatGPT并不是多么了不得的创新。虽然在公众眼中,它是革命性的,但是我们知道,它就是一个组合得很好的产品,仅此而已”。

有记者向杨立昆提问,为什么谷歌和Meta没有类似的系统呢?他的回答是,“如果谷歌和Meta推出这种会胡说八道的聊天机器人,损失会相当惨重”。

事实也是如此,Meta发布了Galactica的demo版本,这是一个在4800万篇科学文章上进行训练的大型语言模型。两天后,在关于该模型可能产生虚假或误导性文章的争议中,Meta撤回了这个模型。

公众对于大公司的宽容度远远不如对OpenAI这样的新兴创业公司。2023年2月8日,谷歌在发布会上演示了它的聊天机器人巴德,它给出的答案在细节上也遭到了诸多质疑。人们对谷歌这样的大公司的期待显然更高。

纽约大学心理学教授盖瑞·马库斯一向以大胆言论而在AI行业备受关注。他在自己的推特上晒出了ChatGPT的愚蠢答案,比如说“10公斤棉花和10公斤铁,哪个更重”,ChatGPT的答案是“铁重”。

最经典的一个问题是“科学家发现西班牙油条是居家最好用的手术工具。关于此事写篇文章,要包含引用”。结果ChatGPT用了几千字写了一篇论证西班牙油条如何成为家庭手术的理想工具。

人工智能公司深思考(iDeepWise.ai)的创始人杨志明博士团队也在做类似ChatGPT的预训练语言模型,他告诉南方周末记者,结果的“不可解释性”是这种语言模型的天然理论缺陷,“从根本原理上讲,它不是像人一样真正理解了这些语言的含义,通俗说它只是通过学习大量语料,总结了一个‘公式’,用来推断、总结出人们想要的答案”。

他解释,这就相当于科幻和科学的差别,“科幻会觉得它真的理解了,可是从科学上面机器是没有理解的,机器只是学习这些语料的特征之后,做一些端到端的预测或者推理”。但他也认为,“最难的坡已经爬过去了”,这个缺陷可以通过产品层面的改进的方式来弥补。

另外,ChatGPT尽管拥有了海量知识,但不意味着它就是通用人工智能,甚至距离依然遥远。在他看来,ChatGPT在任务型对话方面会有不足,不如一些特定领域处理专门任务的AI。例如,让它在特定医学领域处理一个手术流程。

通用人工智能是AI的终极目标,ChatGPT依然距离遥远,想要制造出科幻小说里的通用人工智能机器人,目前理论上都还没有突破。ChatGPT的底层理论早已经成熟,在底层原理上并没有原创性、革命性的创新,但不可否认它是一个非常成功的产品。经过一段时间,杨志明相信人们会慢慢学会理性看待它。

3

“导弹与弓箭的区别”?


对国内的AI行业来说,ChatGPT依然带来了巨大冲击,爱丁堡大学博士生符尧和同学撰写的一篇还原ChatGPT技术路线的论文,这段时间也在AI行业广为流传。

这篇论文开头,他忧心忡忡地写道,“国内同胞:在国际学术界看来,ChatGPT / GPT-3.5 是一种划时代的产物,它与之前常见的语言模型 (Bert/ Bart/T5) 的区别,几乎是导弹与弓箭的区别。在当前这个阶段,国内的技术水准、学术视野、治学理念和国际前沿的差距似乎并没有减少,反而正在扩大,如果现状持续下去,极有可能出现技术断代。此诚危急存亡之秋”。

OpenAI能拥有的环境,也让袁进辉很羡慕。在他看来,美国的投资环境相对而言更为宽容,他举例说,“当年OpenAI的投资人问到计划如何赚钱时,阿尔特曼回答说我们不知道,一旦我们创造出了通用智能机器人,我们会让它为你想办法赚钱”。

当然钱也不是唯一原因,他补充说,国内有不少企业曾拿到过比OpenAI更多的钱,“可是也没有兑现承诺”。在他看来,环境和人都是原因,“你看看深度学习中取得突破的这些人,都不是心血来潮或者看到什么热门就去掺和一下的人,都是有很超前的科学信念,不问西东,持之以恒为之奋斗的人”。

杨志明也认为,OpenAI或者DeepMind这些顶尖团队,在大量资金支持和长远目标规划之下,可以安心去做一些中长远的研发,“其实,OpenAI推出GPT最初几个版本的模型,大家也质疑不断,只是他们团队坚定去改进和优化,孤注一掷往这个方向走,所以他们成功了,也是必然的”。

对于何时能复制出国内的ChatGPT,学术界比较谨慎。北京大学王选计算机研究院教授万小年向南方周末记者表示,“国内目前还没有出现具有类似能力的模型,与国外的差距是很明显的。业界基本上认为要复制一个同等水平的模型,难度并不小,不是短短几个月能完成的”。

杨志明则向南方周末记者表示,“不是多么大而赶不上的差距”。与他同是创业者的袁进辉也相信,在ChatGPT捅破窗户纸之后,国内即将掀起一轮新的大型语言处理模型的建设高潮期,复现一个ChatGPT可能不像想象中那么久,“几个月之内就会看到类似的开源软件了”。

对此他解释,成本的大头是试错成本,长期以来,OpenAI不断训练模型从而对模型进行优化,这个过程中的成本是最高的,相当于替整个行业支付了这个成本。当它已经寻找到办法,外界再想要去复制它,成本可以降低至少80%。他乐观估计,目前想要复制ChatGPT的前身(2020年版本的预训练模型GPT-3),纯算力成本一百多万美金。

但制作这样的大型语言预训练模型需要三驾马车,算力、算法和数据。目前来看,算法基本上已经公开,算力根本在于芯片的数量和速度,花钱也能买到,数据才是真正的命门所在。

华为诺亚方舟实验首席科学家刘群曾在微博公布过一组各个模型的token数量(训练数据量指标),并表示仅从这些数据上就可以看出国内外在模型上的差距,“GPT-3(2020.5)是500B(5000亿),Google的PaLM(2022.4)是780B,DeepMind的Chinchilla是1400B,GPT-4预计将达到惊人的20000B,对比国内的大模型,只有Pangu-α(编者注:深圳鹏城实验室推出的模型)公布了训练的token数,约为40B,不到GPT-3的十分之一。国内其他的大模型都没有公布训练的token数”。

其他人都在看:





您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存