其他
万字长文解读:从Transformer到ChatGPT,通用人工智能曙光初现
从机器翻译到ChatGPT:自然语言处理的进化
BERT & GPT的基础:变换器网络
NLP奋发五载
大模型的突飞猛进
机构方面,Google和Deepmind发布了BERT、T5、Gopher、PaLM、GaLM、Switch等等大模型,模型的参数规模从1亿增长到1万亿;OpenAI和微软则发布了GPT、GPT-2、GPT-3、InstructGPT、Turing-NLG 和 M-Turing-NLG等等大模型,模型的参数规模从1亿增长到5000亿;百度发布了文心(ERNIE)系列,包括 ERNIE,ERNIE2.0,ERNIE3.0,ERNIE 3.0-Titan,参数规模从3亿增长到2600亿。总体来说,随着模型的增长,有能力训练和发布大模型的在减少。除了上面提到的几家之外,其他的还有芯片大厂Nvidia靠充足的算力,大力出奇迹,国内的智源研究院和鹏程实验室等机构也发布了悟道、盘古等大模型,表现不俗。 大模型成本高昂,时间成本和经济成本都巨大。以模型参数为1750亿的GPT-3为例,用于训练模型的原始语料文本超过100TB(压缩包为45TB),包含了网页、书籍、英文维基百科等。原始语料文本经过处理后,形成了超过5000亿个词元(西方语言的词,中文的字等)的训练语料。GPT-3模型的训练和评估采用的算力是微软和OpenAI一起打造的超级计算集群,集群有28.5万核CPU,1万个V100 GPU,以及400Gbps的网络带宽。建造这个超级计算集群的费用超过20亿元。如果租用微软或其他云厂商的集群来训练GPT-3,训练一次GPT-3需要耗费估计从280万到540万美元不等(价格因不同云厂商而有所不同)。因训练花费不菲,在 GPT-3的论文《Language Models are Few-Shot Learners》中提到“发现了bug但由于训练费用问题而没有重新训练模型(Unfortunately, a bug in the filtering caused us to ignore some overlaps, and due to the cost of training it was not feasible to retrain the model.)”[11]。
算法的融会贯通
语言模型
情境学习
情境学习能够有效地使模型即时适应输入分布与训练分布有显著差异的新任务,这相当于在推理期间通过“学习”范例来实现对特定任务的学习,进而允许用户通过新的用例快速构建模型,而不需要为每个任务进行微调训练。 构建于大语言模型之上的情境学习通常只需要很少的提示示例即可正常工作,这对于非自然语言处理和人工智能领域的专家来说非常直观且有用。
人类反馈强化学习
AGI初现曙光
用于实体抽取的系统,无法用于对话。 用于问答的系统可以在SQuAD2.0获得高分,但在没有进行微调等重新训练模型的情况下,在命名实体识别或翻译的评测中就表现得很差劲。 AlphaZero在围棋上打遍天下无敌手,但没法用来做其他事情,比如人脸识别或者事件分析等。 AlphaFold2能够解决蛋白质折叠这种专业大学教授都难以搞定的超级难的问题,但面对幼儿园小朋友也能很好地解决的“12+23”等算术问题则显得无能为力。 有一些试图以通用智能助手形式提供的人工智能产品则经常被戏称为“人工智障”。
无监督学习——婴儿期人类大脑,遗传和3岁以下认知世界的模式; 有监督学习——从幼儿园开始不断学习各类技能和知识; 强化学习——从现实环境的反馈中学习。
微软联合创始人比尔·盖茨在2023年1月11日的Reddit AMA(Ask Me Anything)的问答帖中对一些热门科技概念发表了看法,他表示自己不太看好Web3和元宇宙,但认为人工智能是“革命性”的,对OpenAI的ChatGPT印象深刻[15]。微软也准备再向OpenAI投资100亿美元,并表示旗下全部产品都接入ChatGPT以提供智能服务。 此前力推元宇宙的Meta的态度也有所改变,扎克伯格在2022年度报告投资者电话会议上表示“我们的目标是成为生成式人工智能的领导者(Our Goal is to be Leader in Generative AI)”[16]。面对投资者对元宇宙是否被抛弃的疑问,扎克伯格的回答是“今天专注于人工智能,长期则是元宇宙(AI today and over the longer term the metaverse)”(想想经济学家凯恩斯那句名言“长期来看,我们都死了”吧)。 Google创始人回归并全力支持类似 ChatGPT产品的开发,同时向Anthropic投资3亿美元。Anthropic由OpenAI的多名资深研究人员创立,其产品与OpenAI的类似,如Claude(ChatGPT)和(GPT-3)。 许多学者认为,通用人工智能到来的时间会加速,也许,2035年就是一个通用人工智能的“奇点”时刻。