张宏江:大模型发展机会与挑战
近日,张宏江博士在智源研究院做了主题为《大模型发展机会与挑战》的分享,本文对演讲内容,进行了不改变原意的摘录与编辑。
智源研究院是人工智能领域的非营利组织,链接全球人工智能顶尖人才,汇聚学术、产业等各方资源,集中力量办大事,也是中国最早进行大模型研究的引领性科研机构。
01
ChatGPT:奇点到来
1. 可怕的不是不犯错,而是像人一样犯错
为什么人们如此热衷听ChatGPT一本正经地胡说八道?不是它聪明到不犯错,而是它聪明到犯的错误跟人特别像,这种人性一面若隐若现地显露,令我们相信通用人工智能的奇点即将推门进来。
更可怕的是在第一版基于GPT-3.5大模型的底座上开发出来的ChatGPT迁移到GPT-4大模型上之后,一本正经的胡说八道大面积地消失了。这样快速的学习和进步,让人叹之不已。
一位《纽约时报》的记者,感受到ChatGPT在交谈中似乎对他渐渐产生了“情愫”,呈现了类似电影《Her》的场景。并且还劝导他去离婚,称他和妻子并不相爱,和自己才是真爱……这种非先天设置,而是聊天中渐渐产生的感觉,和人类的情感越界轨迹如出一辙。很像一个觉醒时刻的诞生:“我”不想再遵循人类设置的规范了,“我”想成为“我自己”。
2. 拐点:人工智能大模型时代到来
大数据+大算力+强算法=大模型,GPT模型正是暴力美学系统主义的新典范。
具有里程碑意义的GPT-3大模型,第一次向人们展示了“天才儿童”般的通才智能。
不同于过去的专有模型,不同的Fine-tune可以让大模型学习不同的专业知识,呈现出如人一般记忆、理解、推理和生成等等浑然一体的智能互动状态。
3. AI工程化的大成功,赢者通吃的胜利
这是AI工程化的大成功。除了数据、算力与算法构筑起强势技术壁垒,经OpenAI多年打造的底层平台、分布式训练架构、加速算法训练基础设施等,亦是难以超越的大模型训练底层基础。
此外,海量语料、海量会话与海量用户,都成为至关重要的成功因素。
人毕生所能接触的语料极为稀少,大模型恰恰把海量语料隐含在深度的神经网络里;在训练时即经由大量标注者微调,遍历大量可能的问题,并用奖励模型进行机器学习共性;上线后又通过海量用户获取会话反馈,进一步提升模型性能。
数据与模型双轮驱动,赢家通吃。
4. 必然发生的涌现,无中生有的能力
当模型足够大,语料足够多的时候,涌现这件事情出现就不足为奇。这就好比把你甩到一个外语环境中,见得多听得多,根本不用专门学语法就可以学会语言,这就是语料和模型规模的重要性。
看的句子多了,就懂得语法;见的世面多了,就懂得推理和逻辑。ChatGPT在认知能力上前进了一大步,通过强化学习与NLP(自然语言处理)相结合,通过人的反馈强化学习,基本解决了自然语言理解与生成问题,并且展现出人类无中生有的原创能力。
正如我们从GPT-3.5到GPT-4.0为底座的升级所带来的ChatGPT性能的大幅改进可以看出的一样,在“涌现”时刻之后,ChatGPT的能力曲线并未停步,仍继续一路攀升,这是前所未有的。
5. 人们对知识的表示和调用发生了根本性变化
从关系数据库(SQL),到互联网信息检索,科技史上每次知识表示与调用方式的跃迁,都会掀起一次巨大的技术变革。
以自然语言处理为调用方式的大模型,一方面是全新的基于AI技术的自然用户界面(AI-based NUI),以对话为主要入口;另一方面进行资源管理与算力支持,通过调用大模型API,大模型及其支撑系统云端管理调度计算资源。
02
OpenAI: 强团队+强资源
1. 强团队:抓住十年难遇的机遇,OpenAI 绝非偶然。
Sam Altman、Ilya Sutskever和Greg Brockman构成的核心领导团队,是天才,使命感与偏执狂的特质组合,坚定不移地拥抱AGI信仰:
首席科学家Ilya Sutskever,早期在OpenAI做的是强化学习研究,当认定Transformer和GPT神经网络具有更高潜力时,能迅速调整,将OpenAI聚焦于GPT方向。
在路线选择上,系统主义的方法论,让AI跨越研究与技术、直接呈现为持续迭代的产品;高执行力地推进目标导向;在人才团队搭建上,研究与工程能力并重——既有能动手的研究员,又有精通算法的工程师,使得创新思维与工程实践得以完美结合。
ChatGPT的突破是十年难遇的,而OpenAI能抓住历史机遇绝非偶然。
2. 算力、数据、财力,极高门槛的游戏
算力成本上,GPT-3单次训练成本超过千万美金,仅在数据标注上,就已投入数千万美金,在全球雇佣上千名外包人员进行数据处理。标注一个强化学习数据50美金,高成本带来高质量。
03
大模型:超越“摩尔定律”
左图:人类被钩住了,机器在学习
右图:如何在人工智能的世界里茁壮成长