查看原文
其他

会士观点丨清华大学张学工教授:AI技术前沿——从ChatGPT到更多突破

张学工 中国人工智能学会 2023-03-01




点击蓝字 关注我们




ChatGPT模型正以前所未有的速度火爆全球,受到社会各界的高度关注。近日,CAAI常务理事、生物信息学与人工生命专委会主任、清华大学自动化系张学工教授围绕ChatGPT基本原理及人工智能领域其它热点问题,带来最新分享——《AI技术前沿:从ChatGPT到更多突破》。

张学工教授报告视频


以下为报告实录:


1.引言

以图像识别和计算机视觉为引领的深度学习在2010年前后快速发展,使机器学习成为现代人工智能AI的核心。


机器学习包含四大类任务:识别、发现、决策和生成。以图像识别为代表,机器学习对各种数据的识别能力已经非常强大,在很多领域中已经有比较成熟的应用。AI在围棋、扑克等智能博弈领域取得的进展,是AI在复杂环境下决策能力高度发展的体现。AI用于发现的最基本代表聚类分析,能从数据中发现隐藏的类别或模式,而从数据中发现高阶的知识,则是未来AI for Science的一项主要任务,目前的AI方法尚有待于发展。最近占据了舆论热点的AI对话系统ChatGPT,是AI在自然语言生成任务上最先进的实例;与此同时,用AI生成各种高质量图像的AIGC(人工智能生成内容)是AI在生成任务上的另一重要前沿。

在各类问题中,大部分方法都可以抽象地用一个可学习的函数模型来描述:AI就是从输入到输出的某种映射,映射的函数是通过训练数据按照一定的算法来决定的。


最基本的这种模型就是早在1943年McCulloch和Pitts提出的神经元计算模型,1957年由Rosenblatt用电子管硬件搭建了第一台真正意义上的的学习机器“感知器”,能学习实现一些基本的分类识别功能。它的发展一波三折,其中在1986年由Hinton、LeCun、Park等研究者分别提出的BP反向传播算法,使多层感知器能够实现更复杂的分线性分类任务。这个算法至今依然是各种复杂的人工智能模型学习算法的基础。多层感知器为代表的人工神经网络在1990年前后得到飞速发展,在自动驾驶等领域中已经展现出很大的潜能。

在经过了十几年相对平静的发展,2012年深度卷积神经网络在大规模图像数据识别任务上的出色表现,使深度学习成为领域热点,也引起了全社会对以深度学习为代表的新一代人工智能的关注。在此后的几年里,以图像识别、计算机视觉为代表,AI在大量识别类任务上已经大量进入产业和社会应用。


2.早期的神经网络语言模型和机器翻译

在图像识别领域飞速发展的同时,机器学习在自然语言处理领域也在快速发展。其中,最经典的循环神经网络RNN模型,它可以接收自然语言等时间序列输入,完成对语言内容或情感的分类,并且可以通过学习大量文本中字母和单词之间的连接关系,生成形式上类似自然语言的文本内容。如果用大量计算机代码文本进行训练,RNN还可以生成伪装的计算机代码。这些文字和代码与真实的自然语言和计算机代码相比只是形式上相似,并不存在“含义”和“功能”,但这种靠最基本的RNN语言模型就能生成的内容,让我们对经过一二十年发展出现ChatGPT这样能生成复杂有含义内容的AI方法并不十分惊讶。

简单的神经网络语言模型,在对字、词进行向量表示时无法引入词义信息,因此它学习的只是语言的形式而不是语义。我们教婴儿说话一样,我们通过字、词的使用场景来让宝宝理解字词的含义,我们通过在文章中完型填空,来学习和考查对词义和用法的理解。这也是AI学习自然语言的基本原理。早在2003年,Bengio等人就提出了根据上下文预测单词使用概率的神经网络语言模型,到2013年深度学习兴起后,谷歌的研究者提出了词向量Word2Vec模型,通过学习上下文依赖关系得到对词的向量表示,这种表示中已经蕴含了单词的语义和语法信息。

谷歌的研究者把注意到词向量表示与RNN结合起来,提出了seq2seq的机器翻译模型,能有效地把源语言句子的信息汇集到RNN的状态向量中,再通过RNN模型从这个状态向量出发生成出目标语言的句子。这是机器翻译领域的一个重要突破。为了更有效捕捉句子中较远的词中包含的信息,人们用早在1997年就由Hochreiter和Schmidhuber提出的长短时记忆LSTM神经网络模型替代基本的RNN模型,使机器翻译有更出色的表现。LSTM是一种包含多个状态向量的RNN模型,这些状态向量各有分工,分别用于学习最近上下文的信息和很远文本中的信息。

2015年Bahdanau等提出的比对注意力模型,是机器翻译领域的另一个重要进展。它不是像LSTM那也把源句子中长程和短程的信息都集中到一起用于生成目标句子中所有词,而是对目标句子的每一个词学习一个在源句子中的相对注意力加权。采用这样的注意力机制后,AI在长句子翻译上的水平得到了进一步提高。此外,人们还把神经网络机器翻译的原理和注意力机制推广应用到了把图像“翻译“成描述文字的图片自动注释上,使AI不但能识别出图片中的主体,还能产生对图片内容的自然语言描述。


3.从 Transformer 到 ChatGPT

神经网络自然语言处理领域的一个重要里程碑是2017年谷歌研究者提出的Transformer模型。Transformer的字面含义是“变换器”,电影《变形金刚》的原文标题即为Transformer。Transformer神经网络模型针对的仍然是机器翻译的场景,但它一方面规模比之前的模型都大很多,包括输入部分和输出部分,输入部分包括六组由多头自注意力模块和前馈模块组成的单元,输出部分包括六组由掩码的多头自注意力模块、多头互注意力模块和前馈模块组成的单元;另一方面,Transformer中引入了的多层自注意力机制和位置编码,使模型能更好地学习到一个语言内部多个层次上的上下文关系和两个语言之间的关系。这个在当时看来已经很巨大的变形金刚一方面在机器翻译任务上表现出色,另一方面为后来自然语言生成领域的快速发展打开了大门。ChatGPT名字中的T就是Transformer。

除了在自然语言中的应用,Transformer模型也在音乐等其他时间序列信息中得到应用,比如用它可以初步实现由一个短的引子自动生成出一段音乐。


Transformer模型开启了自然语言处理领域的“军备竞赛”。谷歌在2018年发表了采用双向编码表示的Transformer模型BERT,首先采用大量文本对模型进行预训练,得到对词元的基本编码,再针对目标任务进行微调,使模型进一步“理解”自然语言。同年,OpenAI公司发表了生成预训练Transformer模型GPT,也就是后来称作GPT-1的模型。它采用12组神经网络单元构成,每一组中包含带掩码的多头自注意力模块和前馈模块,同样用大量文本数据进行预训练,再针对不同类型的目标进行微调。因为此类模型的规模都非常大,又都需要用大量数据进行预训练,人们统称它们为“大模型”或“预训练大模型”。

2019年OpenAI公司在GPT-2中把单元的数目增加到了48组,模型总的可训练参数规模达到15亿个。用这样的模型,已经能在给出一小段引子后产生很长篇的文字“作品”,其中已经能展现出相对程度的上下文关联和逻辑性。2020年,OpenAI进一步发布了GPT-3,包含96组单元,每个单元内部的表示维度和注意力通道数也大大增加,使总的可训练参数量达到了1750亿个。这样的模型,在一万个GPU组成的计算系统上训练一次大约需要十几天时间,花费据估计可达数百万美元。用GPT-3生成的文章,人们已经很难区分是人类作家所写还是AI缩写(区分准确率只有12%)。

2021年底,谷歌旗下的DeepMind发布了他们新的语言模型Gopher,一方面参赛规模进一步增大,达到2800亿可训练参数,另一方面模型结构进一步优化,据称性能可以超过参赛规模25倍于它的模型。Gopher能与用户就多方面内容进行大量对话,语言已经相当自然和有逻辑,涉及到的知识也十分丰富。

Gopher用于自然语言对话达到的程度已经与现在最火的ChatGPT很接近,当时包括我在内的一些人以为它会很快掀起一股热潮,但好像并没有在自然语言处理领域之外引起大众太多注意。2022年初,OpenAI推出了InstructGPT,就是后来被称作GPT-3.5的大模型。它专门针对对话应用就进行了大量优化,包括在预训练之后用大量经过人工标注的示范数据进行有监督的微调,基于人工对模型生成输出的评价排序让AI学习一个奖励模型,再用强化学习方法根据奖励模型训练模型的输出策略。通过这一系列针对性的指令性训练,让机器生成的对话尽量实现有帮助、诚实和无害(3H: Helpful, Honest, Harmless)。与Gopher类似的,InstructGPT虽然在技术上有长足的进展,但并未引起公众广泛的注意,直到2022年12月初OpenAI发布他们的ChatGPT。

OpenAI是通过公司网站发布的ChatGPT而并没有发表技术文章,所以对ChatGPT确切的原理只能通过起网页上的扼要描述和它前几代的模型进行推测。根据 他们公开的信息,ChatGPT的模型基本与InstructGPT一致,在监督的微调训练和带有人类反馈的强化学习方面应该增加了更大力度。另一方面,ChatGPT在发布的同时向民众开放了注册试用服务,这一服务掀起了广大民众极大的兴趣和关注度,据说注册的活跃用户数在很短时间内就超过了1亿个。由于它看似能回答用户任何提问,有些人预言ChatGPT将是对谷歌等搜索引擎服务的巨大冲击。在各国的各种互联网社交平台上,人们在大量传播和议论ChatGPT在很多场景中给出的看似非常有智能和知识渊博的回答,也不断有报道说ChatGPT通过了各种专业资格考试,同时也不断有人找出来它犯的一些低级错误,指出它在一些问题上是“一本正经地胡说八道”。无论如何,ChatGPT确实是把AI自然语言处理推向了一个新高度,为未来技术发展和多个行业的产业应用带来了很大的想象空间。同时,它的成果并不只是在技术上,而是它通过开放用户使用平台,一方面把其他有可能竞争的类似工作置于了阴影之中,另一方面无偿获得了全世界大量用户的人工再训练,而其包含的强化学习机制,使得它能在全世界用户的赞赏、吐槽和批评中进一步快速成长,进一步加强和确保了它的领先地位和顶端优势。


4.AI生成图像内容(AIGC)

在ChatGPT掀起了大众对人工智能关注的新一轮热潮之前,在图像领域有一类技术已经引起了学术界和业界的广泛关注,就是用AI生成图像内容的技术,通常简称为AIGC。在现在大家广泛谈论ChatGPT技术将会怎样影响各行各业的时候,也应该关注AI领域其他的这些前沿进展。


2014年Goodfellow等人提出的对抗生成网络GAN,是在图像生成模型和更广泛的内容生成模型的一个标志性进展。它通过生成器和识别器的对抗训练,能实现从隐空间的噪声输入生成图像,并且人们可以在隐空间中实现对图像含义的运算,比如用戴眼镜男子的图片减去不戴眼镜男子的图片再加上不戴眼镜女子的图片,生成戴眼镜女子的图片。

这类技术也可以用于生成其他内容。比如我们实验室本科生关嘉琪同学2018年在他的毕业设计中就设计了一种用于生成仿真病例文本的GAN模型,用我们收集到的三千多例电子病历中的病人自述部分做训练,学会根据给定的类别标签生成肺炎和肺癌的仿真病人自述文本,其中也采用了强化学习来提高文本生成质量。虽然我们的模型规模很小、训练样本也很小,只在笔记本电脑上运行,但已经能生成有相当真实性的仿真文本。人们用类似原理设计了从静止图片生成动画和视频的方法,把古典名画和历史照片变成生动的动画,有以假乱真的效果。

与GAN并行的另一类生成模型的代表是变分自编码器VAE,它通过训练一个编码器把输入图像映射到隐空间中的特定分布中,再经过一个解码器从隐空间映射到图像空间,生成新的图像。人们也用这种技术在隐空间中实现了对图像的表情运算,还用这种技术结合LSTM模型进行音乐创作,生成了相当悦耳的打击乐曲,等等。

图像生成领域中最近几年一个重大进展是扩散模型(Diffusion models)。它通过一个扩散模型把图像一步步变为噪声,再用一个逆扩散过程一步步从噪声恢复出图像,结果可以生成出分辨率和逼真度都大大高于之前模型的人脸图像。

2022年,人们把这种扩散模型的图像生成技术与自然语言理解技术相结合,实现了给出一定的文字指令就能把一幅图像自动编辑为另一幅符合指定描述的图像。这一领域的技术进展虽然没有在大众中引起轰动效应,但已经达到相当令人惊叹的程度。可以想象,这样的技术与ChatGPT等技术相结合,一些之前只存在于科幻小说和电影里的虚拟数字人物等场景将成为现实。


5.强化学习

ChatGPT与前几代GPT或其他语言模型的一个重要进步是采用了人类反馈的强化学习。强化学习是AI另一个前沿,与AI的其他任务不同,这里AI要学习的是在一个复杂环境中如何通过执行一系列行为实现最终受益最大化的决策策略。其中智能体行为对环境状态和最终受益的影响,需要用深度神经网络来学习。前些年掀起人工智能热潮的AlphaGO,其核心技术就是深度强化学习。最早的AlphaGO是利用大量人类棋谱进行强化学习,后来的AlphaGO Zero则更进一步,通过自己生成大量棋局来进行自我强化学习。这是强化学习领域的一个重大进展。

当前,强化学习的一个重要前沿就是通过仿真进行自我训练。比如用计算机游戏的方式训练一个着陆器,经过多轮训练后很快就能让它在指定区域平稳着陆。人们用这种方式训练的无人机控制,能非常好地适应各种复杂的气候条件和外力干扰等。在OpenAI公司2019年发表的另一项成果中,它们制造了一个高度灵活的机器手,通过大量仿真实验对机器手的控制策略进行强化学习训练,使机器手能达到与人手灵巧度相当,可以快速完成各种复杂的细微操作。这种用大量仿真实验进行复杂对象的强化学习的技术,是人工智能领域同样值得大家重视另一个前沿。


6.AI与生物和医学

最后再简单谈一下AI与生物和医学的结合问题,这是我正在从事研究的领域,有很多值得探讨的话题,但时间关系这里不展开讨论。


生命是高度复杂的研究对象,我们看到的生命的表型有很多方面,背后决定它们的因素包括遗传、生活方式和环境等。现代生物和医学技术发展使我们能越来越多地对表型和各种因素进行观测,得到生命各个层面和尺度上的信息。要理解生命,就要把生命看作一个信息系统,通过全方位跨尺度的数据感知实现生命的数字化、建立生命系统全方位跨尺度的数学模型,在数字化、数学化基础上最终实现医疗健康的精准智能化。这就是我们提出的“数基生命系统”的概念。在实现这一远大目标的历程中,上述人工智能的各项前沿技术都可以发挥很大作用,但由于生命系统的复杂性,直接把现有前沿技术潜移到生物医学问题上,能解决的问题是有限的,需要在生物和医学场景下发展更有效的人工智能新技术。

我们在最近的一项工作中,初步探索了用大量单细胞转录组学数据组装人体集成细胞图谱,把人体集成细胞图谱作为虚拟数字人体进行“数基细胞实验”的新范式,可以成功地预测出当前最先进的CAR-T肿瘤靶向治疗可能对全身哪些器官的哪些细胞类型产生脱靶的副作用。目前版本的系统包含的细胞数还比较少,可以相信,随着细胞数量和对组织器官覆盖度的提高,以及对细胞分子特性数字化观测精度和分辨率的提高,在数基虚拟人体上进行疾病研究、治疗方案推演、药物虚拟试验等,将代表人体生物学和医学研究的未来。

另一方面,人工智能的发展结合基因组学、合成生物学等领域的前沿技术,为我们更有效干预生命过程提供了很大的可能。比如,在我同事汪小我教授最近的一项工作中,对基因调控序列设计了一种专门的对抗生成网络,用AI生成出自然界物种中不存在的但具有特点生物功能的基因调控序列片段,为设计与生命体原有基因组序列不互相干扰的基因元件开辟了一条全新道路,为未来AI基因药物设计等的疾病治疗新技术拓展了巨大的想象空间。


7.讨论

最后小结一下:我们正处在一个多种技术尤其是人工智能技术飞速发展的时代,ChatGPT展现出来的突破为各行各业的未来发展带来了很大的探索空间和发展前景,但我们要克服一种把技术发展过于“戏剧化”的倾向。与其他很多革命性技术一样,ChatGPT也并非在一夜之间实现的0到1的突破,而是在多年来很多小步进展的积累基础上取得的突破。同时,我们也应该看到,人工智能的最新进展也不只在ChatGPT方面,其他一些目前尚未成为热点的方向,可能正在孕育着未来的热点突破。近十几年来,引起广泛关注和应用的人工智能技术主要集中在识别和生成两大任务上,未来我们也期待人工智能在科学发现任务和在复杂决策任务上同样取得重大的发展。像ChatGPT这样的超级大模型,背后需要巨大的资源支撑,这种现象提出了一个重要的问题:人工智能能否轻量化、民主化?如果不能,将可能在伦理、经济和政治上都带来很多新问题;而在轻量化、民主化上的重要进展,将可能带来比ChatGPT更大的突破。回到人们普遍关心的医疗健康问题上,集生物学、医学和人工智能等之大成,发展数基生命系统,将是未来智能医疗健康的必由之路。

未经授权严禁转载及翻译,如需转载合作请向学会或作者本人申请。



如果你在看这篇文章,

别忘了点击「在看+点赞」哦!

👇

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存