查看原文
其他

搞不懂AI,你才真的开始懂了

王靖华 中欧EMBA 2024-04-30

ChatGPT的涌现震动了许多人。从图灵机到AlphaGo,人类和计算机耗费了七八十年,但从AlphaGo到ChatGPT,只用了不到十年。人工智能是如何在近几年内快速学习和演变的?行业龙头和创业公司的机会在哪里?AI展现出普遍智慧后,人类该怎么办?

「机器能够思考的时代已经开始了」,科技和医疗投资人王靖华(中欧EMBA2022级)将此视为可能是人类工业革命以来最大的范式革命。他借用OpenAI创始人Sam Altman的话说:「如果你觉得已经开始搞不懂AI及其可能对人类社会的影响,那你就真的开始懂了。」

王靖华 中欧EMBA2022

美敦力中国基金管理合伙人

1

生成式AI元年

2023年是AIGC元年,GPT-4在五天内突破了百万用户,对所有人来说都是一场风暴。

今天,由AI生成或创造的内容已经远远不止文本,还包括图片、视频、代码,以及很多你能想到或想不到的。

模型愈发庞大,需要的算力呈指数级上升。随着算力的迭代升级,机器学习速度也越来越快。以往模型可能需要数月或数年时间来训练,现在缩短至几周、甚至几天。

这或许是工业革命以来,人类最大的一次范式改变。有预测认为,AI将在2025年贡献所有新增数据的10%,现在这一数字仍不到1%。未来这一比例在某些领域可能会上升至接近90%。

用AI技术赋能时,每家公司要考虑自身定位,一方面从组织内部的资源禀赋、团队能力、公司文化以及未来发展等方面考量,同时也要结合其在竞争环境中的战略定位及差异化优势、潜在的掣肘、短板和风险。

以文生文为例,我们所熟悉的ChatGPT是一种大语言模型(LLM),训练大模型的过程大致可分为预训练、监督微调(SFT)、奖励建模、基于人类反馈的强化学习(RLHF)四步。

第一步的预训练,将泛知识领域的大量数据,在特定的准备工作后形成庞大的预训练数据集,再将这个数据集喂给大模型学习,形成预训练通用大模型。这一步的工作算力成本高昂,按照目前通用大模型通常的体量,往往需要数千张高端GPU卡的算力,训练一个模型需要耗费数百万甚至近千万美元,占了整个大模型训练过程90%以上的算力资源。这也是为什么通用大模型作为AIGC生成式人工智能)、甚至AGI(通用人工智能)的基座,未来大概率是少数大厂主导的。

对于各垂直行业的龙头和部分创业公司,更多的机会在后面,也就是在大厂提供的通用模型的基础上,结合自己所在领域的专业知识、数据和knowhow对通用模型用监督训练的方式进行微调(fine tuning),使其在特定的专业领域中有足够强的专业能力,从而更可靠地解决一些领域问题。

比如,医疗行业需要知道什么病症该看哪科医生、做哪些检查,或者什么指征该采用什么疗法,通用模型不足以可靠地满足这些需求,需要医疗行业的龙头公司用过去所积累的大规模且专业化的数据,对通用模型做优化,这也是行业龙头的优势所在。

当然值得一提的是,这并不意味着以前训练的各个专项小模型失去了意义,恰恰相反,大小模型协同可能是更好的解决方案,也就是将大模型作为中枢神经系统,来调用解决专项问题的模型,大小模型协同,取得更好、更可靠的效果。

经过这两步训练,大模型已经非常聪明,但还可能存在各种偏见和幻觉,还需要与人类的预期对齐。

人类希望AI是安全、可靠、有益的。这个对齐的过程本身对算力要求并不高,但花费的精力不少,需要各行各业的人共同努力,今天不少通用大模型公司已经在花费大量的时间和精力做对齐。

2

机器如何学习?

人工智能已有数十年历史。最早的AI可算是艾伦·图灵提出的图灵机,在二战时用于破解密码。在过去很长一段时间里,AI大部分时候是基于逻辑的实现,将诸如「if今天下雨,then出门要带伞」之类的条件语句编入系统。但逻辑语言很难穷举,也难以应对新的情况。

之后出现的机器学习(ML)其实是AI的一个分支,其代表的神经网络算法本质上是一种仿生学概念,从人脑的学习过程中得到启发,最初灵感来源于人脑神经元细胞突触间的连接,以及每次学习迭代过程中神经网络连接强弱分布的改变。

人脑在学习过程中,神经细胞间的连接强度和连接数量每时每刻都在发生变化,每一次的学习过程实际上是一次神经网络连接参数的迭代。近十年,由于数据、算法、算力的不断迭代,以深度学习为代表的机器学习方法(如AlphaGo、AlphaFold等)开始在一些专业领域中全面超越人类专家。

机器学习大致有三种主流方法。一是监督式学习,就像人类老师教学生,当学生被给予很多问题和对应的标准答案后,再看到同类型的新题目,即便不知道标准答案,也能大概率解答。

与之对应的是非监督/无监督学习。这个过程中,老师给予学生大量数据,而非标准答案。学生可以根据数据的特征自行分组,形成聚类(clustering)。

还有一类是强化学习,也是不断拟合的过程。同样,学生不被给予标准答案,但被告知每次一个决策/行为会受到奖励还是惩罚,机器重复了无数轮决策/行为后,会持续朝奖励方向靠拢、远离惩罚方向,越来越接近目标状态。

这三种学习方法在很多时候是交叉并行的,深度学习是在三者基础上,将模型做大做深。最早,当算力和数据不够的时候,机器学习只定义几百甚至几十个「脑细胞」——即算法中的节点(nodes),形成连接和互动,拟合一些专门的任务或场景,效果很有限。

而深度学习则调动了成千上万甚至上亿个「脑细胞」,组成非常多的训练层(所谓「深度」即在于层次的深度),形成非常多的维度来拟合信息,结合并行计算芯片和算法框架,从根本上提升了机器学习能力和结果。只有当算力和数据达到一定的能力和规模,才能有效支持深度学习。

ChatGPT的GPT实际上是Generative Pre-trained Transformer。其核心算法是2017年由谷歌几位科学家提出的Transformer模型(基于注意力机制的神经网络算法,最初发表的论文《Attention is All You Need》)出现并逐渐被应用到各类场景。

它最早是用来做自然语言学习(NLP)相关工作的,但实际上它对于诸如计算机视觉(CV)等其他应用也能带来能力提升。例如特斯拉曾用Transformer为核心,设计端到端大神经网络替代原有以CNN为核心的算法,很大程度上提升了其自动驾驶能力。此后的几年间,各个大厂分别开始尝试开发自己的大语言模型,百花齐放。

然而这些工作并未出圈,直到2022年底,ChatGPT-3.5发布时,这个话题突然被引爆。类似的大语言模型开始展现出早期、通用的智能,即在大部分通用问题下,它似乎都有足够的智能来理解,并得出相应的结论,其涌现出的通用智能可以说是到了令人惊讶的程度。这本质上还是一个连续性的变化,基于多年学术积累,而不是突然发生的。

GPT最早只是被用来预测一句话的下一个单词。最初的大部分研究者认为,机器并没有真正地基于因果逻辑进行推断(reasoning),只是其拟合的模型不断根据下一个单词的概率分布在完成句子。但我们发现,当模型参数量从GPT-2的15亿个参数,提升至GPT-3.5的1750亿个参数,包括到GPT-4时数个千亿参数大模型的并联后,机器的能力有了巨大提升,这确实是一种能力的涌现,这种涌现机制也着实令不少AI科学家为之惊讶。

然而再往后,单纯地再往上堆参数,模型能力的增加将变得越来越有限,还需从算法的角度去不断创新。

3

超越人类智慧的隐忧

机器能够思考的时代已经开始了,可能不需要很长时间,机器的通用智能会超过人类。这可能是人类历史上第一次发明了超越人类智能的事物。人类过去没有任何与此类存在打交道的经验,但我们要拥抱它、了解它,也要敬畏它。

今年3月,OpenAI推出了GPT-4。一周后,微软发现它已经具备了一些「通用人工智能」(AGI)的闪光。再过一周,千名学者签名发布公开信,希望大型AI实验可以先暂停,直到人类能够让AI可靠、安全地往前走。在此之后,中国、美国、欧盟都在加强监管,包括AI教父Geoffrey Hinton近期从谷歌离职,也表示非常担忧不加管控的AI继续发展下去对人类潜在的风险。

非共识的东西是推动社会往前进步的动力,同时机器算法也在不知不觉间引导和改变了人类意识。比如TikTok、奈飞等的AI推荐算法的核心目标是最大化流量。人类默认的好的推荐算法是通过精准预测用户需求,并根据预测,给用户推荐其所需要的个性化内容,来最大化流量。

然而未来,尤其优秀的AI算法可能会选择一些人类想不到的捷径来进一步提高其产出效率。如不断提供与个体用户需求接近,但又不完全一致的内容,在用户无感知的情况下,经过千万次迭代后,用户所在的个体位置会越来越往集体(算法推荐)的方向靠拢,像被牵着鼻子走。一段时间后,用户喜好实际上已经潜移默化地偏离了其初始位置,从而影响集体意识。

对系统而言,这样可以用最高效的手段最大化所有人的点击量。不同的人都朝着类似的方向往前走,长此以往,人类的多样性也会越来越少。这对人类是否有益?换句话说,我们未来优化AI的首要目标是否要从智能变为有益?当然这些算法背后还没有主观意识,更多只是数学优化的过程。然而其产生的结果、对社会的影响需要被充分理解和评估。

这些涉及到安全和对齐的问题,AI系统与人类的预期、共同价值观对齐。当机器能力不如人类时,对齐是比较容易的;当机器能力超过人类时,人类还有没有能力把它拉回来?或者说,当人类认为对齐了,事实上,AI是否真正被对齐了?一个比自己聪明的物种有无数方法让人类误以为它是安全和友善的。

目前已有对齐失败的例子。最近的一项研究发现,当一个大模型知道提问者了解问题答案时,给出可靠结果的概率要远超过AI认为提问者不知道答案时。另一个研究中也有类似的情况,当一个人的政治主见越偏激,跟AI对话时,AI给予的回答也越接近于对话人的偏激意识形态,并且会迎合且强化这个人的观点。目前暂时没有对这类问题背后原因的很好的解释。

事实上,正如人类目前对大脑的认知非常有限,人类目前对大模型的认知也是非常有限的。然而我认为,我们正处在对这两者背后本质的理解有大突破的最好的时代。

4

我们在多大程度上理解AI?

最初的AlphaGo和后来的AlphaGo Master都是基于专业人类棋手的对战棋谱,用监督和强化学习做基础训练,学到一定程度后再开始左右互搏继续提升,在左右互搏阶段,AI已经超越了人类水平。

然而在此后的AlphaGo Zero从一开始就完全抛弃了人类的经验和知识,只被告知围棋的规则,从第一天开始就左右互搏做强化学习,目标只有一个,就是赢。Zero最初的左右互搏是非常随机的,但在达到人类专业棋手的高度后,再往上进步的空间明显超过了初版AlphaGo 和 Master,某种程度上是因为没有了人类棋手棋谱带来的条条框框的限制。

有意思的是,前两个版本AI的实战招式,有不少是人类很难理解和掌握的,甚至违反了人类的直觉;而Zero没有使用人类经验(prior),下出来的招法反而往往更接近人类的认知和直觉,这背后还是有非常深的值得思考的东西。

今天,AI下围棋等级分最高的已有5500多分,而人类棋手最高大约3800分。可是也有国外相关研究提到,围棋初学者也能够打败最强的AI,而AI输掉的方式很诡异——当AI的漏洞被发现时,它也可以是不堪一击的。

下面再说说大模型。事实是,我们对于人类建立的大模型,认知还非常有限。大模型的结构和参数量决定了其拟合信息时创建的维度是远超我们想象的,而我们是人类自身神经架构的奴隶,神经架构、传感器和能够感知到的空间维度,决定了我们只能局限在三维空间中思考问题。没有人可以想像一个四维空间,更不用说量子物理的十维和十一维空间。

人类科学的发展很多是仿生学的概念,如前面说的,神经网络算法是基于观察大脑的运转模式(虽然严格意义上来讲还是有不少差异)。大模型能力涌现背后的本质与自然界的涌现有许多出奇一致的地方:即一些简单的规则在巨大的数量和网络连接下,产生了难以置信的复杂度。

比如,澳洲原始森林里能看到白蚁建起「摩天大楼」,这些蚁群建筑的高度如果按比例放大,将远超过今天人类建造的摩天大楼高度。它们没有图纸和工程材料,仅通过每个工蚁(节点)之间以触手来交换化学信息素进行最简单的通信。两三种简单的信号,经过巨大的蚁群网络,涌现出让人无法理解的复杂度。

再比如候鸟迁徙和鱼群聚集时的模式(pattern),以最大化飞行时的群体能量利用效率,或最小化鱼群被天敌吃掉的数量,如何根据不停变化的外部参数,根据流体动力学进行实时的最优分布,这个优化过程本身是个非常复杂的数学问题,然而动物也是通过个体(节点)间非常简单的通信解决的。

当我们研究大模型为何会如此聪明时,应该反问,人类的大脑为什么会这么聪明。人类大脑的模式和大模型有许多相通之处,换句话说,人类的通用智能是否也是在「预测下一个单词」中涌现的。如果是这样,人类对自己种群和智慧的认知,是不是也可能过于自大了。人的心智模式有多少时候是真正自主的,又有多少时候实际上只是在「完型填空」(autopilot)。

现在部分学者认为大模型缺乏对世界的底层认知,仅是概率分布模拟器,缺乏真正的智能。但我不这么认为,已经有迹象表明,大模型在训练过程中可能已经建立起了它们自己的「内在世界模型」(internal representation of the world)。未来结合机器人、多模态学习、联邦学习,其涌现出超级智能的速度可能比我们想象得更快。

AI最初的灵感来自人脑,之后很长一段时间,计算机科学和神经科学之间却疏于交流。如今这两个领域的学者终于重新开始加强交流,AI对通用智能的模拟让神经科学家开始对人脑有进一步的认知,而神经科学研究的新发现,也可能带给AI更多的灵感。

将来,未必是人类和机器之间的取代关系,可能有很长一段时间是硅基和碳基之间的融合。至于这个融合如何产生,包括MR的演进,包括脑机接口,这是我做投资比较关注的。

AI让机器变得具备通用智能之后,地球上人类的生活水平可以得到巨大的提升。有学者预测全球GDP将因此翻十倍以上。由此产生的新的经济格局下,生产力、生产资料、生产效率的关系和社会资源分配方式都将被重塑。

大语言模型可能只是这个大AI拼图中的一小块,我们今天甚至都不知道这一块拼图的形状,及其在整个拼图中的位置。这就是我们今天所处的位置。

如何更好地适应变化?我认为,要去拥抱涌现,而不是尊重权威;要敢冒风险,而不是追求安全。从AI安全和对齐的角度而言,当所有人都在做最安全的决定时,只有坏人去冒险,那这个世界就危险了。过去我们一直在这两者间做平衡,现在要朝其中一个方向去,无论公司还是个人,都是类似的。对个人而言,AI只是工具,未来短期不是AI替代人的问题,而是会用AI的人替代不会用AI的人。

播客上新
欢迎扫码收听

/ 延伸阅读 /

GPT-4打败ChatGPT

我们为什么要赞颂「无序之美」?

傅佩荣:人生就是在问值得不值得

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存