查看原文
其他

关于AI的冥想:历史、炒作、神话、现实和未来

常华Andy Andy730
2025-01-01
【ANDY】全面且有洞察力的思考。
作者是美国国家科学委员会主席,犹他大学总统级教授,前副校长/教务长。
即《重塑HPC:拥抱新范式并追随资金》文中提到的Dan Reed教授。

-----------[以下内容概括]------------

1. 学习与智能

儿童的自然好奇心和大脑发展,以及我们对这些领域的有限理解,构成了学习和智能的核心元素。儿童通过观察、模仿、重复和实验等方式来学习,这过程中社交化和成年人的引导起着关键作用。然而,我们对大脑的可塑性、环境对学习的影响以及不同儿童学习方式的原因仍存在众多未解之谜。

2. 我思故我在

尽管当今的深度学习系统在执行智力任务方面表现出了惊人的能力,但与人工通用智能(强人工智能)相比,仍存在巨大差距。这些系统有时可能夸大信息或产生幻觉,尤其在常识知识方面。此外,文中提及了关于智能、知觉、自我意识、心智理论、意愿和自由意志的问题,以及功能主义和计算主义的观点,以及对自我复制机器和具身认知理论的思考。

3. 强人工智能

强人工智能一直是AI的目标,意图构建能够执行任何智力任务的机器。这一愿景激发了许多计算机科学家和大量的投资,同时也引发了流行文化和社会对AI影响的广泛担忧和讨论。

4. 机器学习术语

机器学习包括监督学习、无监督学习和强化学习等基本分类。监督学习通过已知答案的训练数据来学习,无监督学习则需要自行学习模式和结构,而强化学习通过奖励反馈学习最佳行为。强调了深度神经网络的重要性,以及它们如何改变了机器学习的方式。

5. 生成式AI 101

机器学习是人工智能的子领域,深度学习则是机器学习的一部分,依赖于人工神经网络和大数据。不同类型的神经网络包括多层感知器(MLP)、递归神经网络(RNN)、卷积神经网络(CNN)、生成对抗网络(GAN)和Transformer。此外,强调了大型深度学习模型的训练需要巨大的计算资源和经济投入,可能对社会、经济和地缘政治产生深刻影响。

6. 神经网络训练的通俗解析

通过比喻解释了神经网络训练的过程,将其简化成在城市山坡上寻找大海的情景。这类比表达了梯度下降法的概念,即选择最陡的下坡路径以最快速度到达目的地。在神经网络中,这对应于减小损失函数以改进预测,并通过更新权重来实现。文章还提到了步长(学习率)的选择、梯度消失问题和非凸问题,以及各种神经网络类型(如CNN、RNN和Transformer)都依赖于深度神经网络。

7. 更大规模带来不同:技术融合

当前AI革命的原因以及大规模数据和计算在其中的关键作用。从早期感知器和单层神经网络的过度高估导致第一次AI寒冬的情景,转向多层感知器(MLP)的出现和广泛逼近定理的发现,为大规模人工神经网络的应用提供了理论基础。互联网上大规模数据的可用性,云服务提供商对AI生态系统的投资,以及硬件的发展,如CPU集群、GPU加速器和AI专用加速器,都支持了大规模训练的发展。这些因素促使神经网络性能的显著提升,尤其在改进的算法的支持下(如Transformer和GAN)。

8. 生物学的启示

生物神经系统对人工智能发展的启示。首先提到了连接图谱,如恶线虫和果蝇神经系统的连接图谱,它们描述了神经元之间的连接关系。利用这些图谱,研究团队已经建立了计算机模型,模拟了蠕虫和果蝇神经系统对感官输入的反应,考虑了生物神经元的复杂性。这有助于理解生物神经网络如何产生复杂的行为。

与人工神经网络不同,生物神经系统具有低能耗、非层次结构和低触发频率的特点。这些观察启发了对节能AI系统和类脑计算芯片的研究,这些芯片模拟了生物神经元的某些特性,有望改进生成式AI系统。

9. 文化、商业、科学和地缘政治

  • 科学与工程:生成式AI已经深刻改变了科学研究和工程开发,对数据分析、星系探测、基因数据分析等领域产生关键影响。AI模型如AlphaFold也改革了生物研究。

  • 高等教育:AI引发了教育领域的担忧,但也提供了扩大教育覆盖范围和提高质量的机会,包括个性化教育和智力潜能增强。

  • 经济和国家竞争力:AI将深刻影响经济,创造新工作机会,推动经济和智力机会的增长。初创公司在AI领域蓬勃发展。

  • 伦理和可解释性:AI的伦理和政策问题引起担忧,尤其是在自动驾驶汽车等关键领域。AI的可解释性也备受关注。

  • 国防和国家安全:AI在国家安全领域产生显著影响,包括半导体制造和自主作战机器的崛起。


10. AI的炒作与现实

  • AI的历史:回顾了AI领域的两次寒冬,强调了AI领域在过去的繁荣与现今理性的发展之间的区别。

  • 语言理解的挑战:通过早期机器翻译的例子强调了语言和文化背景对语义理解的重要性。

  • 深度神经网络的突破:指出深度神经网络通过在关键领域表现出了人类水平的能力,虽然不完美,但已经突破了很多障碍。

  • 是否迎来第三次AI寒冬:不认为会再次出现AI寒冬,因为生成式AI已经在重要任务中取得成功,这次AI发展是理性的,而不是炒作。


11. 未来的箴言

  • AI革命的深刻影响:AI革命可能与工业革命一样深刻地影响社会,尊重个体的尊严是关键。

  • 全球AI军备竞赛:AI和半导体技术正在塑造21世纪的地缘政治格局,国家安全和经济竞争密切相关。

  • 硬件和能量消耗的限制:AI发展受到硬件规模和能源消耗的限制,需要概念上的新方法和材料。

  • STEM教育的重要性:STEM教育对培养具备基础技术知识的工作人员至关重要,可以开发和使用AI技术。

  • 伦理和数据偏见:伦理和数据来源必须反映价值观,以避免认知偏见。

  • 教育和政策的重要性:教育和深思熟虑的辩论对于制定适当的AI政策和法律至关重要。

  • 相互关联的问题:需要综合考虑社会、经济、伦理和地缘政治问题之间的相互作用,深思熟虑全局问题至关重要。


------------[以下为正文]------------

Source:Daniel A. Reed, Meditations on AI: History, Hype, Myth, Reality, and Futures, OCTOBER 03, 2023

这是一篇颇具挑战性的文章。不仅篇幅较长,而且涉及到复杂的问题,其中许多技术概念难以用通俗易懂的术语来解释。我已努力在其中加入趣闻轶事、插图和比喻,以减轻认知负担。

尊敬的读者,你是我成功与否的最终评判者。或者,你也可以相信Synthesia的AI助手之言(https://share.synthesia.io/embeds/videos/33a0dc71-0575-4132-ab47-954284e5ead7,只需点击获取AI认可!)。

说目前的AI热潮过于夸张,有点像说太平洋广袤而深邃。这是显而易见的陈词滥调,真正的挑战在于如何辨别炒作和实实在在的能力、机遇以及挑战,无论它们涉及社会、经济还是地缘政治。

目前,大多数的炒作都与生成式AI有关,即计算机系统能够通过从大量数据中学到的模式来生成文本、图像、视频,甚至是软件。深度学习和生成式AI是AI领域中的一个较为特定的子领域,它们依赖于非常庞大的人工神经网络,这些网络在某种程度上模拟了大脑的神经元工作方式。其中,基于Transformer架构的系统目前最受欢迎且最为成功,正如它们驱动着像ChatGPT这样的系统一样。

值得一提的是,我的一位学术同行曾有些遗憾地指出,AI似乎是由那些我们不知道如何解决的问题所定义的。一旦找到解决方案,这些问题就会被归类为算法,而不再被看作是AI的一部分。深度学习也许会成为一个特例。

生成式AI究竟是如何运作的?是什么使其成为可能?它有哪些限制?它如何影响我们的现在,又将如何塑造我们的未来?我们应该担心还是乐观?

有些问题的答案可能是容易找到的,而对于一些看似简单的问题,答案可能会相当困难。这篇文章探讨了AI领域的各个方面,包括问题和一些解决方法,共分为十一部分。它只是对哲学、生物学、数学、计算、伦理学和地缘政治等领域的深入思考。就像电影《黑客帝国》中的墨菲斯所说:

“你要是选择蓝色的药丸,故事就到此为止,然后你会醒来在自己的床上,相信你想相信的一切。你要是选择红色的药丸,你可以继续留在这个仙境,而我会向你揭示兔子洞有多深。”

尽管这篇长达二十五页的文章的以下各部分都可以单独阅读,但它们共同涵盖了定义当前AI背景的一系列哲学、技术和经济问题。作为补充,我提供了一个PDF下载链接(https://www.hpcdan.org/files/hpcdan-ai-meditations-2.pdf),以供你离线阅读,以及一个阅读列表(https://www.hpcdan.org/files/hpcdan-ai-reading-list-2.pdf)以获取更多背景信息。

  1. 学习与智能

  2. 我思故我在

  3. 强人工智能AI

  4. 机器学习术语

  5. 生成式AI 101

  6. 神经网络训练的通俗解析

  7. 更大规模带来不同:技术融合

  8. 生物学的启示

  9. 文化、商业、科学和地缘政治

  10. AI的炒作与现实

  11. 未来的箴言


补充说明:要深入了解深度神经网络和生成式AI的工作原理,具备一定的微积分知识(特别是导数和链式法则)和线性代数知识(即向量和矩阵运算)将非常有帮助。如果你不熟悉这些知识,不用担心,你可以简要浏览标题为“生成式AI 101”的章节。如果你想要快速了解AI,这个教程可能会对你有所帮助。

关于当前AI革命,最重要的一点是它涉及三个关键要素:大量来自网络的数字数据(包括图像、文本、视频和数据),也被称为大数据;大规模的硬件基础设施(例如高性能个人电脑和图形处理器),主要由谷歌、微软等云服务商提供支持;以及大量的线性代数运算,用于训练和使用神经网络。这些因素共同使AI系统能够识别书面和口头提问,并生成类似人类的回应。从概念上讲,今天的生成式AI确实如此简单——它依靠大数据,通过真正强大的计算机进行统计预测。

让我们从一点历史和哲学的角度入手,然后我们将对围绕AI的一些流行词汇进行解构,讨论深度学习Transformer技术推动的生成式AI革命,并更深入地探讨炒作与现实之间的差距以及二元对立的本质。

1. 学习与智能

曾经观察过年幼儿童探索周围环境的人都会不时感到好笑、尴尬和惊讶。儿童天生充满好奇心,不受文化规范和经验的束缚。他们通过各种机制来学习,既有正式的,也有非正式的——观察、模仿、重复(例如,练习小学的乘法口诀表)和实验。儿童还极大地依赖社交化和成年人的监护来接受训练,并保护他们免受经验未使他们能够避免的危险。

尽管发展心理学和神经科学为我们提供了有关年幼心智的情感、智力和神经发展的许多信息,但仍有更多我们不了解的事情。例如,我们知道在童年时期,神经可塑性较高,使儿童能够轻松学习新语言,然后随着年龄的增长而下降,尽管并没有像曾经认为的那样完全消失。我们还没有完全理解环境对学习能力的影响,以及不同儿童学习方式不同的原因。自然与养育的争论(它是两者的混合)仍在继续。

我们对大脑功能的有限了解在我们对心理疾病和功能障碍的治疗中表现得尤为明显。从侵入性和有害的手术,到电击治疗,再到功能和副作用都不太清楚的药物,我们仅仅能够治疗症状,而且疗效有限。尽管我们取得了不少进展,但它仍然是一种粗糙和有限的实践。

与此同时,先进的成像技术、控制实验和解剖研究,包括绘制小型生物的连接组图,正在揭示有关大脑的生化和电学特性、其粗略形态和神经元以及树突微结构的许多信息。在此处,感知模型、神经通路和自由意志的神经科学等问题交汇在一起。随着研究的不断深入,我们对不完全的理解有了更多了解,尽管在较高的智力层面上仍然对基本脑功能感到不确定,但相比以前,我们的困惑更多了。

补充说明:展示生成式AI的强大力量,这个神经元及其树突的图像是由Stable Diffusion生成式AI生成的,使用了提示语“生成几个由它们的树突和轴突相连接的神经元的生物图像,其中神经元位于图像的前景”。

欧盟花费了大约6亿欧元和十年的时间来完成最近完成的人脑计划,该计划旨在理解多个层次上的脑结构——化学、电学、结构和认知——并建立复杂的计算模型。项目最初野心勃勃,旨在以细胞水平模拟整个人脑,因此在范围和优先事项上引发了争议。不仅是我们的计算能力不足以完成任务,而且我们的基本知识也不足够。

也许欧盟项目最大的成功在于人脑图谱,该项目现在包括了多层次的数据,涵盖了从细胞和分子系统到功能模型和连接性的范围。美国启动了类似的项目,即脑计划,尽管目标更为谨慎,中国、澳大利亚和韩国也有类似的项目。

尽管有了这些不断丰富的知识,我们仍然缺乏关于语言习得、面部识别和图像识别、知识获取和表示、运动和精细动作技能、抽象推理、问题解决以及许多其它生物智能的标志性特征的首要原理性理解。

就像早期尝试制造重于空气的飞行器一样,我们拥有生物存在证明智能的证据,但我们缺乏能够启发创造或复制其它设计的基本理解。这并不特别令人惊讶。尽管鸟类和昆虫依赖与现代飞机相同的空气动力学原理,但它们的机制——肌肉和振翅——与现代飞机的引擎并不相同。

正如莱特兄弟所证明的,理解基本的空气动力学和升力物理原理是必要但不足的;还需要理解飞行控制面和高功率比引擎。即使一个多世纪后,我们对流体流动和湍流的理解仍然不完整,尽管计算流体动力学取得了持续的进展。

换句话说,成功的重于空气的飞行依赖于理论的洞察力和实际的工程技术。尽管达·芬奇具有非凡的天赋,但他不太可能在他所生活的时代开发出支持飞行的内燃机,也没有理论上理解升力和流体流动的必要知识来设计可行的飞行器。牛顿和莱布尼茨对微积分的发现还要在两个世纪后才会出现。

毫无疑问,我们最终将理解生物智能的基本第一原理,但在那之前,我们将基于当前的知识和洞察构建模型。然后,我们不断完善和测试这些科学模型,将它们与人类的经验和能力进行比较。今天,我们一些最好的模型是简化的数学表示生物神经元及其树突连接网络。作为简化模型,它们必然是近似的,在许多情况下是错误的,但在其它情况下却非常有用。

正如统计学家George Box曾经说过的:“所有模型都是错误的;一些模型是有用的。”(All models are wrong; some models are useful.)与所有模型一样,理解它们的基本假设和适用范围至关重要。如果没有这一点,那么古老的格言“垃圾进,垃圾出”(garbage in, garbage out)就适用了。

2. 我思故我在

尽管深度学习系统的炒作和令人印象深刻的能力,但重要的是要认识到我们离人工通用智能——强人工智能——还有很大距离。这种系统能够执行一个受过良好教育的成年人可能执行的整个范围的智力任务。如今的AI系统有点像早熟的孩子,时而令人印象深刻,以其智力才能令人眼花缭乱,但有时却令人沮丧地受到限制,有时由于缺乏常识知识而受挫。就像一个试图给人留下深刻印象的孩子,他们也会夸大和捏造,虚假地宣称不受数据支持;在AI的行话中,这些委婉地被称为幻觉。

对于智能、知觉、自我意识、心智理论(即将心理状态归因于他人)、意愿和自由意志等问题存在许多哲学、宗教和技术观点,以及构成人工通用智能的本质和如何明确识别这种行为的问题。要进行一场探讨可计算性、智能、艺术和音乐的精彩漫游,我强烈推荐侯世达(Douglas Hofstadler)于1979年获得普利策奖的著作《哥德尔、艾舍尔、巴赫:集异璧之大成》(Gödel, Escher, Bach: An Eternal Golden Braid)。它会让你思考许多事物的联系。

回顾西方思想和历史,勒内·笛卡尔(René Descartes)于1637年的《谈谈正确引导理性在各门科学上寻找真理的方法》(Discourse on the Method of Rightly Conducting One's Reason and of Seeking Truth in the Sciences)涉及了这些问题,并提出了现在著名的表述“我思故我在”(Cogito, Ergo Sum)。显然,笛卡尔还思考过动物和机器的智能,声称智能语言回应是任何机器都无法达到的:

因为我们可以轻松理解一台机器被构建成可以发出言辞,甚至对它身体上的某种作用产生一些响应,从而改变其器官的状态;例如,如果触摸到特定部位,它可能会询问我们要对它说什么;如果在另一部位被触摸,它可能会呼喊自己受伤了,等等。但它永远不会以各种方式安排自己的言辞,以便对在其面前说的一切都能适当地回应,就像即使是最低级别的人类也能做到的那样。

笛卡尔是错误的,如今的深度学习网络已经证明了这一点。它们可以以其表达方式和创新性的回应而令人惊讶,甚至有时令人眼花缭乱。

自从笛卡尔早期的观察以来,几代哲学家和神学家一直在思考思维的本质。随着第二次世界大战后现代数字计算系统的崛起,数学家、工程师和计算研究人员将他们的思维转向了计算机的形式能力和思维的操作性定义。

丘奇(Alonzo Church)、哥德尔(Kurt Gödel)和图灵(Alan Turing)的基础工作阐明了计算的数学形式,仍然在这一领域中起着界定作用,同时也定义了机器计算的理论极限。接着,在他具有里程碑意义的1950年论文《计算机器与智能》(Computing Machinery and Intelligence)中,艾伦·图灵写道:

我建议考虑一个问题:“机器能思考吗?”这应该从定义“机器”和“思考”的含义开始。

然后,图灵继续描述了最初的“图灵测试”,这是一种“模拟游戏”,依赖于人类提问者和一系列问题和回答。如果那个人类提问者不能区分机器的书面答案和人类的答案,那么可以合理地说机器会思考。然而,尽管这个测试在直观上具有吸引力,但在实践中被证明太过局限。

如今的大型自然语言生成式AI模型,例如OpenAI的GPT-4或Google的Bard,可以轻松通过这样的图灵测试,但并不符合大多数人对通用智能的概念。相反,一些怀疑者可能会指出,虽然不适用于真正的通用智能测试,但也有不少人无法通过图灵测试。

一些人可能出于哲学观点而提出合理的反对意见,指出心智理论——通过对他人的思维建模来归因于他人的心理状态和动机——被广泛认为是智能实体的固有属性。这是塞尔(John Searle)的反对功能主义和计算主义的“中文房间”论证的一种版本。

功能主义是这样一种论点,即所有心理状态完全由它们的功能角色构成——它们与其它心理状态、感知输入和行为输出的因果关系。这个论点中固有的概念是多重实现性,即这些功能角色可以通过生物学或其它机制(例如计算机)来实现。图灵在他的原始论文中也提到了关于功能主义的几个问题,并且他的操作性观念仍然适用。他还正确地指出,真正的智能不仅仅是一组特定任务的技能,还包括通过学习获得新技能的能力。

约翰·冯·诺伊曼(John von Neumann),冯·诺伊曼计算机体系结构的名字来源,考虑了一个不同的角度,即能够自我复制的机器的概念,现在称为冯·诺伊曼复制器。还有人长期以来一直在辩论有关具身认知理论,即认知的许多属性都受到生物体的某些方面的塑造。从生物学的角度来看,这显然是正确的。关于一个非具身的智能是否可以存在,即没有物质体现和相关经验,这仍然是一个悬而未决的问题。

还有人探讨了自由意志的意义,并试图衡量其存在。神经科学实验表明,在自我意识之前可以有行动的意图。我们的大脑是否只是在建立对现实的模型?如果考虑到在许多量子实验中观察者的关键作用,其中观察行为需要导致叠加态坍缩,那么兔子洞口甚至会变得更加深奥。

3. 强人工智能

构建人工通用智能,即所谓的强人工智能,它能够执行人类能够执行的任何智力任务,一直以来都是AI的圣杯。计算机科学家丹尼·希利斯(Danny Hillis)(当时在Thinking Machines)曾经提出了一种引起了许多人共鸣的观点,他说:“我想要建造一台会为我感到骄傲的机器。”这个迷人的梦想继续激发着成千上万的计算机学者的工作,也催生了数千亿美元的投资。

这并不令人惊讶。

几代科学家和工程师都把他们的职业生涯投入到将他们童年时期的想象中的科幻小说成真——至少那些不被物理定律禁止的想象。在很大程度上,正是由于这种启发,今天我们拥有了移动电话、全球通信网络、高清电视、电动汽车、超级计算机、可重复使用的火箭以及一大堆其它产品,这些产品曾经只存在于科幻小说作家丰富的想象中。

对于强人工智能的渴望和恐惧同样深入人心,并且在流行文化中广泛存在,这种强人工智能的社会影响已经成为了无数书籍和电影的题材。从阿西莫夫(Isaac Asimov)的《我,机器人》(I, Robot)系列到《禁忌星球》(Forbidden Planet),可以说是有史以来最好的科幻电影之一,是莎士比亚的《暴风雨》(The Tempest)的改编,再到《2001太空漫游》(2001: A Space Odyssey)中备受情感困扰的电脑HAL、《巨人:福宾计划》(Colossus: The Forbin Project)、《地球停转之日》(The Day the Earth Stood Still)、《银翼杀手》(Blade Runner),当然还有Skynet和终结者,AI的概念一直在吸引并吓唬着一代又一代的电影观众。

更近期的电影,如《黑客帝国》(The Matrix)、《月球》(Moon)、《她》(Her)和《机械姬》(Ex Machina),探讨了人类与有思维的AI和机器人的关系。这些文化猜测中的许多都集中在超级智能和人工意识的变种上,这是强人工智能假设的一部分,即具有人类能力的智能系统将拥有意识和思维。(想想《星际迷航》中的Data)

与图灵一样,我相信操作化(Operationalization),即通过可测量的属性来定义数量,而不是哲学属性,尽管我意识到并非所有人都持有这种观点。从操作上看,一台在智力能力方面,包括对其它智能实体的适当回应,与人类无法区分的机器,在每个实际和操作意义上都是智能的。

更通俗地说,如果它像鸭子一样嘎嘎叫,像鸭子一样走路,像鸭子一样行动,那么从本质上讲,它就是一只鸭子。作为AI的研究人员和开发人员,我们正在努力打造一些聪明的鸭子。如果我们成功了,我们将看看这些聪明的鸭子是否能够像希利斯所希望的那样为我们感到骄傲。

4. 机器学习术语

无论是大众媒体还是研究文献,都充斥着AI的流行术语,而网络上也有各种入门教程,尽管大多数教程都假定读者具备线性代数、基本概率与统计以及微积分的基本知识。

在几段文字中完全解释生成式AI、机器学习、深度学习和人工神经网络(ANN)是不可能的,但我会傻傻地尝试通过提供一些定义性背景和基本理解来进行解释。我们将从学习术语开始,然后描述人工神经网络的广泛类型,最后提供一些简单的示例。

广义上,机器学习系统通常被分类为监督学习、无监督学习或强化学习,值得注意的是,许多成功的深度学习系统将这些技术(以及其它技术)结合在一起使用。让我们从监督学习、无监督学习和强化学习的定义和直观理解开始,然后解释大型人工神经网络和生成式AI的使用。

在监督学习中,答案是已知的,AI系统经过训练以识别正确答案。例如,如果正在训练一个AI系统来识别狗和猫,它将通过一组被标记为狗和猫的图像进行训练,其输出(分类)将是这些类别之一。

在监督学习中,答案是已知的,AI系统通过对错误的反馈来进行学习,就像一位老师可能会温柔地纠正一个正在学习在书本和照片中识别动物的小孩。除了分类(即将数据划分到不同类别),监督学习还可以生成数值(例如,预测照片中物体的可能距离)。这被称为回归,并且可以看作是一种函数逼近的形式。

相反,在无监督学习中,答案不一定是已知的,AI系统必须从未标记的数据中学习模式(标签)。这种方式的学习显然更加困难,就像对于人类来说,在大量数据中识别重要模式会更加困难一样。没有关于正确性的即时反馈,甚至不能确定是否已经识别出了正确的类别。继续我们的类比,重要的事物可能是树木、鸟的颜色,或者狗和猫是否站着。

另外,作为哲学上的一则侧面,归纳推理(即从示例中学习函数或物理定律)是科学的工作方式之一。它是实验方法的关键。另一种方法当然是演绎推理,其中一个从已知法则推导出可能的(可测试的)假设。直观地说,机器学习和算法是这个思想的两个计算表现形式。

当AI方法首次在科学领域开始获得认可时,科学界曾经存在巨大的抵制,长期受过演绎推理和基于经过测试的理论的计算模型的训练。然而,随着深度神经网络的价值变得越来越明显——通过使用减少、更高效的模型来探索参数空间——以及解决了此前难以解决的问题(例如蛋白质折叠),情感开始发生变化。这就是科学革命的本质——范式转变已经发生。

最后,在强化学习中,通过反馈奖励来鼓励正确的响应,系统通过训练来学习最佳结果。例如,在学习玩象棋或围棋等游戏时,并不总是存在单一的“正确”走法,只有更好或更差的走法。在强化学习过程中,AI系统会反复调整其度量标准,以识别哪些走法会产生好的或更好的结果,就像我们会奖励孩子赢得游戏或奖励狗狗学会按指令翻滚一样。机器人也是通过这种方式进行训练的,谷歌的AlphaGo及其后继者(AlphaZero和MuZero)使用了这种方法的变种来击败世界顶级围棋选手。

所有这些与IBM为击败国际象棋大师加里·卡斯帕罗夫(Garry Kasparov)所使用的自定义Deep Blue硬件和评估算法,如alpha-beta修剪,形成了鲜明的对比。相似但简单得多的算法方法首次由塞缪尔(Arthur Samuel)在1950年代用于玩跳棋游戏。最令人印象深刻的是,诸如MuZero这样的系统完全通过自我对弈学习,没有已知游戏规则,甚至没有已知开局或终局的表格;没有任何“硬连线”。经过训练后,AlphaGo及其后继者基本上是无法被击败的,无论是其它国际象棋电脑系统还是围棋系统,还是人类。人类再也不会击败这样的机器了。

无监督学习、监督学习和强化学习的难度逐渐增加对于任何一位曾经制定教学计划以强调上下文和关系的人类教师,或者对于任何一位曾试图将交通规则转化为实际指导以满足渴望驾驶的青少年而言,都不会感到意外。

正如任何自学者所知,有老师的帮助会更容易学习,无论你是多么热衷于成为一名热情的图书馆学者。图书馆充满了各种信息,但它们通常缺乏上下文和证据之间的相互关系。对于这一点,我可以从个人经验中谈起,我深入研究了一些话题,但甚至都没有意识到其它话题。

补充说明:我最喜欢的漫画之一展示了一位老师在向一位天生数字化的学生讲话,手里拿着书。在漫画中,老师耐心地解释说:“这叫阅读。这是将新软件上传到你的大脑中的方式。”

5. 生成式AI 101

如之前所提到,机器学习是AI的一个子领域,其任务是通过算法来解决问题,通过分析数据和识别模式来完成任务。而深度学习则是机器学习的一部分,它部分依赖于人工神经网络(ANN)和大数据。

人工神经网络(ANN)的设计灵感来自生物神经元,尽管其功能远比生物神经元简化,连接更少。通常,一个ANN由多层神经元组成,包括一个输入层、多个相互连接的隐藏层以及一个输出层。从输入层开始,每一层中的神经元将其输入进行处理并将输出传递给下一层,最终在输出层得出神经网络的结果。

人工神经网络的性能由神经元(节点)的特征定义,其中包括应用的变换类型(激活函数)以及与神经元相关联的权重。激活函数通常是节点输入的简单非线性缩放函数,例如S型函数、双曲正切函数(tanh)、整流线性单元(ReLU)或径向基函数(如高斯函数)。

深度学习网络具有大量层和节点,通常拥有数十亿或数万亿的参数。这被称为深度学习,因为它依赖于多层的表示和抽象,允许网络从数据中提取复杂的特征和模式。大型语言模型就是深度学习网络的一个示例,它们包含大量的参数,专门用于自然语言的理解和生成,通常采用Transformer架构(稍后将详细介绍)。

多层感知器(MLP,Multilayer Perceptrons)

人工神经网络存在多种类型,其中最简单的是前馈神经网络,其信息流动是单向的,从输入节点通过一个或多个隐藏层到输出节点,类似于组合电路。这些网络通常被称为多层感知器,概念上是对生物神经元的极简化模型。人工神经网络通常用于模式识别和分类任务。

让我们通过一个例子来说明,上图展示了一个简单的前馈人工神经网络,包括三个输入、两个隐藏层,每个隐藏层有四个神经元,以及两个输出。在这个例子中,初始输入层包含[x1, x2, x3](例如,如果这是一个图像分类器,这些值可能是来自图像像素的线性化向量)。

每个隐藏层中的节点(绿色节点)接收来自前一层的输入,并计算其四个输入与每个节点上的四个节点权重(加上偏置)的点积,然后应用激活函数(在本例中为S型函数)以将结果标准化到范围[0,1],作为节点的输出。这个过程在每一层都会重复进行,直到整个网络的准确性通过损失函数(在这个简单的例子中使用均方误差MSE)来计算。如果这个网络是一个分类器,它可能会使用SoftMax函数来确定每个可能输出的概率。

在最简单的情况下,人工神经网络的训练是一个迭代过程,涉及反复调整节点权重,以最小化损失函数的导数,即期望的神经网络输出与实际输出之间的差异。网络通过一些数据进行训练,然后计算错误,调整权重以减小错误,然后重复这个过程。

从概念上讲,神经网络的训练可以看作是迭代的、随机梯度下降的过程,使用反向传播来计算每次迭代上的梯度。这牵涉到微积分中的链式法则,因为每一层的导数都是前一层导数的函数,这一过程递归地传播回初始层,因此被称为反向传播。

最后,请注意,链式法则用于计算复合函数的导数,意味着f(g(x))的导数是f'(g(x))g'(x)。如果你有兴趣,你可以尝试使用一个真实但仍然是玩具级别的前馈神经网络来查看权重和错误如何演化,我强烈推荐使用这个交互式神经网络求解器。这是一个玩具网络,但它演示了真实神经网络训练如何迭代地调整权重。

递归神经网络(Recurrent Neural Networks)

递归神经网络(RNN)与前馈神经网络(ANN)不同,它具有双向信息流,允许某些节点的输出影响相同节点的后续输入,这使得RNN具备一定的记忆能力。RNN通常用于处理需要上下文(记忆)信息来预测下一个字符或话语的任务,例如手写识别和语音识别。

简单来说,当我们知道并记住一个单词中的前几个字母或一个句子中的前几个词时,更容易预测下一个字母或话语。然而,任何发送短信的人都知道,基于前一个词的单词预测和错误校正充满了错误。为了减少这些错误,需要更多的上下文信息,而不仅仅是前一个或两个词,这正是更深层次的RNN和最近的基于注意力机制的Transformer网络的动机。

递归神经网络通过将某些神经元的输出回馈给相同神经元的输入,来实现这个记忆概念。你可以将RNN看作在时间轴上展开神经元,以创建一个更大的人工神经网络,其中展开表示了记忆的持续时间,如下图所示。

敏锐的读者可能立即意识到,这样的设计使得神经网络的训练变得更加复杂。幸运的是,这个概念在理论上是简单的,尽管在实际实现中更加复杂。解决这个问题的方法被称为时间反向传播。我们只需应用相同的链式法则思想,同时考虑时间的概念,认识到函数空间现在更加复杂,存在更多的局部最小值以及梯度爆炸和梯度消失问题(即没有明显的和即时的权重调整可以减小损失函数的误差)。

与前馈神经网络一样,递归神经网络有许多变种,每种变种都被设计用于解决某些问题或适应特定领域。其中一种特定类型的RNN称为长短时记忆网络(LSTM),旨在通过增加RNN的记忆时间来解决梯度消失问题。直观地说,LSTM提供了更多的历史和上下文信息,例如,它能够将一个长句子中后面的词与该句子中较早的词联系起来。

卷积神经网络(Convolutional Neural Networks)

最后,让我们来谈谈卷积神经网络(CNN),这是另一种以不同方式利用上下文的神经网络。CNN广泛应用于图像分类和自然语言处理领域,如语音识别和翻译。毕竟,图像并不仅仅是随机的黑白或彩色像素组合,句子也不仅仅是随机的词汇堆叠;它们都具有结构和对象。图像具有形状、边缘、明亮和暗区域,句子包含名词和动词。CNN通过卷积函数来检测和利用这种结构,正如其名称所示,卷积函数是将一个函数应用于另一个函数的过程。

在CNN中,卷积层通常使用边缘检测器(例如Sobel算子)来减小图像的大小,同时扩展神经网络的深度,然后将这些缩小的图像传递给下一层神经网络。需要注意的是,与ANN不同,CNN中并非所有神经元都是完全连接的。通常,CNN包括多个卷积层和一些池化层,池化层将一层中的一组神经元的输出合并成下一层中的一个神经元(即池化结果)。最后,这些结果将传递到一个或多个全连接的输出层。

从直观上看,CNN试图提高从像素或单词到更高级别特征和对象的抽象层次。这种过程与人类视觉系统的工作方式相似;我们在海量的图像数据中寻找关注点并专注于视野中的重要特征。同样,我们在句子中识别关键词及其之间的关系,具体依赖于上下文。

在训练过程中,神经网络有时会将看似“错误”的特征识别为重要特征,甚至包括一些对人眼来说是无关紧要的像素模式。这里有一个经典案例,有一个系统被训练来识别汽车,但在用新的汽车图像进行测试时表现糟糕。原因是训练集中的许多图像中都包含了天空中的云,而AI系统将云识别为数据集中的关键特征。后来,它在没有云的汽车图像上失败了。

即使这个简要的教程也提到了ANN、RNN和CNN似乎有无穷无尽的变种,每个变种都专门用于特定的功能或任务。它们在网络结构、激活函数和训练方法上存在差异。最近最流行的两个变种是生成对抗网络(GAN)和Transformer。

生成对抗网络(Generative Adversarial Networks)

生成对抗网络(GAN)将机器学习看作是一种具有两个学习子模型的无监督(自监督)学习方法。其中,一个生成模型被训练用于生成新的输出,例如合成狗的图像,而另一个判别模型则试图对生成模型的输出进行分类,以确定它们是伪造的(不真实的)还是可信的(例如,看起来像真实的狗)。这两个模型在训练过程中相互竞争,直到判别模型无法可靠地区分真实和伪造的情况。

GAN已经被广泛用于生成看似真实的人脸或视频,这些人脸或视频可能被误认为是实际的照片或视频。然而,它们也被滥用于创建深度伪造,将真实人脸或身体映射到虚构的环境中。因此,人们对其潜在的危险性感到担忧,包括用于制作虚假新闻,无论是文本、图像还是视频,以及将公众人物的身份用于虚构的角色或使用名人的脸孔来制作深度伪造的色情作品。

Transformer是革命性的

Transformer,可以毫不夸张地说,是深度学习领域的一场革命。2017年,Google发布了一篇名为《Attention Is All You Need》的论文,彻底改变了深度学习的格局。Transformer架构以惊人的速度取代了在许多情境下使用的CNN和RNN,并继承了它们的优点并改进了一些缺点。Transformer的广泛影响可见于你正在与之交流的ChatGPT,这里的“T”代表Transformer。

最初,Transformer的设计是为了自然语言翻译而创建的。它包括两个主要部分,编码器和解码器。编码器将输入语言的句子映射为表示输入信息的嵌入式向量序列,而解码器则使用编码后的表示来生成输出语言的翻译。关键的元素是注意力机制(Attention),它度量了输入句子中每个单词对其它单词的重要性。

这种注意力机制使得Transformer能够建立连接,即使是在输入数据的离散元素之间(比如句子中的单词)。这是其它神经网络难以做到的。这种注意力机制的作用是,例如,在以下两个句子中,直观地区分两个不同的“it”的引用,这是人类处理自如的:

The dog ate the meat because it was hungry.

The dog ate the meat because it was tasty.

在第一个句子中,“it”指的是狗,而在第二个句子中,“it”指的是肉。在这两种情况下,“it”的上下文引用都与它的后续引用相隔不同的距离。

注意力机制的输出可以看作是一个矩阵,其中每一行代表输入中的一个单词,而每一行中的每一列则代表该单词相对于其它每个单词的相对重要性。为了尽可能多地捕捉输入句子中单词的上下文信息,句子会并行输入到多个(四个或更多)注意力机制的副本中,这就是所谓的多头注意力。在经过最佳训练后,这些副本将分别捕捉输入术语中的不同短期和长期依赖关系。然后,注意力块的输出会被串联起来。最后,一个编码器由六个或更多多头注意力块的堆栈构建而成。

拥有一堆多头注意力块的解码器与编码器类似,但有一个修改。注意力矩阵被掩码,以便每个单词只与其前面的单词进行比较,解码器生成输出中下一个单词的概率。下面的图来自原始Transformer论文,展示了所有这些部分是如何组合在一起的。

对于许多语言生成和分类任务,同时拥有编码器和解码器并不是必要的。BERT,第一个主要的大型语言模型,仅包含编码器。最新的大型语言模型(例如GPT-3、GPT-4、PaLM和LLaMA)都基于仅有解码器的架构。这些模型还表现出“Zero-shot”训练的能力,意味着它们无需重新训练即可学习新的技能——一切都在提示中。

就像深夜电视广告一样,等等,还有更多!Transformer还是稳定扩散的重要组成部分,这是一种利用Transformer的语言处理能力将文本转化为数值表示的技术。然后,这将馈送到扩散模型,该模型迭代去噪随机输入,以创建根据文本输入描述的物体的逼真图像。它看起来像魔法,但实际上不是;可以在这里试试。

一切都离不开线性代数

深入研究神经网络的权重计算方式,我们会发现,它们主要依赖于点积(Dot product)的计算,通过两个向量的相乘,产生一个标量结果——这涉及前一层节点的输入和节点的权重。更进一步,回顾网络的运算过程,你会发现,计算一层的所有输出实际上是涉及到矩阵乘法。每个矩阵乘法都是由大量稀疏矩阵的点积组成的,之所以如此庞大,是因为神经网络的权重数量巨大,达到了数十亿。而且,这些矩阵的规模还在不断增加,目前我们甚至在训练多达数万亿参数的模型。

当然,你说得对,现代微处理器都支持64位IEEE浮点矢量指令,我们还有专门用于矩阵-矩阵操作的GPU,最初是为了满足计算机游戏的需求,包括着色和图形矢量变换,最近也开始用于加速科学计算。这无疑是一项重要的进展,但是,如果我们能够深入研究矩阵的数值属性,我们就有可能更好地进行计算,更快、更节能。

实际上,这些操作并不需要非常高的数值精度,也不需要浮点数指数的大范围。事实上,现代用于机器学习的GPU以及许多专门的AI加速器仅使用16位或8位浮点数,即所谓的bfloat16和bfloat8。

值得一提的是,这对于科学计算也具有重要的影响。长期以来,科学计算一直依赖于64位和128位浮点运算。如果投入到AI研发的资金能够引领硬件领域走向低精度计算——实际上,根据已经安装的GPU和AI加速器的数量,这一趋势已经开始显现——那么将需要重新审视许多数值算法,并评估它们在这种新的范式下的数值稳定性。

并且,这耗资巨大

我们是否真正深入而完整地理解为什么这些神经网络方法如此有效?简而言之,答案是否定的。我们只拥有实验证据、一些经验法则和一些经过验证的直觉。缺乏更深刻的理论解释是导致实验进展迅速、竞争激烈的原因之一。更全面地说,更深入的理论将有助于我们理解可解释的AI,也就是深度神经网络如何进行预测以及它们的真实性和有效性。

然而,遗憾的是,除了数学教科书中的情况外,没有什么是永恒不变的。这些大型模型的增长受到实际经济限制。如今,这些模型已经拥有数万亿的参数,需要数月的训练时间以及数十亿美元的基础设施。无限制地扩展已经不可能。尽管仍有一些余地,但研究已经开始着眼于更节能的架构,例如模拟和神经形态芯片,以实现更低功耗的训练和推理,以及训练在比网络上仅有的数据上更高质量的语言模型。IBM已经率先制造了多代神经形态芯片,而微软发布了其phi自然语言和常识推理系统的两个研究版本。

毫不夸张地说,构建比小学生更具能力的深度学习系统仍然需要在世界上计算速度最快的计算机上进行数月的训练,这一过程需要数十亿美元的计算机硬件支持。这对未来将产生深刻的社会、经济和地缘政治影响,这并不是一件容易的事。否则,有雄心的中学生们可能会将构建像HAL 9000这样的系统作为他们的科学展示项目。然而,仍然有希望,技术的进步可能会改变这个现实。

6. 神经网络训练的通俗解析

Dan,你刚才用了一堆由博士学位的人创造出来的术语,来描述晦涩难懂的概念。你说得对。我们需要一个清晰明了的例子。那么,究竟如何调整所有这些神经网络的权重,以最小化预测误差呢?

假设你站在一个大城市的山坡上,这个城市靠海。你看不到大海,但你想要走到海岸,这意味着——等等——你需要往下走。那么,你会怎么做呢?你会选择最陡的下坡路线并开始走。在每个街道交叉口,你再次选择最陡的下坡路线并转向那个方向。通过总是选择最陡的路线往下走,你将以最快的速度到达那里,只要没有中间的山坡。梯度是函数的多维斜率的一种高级名称——即导数。

反向传播的梯度下降工作原理与走下坡路找到海洋完全相同。它会迭代地计算神经网络的新权重,从右侧开始并向后计算(向左),直到达到输入。它的目标是以减小损失函数的错误(即输出中的计算错误)和改进预测的方式来更新权重。为了最小化多变量函数(任何有用的神经网络都有大量变量——权重),梯度下降使用函数的斜率,即其导数,并相应地改变函数参数(神经网络的权重)以减小损失函数。

任何试图在城市里下坡走路的人都知道有很多选择。在一个方向上走多久后再考虑改变路径?在机器学习中,这被称为步长或学习率。如果在每个方向看起来都很平坦,你再也找不到下坡路,不得不猜测怎么办?这在机器学习中称为梯度消失问题。如果在所有方向上都是上坡,你知道必须爬一些山才能再次下坡怎么办?在这种情况下,解决方案空间是非凸的(即函数可能有多个局部极小值)。

对于具有数万亿参数的函数,计算函数的导数是非常耗时的,这一点毫不奇怪。为了简化问题,我们会近似计算梯度,这就是随机性的来源。延续城市和海洋的比喻,当你看着街道并选择最陡的坡度时,你依赖的是一种视觉估计,一种凭眼睛猜测的方式,而不是严格的测量。

最后,反向传播是计算估计导数的机制。它依赖于微积分中的莱布尼茨链式法则,其中估计导数(梯度)是从输出层通过隐藏层到输入层迭代计算的。敏锐的读者可能已经注意到,真正的梯度下降假设函数是凸的(即它具有单一的全局最小值)。

让我们做个小结。规模使得在定量和定性上都有所不同。CNN通过将图像缩减为越来越少的更高级别的特征来帮助图像分类。RNN引入了记忆,使其能够理解单词的上下文,而不仅仅是逐字处理。Transformer通过查看更远的单词上下文并能够同时查看一组单词来概括这个想法。CNN、RNN和transformer都依赖于深度神经网络,即基本的多层感知器。

7. 更大规模带来不同:技术融合

深思熟虑的读者或许会合理地问,是什么引发了当前的AI革命?毕竟,神经网络并不是一个新的概念,其存在可以追溯至上世纪50年代,起始于Rosenblatt的感知器,这是早期的单层神经网络,带有线性激活函数。

然而,感知器在视觉、语音、自然语言处理、翻译,甚至意识领域的功能上所作的夸大论述很快被推翻。随后,1969年,Minsky和Papert出版的《感知机》(Perceptrons)一书,备受争议地指出,单层感知器无法计算(学习)一些常见函数。回顾这一点,尽管这一结论确实成立,但它或许过于悲观。然而,这一结果却引发了第一次AI寒冬,导致了研究资金和对AI的兴趣急剧下降。

随后,各种广泛逼近定理却表明,具备至少一个隐藏层(即多层感知器(MLP))且包含足够数量隐藏单元的人工神经网络,能够逼近特定输入范围内的任何连续函数。这是一项极具威力的发现,为如今大规模人工神经网络的广泛应用和实用性提供了理论基础。

20世纪70年代和80年代,AI领域迎来了第二波兴趣的浪潮,原因包括对定性推理和专家系统的过高期望、DARPA(美国国防高级研究计划局)投资未能实现其承诺的军事能力,以及相关的美国战略计算计划和日本第五代计算计划的失败,这些计划都曾承诺实现类似于人类能力的智能。

在度过半个世纪的挣扎、沮丧和绝望后,究竟是什么因素突然使得通过神经网络进行机器学习变得如此流行?答案简而言之:规模,巨大的规模。

这种规模包括大规模的图像、视频和文本数据,它们广泛分布在互联网上。这一局面的形成,实际上是上世纪80年代和90年代政府在超级计算、标记语言、搜索引擎和信息高速公路领域的大规模投资的结果,再加上功能强大但价格低廉的工作站和个人电脑的出现。当这一发展与商业云的规模和经济特性相结合时,首次有可能构建和训练庞大的神经网络。

认识到这一价值数万亿美元的经济机会,领先的云服务商(如亚马逊、微软和谷歌)纷纷投入数百亿美元用于支持AI的训练(即调整神经网络权重以最小化误差)和推断(即应用经过训练的神经网络生成响应查询的输出)。这些公司的市值接近或超过一万亿美元,并拥有庞大的现金储备,它们主导着AI生态系统。

在训练硬件方面,涵盖了大规模的CPU集群、大量GPU加速器(通常来自NVIDIA)以及专门的AI加速器硬件(例如,谷歌的Tensor处理单元(TPU)或亚马逊的Inferentia)。估计使用了数千亿参数,GPT-4的训练历时相当长,底层硬件在低精度操作水平上运行,这是科学计算领域最新实现的性能水平。关于AI训练成本和规模快速增长的更多背景信息,我强烈推荐阅读相关的arXiv论文(https://arxiv.org/abs/2202.05924)。

几乎不可能高估深度神经网络训练中所需的数据量。人类知识库的一部分庞大且不断增长,现在可以在网络上获得,并且正在被用于神经网络的训练。想象一下使用数十亿张图像和比人类一生都能阅读的数字文本更多的数字文本。所有这些大数据 - 以及更多 - 都输入到机器学习的无尽需求中。实际上,一些担忧已经浮出水面,认为这些训练系统可能会耗尽全球数字数据供应。

除此之外,我自己的职业生涯大部分时间都在超级计算和计算科学领域度过,担任研究员、国家超级计算应用中心(NCSA)的主任以及科学技术政策顾问。我曾经自认为是一个“大铁”(指大型计算设备)的人。然而,当我到微软时,我意识到自己实际上是一个“快铁”(指快速计算设备)的人;云计算和AI供应商的规模和范围如今已经超越了政府资助的超级计算。在今天对大规模计算基础设施的投资下,云计算和AI供应商已经成为“大铁”和“快铁”的主要参与者。

那么,大规模究竟有何优势呢?毕竟,几十年来,计算机和网络一直在变得更快、更便宜,数据也不断增长。有意思的是,事实证明,更大规模的人工神经网络不仅在数量上更大,而且在质量上也更出色。随着算法的不断改进(如Transformer、生成对抗网络、自动编码器等多种软件方法的引入),一旦神经网络超过一定的规模门槛,它们在一系列人类任务上的性能都会显著提升。

此外,我曾利用ChatGPT编写了使用GTK的用户界面代码,创建了多类排队网络模型,开发了PDE求解器,并评论了我自己的文章。虽然ChatGPT并非完美,但节省下的时间远远超过了偶尔出现的错误。此外,ChatGPT还能帮助你使用Keras生成机器学习代码。作为一名业余天文学家和天体摄影师,我请ChatGPT生成了一些识别螺旋星系图像的代码。ChatGPT快速生成了一个参数化的CNN,并提供了如何进行参数化的提示。

在许多其它情况下,深度学习工具在语音识别、手写识别、阅读理解、语言理解、计算机视觉、音乐创作和游戏(例如国际象棋和围棋)等方面的性能远远超越了人类能力。深度学习系统在普通专业考试方面表现出色,它们在法律和医学的许可考试中与人类表现一样好甚至更好,并且它们在大学和研究生入学考试中也取得不错的成绩。最后,在我写这篇文章时(2023年9月),现代艺术博物馆正在举办一场关于神经网络训练的互动展览。在无监督的情况下,Refik Anadol的生成艺术作品令人印象深刻且令人着迷。

这些系统是否符合人工通用智能的定义?毫无疑问,答案是否定的!它们可能表现出脆弱性,在其训练领域之外的任务上有时会产生令人发笑的结果。有时候,它们还会出现自信满满的幻觉,声称与事实不符的陈述。然而,首次,AI系统在广泛的知识和经济领域中展现出令人印象深刻且实用的能力。

8. 生物学的启示

小型蠕虫恶线虫(Caenorhabditis eleGAN,以下简称恶线虫)的神经连接图谱,即神经系统连接的地图,是在1986年由伯纳实验室的研究人员手工创建的。详细信息可参阅这篇经典论文。要制作这个连接图谱,研究人员需要识别显微切片的电子显微镜图像中的每个神经元,然后费力地手动连接它们,以构建包含大约7000个连接的逻辑地图,其中包括成年雌性恶线虫的302个神经元之间的连接。

恶线虫的这302个神经元可分为感觉神经元、运动神经元(控制肌肉运动)和连接到其它神经元的中间神经元。基于这个连接图谱,一个活跃的建模社区,OpenWorm,正在努力模拟雌性恶线虫所有959个细胞的活动。最初的工作主要集中在模拟连接图谱中的95个肌肉细胞和302个神经元。换句话说,他们试图在计算机内部创建虫子的数字模型。

在2023年,一支团队完成了普通果蝇幼虫大脑的完整连接图谱绘制。与恶线虫一样,长期以来,普通果蝇一直被用作生物研究的模式生物,但它的生物系统相对较复杂。果蝇幼虫的大脑包含3016个神经元和约548000个突触连接点,而成年果蝇的大脑则包含125000-150000个神经元和数千万个突触。与之相比,人类的大脑估计包含约860亿个神经元和约100万亿个突触。

不同于恶线虫连接图谱的手工制作方式,果蝇幼虫的连接图谱绘制利用深度学习模型来自动识别神经元和连接,大大加速了这一过程。

此外,你可以通过Virtual Fly Brain网站来探索果蝇连接图谱。

尽管与人类相比,果蝇的连接图谱规模较小,但它却拥有广泛而复杂的行为能力,包括学习。它的视觉系统具备检测和规避障碍物、行走和飞行的能力,同时满足生物的基本需求,如进食和繁殖。总之,果蝇是一个具备自主性和目标追求的生物实体。

利用这些连接图谱,多个研究团队已经建立了蠕虫和果蝇神经系统的计算机模型。与人工神经网络中的简化神经元不同,生物神经元的准确模拟要复杂得多。这些神经元只有在膜电位达到特定阈值时才会传递信息,被称为尖峰神经元模型,通常使用漏电积分-火模型或其变种来建模。与人工神经网络中的神经元底层的线性代数不同,这些激活最好被建模为微分方程。

这些计算模型的早期结果非常引人入胜,因为它们表明可以生成关于神经网络行为的可验证假设。换句话说,模拟这些网络对感觉输入进行刺激会在与生理功能相关的神经网络区域中触发激活。例如,在果蝇中刺激糖感受神经元会触发对味道产生反应的神经元。这是非常令人印象深刻的,因为它显示我们正在逐渐了解生物神经网络如何产生复杂的行为。

那么,这些自然神经网络及其计算模型给我们带来了什么启示呢?首先,尽管它们能够进行复杂的行为和响应,但生物神经网络的能量消耗非常低。人类大脑约消耗20瓦的电能,虽然与训练人工神经网络所需的兆瓦相比微不足道,但仍然占据了身体总能源需求的相当大部分。而蠕虫或果蝇大脑的能耗则更低得几乎可以忽略不计。

其次,自然神经元虽然高度连接,但连接方式并不像人工神经网络那样以明确定义的层次结构出现。例如,人类神经元可能有数千个连接,其中并非所有都是本地连接。最后,自然神经元是模拟的,而不是数字的,每秒最多只会触发几次。

正如我们在探讨比空气重的飞行时所指出的,类似的人工神经网络工程设计并没有明显要求必须严格遵循这些实施原则。然而,它们确实表明我们缺少一些基本的理解,这些理解将使我们能够设计更节能但更强大的推理系统,超越当前生成式AI系统。这一认识已经催生了类脑计算芯片的研究,这些芯片在硅中模拟了生物神经元的某些方面。许多这些设计问题与半导体技术的未来发展密切相关。

9. 文化、商业、科学和地缘政治

生成式AI正在深刻地改变着我们进行科学研究与工程开发、教育培训下一代学生、商业和商务领域,甚至我们对国防与国家安全的思考方式。以下,我将简要概述一些具体的例子。

科学与工程

正如计算科学已成为科学过程的重要组成部分,机器学习也在迅速融入科学与工程的核心。长期以来,科学受到了数据限制,每一次新的进展都需要进行反复的仔细实验和手工数据分析。

然而,随着大规模科学仪器的发展,产生了大量的实验数据,这已经远远超出了人工处理的能力。在大数据时代,自动化数据分析已经成为标配,商业和社交媒体领域的机器学习技术也用于各种科学应用,如星系探测、高能物理实验信号分析、基因数据比对和环境数据解读。

此外,AI模型的出现也催生了计算科学的进步。例如,DeepMind的AlphaFold通过类似于用于国际象棋和围棋的技术,能够准确预测蛋白质的三维结构,这一传统上极具挑战性的问题。这一突破正在重塑生物研究领域。

越来越多的计算科学家也开始构建混合模型,将经过训练的机器学习模型用于替代核心偏微分方程(PDE)求解器,以产生相似的输出。这一趋势已经覆盖了科学和工程领域的广度和深度,每天都有新的应用案例涌现。例如,Nature最近报道了一个使用经过训练的神经网络改进数值天气预报的案例,比传统的操作性天气预测模型更加准确。

需要注意的是,由于经过训练的模型通常比传统的PDE求解器更加高效,因此混合模型能够更广泛地探索参数空间。然而,在采用这些模型时,需要仔细确保它们仍然适用于特定领域和问题。(详见HPC、大数据和伯罗奔尼撒战争。)

值得一提的是,三十年前,我正在研发计算模糊逻辑模型,用于性能优化和并行科学计算代码。今天,毫无疑问,我会选择使用经过训练的神经网络来进行系统调优和性能分析。这个领域的发展日新月异,无疑将为科学与工程领域带来更多可能性与机遇。

高等教育

高等教育界对生成式AI表示出了一些担忧,主要集中在学生作弊问题上,而忽视了更为重要的智力问题——即这一前景广阔的新技术如何能够扩大公共教育的覆盖范围、提高教育质量,以及为研究和创新开辟新的途径。

相反,我认为我们应该积极拥抱史蒂夫·乔布斯所谓的“智慧的自行车”,利用AI来增强人类的智力潜能,帮助更多人克服初中和中学教育体系的不足之处。这意味着我们需要找到一个领域,利用机器学习技术,或者甚至是自行定制或构建技术,来充分发挥教育的潜力。

如果我们曾认为学习拉丁语是一种有效的方式来教授逻辑、文化、英语词源和语言结构,那么在21世纪,基本的数据素养和对机器学习基础的了解无疑应该成为每个人教育的一部分。这意味着我们需要理解如何最好地利用AI来减轻或消除智力上的单调工作,同时如何补充创造性思维,并教育学生了解AI的优势和限制。作为一个早期实验,可汗学院推出了基于GPT-4的可汗米高(Khanmigo)AI助手。

正如哲学家普鲁塔克(Plutarch)曾写道:“思想是一团需要点燃的火,而不是需要填满的容器。”我认为AI为创造定制和耐心的导师提供了新的机会,这些导师可以替代传统教师的角色,同时激发学生的发现和学习热情。就像伊利诺伊大学早期的计算机辅助教育系统Plato提出的愿景一样,我们可以构建创新的方法来扩大教育的覆盖范围。

此外,不久前,我告诉一群学院院长,生成式AI模型(如ChatGPT)现在能够比我们大多数本科生写得更好,甚至已经开始参与日常的研究活动,例如撰写研究论文摘要和数据表征。虽然这种说法略显夸张,但无法否认AI的进步正在日益显现。

经济和国家竞争力

回顾技术变革的历史,我们可以发现一个明显的规律,那就是在短期内我们通常高估了变革的影响,但低估了其长期效应。尽管AI备受炒作,但其对经济和国家竞争力的影响是实实在在的,而且正在不断增长。

尽管关于具体数字的估计存在分歧,但毫无疑问,AI将以各种方式影响到21世纪的大部分工作,改变一些工作、淘汰其它工作,并创造新的工作机会。例如,麦肯锡估计,在一组特定应用案例中,生成式AI每年的经济潜力可达2.6万亿到4.4万亿美元之间。这是一个庞大的数字,而不是一个可以轻视的小数目。

曾经我们以为白领工作岗位,因为其需要非例行的认知技能,所以不容易受到自动化的威胁。然而,如今越来越明显,我们的看法是错误的。许多这些工作也可能会受到威胁,至少会经历重大改变,而在某些情况下甚至会被自动化替代。这一变革使得那些拥有珍贵或独特认知技能的人变得更为宝贵,就像制造业自动化淘汰了低技能工作,同时提升了工匠技艺的价值一样。

与此同时,深度学习技术的软件基础变得越来越丰富多样,每天都在不断扩展,为那些能够利用它们的人带来了新的经济和智力机会。如今,一名高中生只需不到一页的Python和Keras代码(Keras本身是基于TensorFlow构建的库)就能解决那些曾经困扰着全球顶尖AI研究人员的问题。GitHub和Hugging Face等网站托管了大量的训练数据集和模型。

从文本生成服务(如ChatGPT、Bing和Bard),到图像和音乐合成服务(如DALL-E2、Midjourney、Stable Diffusion和Jukebox),再到技术服务(如GitHub Copilot用于软件生成、Runway用于视频生成、WriteSonic用于写作、自动新闻报道、Jasper和copy.ai用于营销等),几乎每个领域都在经历着AI注入的新实例服务和技术。AI甚至开始渗透到娱乐领域,包括单口喜剧表演。与此同时,围绕着提示工程学的新行业正在迅速崛起,为生成式AI的提问提供上下文并创造角色。

此外,除了大规模的云计算供应商投入数百亿美元外,初创公司市场也在迅速发展。风险投资家纷纷涌入各类AI初创公司,包括软件和工具、应用程序和硬件,形成了AI领域的“独角兽”。AI基础设施初创公司的显著例子包括Cerebras(晶圆级AI硬件)、Graphcore、Groq和SambaNova。这些迹象表明,AI将继续对各个领域产生深远的影响,其重要性不容忽视。

伦理和可解释性

我们对于生物智能的理解和模拟确实面临着巨大的挑战。就像我们无法完全理解青少年如何学会开车一样,我们也很难完全理解AI系统如何生成其输出。虽然在概念上我们可以追踪深度神经网络中所有权重的优化路径,并将其与训练数据相关联,但实际上,由于数据量和神经网络的复杂性,这在绝大多数情况下都是非常困难的。

特别是对于专有的AI系统,所有者可能不愿意分享足够的信息进行透明的测试。因此,我们通常只能进行黑盒测试,从刺激和响应的组合中推断内部过程。这种不可验证性引发了伦理学家和政策制定者的关切,特别是在AI系统在社会中扮演更重要角色的情况下。

例如,自动驾驶汽车的安全性成为一个重要议题,我们需要权衡其风险与好处。对于年老体弱者而言,自动驾驶汽车可以提供更多的移动性和社交机会,但也伴随着驾驶风险。类似的问题也出现在其它高风险驾驶情境下,如经验不足的青少年、疲惫的司机或在药物或酒精影响下驾驶的情况下。

同时,解释性理论一直是物理学界的讨论主题,特别是在量子力学领域。量子力学经常与我们的宏观直觉相悖,因此物理学家一直在尝试解释其背后的现象。这些解释包括哥本哈根解释和埃弗里特的多重世界解释等不同观点。

在AI领域,还存在有关知识产权的争议,尤其是在公开可用的图像、文本和数据上进行训练是否构成了窃取财产以创建新内容的问题。这引发了有关AI系统在社会中的作用、监管和伦理的重要讨论。各国和地区都在探讨如何平衡鼓励创新与保护消费者和公民之间的紧张关系,这对于AI的未来发展至关重要。最近欧盟通过了AI法案,旨在确保AI系统的安全性和透明度,这也表明了对这一问题的重视。美国国会也在审议AI相关的监管议案,AI伦理问题将继续成为关注的焦点。

国防和国家安全

国家安全的根本在于经济安全,即一个国家制造具有全球经济影响力的商品和服务的能力。最近围绕半导体制造的贸易紧张局势以及争夺国内半导体供应链的竞赛,再次凸显了这一现实。这与生成式AI以及为了培训和推理所需的GPU和AI加速器的获取息息相关。因此,美国国家安全顾问安东尼·布林肯强调半导体制造和AI是国家安全的两个关键领域。欧洲联盟和中国的领导人也表达了类似的观点。

灵活AI的崛起还带来了半自主和自主作战机器的前景。虽然这些机器不具备像《终结者》中那样的思维能力,但智能作战机器的时代逐渐临近。这类问题类似于自动驾驶汽车和卡车引发的辩论,其中包括了交战规则和责任分配等复杂的伦理问题。这些问题的答案尚不明确。

不管怎样看待这一问题,AI的竞争都已经成为未来全球竞赛的一部分,它将塑造教育与培训、就业与经济竞争力、科学发现与创新、国防与国家安全的未来。这是一场美国不能承受失败的竞赛,与半导体设计与制造能力密切相关。这也与国内至上、国家和国际供应链、移民和贸易政策以及STEM教育的全球竞争息息相关。在这个竞争中,美国需要保持领先地位,以确保国家安全和经济繁荣。

10. AI的炒作与现实

回顾20世纪80年代末和90年代初的第二次AI寒冬,那时人们的热情褪去,资金匮乏,我深有体会。而20世纪70年代的第一次寒冬也历历在目。众所周知,开发出具备人类水平能力的AI系统并非易事。

有一则早期机器翻译的笑话,当时机器翻译着重处理俄语和英语之间的翻译,尤其是在冷战时期备受关注。故事如下,专家们要求系统将短语“心有余而力不足”(The spirit is willing, but the flesh is weak)翻译成俄语,然后再翻译回英语。结果却是“伏特加很烈,但肉变质了”(The vodka is strong, but the meat is rotten.)。

这个笑话强调了一个关键观点:背景和文化背景知识在语言和意义的理解中起着重要作用,而人类拥有丰富的这些知识。今天我们之所以如此激动,是因为深度神经网络通过训练,尽管还不完美,但已经打破了足够多的内涵和字面意义障碍,现在在关键领域表现出了人类水平的能力。

那么,我们是否即将迎来第三次AI寒冬?我对此表示怀疑,因为生成式AI已经在执行重要任务时取得了显著的成功,这种成功对于完全陷入低谷并不具备吸引力。尽管如此,我确实预计会有一些调整,尽管不会像前联邦储备委员会主席艾伦·格林斯潘(Alan Greenspan)在互联网泡沫繁荣时所称的那种“非理性繁荣”。

那么,这一次有何不同之处呢?正如前文所提,深度学习系统,尽管存在局限,但现在在广泛的重要任务上明显优于人类。它们能够创作诗歌、生成逼真的图像和艺术品、根据高水平的书面描述编写代码,还能进行各种问题和答案的交流。这次所谓的繁荣是有充分理由的,尽管中间可能会有一些市场调整,但与以往不同,这一次是理性的繁荣,而不是过度炒作的结果。

11. 未来的箴言

我是否知道生成式AI及其智能衍生物将如何塑造我们的未来?不,我的水晶球和其它预言家一样模糊不清。然而,作为一个预言家,我确实知道某些原则总是适用的。现在,让我分享一些可能的智慧之言:

  • 箴言一:AI革命才刚刚开始,其对社会的影响可能与工业革命一样深刻。很可能会出现重大的经济动荡,以及相应的社会动荡,越来越多的例行和非例行认知任务将被自动化。无论是在医疗保健、经济福祉还是通信方面,技术创新的进程一直是改善人类生活质量的过程,带来了新的工作和新的社会经济机会,尽管中间会出现深刻的动荡和不平等。挑战在于在过渡期间尊重个体的尊严。

  • 箴言二:AI和半导体正在推动一个新的全球“军备竞赛”,这将至少在一定程度上决定21世纪的地缘政治格局。新兴的AI系统是国家国防的重要组成部分,既通过深度伪造、选举干扰和情感分析等隐式行为塑造,也通过网络攻击和自主军事车辆(如无人机和其它系统)等显式塑造。它们还将塑造哪些地缘政治体系实现或维持经济和政治主导地位,简而言之,塑造未来的价值观。

  • 箴言三:尽管今天的生成式AI系统具有令人印象深刻的能力,但在硬件规模和训练所需的能量消耗方面,存在明显的指数增长的限制。我们需要在硬件-软件协同设计方面提出概念上的新方法,包括新材料、生物学启发的架构和新的低精度学习算法。我们还需要继续研究开发新的AI方法,以反映对学习和生物学知识的增加理解。

  • 箴言四:对生物智能的深入理解可以推动AI的进一步发展。未来AI的突破部分取决于理解自然智能的基本原理。这些思想何时启发,何时误导,只能通过在生物观察中测试模型假设来理解。正如常言道,科学是相互关联的,事后显而易见,但前瞻性却很少。

  • 箴言五:STEM教育比以往任何时候都更加重要。我们需要一个更多了解基础技术并能够适应工作场所不断变化的受过训练的工作者队伍,既可以作为AI技术的开发者,也可以作为使用AI技术的工作的一部分。这意味着我们需要重新思考教育的许多要素,将AI视为合作伙伴而不是需要害怕的颠覆性技术。

  • 箴言六:科学洞察力在伦理上是中立的,但其作为技术的具体应用可以用于善恶两用。如果今天的AI系统表现出偏见,事实确实如此,那是因为它们是使用反映我们社会偏见的数据进行训练的。我们必须确保我们的数据来源、过滤器和流程反映我们的伦理价值观。这意味着要避免由AI管理的社交媒体经常引发的认知偏见。

  • 箴言七:教育以及基于对AI能力和限制的基本理解的深思熟虑和审慎辩论,对塑造适当的AI政策和法律至关重要。与任何新技术一样,解决潜力的无限探索与确保研究人员、技术人员、企业和政府之间公平和道德行为之间存在创造性张力。


最重要的是,我们必须考虑这些复杂的社会、经济、伦理和地缘政治问题之间的相互作用。正如任何战略家或游戏玩家所告诉你的,洞察全局乃至关重要。

12. 结语

我请ChatGPT对AI的未来进行一些推测。它的回应与我可能提供的任何答案一样贴切:

展望AI的未来,充满了激动人心的可能性和挑战。随着AI的不断进步,我们可以期待更复杂的自然语言处理、卓越的机器学习技术和强大的问题解决能力。然而,伴随着这一发展,伦理考量和潜在的就业问题将继续引起广泛的讨论。AI正在渗透各个领域,其对社会的潜在影响将在未来几年中塑造AI发展的方向。



---【本文完】---

近期受欢迎的文章:


我们正处于数十年未见之大机遇中

新技术爆发式发展,催生新产品

然而,颠覆式创新并非简单的技术堆叠

而是异常复杂的系统工程

需要深度洞察

欢迎一起分享思考和见解

继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存