我在机器学习(ML)的讨论中,经常对一个看法心怀小小的不满:人们声称人类在学习方面比我们目前训练的模型更有效率,这个论点通常是这样的:“我对我的三岁小孩所拥有的知识感到震惊。他比大语言模型更聪明,尽管接受的训练数据集非常小。显然,我们的模型缺少一些重要的东西,因为它们不能像我的三岁小孩那样学习!”但是,一个三岁孩子的训练数据集真的比典型的语言模型小吗?出于好玩,我想在餐巾纸上计算一下,把数字简化到我们实际能推演的水平。首先是LLM(大型语言模型)本身——我们用Llama 65B。这个模型接受了1.4T个词元的训练。为了简单起见,假设代码本大小为65536,这意味着每个词元代表16比特数据(2^16=65536)。这意味着Llama接受了总共22.4 T比特的数据训练。
(图片来源:Cosmos Institute )人类“训练数据”我们来试着弄清楚一个人在3年内能收集多少信息。为此,我们首先将我们的世界经验分解为一个个组成的的“经验”,这些经验在这3年中在固定间隔间发生。我们假设一个人每秒都获得新的经验(实际上可能更频繁)。我们还假设人类平均每天醒着12个小时。在3年的时间跨度内,这意味着一个人将有3 * 365 * 12 * 60 * 60 = 47,304,000次经验。现在我们来比较这3年的经验和我们用来训练那个65B Llama模型的数据:22,400,000,000,000比特 / 47,304,000次经验 = 473,532 = 474 K比特/经验。也就是说,如果每次人类经验的信息超过474 K比特,那么从技术上来讲,一个三岁的小孩接受的原始信息比Llama 65B更多。让我们通过人类经验的模态进一步理解这一点:视觉互联网告诉我,人类眼睛可以感知到576Megapixels (百万像素) 和1000万种颜色。1000万种颜色约为23比特 (比特数与颜色数呈指数关系)。我们有两只眼睛,所以这相当于576,000,000像素 * 23比特/像素 * 2种可能的观察状态。这相当于每次经验26 GB。我不认为人脑实际上感知到了它被呈现的所有视觉信息。相反,它专注于一小部分(注意力!)。但即使26 GB的一小部分也是一个大数字!无论你尝试如何精减这个数字,它都将是巨大的。音频幼童能够感知高达20kHz的声音频率。我不太清楚如何衡量我们的耳朵能够感知的压力波动的精细程度,我将使用8比特(255个压力值)作为合理的下限。这意味着在一秒钟的时间内,人类理论上可以感知20,000*8 = 160KB的音频数据。触觉、嗅觉和味觉据我所知,嗅觉是通过化学物质与嗅觉受体结合来实现的。结合的行为是开或关的提议,互联网告诉我,我们有大约400个不同的嗅觉受体。这就产生了来自嗅觉的400比特的信息。我将以类似的方式衡量触觉——互联网告诉我我们有大约400万个触觉受体(为什么数字4一直出现?)。每一个都是独立的,并且(我假设?)可以开或关,这就产生了4M比特的触觉信息。味觉是触觉、嗅觉和味蕾的复杂混合物。我们可以尝到大约5种独立的味道,我假设嗅觉和触觉在上面已经涵盖。所以我们说味觉是简单的5比特信息。总结我不打算把所有这些信息来源加在一起,因为我认为这都是天方夜谭。我希望我已经清楚地表达了我的观点,显而易见,人类大脑每秒接收474K比特的信息。如果我们可以这样说,那么我们也可以说,一个3岁的孩子很可能接受了和Llama 65B一样多的数据训练(尽管我怀疑它要多得多!!)信息冗余我预计读到这里的怀疑者会提出以下反驳:大多数人类经验是冗余的!尽管总的信息输入非常密集,但新颖信息的量相当小!但你也可以这样说我们的模型!这些模型接受训练的文本数据集是由互联网上所有的人类文本组成的。这必然是高度冗余的——人类喜欢一遍又一遍地谈论相同的事情,日复一日。政治、性、战争、食物、节食、锻炼、运动、时尚等。大多数人类文本的语义熵非常低。我实际上认为冗余对于学习系统非常重要。在压缩的行为中,它就起作用了,这似乎与智能相关。通过长时间接触相同的观察,我们学会了什么重要,什么不重要。高度冗余的经验从我们的注意力中褪去,我们转而关注新奇、意想不到的事件。不要感到奇怪,我们的模型以同样的方式工作。应用合理的数据增强技术,再对数据集进行反复训练,可以提高模型的性能,仅这一点就似乎就初步说明了这个道理。(这是因为重复的训练过程和对数据的不同表示形式使模型能够更全面地学习数据中的模式——编者)。另外一种效率谈论人脑时只考虑数据效率,还不够厚道。在能源效率方面,我们的大脑非常了不起。我认为那种效率的几个数量级之内都看不到我们的硅基智能。不过这给了我很多希望。我们所能达到的仅仅是微薄的效率,如果这已经令人敬畏,我迫不及待地想看看它们在十年或二十年后会是什么样子。
作者是OpenAI的一位研究人员。原文链接:https://nonint.com/2023/07/05/on-the-efficiency-of-human-intelligence/