欧阳良宜:知识的载体、维度和未来
2023年,以ChatGPT为代表的大型语言模型让各界都看到了人工智能全新的可能性。人们期待强大的技术成为社会的发展引擎,又免不了受到技术威胁论的影响,在此背景下,如何让超级智能的AI系统实现“价值对齐”又一次成为了新的焦点。
北京大学汇丰商学院副院长、金融学副教授欧阳良宜在《北大金融评论》撰文回顾人类知识创造的历史,在当前知识增长进入几何级数的时代,他认为ChatGPT的出现进一步优化了知识的检索方式,使得学习者不需要在搜索页面逐个尝试不同的链接内容。尽管生成式AI仍然存在缺陷,但是可以预期的是,技术的迭代将会逐步消除瑕疵。人类知识生产和传播的效率将进一步提高,而人类社会也会以加速度方式前进。
本文将刊登于《北大金融评论》第18期。
使用ChatGPT和文心一言等AIGC工具的经验告诉我,人工智能的进步将深刻改变知识的创新和传播方式。这也迫使我从逻辑层面去回顾人类知识创造的历史,并思考我们的未来。
语言
人科有两个属,三种生物,分别是人属的智人、黑猩猩属的黑猩猩和倭黑猩猩。三者大小为3Gbp的基因组中有98.5%是相同的,剩余1.5%的差异造成了物种命运的天壤之别。其中之一的FOXP2基因突变使得人类有了使用复杂语言的能力。几乎所有智人种族都有自己的语言。我们的表亲尼安德特人和丹尼索瓦人也可能有语言能力。语言是原始部落把祖先用生命和汗水换来的对世界的认知向下一代传承的重要载体,比如对火的认识。人类在约百万年前掌握了用火的知识,从此我们可以获得更高的食物热量用来维持大脑的高能量消耗。人类进化的路径因此得以向高智能方向继续发展。
口口相传的知识积累方式会遭遇各种意外,所以古代的许多技术已经失传。2008年奥运会开幕式上有一个震撼人心的击缶节目,其所奏乐器的形制源自曾侯乙墓铜鉴缶。这件精致的乐器即便是用现代技术复制起来也是非常困难,难以想象2500年前湖北随州的一个小诸侯国是如何把它制造出来的。它的制作方法在漫长的历史中显然失去了传承。类似的例子还有许多,譬如越王勾践剑的防锈技术。这也难怪金庸先生的武侠小说特别推崇古代剑,几乎忽略了技术会不断演进的现实。事实上,即便是语言本身也有失传的风险。按照联合国教科文组织的估算,当前有约2500种语言处于濒危状态。下个世纪也许50%-90%的现有语言都将消失。
一个众所周知的事实是,东亚学生的数学成绩要显著超过同年级欧美学生。我们只需要看一下国际数学奥赛的领奖名单就可以明白。《异类》认为,这可能是东西方语言发音效率差异导致的。1-10的数字用普通话平均可在25毫秒中读出,而英文则可能需要33毫秒。更多位数的数字在英文中的表达形式比中文要复杂许多。同样源自拉丁语系的法语就更夸张了。数字99在法语的写法是:Quatre-vingt-dix-neuf,也即四个20加19。这种效率差异使得中国小朋友在练习数数时至少要领先欧美小朋友一年。时至今日,普通东亚人的心算口算能力依然比普通欧洲人要好,这一点在超市柜台结算时特别明显。当然我们需要反思的是,历史上英国和法国数学家对数学的贡献却要远远超过中国数学家。读数效率显然不是决定创新产出的唯一自变量。也许幼年便被迫进行复杂思维的优秀数学家,反而在成年后占据优势。
文字
尽管历史上人类可能演化出过几万种语言,但是只有五个民族原创了文字,分别是苏美尔人、古埃及人、中国人、古印度人和玛雅人。文字的发明,使得古文明可以在泥板、骨骼、毛皮或者植物纤维的载体上将知识记录下来,并向下一代传递。文明的火种得以保存。令人唏嘘的是,其中四种文字在人类历史演进中逐步消亡,只剩下中文依然在传承。
直到工业革命之前,文字的使用仍然是一种特权,属于精英阶层。举个例子,中国的平民经常自称“百姓”,实际上这是对“姓”的误解。北宋刘恕所撰的《通鉴外纪》写道:“姓者,统其祖考之所出;氏者,别其子孙之所自分。”姓大概源自母系社会时代的部落,氏则是姓之下的支系。秦始皇为羸姓赵氏,名政。他的祖先是东夷羸姓,为西周牧马而迁至陕西,本人则生于赵地。战国时期的平民是没有姓氏的,此时百姓指的是贵族。秦汉之后姓氏合一,但是平民仍然缺乏对文字的掌握。明太祖朱元璋原名朱重八。他的文盲父亲按生日给他起的名。而这位父亲是六月初四出生的,读者很容易便可以猜出他的名字。类似地,日本平民有姓是明治维新以后的事情,之前姓是贵族特权。譬如中国人熟知的伊藤和佐藤,均源自古老的藤原氏贵族,一个被分封到伊势国,另一个则担任过左卫门佐。因为报户口的时候比较仓促,日本许多平民的姓起得比较随意,非常有乡土气息。
我们现在日常所见的西欧文字源自希腊字母或拉丁字母,起源都是北非的腓尼基文字。腓尼基文字则可能是受古埃及文字影响而被发明的。公元前4000年古埃及人发明的文字兼有象形和表音成分,然而在4世纪时就失传了,一直到19世纪欧洲人才破译这一古老文字系统。中文则从一开始就是象形文字。3500年以来,中文从甲骨文、金文、篆书、隶书到楷书的发展历史脉络非常清楚。某种意义上来说,信息的形式也会影响内容。一边是基于几十个表音字母的组合编码,另一边则是几千甚至几万个象形文字的具体表达。单个字母无法表达任何意义,但是入手容易;而“男”这个字不论是甲骨文还是楷书都一目了然地定义了男人的工作属性。此外,中文以外的大多数文字不管是楔形文字,象形文字还是字母,一般都是表音文字。以英语为例,我们现在去阅读莎士比亚的原著会有一定困难,因为他的英语属于早期现代英语,发音与现代英语不完全相同。即便你英语考试过了六级,几百年前贝奥武夫时代的古英语基本上也是看不懂的。而表意的汉字则不同,我们依然能够看懂魏晋碑文,尽管读音已经变化巨大。
东西方文化的传承在文字的复杂度上出现了分野。这一差异被后来中国人首创的印刷术放大,对世界历史的演进造成了深远的影响。
纸
文字需要载体。人类尝试过使用各种各样可以平铺的材料,包括泥板、石板、树皮、草皮、动物皮、骨骼和金属。在工业革命以前,对人类知识传承贡献最大的毫无疑问是中华文明的造纸术。这种技术使得知识的传递成本降低了好几个数量级,也使得知识普及成为可能。而在中国人之前,埃及人5000多年前所发明的莎草纸曾经风靡地中海沿岸。但由于莎草纸的脆弱性和种植区域限制,公元前4世纪以后便被羊皮取代。羊皮卷的昂贵制作成本限制了知识的普及。公元12世纪,欧洲人从阿拉伯人处学到了中国人在1000年前便已发明的造纸术,在西班牙建立了第一个造纸厂。又过了400年,纸才取代羊皮卷成为欧洲的主要文字载体。如果没有这些可以长期保存的文字载体,灿烂的罗马文明可能会完全湮没于欧洲的中世纪,文艺复兴也就无从谈起。尽管罗马时代有许多公共和私立图书馆,但是日耳曼蛮族入侵使得不少书籍消失于战火。
中世纪普通书籍的价格相当于一个工人一年辛苦劳作的所得总和。根据1074年的记录,欧洲一本书甚至可以换来一座葡萄园。博洛尼亚大学是世界上最早的大学。教授们教育学生的方式在现代教师看来简直是太轻松了。他们所做的事情就是拿着书本逐字逐句地复述书本的内容,不需要任何引导,不需要任何解释。这些书籍部分是从废墟里抢救回来的古罗马法典。这种教育不是普通学生负担得起的奢侈行为,依然是精英阶层的专利。
即便是到了近代,中国有印刷术之后,书籍在中国仍是非常昂贵的奢侈品。著名的私人图书馆天一阁是宁波范氏家族的私产。范氏祖训是“代不分书,书不出阁”,因为丢失一本书或者是被人抢走一本书代价实在是太大。这种对于书籍过于看重的做法也影响了知识在古代中国的传播。中国的古代识字率相比于欧洲要高很多,但是按现代的标准来看,这个数字仍然是惨不忍睹。沐浴在文明阳光下的中国人对于知识的获取觉得理所应当。殊不知,世界上有相当多的民族直到近代都没有文字的传承。有多少先祖积累的知识在传递中散失不得而知。这也就难怪文明的演进是如此缓慢。
印刷术
中国的印刷术的发端于3世纪的晋朝印章。魏晋的碑文拓印是雕版印刷的雏形。学术界认为,雕版印刷出现于7世纪,即唐朝初年。北宋的雕版印刷工人毕昇在前人基础上发明了胶泥活字印刷。理论上来说,活字印刷术作为更先进的技术,应该能够迅速提高中国制作书籍的效率,从而推动中国知识传播的爆发。然而并没有。
事实上,直到清代,中国大部分书籍依然采用雕版印刷。这背后有许多原因。其中之一便是汉字的数量过于庞大。按照GB2312的标准,一级常用汉字数量为3755个,二级汉字为3008个。一级汉字覆盖了99.75%的中文书籍用字。排版工人得熟练地从3000多个常用汉字中挑选正确的字模进行排版。在识字率极低的古代,这并不是一件容易的事情。雕版的流程是薄纸上写好字之后贴到木版上进行雕刻。雕刻工人并不需要识字。此外,尽管中国历代尝试用各种材料来制作活字,但活字和油墨的配合程度始终是一个问题,印刷质量远不如雕版。一套铜活字的成本在明朝可能高达几万两银子,民间印书者根本无力承担。中国古代的书坊更愿意用效率虽低,但成本更低的雕版来印书。之所以宋体能被普及,是因为其平直的字体设计使得雕刻效率最高。这也是尽管有了印刷术,中国古代书籍依然非常昂贵的原因。
在毕昇发明活字印刷400年之后,德国金匠古登堡又重新发明了一次活字印刷。这一次再发明对人类文明的发展产生了深远的影响。古登堡发明了用铅锑锡合金制作金属活字的技术,并发明了对应的墨水配方。此外,他还发明了我们现在仍然还在使用的右对齐,这一点使得手工抄写的书籍相形见绌。在两年的时间里,古登堡带领的20人团队印制了180本精美的圣经。这个效率大概是抄经僧侣的9倍。法国国王派遣商业间谍窃取了印刷技术并在法国推广。这有点没必要,因为古登堡乐于向朋友分享自己的技术。古登堡的技术迅速传遍了欧洲。在五十年不到的时间里,欧洲新增的图书数量超过了2000万本,其中一半以上为宗教书籍。如果没有古登堡,马丁·路德再努力也无法通过他的小册子推动宗教改革。
活字印刷术之所以在欧洲取得巨大的成功,是因为欧洲文字基本上都可溯源自数量有限的腓尼基字母。譬如,德文字母只有30个,而英文字母只有26个。由于字模数量有限并且辨识度高,普通工人即便不识字也可以胜任排版的工作。毫无疑问,字母文字的表达效率要显著低于汉语。但这种效率差距在低成本的活字印刷场合可以忽略不计。摩尔斯电码和二进制编码的表达效率显然比字母文字更低,需要用更长的信号长度才能表达相同的意思。但在无线电和计算机时代,这两种编码方式反而成为信息通信的主流。我几乎可以断定中国熟练使用手机打字的网民绝大部分采用拼音输入法,也就是汉字的字母化。四次击键即可输入一个汉字的五笔输入法尽管效率更高,却几乎绝迹。它高昂的前置记忆成本犹如铜活字一般令人却步。
欧洲印刷业在把圣经普及到家庭之后很快就出现了产能过剩。印刷厂不得不寻找畅销书来维持业务运转。为此,出版商愿意向游记和小说作家支付版权费。优秀的作家因此能依靠版权费过上优渥的生活。由此,知识生产的正反馈循环就诞生了。马丁·路德甚至出过一本小册子警告出版商不要盗版自己的作品,指责这种行为与强盗无异。保护知识产权的法律也随之出现。而中国直到1910年才制定了《大清著作权律》。在此之前,大多数作者是拿不到稿费的,写书只是自娱自乐。从经济角度来看,木质雕版印刷几千本之后就报废。印刷在书籍成本中占的比例过高使得书坊老板无力支付高额稿酬。在缺乏职业作者的情况下,书坊不得不攒出一些通俗演义小说。我们熟知的四大名著,除了《红楼梦》之外,其他三本小说都是由民间话本拼凑而成的。百分百原创作者曹雪芹却一分版税都没拿到,穷困潦倒至死。
16世纪中期以后,西方在知识生产和传播效率方面反超了东方。1700年,当时的世界霸主荷兰国民识字率达到了惊人的85%,紧随其后的追赶者英国则达到了54%。许多有趣的灵魂通过书本站在前人的肩膀上迸发出惊人的创造力,推动了人类科学和艺术的发展。而在东方,我们无法估算有多少聪明的头脑因为一生都接触不到人类知识宝库而被埋没。也许1840年那一次东西方文明冲突的结果在300年前就已经注定。
互联网
工业革命之后,世界知识的增长进入了几何级数时代,也超越了图书馆馆藏的增长速度。世界最大的英国图书馆有1.75亿件藏品,每天增长约1万件,藏书量超过2500万本。2010年,谷歌启动谷歌书籍项目,试图将所有纸质书本内容数字化,或者说,用0和1将所有人类知识进行再编码。根据谷歌工程师从ISBN目录统计的数据,人类在当时拥有的书籍有1.29亿种。不得不说,这是一个惊人的数字。
但是这和互联网时代产生的信息相比并不算多。一本Kindle电子书的平均页数是300页,大约有7.5万个单词,约合2.6MB的数据。如果1.29亿本书都是这个级别的数据量,那么全球所有书籍总数据量约为3.35EB(EB为2^50字节)。考虑到全球有将近50亿人上网,2022年全球互联网流量在300EB/月左右,过去5年的年化增长速度约为27%。当前人类存储的数据规模已经达到100,000EB。
互联网快速且低成本的信息复制与传递功能使得人类之间的信息交流可以便捷展开。知识的生产和传递不再像印刷时代一样需要跨越高昂的印刷成本壁垒。通过知乎、Quora、维基百科、Github和arXiv等不同类型和复杂等级知识共分享平台,人类知识宝库的绝大部分内容都可以以接近零成本的方式取得。社交媒体也成为人类意见交流不可或缺的渠道。几十亿过去孤立思考的个体借此连接成为大小不一的分布式计算组织。
互联网时代困扰学习者的问题不是知识的稀缺,而是如何从海量信息中筛选出自己需要的内容。和图书馆检索书籍一样,搜索成为早期互联网最大的流量入口。百度的创始人李彦宏便是图书馆情报学系的毕业生。顺应历史潮流,北京大学图书馆情报学系于1992年更名为信息管理系。后起之秀字节跳动通过算法推荐方式在移动互联时代帮助用户创造了自己的信息茧房。用户会不断看到自己想看的内容,越来越执着于自己的观点。你很难想象连打字都不会的老太太会刷抖音刷到天亮,但现实如此。ChatGPT的出现进一步优化了知识的检索方式,使得学习者不需要在搜索页面逐个尝试不同的链接内容。尽管生成式AI仍然存在缺陷,但是可以预期的是,技术的迭代将会逐步消除瑕疵。人类知识生产和传播的效率将进一步提高,而人类社会也会以加速度方式前进。
知识的维度
1900年人们在敦煌莫高窟发现了制作于唐咸通九年(公元868年)的《金刚经》。这部经文应该是现存的最古老书籍。如前所述,印刷术在欧洲普及的初期,也主要用来印制宗教书籍,尤其是圣经。根据2015年圣经协会的统计,全球圣经不同版本的存量为18亿本,完本圣经的数量约为1.8亿本。从知识维度来看,这些相同或相似的圣经都是同一本。2020年,全球新增出版的圣经数量为4000万本。这些书籍并不会给我们带来新的知识增量,我们需要新书。
2020年中国共出版了21.4万种图书,册数超过100亿。而2022年美国有约400万种新书问世,其中超过一半为小众的自发行书籍。而美国该年度发售的书籍册数不到8亿。我们可以这么理解,美国作者的思维多样性可能要比中国更优,然而其平均传播范围却由于竞争和人口数量而不如中国作者。
书籍只是知识创新的一个载体。由于相对严谨的写作和审阅周期,书籍呈现的往往不是最前沿的知识总结。在科技创新时代,学术论文是人类拓展知识库边界的尝试。根据Scopus的统计,2020年中国科学家发表的英文科学文献数量为74万篇,美国为62万篇。同期中国还发表了142万篇中文学术论文。学术界更看重的并不是论文数量,而是论文的质量。一个关键指标就是论文的被引用数。2020年高被引论文中,美国科学家贡献了46%,恰好是中国23%的两倍。不管是以哪一个维度来衡量,中国和美国都是全球最主要的知识原产地。而曾经盛极一时的欧洲,随着国力的衰弱,在知识创造方面的贡献也日渐降低。
如果把所有的互联网网页都视为知识载体,那么英语网页占比超过50%,汉语不到20%,排名第三的西班牙语占比不到10%。需要注意的是,互联网使用者中母语为英语的比例并不超过1/4。英语是作为知识交流的通用语言出现的。几乎所有顶级学术期刊都是英语期刊,国际会议通用语言也大概率是英文。毫无疑问,用于训练ChatGPT等AI模型的语料也大部分是英文网站和英文书籍。20世纪90年代我学习英语时看到过一本台湾同胞编写的英文教科书,扉页的一句话让我迄今难忘:我们这一代人之所以刻苦学习英语,是为了下一代不用再学英语。
英语的主导地位并非天生的,而是路径依赖的偶然结果。众所周知,希腊文明是欧洲文明的发端,所以早期的学术交流都是以希腊语作为工具,譬如柏拉图和苏格拉底的著作。我们现在的数学书中之所以有那么多希腊字母,是因为早期数学著作都是希腊语写的。即便是罗马征服希腊后初期,凯撒依然要去希腊留学学习先进文明。古罗马的统治奠定了拉丁语作为欧洲通用语言的地位。即便在罗马帝国崩溃之后,拉丁文依然流行。牛顿那本惊世骇俗的著作《自然哲学的数学原理》便是用拉丁语写的。哈佛大学的校训Veritas,是拉丁文的“真理”。直到20世纪,常青藤盟校才不再将拉丁文作为入学考试科目。但是英国和美国的先后称霸使得英语最终成为科学研究的主导语言。如果德国在“二战”中没有失败,那么20世纪初期灿若星辰的德国科学家们完全有可能使德语成为科学界通用语言。如前所述,中文作为象形文字,效率极高但同时使用门槛也极高。即便是中国取代美国成为世界最大的经济体,中文取代英文成为知识主流语言仍然需要很长时间。
未来
中国科技史权威李约瑟先生提出了一个著名的难题:中国古代对人类科技发展做出了很多重要贡献,但为什么科学和工业革命没有在近代的中国发生?自此之后,许多中国学者对这个问题给出了自己的回答。
我曾经在课堂上反问过学生,中国哪个朝代思想最为活跃?答案是诸子百家所在的春秋战国。当时的中国处于西方意义的封建社会。诸侯国之间的竞争激烈,间接推动了不同思想流派之间的竞争。这种竞争是有害于效率的。汉代的“罢黜百家,独尊儒术”以及隋唐的科举制度成功地统一了中国知识分子的思想。武则天将科举考试范围局限于四书五经是精心设计的。四书五经的总字数甚至还不如一部《红楼梦》。这么小的考试范围有利于寒门小地主和门阀在官员职位上进行竞争。如果按孔夫子要求去考礼乐射御书数等六艺,那高昂的素质教育成本将使得大部分官员职位落于高门之手,不利于天子。于是一千多年来,中国大部分聪明的头脑都在琢磨四书五经,而不是其他杂学。古代中国拥有世界上最丰富的天文观测资料,没有之一。但中国对近代天文学理论几乎没有任何贡献。尽管中国工匠发现了火药爆炸的现象,但从未有学者去探求爆炸背后的科学原理,并加以改进。以至于1840年我们被英国人用发端于中国的火器击败。
古巴比伦、古埃及、古希腊、古印度和中国作为先发文明奠定了人类知识大厦的一块块基石。几千年过去之后,尽管血脉传承没有断,但只有中国依然可以称得上是世界领先的文明古国。创造现代工业文明的欧美发达国家主流人群却是当年日耳曼蛮族的后裔。这背后的主要原因,可能是自然环境的变迁和蛮族入侵事件的交织使得古代文明失去在基石之上修建高楼的机会。
回顾历史会发现,日耳曼民族运气真好。它们挺过了最强盛时代的古罗马军队围剿,并在罗马人衰弱时乘虚而入成为西欧的主人。西欧各国为了毁灭对手不择手段。管它黑猫白猫,能抓老鼠就是好猫,甚至是瞎眼的猫。哥伦布将地球直径少算了90%,误以为自己靠两艘船就能到达印度。但是西班牙国王赌了一把,于是新大陆被发现了。欧洲人在中国的造纸术、古希腊的哲学和古印度的数学基础上搭建了现代科技文明。成功的关键在于拿来主义和充分思想竞争。尽管冗余的重复建设浪费资源,但是知识爆发带来的收益远超过成本。牛顿和莱布尼茨分别独立发明了微积分,从科学发展的角度来看一点都不浪费。
和古代世界不同,自然资源不再是国家竞争的主要决胜因素,鼓励创新的思想环境才是。阿拉伯诸国坐拥丰富的石油资源却无法击败领土狭小的以色列。将近1/4的诺贝尔奖得主为犹太人,阿拉伯人获此奖项的人数几乎可以忽略不计,而两族的共同祖先都是闪族。我们不能沉浸于古代中国所取得的灿烂成就,而怠于学习先进知识和创造先进知识的制度环境。否则,我们的后代仍然得继续学习英文。
本文将刊登于《北大金融评论》第18期
现在征订全年刊和三年刊,
本文编辑:杨静雯