“你好,我是 ChatGPT,我可以回答各种问题。”2022 年末科技领域最出圈的,无疑是 openAI 公司推出的聊天机器人 ChatGPT:写诗、debug、分析数据……任何棘手难题在它闪烁的光标之间,似乎都能魔法般得到滴水不漏的解答。聊天、作画、生成视频,AI 正在以超乎我们想象的速度奔向“智能”。但 AI 不是魔法,它们的知识从哪来?经过了怎样的训练才变得如此智能?它们也会“学坏”吗?这几个问题或许可以成为我们的锤子,帮助敲开“人工智能”这个黑箱。
AI 的“知识”从哪来?
当 AI 吐出流畅的回答、生成光怪陆离的画作以后,我们会驻足、惊叹、感慨科技的进步,但却容易忽略,AI 的进化可能也有自己的功劳,因为它的知识来自我们每个人的日常生活。想要获得一个人工智能模型,就像训练一个起初什么都不懂的孩子,需要喂养给它大量的学习资料。这些海量的学习资料就是 AI 知识的最初来源——训练数据集。我们选取了近几年来在文本、图像和视频领域取得了重大突破的几个 AI 模型,去看看它们的“学习资料”分别都有哪些。这些模型各有其代表性功能:ChatGPT 和 Gopher 代表的文本 AI 模型可以进行自然语言生成;Stable Diffusion 和 DALL-E2 代表的图像 AI 模型可以绘图;视频 AI 模型 VideoMAE 可以识别视频中的动作种类、分割视频元素等,X-CLIP 模型可以完成视频的文本内容检索。
可以看出,这些 AI 模型的“学习资料”主要来自各类用户生成内容(UGC)平台,包括公开网页、博客、维基百科和 YouTube 等。你在社交平台上发布的每一条帖子、一段视频,都可能被爬取下来,并被编入 AI 的“学习教材”。不过相比人类课本,AI 的“教材”显然要厚得多。为了学会与你对话,ChatGPT 需要看 4990 亿个 token 的文本(token 相当于语言的最小语义单位,比如英文的 token 为一个单词,中文的 token 为一个词语),打印下来相当于 648.5 万本《哈利·波特与魔法石》垒到一起。相似的,绘画、视频内容识别模型的训练数据集大小也都是以亿万为单位,“博观约取”在 AI 的学习中被发挥到了极致。具体来看,ChatGPT 的训练数据集主要部分是一个名为 Common Crawl 的数据集,该数据集从 2018 年开始搜集各处数据,不仅有博客、网站、维基百科,还有各国网络社区、大学官网、政府网站等。第二大来源 WebText2 数据库涵盖了更丰富的网页文本,包括谷歌、电子图书馆、新闻网站、代码网站等等。想象一下,如果你阅读并记忆了谷歌搜索引擎的全部内容,再加上各类书籍、新闻,从天文地理到人情世故,当然也会成为“万事通”。
图像 AI 模型的知识来自各大图片网站。根据 Andy 等人对 Stable Diffusion 的 23 亿图片训练数据集中 1200 多万张图片的抽样统计,其中 8.5%的图片来自大型图片社交网站 Pinterest。还有 6.8%来自 WordPress——全球近三成左右网站的搭建系统,除此之外还包括各类购物平台、博客等。
从社交平台、购物平台到各类网站,图片数据集的获取原则和文本一样,都是争取做到“无所不包”。让 AI 模型见多识广,后续才有可能训练得什么都能画出来。从输入到输出,
一方面,AI 映射出人类社会既有的权力关系。研究者们曾尝试着从 AI 的输出结果中反推其决策过程,发现了它们在“客观中立”的科技神话之外、沉默温驯的指令运行之中,隐藏了基于性别、种族、年龄等因素的偏见与交叉性歧视:“在招聘 AI 的眼中,一个叫约翰的人比一个叫玛丽的人可以更好地成为一名程序员,或者公司的首席执行官。”“银行 AI 认为,非裔和拉丁裔人比白人更难以按时还清贷款,因此会提供更少的资金支持。”“人脸识别 AI 对黑人女性面孔的识别精准度,远远低于对白人男性的识别,甚至会将前者打上‘黑猩猩’的标签。”那么,AI是怎么“学坏”的呢?