AI开口说话，有你一份功劳 | 有数

Original RUC新闻坊湃客工坊 2023-07-24

收录于合集 #数据新闻 92个

“你好，我是 ChatGPT，我可以回答各种问题。”2022 年末科技领域最出圈的，无疑是 openAI 公司推出的聊天机器人 ChatGPT：写诗、debug、分析数据……任何棘手难题在它闪烁光标之间，似乎都能魔法般得到滴水不漏的解答。

聊天、作画、生成视频，AI 正在以超乎我们想象的速度奔向“智能”。但 AI 不是魔法，它们的知识从哪来？经过了怎样的训练才变得如此智能？它们也会“学坏”吗？这几个问题或许可以成为我们的锤子，帮助敲开“人工智能”这个黑箱。

AI 的“知识”从哪来？

当 AI 吐出流畅的回答、生成光怪陆离的画作以后，我们会驻足、惊叹、感慨科技的进步，但却容易忽略，AI 的进化可能也有自己的功劳，因为它的知识来自我们每个人的日常生活。

想要获得一个人工智能模型，就像训练一个起初什么都不懂的孩子，需要喂养给它大量的学习资料。这些海量的学习资料就是 AI 知识的最初来源——训练数据集。

我们选取了近几年来在文本、图像和视频领域取得了重大突破的几个 AI 模型，去看看它们的“学习资料”分别都有哪些。这些模型各有其代表性功能：ChatGPT 和 Gopher 代表的文本 AI 模型可以进行自然语言生成；Stable Diffusion 和 DALL-E2 代表的图像 AI 模型可以绘图；视频 AI 模型 VideoMAE 可以识别视频中的动作种类、分割视频元素等，X-CLIP 模型可以完成视频的文本内容检索。

可以看出，这些 AI 模型的“学习资料”主要来自各类用户生成内容（UGC）平台，包括公开网页、博客、维基百科和 YouTube 等。你在社交平台上发布的每一条帖子、一段视频，都可能被爬取下来，并被编入 AI 的“学习教材”。

不过相比人类课本，AI 的“教材”显然要厚得多。为了学会与你对话，ChatGPT 需要看 4990 亿个 token 的文本（token 相当于语言的最小语义单位，比如英文的 token 为一个单词，中文的 token 为一个词语），打印下来相当于 648.5 万本《哈利·波特与魔法石》垒到一起。相似的，绘画、视频内容识别模型的训练数据集大小也都是以亿万为单位，“博观约取”在 AI 的学习中被发挥到了极致。

具体来看，ChatGPT 的训练数据集主要部分是一个名为 Common Crawl 的数据集，该数据集从 2018 年开始搜集各处数据，不仅有博客、网站、维基百科，还有各国网络社区、大学官网、政府网站等。第二大来源 WebText2 数据库涵盖了更丰富的网页文本，包括谷歌、电子图书馆、新闻网站、代码网站等等。想象一下，如果你阅读并记忆了谷歌搜索引擎的全部内容，再加上各类书籍、新闻，从天文地理到人情世故，当然也会成为“万事通”。

图像 AI 模型的知识来自各大图片网站。根据 Andy 等人对 Stable Diffusion 的 23 亿图片训练数据集中 1200 多万张图片的抽样统计，其中 8.5%的图片来自大型图片社交网站 Pinterest。还有 6.8%来自 WordPress——全球近三成左右网站的搭建系统，除此之外还包括各类购物平台、博客等。

从社交平台、购物平台到各类网站，图片数据集的获取原则和文本一样，都是争取做到“无所不包”。让 AI 模型见多识广，后续才有可能训练得什么都能画出来。

从输入到输出，

算法在其中做了什么？

拿到人类知识的“原材料”后，AI 要如何学习，才能将这些知识为自己所用？

“训练”是让算法变得“智能”的关键步骤。这和教小孩学说话、画画极为相似，即使买来成千上万册图书，也需要家长一步步教会孩子理解掌握，才能变成孩子自己的知识加以灵活运用。我们以文本生成模型 ChatGPT、图像生成模型 Stable Diffusion 为例，看看这个“孩子”是如何通过训练，学会了说话和画画的。

教会 ChatGPT 说话，第一步是用“文字接龙”的游戏让它有基础的语感：阅读大量的网页文本、书籍，并遮盖住每句话的后半句，ChatGPT 会随机猜测后半句的内容，由此慢慢了解人类语言的习惯。但网页文本数量虽多，质量却良莠不齐，因此接下来第二步是请来高水平的人类老师，由老师撰写一些常见问题的答案，将这些问答资料再交给 ChatGPT 进一步学习。学习之后需要一位助手继续监督 ChatGPT 练习巩固，于是第三步训练一个奖惩模型作为“助教”，通过训练助教模型学习大量的由人工打分的问答，帮助其学会判断回答的质量。第四步由这个“助教”为ChatGPT的练习回答打分，回答得好奖励高分，否则惩罚给低分。

在此奖惩机制下，ChatGPT 不断强化学习，学会了和人类对话的技巧。层层递进的训练过程，再加上已经阅读了数以亿计的维基百科、博客、书籍得到的知识储备，ChatGPT 不仅能进行一些基础对话，还可能回答出一些刁钻提问。

学习画画则是另一种思路。为了让模型学会自主创作，第一步要先“毁掉”它原始的学习资料，这种“毁掉”就是一步步给训练的图像添加噪声，让原本清晰的图片变得完全无法辨识。而接下来 Stable Diffusion 需要做的，就是尝试还原这张被“毁掉”的图片，预测图片在每一步被添加了哪些噪声，再将噪声去除，最终还原出一张清晰的图片。每次猜测还原之后，它会再看答案对照改进自己的猜测，由此逐渐训练出即使面对一张充满噪声的图片，也可以画出清晰作品的能力。但由于原始的图片大部分信息已经被噪声掩盖，Stable Diffusion 的复原并不会是对原始图片的 1:1 还原复制，而是完成了自己的创作。

对人类而言，我们不仅想要让算法学会画画，还需要它可以听懂人话，根据我们的指令进行“半命题”作画。因此 Stable Diffusion 在作画的过程中还学会了理解文本信息，比如当收到“戴眼镜的猫”的指令，模型能够建立“眼镜”“猫”的文字和眼镜、猫咪图像之间的关联，并将其作为它作画的参考信息，结合之前训练掌握的作画能力，成功画出人类用户需要的“戴眼镜的猫”。

AI也会“学坏”吗？

AI对知识的获取和消化一向简洁、高效，将“伟大”的知识转化为纯粹的数据流，遵循着既定的程序照单全收，由此完成了一场对知识的拆解与“祛魅”。

然而，将其置于更广阔的社会实践之中，我们可以发现——在数据之外，知识仍是一种权力。

一方面，AI 映射出人类社会既有的权力关系。

研究者们曾尝试着从 AI 的输出结果中反推其决策过程，发现了它们在“客观中立”的科技神话之外、沉默温驯的指令运行之中，隐藏了基于性别、种族、年龄等因素的偏见与交叉性歧视：

“在招聘 AI 的眼中，一个叫约翰的人比一个叫玛丽的人可以更好地成为一名程序员，或者公司的首席执行官。”

“银行 AI 认为，非裔和拉丁裔人比白人更难以按时还清贷款，因此会提供更少的资金支持。”

“人脸识别 AI 对黑人女性面孔的识别精准度，远远低于对白人男性的识别，甚至会将前者打上‘黑猩猩’的标签。”

那么，AI是怎么“学坏”的呢？

这多与其使用的数据集和训练算法有关。当过往不均衡的数据更多地将男性同程序员、CEO、总统等信息联系在一起，将女性同家庭主妇、私人助理、护士等信息联系在一起，在不引入反偏差或监督学习算法进行人工干预与及时纠正的情况下，AI 很容易将相关性误判为因果，将过往奉为圭臬，并输出类似的关联结果。比如，在生成“总统开会”图像时，默认为全员男性；或者在程序员简历筛选时，对使用女性名字的候选者进行低分评估。

不过，人类的偏见总是暗戳戳地写在头脑里，而 AI 的偏见则容易明晃晃地写在输出结果上。因此，从某种程度上来说，发现并纠正 AI 的偏见，也是在重新审视并剖析人类社会本身的偏见。

另一方面，AI也正在挑战人类所设定的“权力”。

最鲜明的体现之一便是 AI 侵权争议。如今，AI 的知识边界不断拓展，已经将触角伸及了“艺术创作”这一人类曾经拥有绝对统治力的“禁区”，甚至能够生成与艺术家风格高度相似的可商用图片，堪称以假乱真的最终成品也再次向“人类”与“创造”之间不言自明的联系提出无声质疑。

我们很难相信，一套不通人情的计算机系统，竟然能够同那个“灵魂里有团火”的男人相仿，画出一整片拼命燃烧的星空。

Stable Diffusion根据“Van Gogh style”指令创作

梵高《星月夜》原作

实际上，人类对于“被取代”的恐惧并不是新鲜事。从工业革命时期的机器生产到如今的人工智能，那些关于技术更迭的反乌托邦想象从未停止。

甚至，从某种程度上来说，正是这种主体性之忧，让人类始终保持着对自身存在与生命意义的批判与反思；也正是这种批判与反思，促使人类孜孜不倦地进行创造性的知识生产，从而拥有“不被取代”的可能性。

与ChatGPT对谈

统筹 / 方洁

数据收集与资料整理 / 林歆瑶何京蔚朱欣欣申屠泥肖潇惠一蘅黄思琪张瑞蔡静远余婉瑶单子郁

可视化 / 惠一蘅肖潇黄思琪张瑞

文案 / 蔡静远余婉瑶单子郁

编辑 / 张铃媛

特别感谢刘玉琪对本文的技术部分提供的建议与审核

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

央视罕见表扬，美哭3亿人：璀璨中国史，正在走向全世界

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

AI开口说话，有你一份功劳 | 有数

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

央视罕见表扬，美哭3亿人：璀璨中国史，正在走向全世界

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

生成图片，分享到微信朋友圈

AI开口说话，有你一份功劳 | 有数

您可能也对以下帖子感兴趣