大模型训练数据之一｜大模型训练的“阿喀琉斯之踵”：数据这么近那么远？

Original 王峥傅宏宇袁媛阿里研究院

2024-10-01

阿里研究院

12/22

2023

本期导语

距离OpenAI发布ChatGPT已过一年，在这一年中，大语言模型（LLM）的爆发，引发了人类对新一轮技术变革的关注与探讨，给人类社会生产、生活带来了极大的变化，未来将充满无限想象。

业界认为，算法、算力与数据，是支撑大模型发展的三大基石。如果将算力比作发动机，那么算法就是导航系统，数据则是燃料。数据作为大模型预训练的基础，它提供了大模型所必需的知识和信息，数据的质量、规模和多样性直接影响大模型的性能。区别于以往搜索系统、个性化推荐等所需的大量用户行为和偏好数据，随着技术的演进，大模型所需的数据是一种新的类型。

正如历史上任何一次技术变革都会带来激烈的争论，大家对大模型数据也有诸多理解与疑问。大模型训练数据为什么很重要？大模型到底需要什么样的数据？大模型训练是否依赖个人信息？高质量的数据是否能避免大模型一本正经地胡说八道？带着这些问题，本期专题和大家聊一聊训练“数据”的一些认知与理解，希望引发一些思考与共鸣。

一

为什么训练数据这么重要？

更高质量、更丰富的数据是GPT模型成功的驱动力。GPT模型架构从第1代到第4代均较为相似，而用来训练数据的数据规模和质量却有很大的不同。GPT-1是由4.8G未过滤原始数据训练，GPT-2是由经人类过滤后的40G数据训练，GPT-3是由从45T原始数据中过滤的570G数据训练，而chatGPT/GPT-4则是在该基础上又加入了高质量人类标注。以吴恩达（Andrew Ng）为代表的学者观点认为，人工智能是以数据为中心的，而不是以模型为中心。“有标注的高质量数据才能释放人工智能的价值，如果业界将更多精力放在数据质量上，人工智能的发展会更快”。

二

大模型训练需要 “广”、“齐”、“专”的数据

大模型所需要的数据根据训练的阶段有所不同。以ChatGPT为代表的自然语言大模型为例，其训练过程分为预训练、监督微调（SFT）、基于人类反馈的强化学习（RLHF）三个阶段。第一阶段预训练所需的语料是各种类型的世界知识，包括网页、书籍、新闻、论文期刊、对话文本、代码等形式，通过大量学习世界知识，构建模型的基础能力，使得模型能够“漂亮地说话”。该阶段的语料特征可以概括为“广“。

第二阶段SFT，通过标注人员设计问答，编写正确答案，将例题投喂给模型，并希望模型在没有见过的任务中"举一反三"，提升泛化能力。第三阶段RLHF，训练目标是让模型的价值观与人类对齐，需要人类对模型的回答进行打分、排序，让模型知道"怎么说更好"。第二和第三阶段的数据质量要求较高，需要来自人类的高质量反馈，语料特征可以概括为“齐“。

如果将模型微调后部署应用于特定的场景形成行业大模型（如工业、金融、医疗等），则需要满足该场景专业需求的特定领域知识做预训练和SFT，需要具备一定专业深度，如行业数据库、专业文档、专业网站等，这部分的语料特征是“专”。

三

解开训练数据的常见疑问和误解

大模型训练是否依赖个人信息？

人工智能经历了从有监督学习到无监督学习的发展阶段，神经网络等技术推动了数据驱动的应用模式。传统的决策类人工智能在需求侧通过学习和分析海量的用户行为数据，判断用户的偏好和需求。在供给侧通过学习内容的特征，借助推荐、排序等机制实现用户需求和内容的匹配，并根据用户的行为反馈进行优化，提高算法的准确性。以个性化搜索为例，以大量的用户使用记录、用户画像、内容画像等原始数据为基础，提炼出客群和内容标签等不同维度的信息，进而抽象出特征向量，用向量的空间距离计算用户和内容的相似度，通过匹配与排名进行个性化的搜索结果召回。基于上述特点，此类人工智能技术在需求侧需要更多用户数据，在供给侧依赖更为全面的内容特征。

与以前的决策类人工智能相比，以大模型为代表的生成式人工智能的技术特征有明显差异。大模型是模拟人类的思维活动方式生成人类可以理解和使用的内容，而训练数据也是基于世界知识，对语料库等知识性内容有强烈需求，因此大模型训练阶段不依赖个人信息等原始数据。此外，为保证生成内容与人类价值观对齐，业界往往利用强化学习，通过纳入人工标注等机制优化表达，使模型生成内容更接近于人类认知。因此大模型对于用户数据并不依赖，而对专业化、高质量语料的知识性内容依赖大。由此看出，随着技术的演进，对训练数据的需求类型也有所不同。大模型训练利用信息和知识层的数据，需要大量人类，甚至是专家的主动参与和建设，同时也受到人类主观意志的影响。而以前的人工智能训练需要原始数据，数据的收集和积累是通过设备自然记录的，不需要人类过多的主动参与。

然而，有很对人对此仍存在误解。根据第三方专业机构测评显示，超过60%的受访者误选了“盗取、泄露个人隐私数据的安全风险”作为大模型的最主要风险点。与一般看法相反，过量的个人数据会负面影响大模型的能力，而过于个性化的应用也将增加大模型的运算负担。对此，OpenAI负责人Sam Altman表示，ChatGPT不需要用户的个人数据，用户可以选择删除其与ChatGPT的交互历史；类似的，我国目前主流大模型在提供用户隐私保护的基础上，并不过度收集和使用用户个人信息，并允许用户控制和删除其与大模型交互的对话和提供的内容。当然，在大模型的推理和应用阶段，如果有用户的诱导，仍不能完全避免个人信息泄露的问题。但可以明确的是，大模型在训练阶段并不依赖个人信息

怎么看待语料要求“准确、真实、多样、客观”，与生成内容质量的关系

首先，在预训练阶段，由于大语言模型的预训练对计算资源消耗巨大，通常不可能多次迭代预训练，因此准备充分的语料库显得尤为重要。预训练语料的影响可以体现在语料来源的多样性、预训练数据规模、预训练数据质量三方面。

从来源多样性看，不同场景或领域的数据具有不同的语言特征或语义知识，对模型能力提升的侧重点也不同。各个数据来源的配比不同，也会影响模型的泛化能力及完成任务的表现。例如，增加书籍数据的比例可以提高模型从文本中捕捉长距离依赖的能力。因此，根据LLM的特定需求来制定语料中不同领域的配比，这也体现了LLM发展的一种不确定性。

从数据规模看，收集足够规模的高质量语料以满足LLM需求是非常重要的。一方面，根据大模型“伸缩法则”，当模型的参数或计算量按比例扩大时，模型性能也与之成比例提升。而随着参数规模的增加，也需要更多数据来训练模型，即模型参数与训练语料之间也存在类似的比例关系。另一方面，只有参数规模突破了某个阈值的大模型才具有“涌现能力”，如上下文学习、复杂推理能力等。因此为匹配大模型的参数量，训练语料也需要收集足够的规模。

从数据质量看，在有重复、噪声、和有错误数据的低质量语料上训练数据会损害LLM的性能。例如，训练语料中数据的重复，会使模型的初始性能恶化，影响训练过程稳定性，同时也会降低LLM从上下文复制的能力，进一步影响上下文学习中的泛化能力。

在模型的监督微调（SFT）与基于人类反馈的强化学习（RLHF）阶段，高质量的人类反馈同样也会影响模型生成内容的质量。不同于以前AI训练时仅需简单遵循客观规则的图像标准，大模型数据标注对从业人员的素质要求更高，凝聚了人类的世界知识和价值判断。在通用模型的标注中，对通识性问题要有流畅的语言能力，还有更多的通用事实判断以及符合人类价值观的主观判断。在行业模型训练中，甚至还需要标注人员对垂直领域的的专业知识有所理解（如医疗、法律、金融等）。

那么在理想情况下，如果假设在模型训练各阶段，语料可以满足“准确、客观、真实、多样”，是否就能完全避免模型结果产生幻觉（一本正经的胡说八道）？答案是否定的，即使语料是高质量，产出的结果也可能有幻觉。因为大模型本质是概率模型，是基于前文预测下一个词出现的概率，“词语接龙”出现的下一个词并不是100%有确定性的。所以高质量的语料，可以大幅降低模型结果产生幻觉的概率，但并不能完全避免。

因此，解决幻觉问题，除了在保证训练数据高质量的情况下，人们也在尝试其他方法。第一，在模型训练中加入参数设定，例如强制让模型对未知领域说不知道，或让用户自主调节滑尺，如在偏创意类的领域，人们对幻觉的容忍度较高，模型在更高概率产生幻觉的同时能带来更多创造性和启发性。第二，模型训练中增加上下文的长度，提升“词语接龙”预测的准确率。第三，增强模型专业领域的知识，减少模型的知识盲区。

致谢：感谢阿里巴巴集团政策法规研究室主任刘明、阿里巴巴集团安全部AI安全负责人陈岳峰、爱橙公司数据负责人李天宇对本文提供的理论支持和技术指导。

参考文献：

[1] Data-centric Artificial Intelligence: A Survey, 2023

[2] A Survey of Large Language Models, 2023

[3] Scaling language models: Methods, analysis & insights from training gopher, 2021

[4] Scaling Laws for Neural Language Models, Open AI

[5] Training compute-optimal large language models, vol. abs/2203.15556, 2022

[6] Llama: Open and efficient foundation language models, CoRR, 2023

[7] Scaling language models: Methods, analysis & insights from training gopher, CoRR, vol.abs/2112.11446, 2021

[8] GPT-J-6B: A 6 Billion Parameter Autoregressive Language Model, 2021

[9] 生成式人工智能治理与实践白皮书, 2023

END

作者｜王峥、傅宏宇、袁媛阿里研究院AI政策研究中心

责编｜崇修（转载及媒体合作请评论区或邮箱留言）

阿里研究院AI政策研究中心，依托阿里巴巴集团先进的AI科技能力、丰富的AI应用场景、负责任的AI技术生态，总结沉淀AI发展和治理实践经验和方法案例，为AI政策制定实施提供科技企业的智识建议。

【活动推荐】

* 最终议程以现场实际为准

扫码报名参加【数纳斯·2024企业内外数据流通交流会】

现场领取大会周边礼包！
同时访问数纳斯https://shunasi.alibaba.com/meeting

参与分享有礼，赢取丰富奖品！

继续滑动看下一个

阿里研究院

向上滑动看下一个

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

大模型训练数据之一｜大模型训练的“阿喀琉斯之踵”：数据这么近那么远？

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

生成图片，分享到微信朋友圈

大模型训练数据之一｜大模型训练的“阿喀琉斯之踵”：数据这么近那么远？

您可能也对以下帖子感兴趣