ChatGPT 数据集之谜
ChatGPT这把火越烧越旺。国内很多大厂相继声称要做中文版ChatGPT,还公布了上线时间表,不少科技圈已功成名就的大佬也按捺不住,携巨资下场,要创建“中国版OpenAI“。
不过,看看过去半个月在群众眼里稍显窘迫的Meta的Galactica,以及Google紧急发布的Bard,就知道在短期内打造一个比肩甚至超越ChatGPT效果的模型没那么简单。
让很多人不免感到诧异的是,ChatGPT的核心算法Transformer最初是由Google提出的,并且在大模型技术上的积累可以说不弱于OpenAI,当然他们也不缺算力和数据,但为什么依然会被ChatGPT打的措手不及?
Meta首席AI科学家Yann LeCun最近抨击ChatGPT的名言实际上解释了背后的门道。他说,ChatGPT“只是巧妙的组合而已”,这句话恰恰道出了一种无形的技术壁垒。
简单来说,即使其他团队的算法、数据、算力都准备的与OpenAI相差无几,但就是没想到以一种精巧的方式把这些元素组装起来,没有OpenAI,全行业不知道还需要去趟多少坑。
即使OpenAI给出了算法上的一条路径,后来者想复现ChatGPT,算力、工程、数据,每一个要素都需要非常深的积累。七龙珠之中,算力是自由流通的商品,花钱可以买到,工程上有OneFlow这样的开源项目和团队,因此,对互联网大厂之外的团队来说,剩下最大的挑战在于高质量训练数据集。
至今,OpenAI并没有公开训练ChatGPT的相关数据集来源和具体细节,一定程度上也暂时卡了追赶者的脖子,更何况,业界公认中文互联网数据质量堪忧。
好在,互联网上总有热心的牛人分析技术的细枝末节,从杂乱的资料中串联起蛛丝马迹,从而归纳出非常有价值的信息。
作者|Alan D. Thompson
翻译|杨婷、徐佳渝、贾川
出品 | OneFlow
一些研究人员的报告称,通用人工智能(AGI)可能是从我们当前的语言模型技术进行演进[1],预训练Transformer语言模型为AGI的发展铺平了道路。虽然模型训练数据集日渐增大,但缺乏基本指标文档,包括数据集大小、数据集token数量和具体的内容细节。
尽管业内提出了数据集组成和整理文档的标准[2],但几乎所有重点研究实验室在揭示模型训练数据集细节这方面都做得不够。这里整合的研究涵盖了2018年到2022年初从GPT-1到Gopher的精选语言模型的所有数据集(包括主要数据集:Wikipedia和Common Crawl)的综合视图。
概述
1.5. Common Crawl
常用数据集
表3. C4:前23个域(不包括维基百科)。公开的数据以粗体表示,确定的数据以斜体表示。
GPT-1数据集
考虑到简洁和可读性,本文使用了脚注而非文本/括弧式引文。主要参考文献如下,或者参见http://lifearchitect.ai/papers/,获取大语言模型领域的主要基础论文。以下论文按本文顺序显示。Datasheets for Datasets Gebru, T., Morgenstern, J., Vecchione, B., Vaughan, J., Wallach, H., Daumé III, H., & Crawford, K. (2018). Datasheets for Datasets. https://arxiv.org/abs/1803.09010 GPT-1 paper Radford, A., & Narasimhan, K. (2018). Improving Language Understanding by Generative Pre-Training. OpenAI. https://cdn.openai.com/research-covers/language-unsupervised/language_understan ding_paper.pdf GPT-2 paper Radford, A., Wu, J., Child, R., Luan, D., Amodei, D. & Sutskever, I. (2019). Language Models are Unsupervised Multitask Learners. OpenAI. https://cdn.openai.com/better-language-models/language_models_are_unsupervised _multitask_learners.pdf GPT-3 paper Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., & Dhariwal, P. et al. (2020). OpenAI. Language Models are Few-Shot Learners. https://arxiv.org/abs/2005.14165 The Pile v1 paper Gao, L., Biderman, S., Black, S., Golding, L., Hoppe, T., & Foster, C. et al. (2021). The Pile: An 800GB Dataset of Diverse Text for Language Modeling. EleutherAI. https://arxiv.org/abs/2101.00027 GPT-J announcement Komatsuzak, A., Wang, B. (2021). GPT-J-6B: 6B JAX-Based Transformer. https://arankomatsuzaki.wordpress.com/2021/06/04/gpt-j/ GPT-NeoX-20B paper Black, S., Biderman, S., Hallahan, E. et al. (2022). EleutherAI. GPT-NeoX-20B: An Open-Source Autoregressive Language Model. http://eaidata.bmk.sh/data/GPT_NeoX_20B.pdf RoBERTa paper Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., & Chen, D. et al. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. Meta AI. https://arxiv.org/abs/1907.11692 MT-NLG paper Smith, S., Patwary, M., Norick, B., LeGresley, P., Rajbhandari, S., & Casper, J. et al. (2021). Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model. Microsoft/NVIDIA. https://arxiv.org/abs/2201.11990 Gopher paper Rae, J., Borgeaud, S., Cai, T., Millican, K., Hoffmann, J., & Song, F. et al. (2021). Scaling Language Models: Methods, Analysis & Insights from Training Gopher. DeepMind. https://arxiv.org/abs/2112.11446 Appendix A: Top 50 Resources: Wikipedia + CC + WebText (i.e. GPT-3)
附录 A:前50个资源:Wikipedia + CC + WebText(即 GPT-3)基于本文内容,尤其是每个数据集中每个资源的token数量,我们可以对将Wikipedia + Common Crawl + WebText数据集的组合,作为其整体训练数据集的一部分模型进行资源或域的排序。为清楚起见,这包括以下模型:OpenAI GPT-3、EleutherAI GPT-J、EleutherAI GPT-NeoX-20B、Meta AI Megatron-11B和RoBERTA,以及 Microsoft/NVIDIA MT-NLG等。请注意,展示的排名基于数据集中可用的未加权总token,每个数据集的主观权重由研究人员在模型预训练之前计算得出。其中有一些重复(例如,《纽约时报》既出现在有1.11亿token的WebText中,也出现在过滤后有1亿token的Common Crawl中)。
脚注1. GPT-NeoX-20B paper: pp11, section 6 http://eaidata.bmk.sh/data/GPT_NeoX_20B.pdf2. Datasheet for Datasets paper: https://arxiv.org/abs/1803.090103. OpenAI blog: https://openai.com/blog/gpt-3-apps/4. On the Opportunities and Risks of Foundation Models: https://arxiv.org/abs/2108.072585. Size of Wikipedia: https://en.wikipedia.org/wiki/Wikipedia:Size_of_Wikipedia6. C4 dataset: https://www.tensorflow.org/datasets/catalog/c47. Common Crawl website: https://commoncrawl.org/8. C4 paper: https://arxiv.org/abs/2104.08758 pp2, Figure 1 right9. Wikipedia categories: https://en.wikipedia.org/wiki/User:Smallbones/1000_random_results: “维基百科涵盖哪些主题?覆盖范围是否随时间变化?使用2015年12月抽取的1001篇随机文章对这些问题和类似问题进行了查验...随着时间推移,这些比例相当稳定...传记(27.8%),地理(17.7%),文化和艺术(15.8%),历史(9.9%),生物学、健康和医学(7.8%),体育(6.5%),商业(4.8%),其他社会(4.4%),科学与数学(3.5%),教育(1.8%)。”10. GPT-1 paper: pp4 “We use the BooksCorpus dataset for training the language model.”11. https://huggingface.co/datasets/bookcorpus: “Size of the generated dataset: 4629.00 MB”12. BookCorpus Retrospective Datasheet paper: pp9 https://arxiv.org/abs/2105.0524113. GPT-2 paper: pp3 “我们从社交媒体平台Reddit中抓取了至少有3个karma的所有出站链接。这可以被认为是一个启发式指标,用于判断其他用户是否觉得该链接有趣、有教育意义或只是有趣……WebText包含这4500万个链接的文本子集……其中不包括2017年12月之后创建的链接。经过去重和一些基于启发式的清理后,其中包含大约超过800万个文档,总共40GB文本。我们从WebText中移除了所有维基百科文档...”14. GPT-2 model card: https://github.com/openai/gpt-2/blob/master/model_card.md: “我们已经发布了WebText中出现的前1,000个域及其频率的列表。WebText中排名前15位的域是:Google、Archive、Blogspot、GitHub、纽约时报、Wordpress、华盛顿邮报、维基亚、BBC、卫报、eBay、Pastebin、CNN、雅虎和赫芬顿邮报。”15. GPT-3 paper: “WebText2:190亿token。[Alan:WebText2是从WebText稍微扩展而来,所以我们可以减去20%,得到150亿token]”16. GPT-2 paper: pp3 “GPT-3: pp9, Table 2.2 “CC: 4100亿token. WebText2: 190亿token. Books1: 120亿token. Books2: 550亿token. Wiki: 30亿token”17. GPT-3 paper: pp818. BookCorpus repo: soskek/bookcorpus#27: “books3.tar.gz似乎类似于OpenAI在他们的论文中引用的神秘“books2”数据集。不幸的是,OpenAI不会提供细节,所以我们对其差异知之甚少。人们怀疑它是“libgen的全部”,但这纯粹是猜测。尽管如此,books3仍是“所有的bibliotik”......”19. BookCorpus paper: https://arxiv.org/abs/1506.06724: “# of words: 984,846,357 [Alan: BookCorpus有13亿token。我们想要有120-550亿token]”20. Gutenberg paper: https://arxiv.org/abs/1812.08092: “我们介绍了标准化项目古腾堡语料库(SPGC),这是一种开放的科学方法,用于处理完整PG数据的精选版本,其中包含超过50,000本书和3×109word-token[Alan:相当于大约120亿BPE token,见下文 ]”21. Gutenberg repo: https://zenodo.org/record/2422561 “未压缩大小:3GB(count)+ 18GB(token)[总计21GB]”22. The Pile v1 paper: “Books3(Bibliotik tracker):100.96GB” [Alan:乘以每字节token数0.2477 = 250亿token]23. The Pile v1 paper: pp3, Table 1 for datasets. pp28, Table 7 for Tokens per byte.24. RoBERTa paper: https://arxiv.org/abs/1907.11692 “BOOKCORPUS加上英文WIKIPEDIA。这是用来训练 BERT的原始数据。(16GB)。”25. BERT paper: https://arxiv.org/abs/1810.04805 “BERT在BooksCorpus(8亿字)和维基百科(25亿字)上进行训练。”26. Stories paper: https://arxiv.org/abs/1806.02847 pp5-627. RealNews paper: https://arxiv.org/abs/1905.12616v3 “去重后,RealNews在没有压缩的情况下为120GB。”28. Gopher paper: https://arxiv.org/abs/2112.11446 pp 7: list of sizes and tokens.29. Gopher paper: https://arxiv.org/abs/2112.11446 pp 44, Figure A3b.30. Gopher paper: pp41n14 “请注意,我们将文档去重应用于除Wikipedia和GitHub之外的所有MassiveText子集“31. GPT-2 paper, pp3. 关于作者
Alan D. Thompson博士是人工智能专家、顾问。在2021年8月的世界人才大会(World Gifted Conference)上,Alan与Leta(由GPT-3提供支持的AI)共同举办了一场名为“The new irrelevance of intelligence”的研讨会。他的应用型人工智能研究和可视化成果受到了国际主要媒体的报道,同时还在2021年12月牛津大学有关AI伦理的辩论中被引用。他曾担任门萨国际(Mensa International)主席、通用电气(GE)和华纳兄弟(Warner Bros)顾问,也曾是电气与电子工程师协会(IEEE)和英国工程技术学会(IET)会员。
原文:https://lifearchitect.ai/whats-in-my-ai/
本文由OneFlow编译发布,CSDN获得授权后发布,转载请联系OneFlow获得授权。
Datasheets for Datasets Gebru, T., Morgenstern, J., Vecchione, B., Vaughan, J., Wallach, H., Daumé III, H., & Crawford, K. (2018). Datasheets for Datasets. https://arxiv.org/abs/1803.09010 GPT-1 paper Radford, A., & Narasimhan, K. (2018). Improving Language Understanding by Generative Pre-Training. OpenAI. https://cdn.openai.com/research-covers/language-unsupervised/language_understan ding_paper.pdf GPT-2 paper Radford, A., Wu, J., Child, R., Luan, D., Amodei, D. & Sutskever, I. (2019). Language Models are Unsupervised Multitask Learners. OpenAI. https://cdn.openai.com/better-language-models/language_models_are_unsupervised _multitask_learners.pdf GPT-3 paper Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., & Dhariwal, P. et al. (2020). OpenAI. Language Models are Few-Shot Learners. https://arxiv.org/abs/2005.14165 The Pile v1 paper Gao, L., Biderman, S., Black, S., Golding, L., Hoppe, T., & Foster, C. et al. (2021). The Pile: An 800GB Dataset of Diverse Text for Language Modeling. EleutherAI. https://arxiv.org/abs/2101.00027 GPT-J announcement Komatsuzak, A., Wang, B. (2021). GPT-J-6B: 6B JAX-Based Transformer. https://arankomatsuzaki.wordpress.com/2021/06/04/gpt-j/ GPT-NeoX-20B paper Black, S., Biderman, S., Hallahan, E. et al. (2022). EleutherAI. GPT-NeoX-20B: An Open-Source Autoregressive Language Model. http://eaidata.bmk.sh/data/GPT_NeoX_20B.pdf RoBERTa paper Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., & Chen, D. et al. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. Meta AI. https://arxiv.org/abs/1907.11692 MT-NLG paper Smith, S., Patwary, M., Norick, B., LeGresley, P., Rajbhandari, S., & Casper, J. et al. (2021). Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model. Microsoft/NVIDIA. https://arxiv.org/abs/2201.11990 Gopher paper Rae, J., Borgeaud, S., Cai, T., Millican, K., Hoffmann, J., & Song, F. et al. (2021). Scaling Language Models: Methods, Analysis & Insights from Training Gopher. DeepMind. https://arxiv.org/abs/2112.11446 Appendix A: Top 50 Resources: Wikipedia + CC + WebText (i.e. GPT-3)
脚注1. GPT-NeoX-20B paper: pp11, section 6 http://eaidata.bmk.sh/data/GPT_NeoX_20B.pdf2. Datasheet for Datasets paper: https://arxiv.org/abs/1803.090103. OpenAI blog: https://openai.com/blog/gpt-3-apps/4. On the Opportunities and Risks of Foundation Models: https://arxiv.org/abs/2108.072585. Size of Wikipedia: https://en.wikipedia.org/wiki/Wikipedia:Size_of_Wikipedia6. C4 dataset: https://www.tensorflow.org/datasets/catalog/c47. Common Crawl website: https://commoncrawl.org/8. C4 paper: https://arxiv.org/abs/2104.08758 pp2, Figure 1 right9. Wikipedia categories: https://en.wikipedia.org/wiki/User:Smallbones/1000_random_results: “维基百科涵盖哪些主题?覆盖范围是否随时间变化?使用2015年12月抽取的1001篇随机文章对这些问题和类似问题进行了查验...随着时间推移,这些比例相当稳定...传记(27.8%),地理(17.7%),文化和艺术(15.8%),历史(9.9%),生物学、健康和医学(7.8%),体育(6.5%),商业(4.8%),其他社会(4.4%),科学与数学(3.5%),教育(1.8%)。”10. GPT-1 paper: pp4 “We use the BooksCorpus dataset for training the language model.”11. https://huggingface.co/datasets/bookcorpus: “Size of the generated dataset: 4629.00 MB”12. BookCorpus Retrospective Datasheet paper: pp9 https://arxiv.org/abs/2105.0524113. GPT-2 paper: pp3 “我们从社交媒体平台Reddit中抓取了至少有3个karma的所有出站链接。这可以被认为是一个启发式指标,用于判断其他用户是否觉得该链接有趣、有教育意义或只是有趣……WebText包含这4500万个链接的文本子集……其中不包括2017年12月之后创建的链接。经过去重和一些基于启发式的清理后,其中包含大约超过800万个文档,总共40GB文本。我们从WebText中移除了所有维基百科文档...”14. GPT-2 model card: https://github.com/openai/gpt-2/blob/master/model_card.md: “我们已经发布了WebText中出现的前1,000个域及其频率的列表。WebText中排名前15位的域是:Google、Archive、Blogspot、GitHub、纽约时报、Wordpress、华盛顿邮报、维基亚、BBC、卫报、eBay、Pastebin、CNN、雅虎和赫芬顿邮报。”15. GPT-3 paper: “WebText2:190亿token。[Alan:WebText2是从WebText稍微扩展而来,所以我们可以减去20%,得到150亿token]”16. GPT-2 paper: pp3 “GPT-3: pp9, Table 2.2 “CC: 4100亿token. WebText2: 190亿token. Books1: 120亿token. Books2: 550亿token. Wiki: 30亿token”17. GPT-3 paper: pp818. BookCorpus repo: soskek/bookcorpus#27: “books3.tar.gz似乎类似于OpenAI在他们的论文中引用的神秘“books2”数据集。不幸的是,OpenAI不会提供细节,所以我们对其差异知之甚少。人们怀疑它是“libgen的全部”,但这纯粹是猜测。尽管如此,books3仍是“所有的bibliotik”......”19. BookCorpus paper: https://arxiv.org/abs/1506.06724: “# of words: 984,846,357 [Alan: BookCorpus有13亿token。我们想要有120-550亿token]”20. Gutenberg paper: https://arxiv.org/abs/1812.08092: “我们介绍了标准化项目古腾堡语料库(SPGC),这是一种开放的科学方法,用于处理完整PG数据的精选版本,其中包含超过50,000本书和3×109word-token[Alan:相当于大约120亿BPE token,见下文 ]”21. Gutenberg repo: https://zenodo.org/record/2422561 “未压缩大小:3GB(count)+ 18GB(token)[总计21GB]”22. The Pile v1 paper: “Books3(Bibliotik tracker):100.96GB” [Alan:乘以每字节token数0.2477 = 250亿token]23. The Pile v1 paper: pp3, Table 1 for datasets. pp28, Table 7 for Tokens per byte.24. RoBERTa paper: https://arxiv.org/abs/1907.11692 “BOOKCORPUS加上英文WIKIPEDIA。这是用来训练 BERT的原始数据。(16GB)。”25. BERT paper: https://arxiv.org/abs/1810.04805 “BERT在BooksCorpus(8亿字)和维基百科(25亿字)上进行训练。”26. Stories paper: https://arxiv.org/abs/1806.02847 pp5-627. RealNews paper: https://arxiv.org/abs/1905.12616v3 “去重后,RealNews在没有压缩的情况下为120GB。”28. Gopher paper: https://arxiv.org/abs/2112.11446 pp 7: list of sizes and tokens.29. Gopher paper: https://arxiv.org/abs/2112.11446 pp 44, Figure A3b.30. Gopher paper: pp41n14 “请注意,我们将文档去重应用于除Wikipedia和GitHub之外的所有MassiveText子集“31. GPT-2 paper, pp3.
关于作者
Alan D. Thompson博士是人工智能专家、顾问。在2021年8月的世界人才大会(World Gifted Conference)上,Alan与Leta(由GPT-3提供支持的AI)共同举办了一场名为“The new irrelevance of intelligence”的研讨会。他的应用型人工智能研究和可视化成果受到了国际主要媒体的报道,同时还在2021年12月牛津大学有关AI伦理的辩论中被引用。他曾担任门萨国际(Mensa International)主席、通用电气(GE)和华纳兄弟(Warner Bros)顾问,也曾是电气与电子工程师协会(IEEE)和英国工程技术学会(IET)会员。
原文:https://lifearchitect.ai/whats-in-my-ai/
本文由OneFlow编译发布,CSDN获得授权后发布,转载请联系OneFlow获得授权。