查看原文
其他

机器学习数据扩展局限性分析:数据是否即将枯竭?

常华Andy Andy730
2025-01-01

Source: Pablo Villalobos, Jaime Sevilla, Lennart Heim, Tamay Besiroglu, Marius Hobbhahn, Anson Ho; Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning; 26 Oct 2022

摘要

本研究深入分析了自然语言处理和计算机视觉领域中所使用的机器学习数据集规模的增长,并运用两种主要方法进行了预测:一是基于历史增长速度,二是根据当前预测的计算预算来估算最优数据集规模。我们通过对未来几十年内互联网上未标记数据的总库存进行估算,来探究数据使用的发展趋势。

我们的分析结果表明,高质量语言数据的库存将很快被耗尽,可能在2026年之前出现此情况。相比之下,低质量语言数据和图像数据的库存将会在更长的时间段内被用尽,分别在2030年至2050年之间(对于低质量语言数据)和在2030年至2060年之间(对于图像数据)。我们的研究结果强调了,如果不对数据效率进行大幅度改进或提供新的数据来源,那么依赖于庞大数据集的机器学习模型当前的增长趋势可能会减缓。

主要发现

  • 我们运用历史增长速度、当前计算法则,以及现有计算可用性估算,对视觉和语言模型的训练数据集增长进行了预测(见第III-A部分)。

  • 此外,我们还对未标记数据的总库存增长进行了预测,包括高质量语言数据(见第III-B部分)。

  • 有关语言数据集的增长情况,它呈指数增长,每年超过50%,截至2022年10月,已经包含了多达2e12个单词(见第IV-A节)。

  • 语言数据集的增长率目前为每年7%,然而,根据我们的模型预测,到2100年将会减缓至1%。当前,语言数据库存数量在7e13和7e16个词之间波动,比目前使用的最大数据集大了1.5到4.5个数量级(详见第IV-B1部分)。

  • 根据这些趋势,我们估计语言数据可能会在2030年至2050年之间被耗尽(详见第IV-D部分)。

  • 然而,值得注意的是,语言模型通常是在高质量数据上训练的。高质量语言数据库存数量在4.6e12和1.7e13个词之间,仅略大于目前使用的最大数据集一个数量级(详见第IV-B2部分)。

  • 我们距离高质量数据库存枯竭仅相差一个数量级,这可能会在2023年至2027年之间发生(详见第IV-D部分)。

  • 对于图像数据集的未来增长趋势预测相对不太明确,因为在过去四年内历史趋势已经停止。然而,增长速度似乎可能在每年18%到31%之间波动。当前最大的图像数据集包含3e9张图像(详见第IV-A部分)。

  • 视觉数据库存目前每年以8%的速度增长,但最终将减缓至1%。当前视觉数据库存数量在8.11e12和2.3e13张图像之间,比目前使用的最大数据集大了三到四个数量级(详见第IV-C部分)。

  • 根据这些趋势,我们估计视觉数据可能会在2030年至2070年之间被用尽(详见第IV-D部分)。


I. 引言

训练数据是机器学习(ML)模型性能的三个主要因素之一,其与算法和计算资源并驾齐驱。根据当前对扩展规律的理解,未来的ML能力将高度依赖于用于训练大型模型的大量数据的可用性[2, 3]。过去的研究已经汇编了超过200个用于ML模型训练的数据集[1],并估计了视觉和语言模型数据集在历史上的增长速度。

为了更深入地了解这一趋势的局限性,我们构建了概率模型,以估算从2022年到2100年期间可用的图像和语言数据的总量。基于我们对数据集大小趋势的预测,我们进一步估计了由于可用数据枯竭而对这些趋势施加限制的潜在极限。

II. 先前的工作

数据库存:过去已经进行了多次对互联网规模和可用信息总量的估算研究[4, 5, 6]。然而,近年来这些报告并未对不同数据形式(例如图像、视频或博客文章数量)进行细分,而是将所有数据形式都汇总为一个字节总量[7]。

ML中的数据瓶:在[8]中,研究者估计了高质量数据的库存,并应用了扩展法则[3],以预测数据库存的不足是否会限制将语言模型扩展到DeepMind的Chinchilla语言模型[3]大小的1.6倍。我们通过创建明确的数据集大小增长模型和更详细的随时间变化的数据库存估算,对这一分析进行了改进,从而能够预测数据集将达到与总数据库存一样大的日期。

图1:数据使用情况的预测。每张图展示了数据使用情况的两种外推方式,一种是根据过去的趋势,另一种是根据计算资源可用性估算和扩展规律。这两种预测都受到估计的数据库存的限制,三种情况下都导致数据使用增长放缓。

III. 方法

A. 数据集规模增长的预测

先前研究已经汇总了不同应用领域中数据集规模的历史趋势[1]。我们在此将数据集规模定义为模型训练所需的唯一数据点数量。需要强调的是,每个领域对于“数据点”的定义各不相同。具体来说,对于语言数据,我们将“数据点”定义为一个词,而对于图像数据,我们将其定义为一幅图像。有关这一数据集规模度量选择的详细信息可在[1]中找到。

通过结合历史趋势以及迄今为止所使用的最大数据集规模,我们可以估算数据集规模未来的发展趋势。然而,这种预测可能过于天真地假设了过去的趋势会无限期持续下去。实际上,模型可训练的数据量受到一定的限制。其中最为重要的限制之一就是计算资源的可用性。这是因为为了增加给定模型的训练数据量,需要额外的计算资源支持,而可用的计算资源受到硬件供应以及购买或租赁硬件的成本的制约。

为了考虑到这一限制,我们进行了另一种基于计算资源可用性以及计算最优数据集规模的预测。通过应用缩放定律,我们可以预测在给定计算预算(以FLOP为单位)下,模型规模和数据集规模之间的最佳平衡[2, 3]。具体而言,最佳数据集规模与计算预算的平方根成正比√(D C)。

以前的研究[9]对未来可用计算资源进行了最大训练的预测3。我们利用这些预测来估算未来每一年可实现的最佳训练数据集规模。

B. 估算数据积累速率

近年来,无监督学习已成功创建了基础模型,这些模型可以通过少量标记数据和大量未标记数据进行精细调整。此外,无监督模型还能够为未标记数据生成有价值的伪标签[10]。因此,尽管标记数据量较低,我们将侧重关注未标记数据的库存和积累速率。

在深入讨论细节之前,让我们考虑一个理论框架,来解释我们预期的数据积累速率会呈现怎样的趋势。绝大多数数据是由用户生成的,并存储在社交媒体平台、博客、论坛等地。在一个给定时间段内,有三个因素决定了产生多少内容:人口数量、互联网普及率以及每位互联网用户平均产生的数据量。

人口数量已经得到广泛研究,因此我们使用了标准的联合国预测数据[11]。互联网普及率(指使用互联网的人口占总人口的百分比)从1990年的0%增长到2018年的50%,如今已超过60% [12]。我们将其建模为随时间呈S形增长的函数,并将其与[12]中的数据进行拟合。

由用户产生的平均数据量随着地理位置和时间的变化而变化,根据互联网使用趋势,这并不容易分析。为了简化问题,让我们假设随时间推移,用户产生的平均数据量保持不变。

图2:互联网用户数量的真实和预测演变。

这个互联网人口模型(即互联网用户数量)与历史上的互联网用户数量紧密吻合(见图2)。为了测试它对互联网数据生成的预测能力,我们进行了实证测试,将这个模型应用到Reddit的提交数据上。结果显示,这个模型比指数模型和S形模型更好地拟合了数据(详见附录C)。

C. 高质量数据

我们已经建立了一个用户生成内容积累速率的模型。然而,对于语言数据而言,这种内容往往质量不如书籍或科学论文等更专业的语言数据。基于后者的数据训练的模型表现更出色[13],因此在训练语言模型时通常使用这种数据[14, 15, 3]。至于图像模型,我们对数据质量以及如何鉴别高质量图像数据的方法了解甚少,因此本节将着重讨论语言数据。

由于我们对权衡高质量和低质量数据使用的了解有限,我们将分别提供高质量和低质量数据的估算和增长预测。为了确定高质量数据,我们将依赖从业者的专业知识,并检视用于训练大型语言模型的数据集的构成。这些数据集中最常见的来源包括书籍、新闻文章、科学论文、维基百科和经过筛选的网络内容。

这些来源的共同特点是它们包含经过有用性或质量筛选的数据。例如,在新闻、科学文章或开源代码项目的情况下,有用性筛选受到专业标准(如同行评审)的制约。在维基百科的情况下,筛选依赖于一个经过时间考验的专注编辑团队。在经过筛选的网络内容的情况下,筛选则取决于许多用户的积极参与。尽管存在不完美之处,这个特性有助于我们识别高质量数据的其他来源,因此我们将其作为高质量数据的工作定义。

一些高质量数据,如筛选的网络内容和维基百科,是由专注的互联网贡献者生成的。这意味着我们可以使用已开发的用于一般用户生成内容的模型。

然而,其他高质量数据的来源则是由领域专家(如科学家、作家和开源开发人员)生成的。在这种情况下,数据生成速率不是由人口数量或互联网普及率决定的,而是由经济规模和经济中用于创意领域(如科学和艺术)的份额所决定。

在过去20年中,经济合作与发展组织(OECD)成员国已经将其国内生产总值的大约2%用于研发[17]。尽管这一数字增长较慢,但我们将假设它基本上保持不变。因此,数据积累速率应该与全球经济规模大致成正比,而全球经济每年增长约4%。这一预测与科学出版物的增长趋势相一致[18]。

我们通过检查现有数据集,并将它们的子组成部分分类为不同类别,来估计高质量数据中这两类数据(专注贡献者和专业人士)的比例。

D. 限制

我们的数据集大小增长速率估计可能存在多种不准确的原因:

  • 未来可能需要更少的数据来达到相同水平的性能。这种情况尤其可能发生,因为在其他领域已经出现了大幅提高数据效率的趋势[19, 8]。
  • 计算资源的可用性可能由于多种原因增长速度慢于预期,包括技术上的效率提升障碍、供应链中断或减少支出意愿等。
  • 当前的扩展规律可能存在错误,就像过去曾经发生过一样。即使没有额外的数据效率提升,也可能存在使用更少数据的更好的扩展方法。
  • 多模态模型可能会通过迁移学习实现比单一模态模型更好的性能。这将有效地增加数据库存,包括所有数据形式的组合库存。

此外,我们对数据库存的估计存在一些限制:
  • 使用合成数据可能使数据库存几乎无限。我们对于合成数据的用途和成本存在不确定性。
  • 大规模经济变化可能会显著影响数据的生产。例如,大规模采用自动驾驶汽车将导致前所未有数量的道路视频录制。
  • 同样,拥有大预算的行为者(如政府或大型企业)可能能够通过足够的支出来增加数据的生产,特别是在为小众领域提供高质量数据的情况下。一些可能性包括广泛的屏幕录制或大规模监视。
  • 我们可能会找到更好的方法从低质量来源中提取高质量数据,例如通过提出稳健的自动质量度量标准。

IV. 分析

A. 数据集大小趋势

先前的研究[1]确定了不同领域训练数据集的历史增长率。由于只有语言和视觉领域有显著数据,我们将限制我们的分析在这两个领域。这些趋势总结在表I中。

表I:视觉和语言模型训练数据集规模的趋势。

B. 语言

低质量数据

图3:低质量语言数据的模型。

我们使用了五种不同的模型来估计数据量和积累速率。表II总结了这些不同的模型,图3a进一步说明了这些模型,并在附录A中更详细地解释了这些模型。综合模型发现估计的当前总库存在6.9e13到7.1e16个词之间,当前增长率在6.41%到17.49%之间。

请注意,这一估计的高端来自两个高度理论性的模型,我们对它们的信任程度最低。我们对这一范围的解释是:1e14个词是对于像Google这样的单一、资金充足的行为者非常有可能可用的;1e15个词是对于所有主要行为者的联合组合(所有科技公司)可用的;1e16个词是人类可能能够在全球范围内、历时多年的努力中集体产生的,采用诸如记录所有短信、电话和视频会议等做法,这些做法目前在政策范围之外。

使用综合数据库存模型作为扩展数据集的上限,我们预测训练数据集的大小,并发现它会快速增长,直到耗尽数据库存。在此之后,增长显著减缓(图3c)。

表II:高质量语言数据积累估计的中位数和90%可信区间。

高质量数据

我们通过查看几个高质量数据集的组成,确定了每个组件可以扩展多少来研究高质量数据。我们考虑了三个数据集:The Pile [13]、MassiveText [3]和PaLM预训练数据集[15]。

图4:高质量语言数据的模型。

从中,我们可以看到高质量数据集通常由50%的抓取用户生成内容(Pile-CC、OpenWebText2、社交媒体对话、筛选网页、MassiveWeb、C4)、15-20%的书籍、10-20%的科学论文、<10%的代码和<10%的新闻组成。此外,它们都包括已知的非常高质量的小型数据集,如维基百科(图4a)。

我们估计了数字化书籍、公共GitHub存储库和科学论文中可用文本的数量。假设所有这些内容占据了假设高质量数据集的30%到50%,我们可以达到9e12 [4.6e12;1.7e13]个词。我们假设高质量数据的数量以与世界经济一致的4-5%每年的速度增长,正如引言中所解释的(参见图4b)。模型的详细信息可以在附录A中找到。

使用高质量库存而不是低质量库存作为上限来预测语言数据集的增长,我们发现相同的减速模式,不同之处在于减速发生得早得多,早在2026年之前(图4c)。

C. 视觉

图5:视觉数据的模型。

对于视觉数据,我们使用了两种不同的估算方法:一种由Rise Above Research [20]提出,另一种使用了发布在最流行社交媒体平台上的图像和视频的综合数据。综合模型显示,当前互联网上有大约8.11e12到2.3e13张图像,当前年增长率约为8%。这些模型总结在表III和图5a中。

表III:图像数据积累估计汇总。底部行包含所有模型的总计。

使用综合数据库存模型作为扩展数据集的上限,我们根据历史趋势和计算最优外推来预测训练数据集的大小。历史预测非常不确定,因为我们尚不知道最近的高值是否表示新的更高增长趋势。与语言相应的投影也比较不确定,因为我们对视觉领域的扩展规律了解不多。

与语言情况类似,数据集大小呈指数增长,直到达到数据库存大小,此后增长速度大大减缓(图5c)。

我们不了解无标签视觉数据的数据质量对性能的影响以及如何区分高质量数据,因此我们没有尝试进行估计。

D. 数据是否会成为瓶颈?

到目前为止,我们发现数据库存的增长速度远远慢于训练数据集大小的增长速度(参见图3c、4c和5c)。这意味着如果当前趋势持续下去,耗尽我们的数据库存是不可避免的。此外,高质量数据库存要小得多。基于历史趋势和计算可用性外推的两个数据集大小预测在最初几年非常相似,但随后开始分歧。

图6:每种数据可用性趋势和数据消耗趋势的相交点的耗尽日期分布。请注意,每种数据类型的时间尺度不同。

我们计算了每年疲竭可能发生的概率,针对我们对数据库存和数据集大小的每一种预测(图6)。虽然低质量语言和视觉库存的疲竭日期存在相当大的不确定性,但看起来在2030年之前或2060年之后发生的可能性不大。然而,如果当前趋势持续下去,高质量语言库存几乎肯定会在2027年之前耗尽。这些分布的分位数显示在表IV中。

V. 讨论

语言模型的扩展规律显示,其扩展程度取决于可用数据的数量[3, 8]。根据这一观点,在过去四年中,大约一半的语言模型改进是通过在更多数据上进行训练实现的。然而,如果没有进一步扩展数据集的空间,这可能导致人工智能领域的发展放缓。

然而,值得注意的是,语言和视觉模型的数据积累速度远远慢于我们迄今为止观察到的数据集大小增长的速度,无论是从历史数据还是考虑到计算资源限制的角度来看。因此,我们有理由相信我们可能正在接近训练数据的极限,这一情况将在2030年至2040年之间在语言模型中发生,在图像模型中将发生在2030年至2060年之间(见图6)。

特别是对于高质量的语言数据,如果当前的趋势持续下去,很可能在2027年之前将资源用尽。尽管目前尚不清楚大规模数据集是否能够替代质量较差的数据,但即使在这种情况下,我们的训练数据集扩展能力也受到计算资源可用性的限制。

这一事实使得放缓是一个可能不可避免的结论,尽管我们仍然有理由相信我们的模型未能充分捕捉机器学习进展的潜在发展(请参阅“限制”部分)。

特别是,了解数据效率未来的演变和数据质量对性能的影响对于预测未来数据需求至关重要。然而,不幸的是,我们对这些变量的了解尚不足以提供详细的预测。未来的研究工作可以尝试将这些考虑因素纳入分析中。

VI. 结论

我们已经对训练数据集大小和数据库存的增长进行了预测。令人担忧的是,数据库存的增长速度明显低于数据集大小的增长速度。因此,如果当前趋势持续不变,我们可以预见数据集的增长将受到限制,因为数据资源将会耗尽。根据我们的模型,语言数据的增长可能会在2030年至2040年之间停滞,而视觉数据的增长可能会在2030年至2060年之间停滞。此外,高质量的语言数据在2026年可能会用尽。

如果我们的假设是准确的,那么数据将成为限制机器学习模型扩展的主要瓶颈,这可能导致人工智能领域的进展放缓。然而,正如我们前文所述,有多种原因让人们对这些趋势是否会持续下去表示怀疑,其中包括数据效率方面的算法创新可能性。

REFERENCES

  • [1] P. Villalobos and A. Ho, “Trends in training dataset sizes,” https://epochai.org/blog/trends-in-trainingdataset-sizes, 2022, accessed: 2022-09-27.

  • [2] J. Kaplan et al., “Scaling laws for neural language models,” 2020.

  • [3] J. Hoffmann et al., “Training compute-optimal large language models,” 2022.

  • [4] K. Coffman and A. Odlyzko, “The size and growth rate of the internet,” 1998.

  • [5] B. Murray H. and A. Moore, “Sizing the internet,” Cyveillance, Tech. Rep., 7 2000.

  • [6] P. Lyman and H.R. Varian, “How much information,” 2003.

  • [7] D. Reinsel, J. Gantz, and J. Rydning, “The digitization of the world from edge to core,” International Data Corporation, Tech. Rep., 11 2018.

  • [8] nostalgebraist, “chinchilla’s wild implications,” 2022.

  • [9] L.H. Tamay Besiroglu and J. Sevilla, “Projecting compute trends in machine learning,” https://epochai.org/ blog/projecting-compute-trends, 2022, accessed: 202209-27.

  • [10] H. Pham et al., “Meta pseudo labels,” 2020.

  • [11] “World population prospects 2022, online edition,” 2022.

  • [12] H. Ritchie and M. Roser, “Technology adoption,” Our World in Data, 2017, https://ourworldindata.org/technology-adoption.

  • [13] L. Gao et al., “The pile: An 800gb dataset of diverse text for language modeling,” 2021.

  • [14] N. Du et al., “Glam: Efficient scaling of language models with mixture-of-experts,” 2021.

  • [15] A. Chowdhery et al., “Palm: Scaling language modeling with pathways,” 2022.

  • [16] T. Nguyen et al., “Quality not quantity: On the interaction between dataset design and robustness of clip,” 2022.

  • [17] OECD, “Gross domestic spending on R&D (indicator),” 2022.

  • [18] “Publications output: U.s. trends and international comparisons,” 2019.

  • [19] W. Ye et al., “Mastering atari games with limited data,” 2021.

  • [20] E. Lee, “2021 worldwide image capture forecast: 2020 – 2025,” 2021.

---【本文完】---

近期受欢迎的文章:


我们正处于数十年未见之大机遇中

新技术爆发式发展,催生新产品

然而,颠覆式创新并非简单的技术堆叠

而是异常复杂的系统工程

需要深度洞察

欢迎一起分享思考和见解


继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存