首页
下载应用
提交文章
关于我们
🔥 热搜 🔥
1
百度
2
今日热点
3
微信公众平台
4
贴吧
5
opgg
6
dnf私服
7
百度贴吧
8
知乎
9
dnf公益服
10
百度傻逼
分类
社会
娱乐
国际
人权
科技
经济
其它
首页
下载应用
提交文章
关于我们
🔥
热搜
🔥
1
上海
2
习近平
3
新疆
4
鄂州父女瓜
5
乌鲁木齐
6
疫情
7
H工口小学生赛高
8
习明泽
9
芊川一笑图包
10
印尼排华
分类
社会
娱乐
国际
人权
科技
经济
其它
警察殴打打人学生,舆论撕裂的背后
骗P天花板?
大摩宏观策略谈:2025中美变局展望
假设,你遇到麦琳怎么办?
董事长两口子不干了,至暗时刻谁是白衣骑士
生成图片,分享到微信朋友圈
查看原文
其他
谷歌研究:发现超大规模训练模型的瓶颈
Original
刘媛媛
数据实战派
2022-01-13
收录于话题
#谷歌
7 个
#人工智能
70 个
#机器学习
41 个
#预训练模型
12 个
最近,来自 Google Research 的一篇新论文表明,目前对海量数据集进行管理的趋势可能会对开发有效的人工智能系统产生反作用。
事实上,研究表明,更好的机器学习产品可能来自于在不太准确(即技术上“更差”)的数据集上进行训练。
如果这一结论正确,则意味着“超大规模”数据集,例如最近发布的 LAION-400M(包含 4 亿个文本/图像对),以及神经语言引擎 GPT-3 背后的数据(包含 1750 亿个参数),在传统和流行的机器学习架构和方法中可能会受到某种“热限制”的影响,庞大的数据量让下游应用程序饱和,并阻止它们以有用的方式泛化。
深入研究导致这些现象的原因,团队发现,他们观察到的饱和行为与表示在模型层中演变的方式密切相关。研究人员还展示了一个更极端的场景,其中上游和下游的性能相互矛盾。也就是说,为了获得更好的下游性能,需要损害上游的准确性。
研究人员还提出了重新思考超大规模数据集架构的替代方法,以纠正这种不平衡。
该研究的标题是
Exploring the Limits of Large Scale Pre-training
,来自 Google Research 的四位作者
(“数据实战派”后台回复“limits”获取论文链接)
。
调查“饱和”
论文作者对“在超大规模数据时代机器学习>数据关系”这一普遍假设提出挑战:缩小模型和数据量大小可以显著提高性能(自 GPT-3 推出后,这一信念得到了巩固),并且这种改进的性能以线性(即理想的)方式“传递”到下游任务,以便形成最终推向市场的设备端算法。该见解源自于无法控制的庞大数据集和未经提炼的训练模型,完全受益于全尺寸上游架构这一理念。
研究人员指出以往的观点表明花费算力和研究工作来提高一个庞大语料库的性能是值得的,因为这将使我们能够几乎免费的解决许多下游任务。
但论文作者认为,缺乏计算资源和“经济”的模型评估方法会导致对数据量与有效的 AI 系统之间的动态关系产生错误印象。作者认为这种习惯是一个致命弱点,因为研究界通常假设当下(积极)的结果将转化为有用的后续实施。
论文指出:“由于计算资源的限制,无法展示不同超参数值选择的性能。如果为每个尺度选择的超参数是固定的或由简单的缩放函数确定,则尺度缩放似乎更有利。”
研究人员进一步指出,许多规模化研究不是根据绝对规模来衡量的,而是根据对最先进技术(SotA)的增量改进来衡量的。同时观察到:先验地将缩放比例保持在研究范围之外,这一说法是没有根据的。
预训练
该论文讨论了“预训练”的实践,它是一种旨在节省计算资源和减少从零开始训练大规模数据模型所需的冗长时间尺度的措施。预训练简要说明了一个域内的数据通过训练变得泛化的方式所需要的“原型”,并且通常应用于各种机器学习领域和专业,比如从自然语言处理(NLP)到 DeepFakes(AI 换脸工具)。
早期的学术研究发现,预训练可以显著提高模型的鲁棒性和准确性,但最新的论文表明,即使在训练时间相对较短的预训练模型中,如果将特征的复杂性分流到各通道的后续流程中,可能会带来更多好处。
然而,如果研究人员继续依赖使用当前学习率得到的最佳实践的预训练模型,上述现象将不会发生。研究结论表明,这会显著影响最终应用的准确性。在这方面,作者指出,人们不能指望找到一个在所有可能的下游任务上都表现良好的预训练模型。
研究学习
论文通过系统的研究指出,随着上游任务准确性的提高,下游任务性能会趋于饱和。为了研究饱和效应,作者在 Vision Transformers、ResNets 和 MLP-Mixers 上进行了 4800 次实验,每个实验都有不同数量的参数,从 1000 万到 100 亿不等,所有这些都在各自领域可用的最大容量数据集上进行了预训练,包括 ImageNet21K 和 Google 的 JFT-300M,并在各种下游数据集上进行评估。
论文研究了尺寸缩放在图像识别任务中的小样本和迁移学习性能中的作用,并提供了强有力的经验证据证明:缩放(和超参数调整)不会导致一个模型适合所有的解决方案。这其中仍然存在许多未解决的挑战,最核心是下游任务的数据多样性问题。论文对这种现象进行了首次大规模和系统的调查,并讨论起其背后的原因。如图 1 所示,展示各种模型和下游任务中上游性能和下游性能的对比。从图 1 可以观察到,在大多数情况下,随着上游准确度的提升,下游准确度趋于饱和远低于 100% 的值。这种饱和行为是普遍趋势,而不是个别情况。此外给定一组具有相似精度的上游模型,不同的下游任务对应的最佳模型不同。
图 1
结果表明,在尝试“扩大”数据、模型参数和计算时间时,应将数据多样性作为附加项考虑。就目前而言,随着大量参数达到“饱和”点,人工智能上游部分的训练资源(和研究人员的注意力)的高度集中正在严重冲击下游应用程序,通过特征和执行推理或效果转换降低了已部署算法的导航能力。
该论文得出结论:通过广泛的研究可以确定,当通过扩大超参数和架构选择来提高上游任务的性能时,下游任务的性能表现出饱和行为。此外,论文提供了强有力的经验证据,表明与常见的叙述相反,缩放不会导致一个模型适合所有的解决方案。论文展示了超参数的作用,并强调不能指望找到一个在所有可能的下游任务上都表现良好的预训练检查点。应该避免只关注一项下游任务,反之应该做出设计选择,进而提高下游任务的性能。
往期推荐
丨
麻省理工最新成果:AI揭示人脑如何处理语言
丨
美国AI产业已走向“赢者通吃”
丨
皮克斯“背后灵魂”、计算机图形天才,一个屡屡激怒乔布斯的男人
丨
溯因推理:人工智能的盲点
丨
观点:AI与自动化是矛盾的
丨
谷歌搜索的下一步:情境为王,给你更多参考
丨
图灵奖得主Yann LeCun万字访谈:DNN“史前文明”、炼金术及新的寒冬
丨
一种新的学习模型,解释人脑如何实现Hinton提出的AI算法基石
丨
拥有100万亿参数的GPT-4,有何值得期待?
丨OpenAI GPT-4进展有了一些新线索
丨
为什么超链接是蓝色的?
丨
谷歌团队警告:人人都想做模型而非数据工作,这很危险
丨计算机视觉的“惨胜”:反思大型图像数据集
丨计算机理论顶会 STOC 最佳论文
丨
L
STM之父新作:一种方法,超越线性Transformers
丨
苹果官方揭秘:这个强大的相册功能是如何实现的?
丨
DeepMind的新强化学习系统,是迈向通用人工智能的一步吗?
丨
Science 论文:诺奖经济学家的经典决策模型,被 AI 挑战
丨
“三巨头” 联合发布万字长文,深度学习将通往何方?
丨
449 页 pdf,FaceBook 称其迈出 “重塑 AI 科学的第一步”
丨
我们可能已见证第一场人工智
能战争
丨 斯坦福 AI Lab 好文:知识图谱深度介绍
丨
香奈儿们的 AI 实验室都在做什么?
丨
比 GPU 快 15 倍,CPU 算法训练深度神经网络 “超车” 成功
关于数据实战派
数据实战派希望用真实数据和行业实战案例,帮助读者提升业务能力,共建有趣的大数据社区。
您可能也对以下帖子感兴趣
{{{title}}}
文章有问题?点此查看未经处理的缓存