85%——人类与机器共同的最优学习率
导语
“学习”是一个宽泛的概念,而今年来人工智能和认知科学的一系列工作,正在尝试将学习过程量化。在一篇论文中,研究者发现对于计算机系统和生物大脑,可能存在普遍共性——学习内容的训练精度接近85%时,学习速度达到最优。
目录
1.“恰到好处”——学习的迷思
2.计算最优学习率
3.模拟验证:感知机模型
4.模拟验证:类生物神经网络
5.心流的数学理论
6.学习的定量时代?讨论、延伸与启示
附:参考资料
如何对学习者施行最好的教育?这似乎是一个无解的问题。
然而在2018 年底,来自包括亚利桑那大学、布朗大学、加州大学洛杉矶分校、普林斯顿神经科学研究所等多院校合作研究者发布表的一篇预印本论文,《The Eighty Five Percent Rule for Optimal Learning》中,研究者们通过关注训练难度这一单一变量,定量考察了其对学习速度的影响。
论文题目:The Eighty Five Percent Rule for Optimal Learning论文地址:https://www.biorxiv.org/content/10.1101/255182v1
1. “恰到好处”——学习的迷思
历史传统中有所谓的中庸原则,我们也会有一种简单直觉经验,即做事要“恰到好处”。反映在学习中,即存在一个困难程度的“甜蜜点”,一个“金发姑娘区”。在现代教育研究中,在这个区域的不仅教学最有效果[1],甚至能解释婴儿在更多更少可学习刺激之间的注意力差异[2]。
在动物学习研究文献中,这个区域是“兴奋”[3]和“失落”[4]背后的原因,通过逐步增加训练任务的难度,动物才得以学习越来越复杂的任务。
在电子游戏中几乎普遍存在的难度等级设置中,也可以观察到这一点,即玩家一旦达到某种游戏水平,就会被鼓励、甚至被迫进行更高难度水平的游戏。
类似地,在机器学习中,对于各种任务进行大规模神经网络训练,不断增加训练的难度已被证明是有用的 [5,6],这被称为“课程学习”(Curriculum Learning)[7] 和“自步学习”(Self-Paced Learning)[8]。
2. 计算最优学习率
3. 模拟验证:感知机模型
为了验证“85%规则”的适用性,论文模拟了两种情况下训练准确性对学习的影响:在人工智能领域验证了经典的感知机模型,一种最简单的人工神经网络,已经被应用于从手写识别到自然语言处理等的各种领域。
图2:“85%规则”下的感知机
4. 模拟验证:类生物神经网络
为了证明“85%规则”如何适用于生物系统学习,论文模拟了计算神经科学中感知学习的“Law和Gold模型”[11]。在训练猴子学会执行随机点运动的任务中,该模型已被证明可以解释包括捕捉行为、神经放电和突触权重等长期变化情况。在这些情况下,论文得出相同结果,即当训练以85%的准确率进行时,学习效率达到最大化。
5. 心流的数学理论
6. 学习的定量时代?
讨论、延伸与启示
学习对个体生物个体的重要性不言而喻,甚至比大多数人想得更重要。在2013年1月,《心理学通报与评论》上发表了一篇 论文①的就认为,学习不仅一个是认知过程,在更本质的功能层面是一种个体自适应过程,包括生物体在有机环境规律作用下的行为改变,并认为就如演化论是生物学核心一样,学习研究应该是心理学的核心。
例如,在知觉和审美方面的研究中,俄勒冈大学(University of Oregon)的物理学 Richard Taylor 通过对视觉分形图案的研究发现,如设白纸的维度D为1,一张完全涂黑的纸的维度D为2,即画出来的图形维度在 1~2 之间,那么人类的眼睛更偏好于看维度 D=1.3 的图形[26]。事实上许多大自然物体具有的分形维度就是 1.3,在这个复杂度上人们会感到最舒适。一些著名的艺术家,比如抽象表现主义代表人物 ( Jackson Pollock ),他所画的具有分形的抽象画(下图中间一列,左边是自然图,右边为计算机模拟图)分布在 D=1.1 和 1.9 之间,具有更高分形维度的画面会给人带来更大的压迫感[27]。
心理学家 Rolf Reber 在审美愉悦加工的流畅度理论(Processing fluency theory of aesthetic pleasure)中[28]提出,我们有上述这种偏好是因为大脑可以快速加工这些内容。当我们能迅速加工某些内容的时候,就会获得一个正性反应。例如加工 D = 1.3的分形图案时速度很快,所以就会获得愉悦的情绪反应。此外,在设计和艺术领域心理学家域唐纳德·诺曼(Donald Arthur Norman)和艺术史学家贡布里希(Ernst Gombrich)也分别提出过类似思想。
对比下 D = 1.3 和 15.87% 的出错率,如果进行下统一比例,会发现前者多出原有分形维复杂性和整体的配比,未知:已知(或熟悉:意外,秩序与复杂)约为 0.3/1.3 ≈ 23.07%,这个结果比15.87%要大。这种计算方法最早由数学家 George David Birkhoff 在1928 年于《Aesthetic Measure》一书中提出,他认为若 O 为秩序,C 为复杂度,则一个事物的审美度量 M = O/C。
因此,在最简化估计下,可以类似得出 23.07% 额外信息的“最佳审美比”,会让欣赏者感到最舒适。
当然,因为信息复杂度的计算方法不一,上面只是一个非常粗略的估计。审美过程涉及感觉、知觉、认知、注意等多个方面,并且先于狭义的认知和学习过程,因此最佳审美比应该会15.87%要大。但至于具体数值,很可能因为不同环境和文化对不同的主体,以及不同的计算方法有较大差别,例如有学者从香农熵和柯尔莫哥洛夫复杂性方面进行度量的研究[29]。
但不管怎样,从这篇文章的方法和结论中,我们已可以得到巨大启示和信心,无论是在人工智能还是心理学或神经科学,无论学习还是审美、知觉或注意,在涉及各种智能主体对各种信息的处理行为中,我们都可能寻求到一个精确的比例,使得通过恰当选取已知和未知,让智能主体在体验、控制或认知上达到某种最优。而这种选取的结果,会使积累的效果远超自然过程得到改进。从这个意义上讲,这篇论文影响得很可能不只是某些科学研究方向,而是未来人类探索和改进自身的根本认知和实践方法。
参考资料(列表可上下滑动)
http://dx.doi.org/10.1207/s15327957pspr0804_3
https://doi.org/10.2312/COMPAESTH/COMPAESTH07/105-112
作者:十三维编辑:张爽
推荐阅读
集智俱乐部QQ群|877391004
商务合作及投稿转载|swarma@swarma.org
◆ ◆ ◆
搜索公众号:集智俱乐部
加入“没有围墙的研究所”
让苹果砸得更猛烈些吧!