机器学习的弱项
当前的机器学习(Machine Learning,ML)系统通过先例学习获取了大量数据,这些数据已被分析师单独标记以生成所需的输出。随着这些系统的发展,深度神经网络(Deep Neural Networks,DNN)已成为ML模型中的最新技术。DNN能够以更高的准确度为机器翻译和语音或对象识别等任务提供动力。但是,训练DNN需要大量标记数据,通常是109或1010个训练样例。对大量信息进行积累和标记的过程既昂贵又耗时。
单一神经网络与深度神经网络的区别
除了积累标记数据的挑战之外,大多数ML模型都很脆弱,并且在其操作环境发生微小变化时容易崩溃。例如,如果房间的声学环境或麦克风的传感器发生变化,则可能需要在全新的数据集上重新训练语音识别或音源识别系统。调整或修改模型所需的时间和精力几乎与从头创建模型一样多。
DARPA的应对项目
为了减少与训练和调整ML模型相关的前期成本和时间,DARPA正在推出名为“更少标记的学习”(Learning with Less Labels ,LwLL)的新项目。通过LwLL项目,DARPA将研究新的学习算法,这些算法可以大大减少信息量来训练或更新。
目前的机器学习系统通过先例学习获取大量数据,这些数据已被分析师单独标记以生成所需的输出。LWLL项目旨在使训练机器学习模型的过程更加高效(将建模需要的数据标记量减少六个乃至更多量级,并将适应新环境的模型数据量减少数十到数百个标记先例)。
“通过LwLL(项目),我们正在寻求将从头开始构建模型所需的数据量减少百万倍,并减少将模型从数百万到数百个标签先例进行调整所需的数据量”,DARPA信息创新办公室(I2O)LwLL项目经理Wade Shen表示,“也就是说,现在需要一百万张图像来训练一个系统,将来只需要一张图像,或者将来只需要大约100个标记的先例即可适应系统而不是当前所需的数百万个。”
LwLL项目注重的两个技术领域
为了实现其目标,LwLL项目研究人员将探索两个技术领域。
第一个技术领域侧重于构建高效学习与适应的学习算法。研究人员将研究和开发能够通过既定程序指标减少所需数量标记先例的算法,而不牺牲系统性能。对此,Wade Shen表示,“我们鼓励研究人员在元学习(meta-learning,注:也称为学会学习,其已成为继增强学习之后又一个重要的研究分支,目的是让AI拥有核心价值观从而实现快速学习)、迁移学习( transfer learning,注:把已学训练好的模型参数迁移到新的模型来帮助新模型训练)、主动学习(active learning,注:主动学习那些比较难的、信息量大的样本)、K-shot学习(K样本学习,注:就是每个分类中取K个样本学习)以及监督/无人监督适应性等领域创造新方法,以解决这一挑战。”
第二个技术领域要求研究团队规范地描述机器学习问题,包括决策难度和用于制定决策的数据的真实复杂性。对此,Wade Shen表示,“目前很难理解在构建ML系统时我们的效率如何,或者模型的准确度水平存在哪些基本限制。通过LwLL项目,我们希望找到ML可能性的理论极限,并利用这一理论来推动系统开发和能力的界限。”