其他
2023年3月3日晚7点,由信息科学技术学院主办的“信科E席谈”青年学术沙龙第七期活动在理科二号楼2129报告厅顺利举办。北京大学计算机学院研究员、助理教授、博士生导师、博雅青年学者仉尚航老师受邀进行了以“迈向开放环境泛化机器学习”为主题的学术分享,40余名名师生到场聆听。本次活动由学院团委副书记丁倩主持。分享主要从人工智能发展简介、研究成果介绍、个人经验与感悟三个方面展开。仉老师首先简要回顾了人工智能的发展历程,然后介绍了部分人工智能的最新进展和应用,并以北大研究者用全AIGC流程创作的实验动画《地球爱情终曲》为例,向同学们展示了人工智能的多样功能和强大力量。接下来,仉老师向同学们介绍了有关开放环境泛化机器学习的研究。以机器学习为重要内核的人工智能在各个领域都带来了成功。然而,已有的机器学习的方法往往针对于封闭环境,需要满足测试样本和训练样本尽量一致(独立同分布)的闭集假设,以及待分类或识别的类别有充足训练样本的大样本假设。人工收集和标注的训练数据因需求巨大而极其昂贵,而模拟训练数据虽然较易得到,但难免与真实数据之间存在差异,容易导致测试准确率下降。而且,两种数据都难以涵盖所有不同场景和事物。现实世界中的机器学习则需要面对开放的、真实的、动态的环境,面临着以下两个关键挑战:开放环境中广泛存在着大量数据域偏离,已有工作难以适应新数据域,对新场景进行准确理解;开放环境还有新的类别动态出现,无法及时获得标注,已有工作难以在少量标注下准确识别新事物。开放世界中的事物往往符合长尾分布,正是“长尾”中动态出现的新事物为已有的机器学习模型带来了很大的困扰,使模型的效果显著下降。例如,全球已有数起由新场景识别失误引起的自动驾驶事故。这些事故的发生,暴露了已有机器学习模型泛化能力差,难以适应新环境的问题。产生人类智能的人脑具有系统性泛化能力,能够通过模块化组合旧概念快速学习新概念。为了让机器能像人一样在有限标注下适应新环境,识别新事物,需要研究开放环境泛化机器学习的问题。仉老师及团队在有关领域取得了多项研究成果,开发了一系列理论和算法。在泛化到新数据域(适应新环境)方面,进行了脑启发数据域自适应的研究,在因果解耦数据域自适应领域取得重要成果;在泛化到新事物(识别新事物)方面,进行了脑启发有限样本学习的研究,在组成型小样本学习和多模态有限样本学习方面取得了突破。因果解耦数据域自适应理论算法研究,受限于封闭实验条件,已有工作在数据域漂移下准确率显著下降。例如,在旧金山街景数据集上训练的模型不能很好地完成在欧洲街景中分辨物体的任务。机器泛化能力的缺失,与机器没有人类“透过现象看本质”,挖掘真正影响最终预测的因果特征,摆脱非因果环境特征的影响的能力有关。在人眼中,一头熊所以是熊与它处在草地或雪地上无关,而与它特定的形状和轮廓有关。草地、雪地等环境特征是非因果特征,而形状和轮廓才是真正决定一头熊的因果特征。仉老师及团队从因果特征挖掘的角度出发,为目标域上的误差提出了同时适用于分类和回归问题的新的泛化上界,首次将特征不变性和风险不变性统一在同一个理论框架,与已有理论研究形成了鲜明对比,也为增强泛化能力提供了新的设计原则,启发了新的理论研究思路。同时,团队基于该理论提出了首个同时学习特征不变性和风险不变性的半监督领域自适应算法,该算法挖掘可以同时最小化源域与目标域特征距离和最优分类器距离的因果特征,具有信息论可解释性,在各个数据集上得到了超越基准线的成绩,甚至可在无标签或有少量标签的情况下得到与内容有大量标签时相当的表现。此外,仉老师和团队还系统性地研究和提升了Transformer的泛化能力,并提出了稀疏注意力建模技术,突破了传统循环神经网络的误差累积困难,与此同时将预测速度提升了50倍,预测误差降低了60%。脑启发组成型小样本学习。认知神经学研究表明,人类具有的组成型识别能力可以帮助其在小样本情况下准确识别新的事物。仉老师及团队受到有关生物机理启发,创新地提出基于基元发现与增强的组成型小样本学习算法来模仿人的学习能力,进行小样本识别。基元发现阶段基于自监督学习,不依赖部件标注地学习物体的基元和结构,如发现动物的脖子、头部、四肢、长尾等身体结构;基元增强阶段则模仿神经学机理赫布学习理论(Hebbian