AI综述专栏 | 11页长文综述国内近三年模式分类研究现状（完整版附PDF）

Original 向世明刘成林人工智能前沿讲习 2022-04-16

收录于话题

AI综述专栏简介

在科学研究中，从方法论上来讲，都应先见森林，再见树木。当前，人工智能科技迅猛发展，万木争荣，更应系统梳理脉络。为此，我们特别精选国内外优秀的综述论文，开辟“综述”专栏，敬请关注。

导读

本文作者刘成林是CAA-PRMI主任，现任中国科学院自动化研究所副所长，兼任湖南工业大学人工智能学院院长；向世明是CAA-PRMI秘书长，中科院自动化研究所研究员，博士生导师。本文将主要介绍近三年国内在模式分类的基础理论与方法方面的主要研究进展，分析国内的研究特色，给出研究趋势和重大科学问题。

「关注本公众号，回复"模式分类"，获取本文的PDF版」

国内近三年模式分类研究现状综述

向世明，刘成林

中国科学院自动化研究所

模式识别国家重点实验室

一、引言

模式是指存在于时间和空间中可观测性、可度量性和可区分性的信息；模式识别是对模式进行分析与处理，进而实现描述、辨识、分类与解译[1]。用机器模拟实现人的模式识别能力，是智能信息处理的重要任务。模式分类是模式识别的核心研究内容，相关问题包括模式描述、特征提取、特征选择、聚类分析、分类器设计等。取决于具体的数据对象，模式识别的研究内容还包括信号/图像/视频理解、视觉目标分类、图像/视频检索、自然语言处理、语音识别等，以及面向各种应用的技术研究。

机器学习是一门研究机器如何识别和组织现有知识，获取新知识与新技能的学问。从人工智能的角度，机器学习是指从经验（比如数据）中产生模型（规则或学习算法）的一切方法论的总称。学习模型的构建是机器学习的核心研究内容，相关学习任务包含有监督学习、无监督学习和半监督学习。取决于知识表示形式、学习任务与学习环境，机器学习的研究内容十分广泛，涉及规则学习、类比学习、浅层（统计）学习、深度学习、强化学习、大数据机器学习等多个方面。

模式分类与机器学习紧密关联在一起。机器学习为模式分类提供数据分析和建模技术，是实现模式分类最为重要的工具。在上述学科背景下，本文将主要介绍近三年（不含2018年）国内在模式分类基础理论与方法及其应用等方面的主要研究进展，分析国内的研究特色，给出研究趋势和重大科学问题。

二、研究现状

（一）基础理论与方法

聚类和概率密度估计是模式识别的基本问题，与分类器设计、特征提取、特征选择等问题密切联系。近几年主要集中于集成聚类、多视图聚类、子空间聚类等研究方向上。特别地，中山大学的赖剑煌教授等[2]提出了一种基于稀疏图和概率轨迹分析的集成聚类方法，采用随机游走的方式来充分挖掘图上的全局信息，并通过引入随机游走概率轨迹相似性来获得更好的聚类结果。同时，该团队提出了一种基于因子图的集成聚类方法[3]，其优点是无需事先给定聚类个数，且能处理大规模数据。另外，他们还提出了一种基于最大积信念传播的多视图聚类方法[4]，其核心思想是构建一个学习模型来度量视图内的聚类质量和视图间的聚类一致性。云南大学的Yun Yang 等[5]将boosting和bagging方法应用于无监督学习环境，构建了一种基于混合采样和局部/全局结构信息的聚类集成算法。中科院西安光机所的李学龙研究员等[6]提出了一种基于重赋权判别嵌入的多视图K均值聚类方法，并在最小绝对值残差准则的基础上构建相关学习模型。大连理工大学的Xiaotong Zhang等[7] 提出了两种多任务多视图聚类方法，并分别构筑于二部图划分和非负矩阵多因子乘积表示之上。西北工业大学的韩军伟教授等[8]提出了一个基于双边K均值的快速协同聚类模型。在子空间聚类方面，清华大学的朱军教授等[9]提出了一种贝叶斯非参数子空间聚类方法；中科院自动化所的李琪博士等[10]提出了一种变换不变性子空间聚类方法，赫然研究员等[11]则提出了一种基于信息论的子空间聚类。北京大学的林宙辰教授等[12]提出了基于张量低秩描述和稀疏编码的子空间聚类方法。另外，西安电子科技大学的焦李成教授等[13]提出了一种基于多目标进化算法的稀疏谱聚类方法。

特征提取是高维模式分析的基本工具，是避免维数灾难的重要方法。在特征提取方面，近年来所取得的研究成果十分丰富。浙江大学的何晓飞教授等[14]提出了一种称为A－最优投影（A-Optimal Projection，AOP）的特征选择方法。AOP是一个基于线性回归的学习模型，能找到最优的基函数。这一模型可为图像描述提供新视野和新方法。中科院计算所的山世光研究员和陈熙霖研究员等[15]提出了一种多视角判别分析方法。另外，浙江大学的何晓飞教授等[16]提出了一种局部特征判别投影方法，引入了一种称为可微分散度判别准则来构建子空间学习模型，可适用于大规模局部特征维数缩减。西北工业大学的罗敏楠教授等[17]提出了一种对野点和旋转变换均鲁棒的主成分分析方法。西北工业大学的聂飞平教授等[18]提出了一种基于白化重构的二维主成分分析方法，能够在保持本质特征的同时减少图像像素冗余。西安电子科技大学的高全学教授等[19]提出了一种最优均值二维主成分分析方法。广东工业大学的尹明教授和北京大学的林宙辰教授等[20]提出了一种广义拉普拉斯低秩描述框架，能够较好地捕捉隐含于数据中的本质非线性几何信息。

在特征选择方面，浙江大学的何晓飞教授和蔡登教授等[21]提出了一种基于图正则化的无监督特征选择方法，其核心思想是利用图正则化技术让所选择的特征能够保持局部结构并能较好地重构原始数据。国防科技大学的侯臣平教授和西北工业大学聂飞平教授等[22]提出了一种基于线性判别分析和稀疏正则化的特征选择方法。南京航空航天大学的张道强教授等[23]提出了一种基于相似点对和不相似点对约束的L1范数稀疏特征选择方法。西安电子科技大学的Jinxing Che等[24]提出了一个最小最大非线性最优特征选择框架，其核心思想是保持所选特征的最大相关度和最小冗余。广西师范大学的Xiaofeng Zhu等[25]提出了一种鲁棒图稀疏无监督特征选择方法，并利用子空间学习、稀疏回归和鲁棒最小二乘建立学习模型。南京邮电大学的Yun Li和南京航空航天大学的陈松灿教授等[26]提出了一种基于能量正则化的稳定特征选择方法。中科院自动化所的王开业博士等[27]提出了一种可同时实现特征选择与子空间学习的多模态学习模型。为此，他们构建了一种多模态图正则化算子，并以此来保持模态内和模态间的相似性。该方法在跨模态检索中取得了较好的应用效果。

在分类器构造方面，国内学者取得了一系列研究成果。清华大学的朱军教授等[28]提出了一种有关核贝叶斯推断的最优化方法，构建了一类新的后验正则化核推断框架，给出了有关核贝叶斯推断的新见解。南京大学的周志华教授等提出一种可用于大规模数据的多示例学习方法[29]和一种可充分利用未标注数据的大间隔分布学习方法[30]；同时，发展了一种半监督支持向量学习机，并设计出相关学习方法来确保未标注数据能够提升分类器的性能[31]。南京航空航天大学的陈松灿教授等构建了一种在错误校正输出码框架下可联合训练多个两类分类器的方法[32]，同时提出了一种多类AdaBoost分类器设计方法，并对错误标注的样本具有较好的鲁棒性[33]。中科院自动化所的张煦尧博士等[34]提出了一种目标回重定位判别最小二乘回归方法，采用类别标签竞争机制来提升多类分类精度；汪凌峰博士提出间隔可调的判别最小二乘回归多类分类模型[35]。浙江大学的张文重博士等[36]提出了一种稀疏支持向量机方法，可用于大规模样本和超高维情形。中科院自动化所的徐贵标博士等[37]提出了一种对野点鲁棒的支持向量机方法，通过构建单调、有界和非凸的重缩放合页损失函数来提高学习机对野点的鲁棒性。针对支持向量机割平面算法，清华大学张长水教授等[38]提出了一种高效的线搜索策略，并将该策略应用于多类线性支持向量机，降低了模型的计算复杂度。

在稀疏学习与字典学习方面，浙江大学的张文重博士等[39]提出了一种基于随机合成优化的稀疏学习方法，并给出了多个紧凑的算法和相应的理论分析。在低秩表示与建模方面，北京大学的林宙辰教授开展了系统性研究工作，并与张弘扬一起出版了相关专著[40]。实际上，字典学习与稀疏表示紧密相关。中科院自动化所的向世明研究员等[41]提出了一种耦合字典学习方法。北京大学的林宙辰教授等[42]提出基于双水平模型的判别字典学习方法。清华大学的鲁继文教授等[43]提出了一个可同时进行特征学习和字典学习的模型；Xiudong Wang等[44]则提出了跨标签抑制的结构化字典学习方法。中山大学的Ke-Kun Huang等[45]将线性稀疏表示框架扩展至核稀疏表示框架。武汉大学的Xiao-Yuan Jing等[46]提出了一种多标签字典学习方法。上海交通大学的Yefei Chen等[47]提出了一种稀疏嵌入字典学习方法。华南理工大学的Yuhui Quan等[48]提出了一种基于多类分类集成的监督字典学习方法。南京邮电大学的Fei Wu等[49]提出了一种多视图低秩字典学习方法。南京信息工程大学的刘青山教授、袁晓彤教授、刘光灿博士等在稀疏优化、字典学习等方面也做了深入的研究工作[50,51]。这些工作丰富了字典学习的方法体系。

在度量学习方面，相关研究成果也十分显著。南京大学的周志华教授等[52]提出了一个统一的多度量学习框架，能充分整合诸如空间关联和语义关联等多种不同内涵的度量。西安电子科技大学的高新波教授等[53]提出了一种多任务稀疏度量层次学习方法。浙江大学的Pengcheng Shen等[54]提出了一种分布式半监督度量学习方法。面向两类分类任务，中南大学的Yan Wang等[55]提出了一种基于Burg矩阵距离的层次度量学习方法。华南理工大学的Yonghui Xu等[56]提出了一种度量迁移（转导）学习方法，并给出了一个统一的学习框架。清华大学的周杰教授等[57]提出了一种深度迁移度量学习方法。中国科学院大学的田英杰教授等[58]提出了一种局部和全局一致的度量学习方法。中科院计算所的山世光研究员和陈熙霖研究员等[59]提出了一种欧几里德－黎曼度量学习方法，并在大规模视频人脸识别中得到应用。

随着人工智能技术的深度应用需要，强化学习也得到深入研究。针对大规模或连续状态空间马尔可夫决策过程，国防科技大学的Xin Xu等[60]提出了一种基于流形正则化的强化学习方法。南京大学的Yujing Hu等[61]提出了一种基于非共享值函数的多智能体强化学习方法，Luowei Zhou等[62]提出了一种基于稀疏交互、对话与知识传递的多智能体强化学习方法。清华大学的戴琼海院士等[63]提出了深度方向强化学习方法，给出了任务敏感后向传播算法。北京科技大学的Ruizhuo Song等[64]提出了一种Off-Policy Integral强化学习方法，并将其应用于非线性连续时间多人非零和游戏对抗之中。青岛大学的Zhen Zhang等[65]提出一个基于最大奖励Q学习的多智能体强化学习方法。中国石油大学的Weifeng Liu等[66]提出了一种在线强化学习方法，并将其应用于情绪预测之中。

在概率图模型与结构模式识别方面也呈现出诸多亮点工作。特别地，清华大学朱军教授的课题组取得了一系列研究成果。比如，他们提出了一种如何提升贝叶斯隐变量学习模型多样性的方法，所提方法能够利于捕捉到不常见的模式并同时减少模型规模[67]；提出了一种大规模隐狄利克莱分派模型学习方法，给出了一种基于随机梯度Langevin动力学的并行分布式采样方法[68]；提出了判别相关主题模型和最大无限隐马尔可夫模型[69,70]。另外，电子科技大学的高新波教授等[71]提出采用马尔可夫网络来获取异质人脸图描述方法，可较好地利用图像空间来提高识别精度。南京航空航天大学的陈松灿教授等[72]提出多稀疏高斯图模型联合学习方法。中山大学的林倞教授等[73]提出了一种“与－或”图结构，并将其应用于形状检测。

最近几年，深度学习无疑是模式识别和机器学习领域中的热点研究方向。国内在深度学习的应用方面取得了前所未有的新成果，并在自然图像目标检测与识别、图像分割、语音识别、生物特征识别等方向上尤为显著。相关研究成果将由专题进行论述。本报告主要从新型网络结构及学习的角度对国内（注：此处不含微软亚洲研究院等企业的研究机构）近年来相关研究成果进行总结。清华大学的朱军教授等提出了一种条件生成矩匹配网络[74]。该网络的作用是在给定一些变量的情况下借助于平均最大差异来学习条件分布。同时，他们还提出了一种三元生成式对抗网络[75]。该网络的结构由生成器、判别器和分类器所构成。中科院自动化所的胡卫明研究员等[76]提出了一种判别相关滤波网络，可在深度学习的框架下充分利用相关滤波器的优势，在视觉目标跟踪任务中取得较好的应用效果；王亮研究员等[77]提出了一类基于不规则滤波器的深度卷积神经网络，扩展了现有模型的网络拓扑结构。浙江大学的蔡登教授等[78]提出了一种深度旋转不变网络，该网络由循环层（cycle layer）、等分层（isotonic layer）、回收层（decycle layer）所组成，并可通过对滤波器的旋转操作来获得更快的计算速度。上海交通大学的俞勇教授等[79]研究了多类标签对生成式对抗网络训练的影响和作用，并在此基础上提出一类称之为激励最大化对搞训练方法。上海科技大学的马毅教授等[80]构建了一种新颖的多列卷积神经网络结构，并在人群密度估计中取得了很好的应用效果。中科院自动化所的程健研究员等[81]则对神经网络的压缩进行了深入研究，提出了一种称之为量化卷积神经网络的新技术。另外，南京大学的周志华教授和冯霁博士提出一种多示例多标签深度学习方法[82]，其网络结构由示例生成层、深度示例层、子概念层、示例－标签层等部件所构成，可充分利用多示例多标签任务的特点。同时，他们还提出了深度森林模型[83]，并将其命名为gcForest。在结构上，gcForest 是一种多粒度级联森林；在学习方法上，该模型是一个决策树集成学习模型。gcForest 使用相同的参数设置，在不同的域中都获得了优异的性能，并在大规模和小规模数据上均有较好的表现。因此，该方法是“向着深度学习以外的方向进军”的标志性工作。

（二）应用研究

最近几年，随着人工智能技术的广泛应用以及相关概念的提出，模式分类方法的应用研究也取得了十分丰富的成果。应用研究的范围十分广泛，涉及到人工智能的各个方向和各类型应用。特别地，在文字识别、语音识别、自然语言处理、生物认证、医学图像分析、遥感图像分析、多媒体分析、信息检索、社会感知数据智能处理、大数据分析等多个任务中取得了重要的研究成果。对上述各方面全面的总结已经超出了本文的范围。围绕模式分类方法的应用，本报告就信息检索、视觉计算、方字识别、生物特征识别、遥感图像处理等方向列举部分应用研究成果。

在信息检索方面，北京、南京、杭州、上海、合肥、广州、武汉、哈尔滨等地的高校或研究所等均做出了一系列的研究工作。特别地，在哈希学习方面，南京大学的李武军教授等[84,85]开展了一系列研究工作，相继提出了多种深度哈希学习方法。浙江大学的蔡登教授等[86]提出了密度敏感哈希方法。中科院计算所的山世光研究员和陈熙霖研究员等[87]提出了快速监督深度哈希学习方法。中科院自动化所的丁昆博士等[88,89]发展了标签变换哈希、核哈希以及局部保持跨模态哈希算法，引入了非对称编码和排序保持思想。中山大学的郑伟诗教授等[90]提出了半监督多视图离散哈希学习方法，并将其应用于图像检索。清华大学的周杰教授等[91]提出了非离散哈希学习方法。另外，中科院自动化所的王开业博士等[27]提出了基于特征选择与子空间学习的跨模态检索；向世明研究员等[92]提出了一个端到端跨模态双向深层神经网络模型，利用该模型可以同时实现两个任务，即以“句子”作为查询来检索图像和以“图像”作为查询来检索句子。

基于深度学习的视觉计算方法得到空前发展，视觉计算系统的精度和鲁棒性有了很大提高。全面系统地对此方向进行总结已超出了本文的能力和范围。特别地，公安部第三研究所过去几年连续在世界最具影响力的视觉目标识别竞赛ILSVRC (ImageNet Large Scale Visual Recognition Challenge) 中取得优异成绩（包含分类任务冠军等显著成绩）。同时，国内研究人员构造了一大批面向计算机视觉任务的新型神经网络模型。比如，中科院自动化所的黄岩博士等[93]构建的多层双向RNN模型，在视频超分辨率中得到了较好的应用。中山大学的林倞教授和南京理工大学的唐金辉教授等在行人分割上取得了重要研究进展。具体地，一方面，他们构建了一种可充分利用上下文信息的新型卷积神经网络结构[94]，并在人体部件解析中取得较好的应用效果；另一方面，他们提出了基于深层卷积神经网络的弱监督学习框架[95]，并在视频行人分割中得到应用。另外，西安电子科技大学的高新波教授等[96]提出的判别多示例多任务学习方法在三维动作识别中得到应用。西北工业大学的韩军伟教授等[97]提出了一种新的多示例学习框架，并将其应用于视觉显著性目标检测。中国人民大学的Zhiwu Lu和北京大学的王立威教授等[98]提出了一种弱标签和噪声标签鲁棒的图像语义分割方法。

在文字识别方面，中科院自动化所、华中科技大学、华南理工大学、北京科技大学等相关课题组也取得重要研究进展。比如，中科院自动化所的刘成林研究员等[99]提出并完善了基于过切分框架的集成多上下文的中文识别算法，该方法结合传统识别框架和深度学习模型的优点，取得了较好的性能，并在多个实际项目中获得了成功应用。同时，他们提出了一种基于递归神经网络的生成式模型[100]。从类脑的角度出发，读和写是密不可分且协同发展的两项技能。“读”对应的是判别式模型，而“写”对应的是生成式模型。为此，他们将递归神经网络RNN、长短记忆单元LSTM、以及Gated Recurrent Unit, GRU等进行有机结合，建立了一个条件式的生成式RNN模型用来动态模拟汉字的书写过程[100]。在此模型中，每一个笔划用一个高斯混合模型GMM来建模，而笔的状态（抬笔、落笔、结束）则通过softmax函数来建模。字符书写过程中的状态转变过程则通过GRU的隐含状态来刻画。该模型还可以自动地判断是否继续书写（采样）下去，还是停止书写过程。通过该模型，机器可以随意按照不同的风格，自动地书写多达数千类汉字，且其书写结果可以准确无误的被人和机器所识别。另外，华南理工大学的金连文教授等提出一个主成分二维LTSM模型，并将其应用于中文单字识别[101]；同时，提出了一个端对端在线文本独立书写人识别框架[102]。基于卷积神经网络，华中科技大学的白翔教授等提出了一种含有文本和不含文本的自然图像识别方法[103]，同时还提出了一种多尺度多水平场景文字表示学习方法[104]。这些工作有力地推进了我国文字识别研究与应用水平。

在生物特征识别方面，国内学者也取得了显著成果，研究水平处于国际前沿。比如，中科院自动化所的王亮研究员等[105]提出了基于卷积神经网络的多视角步态识别方法，廖胜才博士等[106]提出了一种基于归一化像素差异的快速精确无约束人脸识别方法。中山大学的郑伟诗教授等[107]提出了一种开放条件下行人再识别方法，并从机器学习的角度构建了可传递局部距离比较信息的学习模型。电子科技大学的高新波教授等[71]提出了基于马尔可夫网络的异质人脸识别方法。

在遥感图像处理方面，依赖于传统信号处理理论与方法的应用开发模式逐步被打破，模式识别与机器学习在一些关键技术构建和传统问题的解决等方面提供了全新的思路。中科院自动化所的潘春洪研究员等[108]构建了一种具有多级侧引输出的多任务卷积神经网络，并将其应用于城市道路分割与道路中心线提取。武汉大学的张良培教授等[109]提出了一种基于判别式局部度量集成学习的高光谱维数缩减方法；同时，提出了一种基于半监督主动学习的高光谱图像分类方法[110]。西安电子科技大学的焦李成等教授[111]提出了一种基于判别核聚类的多核心学习策略，并将其应用于高光谱波段选择。湖南大学的李树涛教授等[112]提出了一种基于深度信念网络的高光谱图像分类方法。这些工作有力地促进了模式分类方法在遥感图像解译中的应用研究水平。

三、研究特色与发展趋势

（一）国内研究特色

近年来，国家加大了对科技创新的投入，科研经费迅速增长，研究条件不断地得到改善。比如，科技部启动的“云计算和大数据”重大专项、国家自然科学基金委启动的“大数据驱动的管理与决策研究”重大研究计划、等等。这些计划的核心研究内容之一就是发展新型模式识别与机器学习理论与方法，为国家相关行业提供核心技术支撑。这些计划的实施有力地系统地促进了国内的相关研究工作。

另外，国内研究的硬件设施条件接近甚至部分超过国际主流研究机构的条件，国内学者参加国际交流机会日益增加，在国际学术界的显示度也越来越大。同时，在国内开展研究的一个有利条件是国民经济迅速发展所带来的巨大技术需求也有力地促进了本领域专家学者对基础理论、概念和方法的思考与探索。

总结起来，参照国际模式识别、机器学习的研究水平和趋势，可以看出国内学术界的研究特色：

在模式分类与机器学习基础理论方面，国内学者在特征降维（包括参数方法和非参数方法、流形学习、子空间学习等）、分类器集成、多示例多标签学习、迁移学习等方面仍然处于国际前沿水平，发表了大量有学术影响的成果。在深度学习应用方面，国内学者也得取了十分可喜的成果，在多个有重要影响的国际竞赛中均得优异成绩。一些研究成果在国际上有重要影响。另外，中科院、“北京、南京、杭州、西安、上海、武汉、广州、合肥、天津、成都、哈尔滨等”诸高校群体在模式识别、机器学习及其应用研究等诸多方面均取得到了显著成果，在计算机视觉、信息检索、自然语言处理、语音识别等方面成绩斐然。

总体说来，国内模式识别、机器学习发展势头良好，涌现出一大批具有国际影响力的专家。比如，国内学者在人工智能国际重要学会担任Fellow的人数逐年增加。但是，相对于美国、加拿大等国家，在机器学习的重要原始成果创新方面数量（项数）方面相对较少。在学术界、工业界具有双重影响的零基原始创新工作（比如AlphaGo）也较少。

（二）国际研究趋势

互联网、人工智能等技术的普遍应用不断地催生着诸多新型的模式识别与机器学习问题。在技术上，传统的分类器构造、回归分析、局部学习、稀疏学习、迁移学习、多视图学习等仍然是解决小样本问题的主流方法。另外，以来自于物理空间、网络空间、社会与人的多源异构、海量混杂、时空演变的大数据为研究对象，出现了一些新型的模式识别问题，诸如物理空间与网络空间的协同感知与建模、跨场景复杂视觉数据分析与理解、面向多源异构数据（跨媒体、跨模态、跨空间数据）的分类器构造、聚类分析和关联学习等，迫切需要我们发展新的模式分类、机器学习理论与方法来解决这些问题。

特别地，大数据具有多模态、价值密度小、变化快速、海量等多个显著特征，未来的模式识别与机器学习方法将离不开大数据处理这一主战场。在理论与方法层面，主要呈现出以下一些研究趋势：研究高效的关联学习方法，充分挖掘蕴含于大数据多样性中的价值；构建面向大数据的价值模式分析方法，研究隐含模式发现方法、类不平衡模式分析方法，有效地解决大数据中的小模式检测问题；研究冗余海量数据、海量噪声数据中的精准的知识激活方法、知识消歧方法，提高海量数据的利用效率；研究海量非结构化时序数据分析方法，建立高效的事件检测、演化与预测模型，以适应大数据快速演化特点；研究面向大规模数据的模式分类、模式聚类、知识推理、非结构化特征学习等方法，拓展现有经典方法的大数据并行处理能力。

在核心的共性方法研究层面，近年来，深度学习在语音识别、自然图像分类、自然语言处理、大数据等领域取得了巨大的成功。深层神经网络中的层次式处理思想将逐步推广到不同的信息处理问题。同时，深度学习方法必将被应用于一些新的行业之中，比如商业领域基于各类大数据的挖掘与推荐（精准商务）、基于车辆受损图像的自动保险定损、智能驾驶、健康大数据分析、遥感时空大数据分析、空间分析与应用、天气预报、国防与公共安全保障，等等。

另外，随着AlgpaGo项目的成功，作为一种共性方法，强化学习被提升到一个新的高度。实际上，强化学习已经在人机对抗中显示出强大的生命力。强化学习的思想已在传统的模式识别任务中逐步发挥重要作用。因此，强化学习也是未来重点发展和应用的方向。

最后，人脑具有多模态信息处理、自主学习、实时更新等特点。发展“结构层面类脑与认知层面类人”的模式识别理论与方法，充分引入人的感知机理，以脑结构、神经形态学、类脑研究的最新成果为引导，研究高效的跨模态非结构化协同学习理论与方法、小样本主动可增强自学习自演化方法、自主特征学习方法、自动目标感知与识别方法、类脑神经网络结构学习方法等，也是一个新的研究领域。

因此，总结起来，笔者认为，当前尚有如下三大重要科学问题需要进一步深入研究：

（1）面向大数据的模式识别理论与方法

大数据智能分析与处理的难点在于数据呈现多样性、海量、快速变化，且价值密度小。需要重点研究多源（多视图）协同模式分析理论与方法、异构数据的模式聚类与分类方法、海量超高维类不平衡数据模式分析理论与方法等。

（2）面向非结构化数据的模式识别理论与方法

大多数模式识别任务均涉及到非结构化数据（如视觉感知数据）。建立从非结构化数据输入到结构化数据输出（如类别、关系等）的模式分析系统一直是多种不同应用行业的共同需求。需要重点研究基于特征自学习的模式分类理论与方法，建立以深度学习为基准的无监督特征学习理论与方法，构建面向复杂条件的、鲁棒的、环境无约束的模式分析理论与方法。

（3）类脑/类人模式表示与学习的理论与方法

人脑对非结构化感知数据的具有超强的学习和理解能力。人脑的神经系统结构与现行的计算机体系结构截然不同。因此，研究“能够模拟人脑神经结构的、认知机理的和类人学习的”新型模式表示、学习与识别的理论与方法策略等，有望从根本上解决非结构化感知数据的高效处理和理解问题。

四、展望

从学科建设与技术应用的角度来看，模式识别、机器学习是提升我国人工智能应用水平的核心技术，是构建智能计算系统的核心基石。特别地，随着“创新2020”、“人工智能2.0”、“工业5.0”等国家层面的战略设计的相继启动，对模式识别、机器学习相关人才和技术的需求十分迫切。模式分类是其中最具活力的研究方向。但是，传统的难点基础理论问题和技术瓶颈问题尚未得到全面充分解决的同时，在基于泛在感知的海量信息智能化处理的过程中正不断地产生着诸多新型的模式分类问题。

因此，我们需要在基础理论研究以及具有重要应用前景的技术开发等方面提出零基原创性的主流方法和核心算法；我们需要在研究中着力培养一批既懂理论方法又能掌握核心关键技术的复合型人才；我们需要学术界和工业界共同努力力争在理论创新、系统创新和应用创新等方面的国际全面领先地位；通过创新外部机制和内部平台，推动我国人工智能技术水平的跨越发展。

总结起来，当前应用需求主要包括以下几个方面：（1）社会服务与公共安全的需要，包含海量庞杂、跨时空、跨区域、跨行业、跨部门、社会－人的物理空间和网络空间大数据处理、挖掘、服务与管理决策；（2）国家安全的需要，包括军事目标图像和军事情报数据的自动分析，互联网态势分析和反恐等、空天情报实时智能化处理；（3）基于泛在和精密感知的智能环境理解、智能人机交互、智能机器人、智能辅助系统等尤其需要先进的模式识别方法驱动的视听觉信息理解技术；等等。

五、结束语

围绕基础理论、方法与应用，本文主要介绍国内模式分类的研究进展，分析国际学科发展趋势以及国内研究特色与差距。总结起来，国内学者在模式识别与机器学习及其应用的研究上取得了一批具有国际水平的学术成果。在以后的工作中需要进一步加强基础研究的力量，稳定现有研究队伍，拓宽人才培养途径，注重高层次人才引进，加强与企业的合作，促进模式识别、机器学习与脑科学、认知科学、社会科学等领域的交叉与融合。

______

注1：本文没有包含国内企业的研究工作，比如微软亚洲研究院和诸多知名的高新企业等的研究工作。

注2：由于多种原因，一时难以明确多数文章的第一作者的中文名，因此仅以其课题组老师或直接采用第一作者的拼音进行描述。

注3：由于作者水平所限，文中肯定有诸多错误和不足之处，敬请批评指正；同时，本文可能遗漏了诸多国内重要的研究工作，请至邮件smxiang@nlpr.ia.ac.cn。

注4：撰写本文的目的是仅供本领域同行交流，欢迎原文转载。

扫描下方二维码加入模式分类综述讨论群

志愿者持续招募中，有意者联系微信号"AIDL小助手(ID:must-tech)"

历史文章推荐：

AI综述专栏 | 国内近三年模式分类研究现状综述（附PDF）

AI综述专栏 | 朱松纯教授浅谈人工智能：现状、任务、构架与统一（附PPT）

【AIDL专栏】熊辉：《易经》如何指导我们做人工智能？

【AIDL专栏】罗杰波: Computer Vision ++: The Next Step Towards Big AI