【深度】张钹院士谈模式识别面临的挑战:离人工智能的目标相距甚远,大家不要太乐观
2017年11月25日,由模式识别国家重点实验室、中国自动化学会模式识别与机器智能专委会、中国人工智能学会模式识别专委会联合主办的模式识别与人工智能学科前沿研讨会在中科院自动化所学术报告厅成功召开。会上请九位知名专家(谭铁牛院士、张钹院士、李海洲、徐波、李远清、唐杰、张长水、徐雷、刘成林)分别就学科不同方向的发展现状与趋势做了学术报告。在会议最后自由讨论环节,专家与现场听众进行了互动交流。
下面是第二个报告的讲话要点,由杨红明、张煦尧记录整理。
清华大学张钹院士做了题为“模式识别面临的挑战”的报告。在报告中,张老师列举和分析了在深度学习背景下模式识别领域所取得的新突破与新进展,同时也指出了当前模式识别中存在的问题和局限,并用一些实例形象生动地进行了展示和介绍。同时,张老师从人工智能方法论的角度出发,结合自己的具体工作,从理论和实践上深入分析了造成这些问题背后的深层原因。最后,针对当前模式识别中存在的主要问题,张老师不仅给出了一系列建议与解决方案,也介绍了关于这些问题的一些具体工作和进展。
在报告开始,张老师首先指出模式识别是深度学习的最大受益者,并列举了深度学习在模式识别问题中的成功应用与取得的重大突破,例如图像识别(2015年12月17日在ImageNet图像库上,微软图像识别系统的误识率低于人类: 人类: 5.1%, 机器: 4.94%)、语音识别(百度的中文语音单句的误识率低于人类: 人类:4.0%, 机器: 3.7%)、计算机围棋程序(AlphaGo2015年10月至今围棋程序实现三级跳)等。接下来,张老师着重解释了为什么围棋程序AlphaGo属于模式识别问题。在AlphaGo之前,围棋程序面临的主要问题是棋局状态的描述以及评价函数的定义。过去有人想出用电场的方式描述棋局,大都采用人工的方式定义评价函数,但这些方法取得的结果都不理想,得到的围棋程序只达业余水平。而AlphaGo只花了两年时间就实现三级跳,从业余到专业又到世界冠军,后来又大大超过世界冠军,最主要的创新就是把围棋盘面的描述、评价和决策问题作为模式识别问题来处理。AlphaGo采用了分辨率仅为的黑白图像来描述棋局状态,使其可以很容易地被计算机处理。在评价函数定义上,AlphaGo利用深度学习技术,通过自我学习,自我博弈来确定评价函数值,摒弃了过去人工定义评价函数的方法。将状态描述、评价函数定义转化成模式识别问题后,就可以用模式识别的办法来进行处理,使得围棋问题迎刃而解。接下来,张老师又对比分析了国际象棋和围棋的不同之处并指出背后的技术跨越。国际象棋相对围棋简单很多,它只有64个方格,所以可以用人工的办法来描述棋局状态,而且它的评价函数也可以通过人工定义,是一个包含8000多个参数的函数,这些参数可由国际象棋大师给出或者在下棋过程中进行人工调整,所以国际象棋是一个非常典型的理性推理问题。但围棋跟国际象棋完全不同,它不是一个理性推理问题,而是感觉和直觉的问题,感觉和直觉本质上就是模式识别问题。接着,张老师对深度学习带来的进展进行了更为本质的分析,指出深度学习带给我们最大的希望就是将人工智能变成真正的科学。因为现在机器学习、深度学习都是用数学模型、数学工具来解决特定的问题,这些工具是真正科学的,因为他们的结果是可度量、可验证的。把人工智能从原来启发式、就事论事,变成用科学的工具来解决问题,因此也被很多人称为是一场革命。
张老师认为产生这些问题的根源在于深度学习使用生数据并通过黑箱进行训练。生数据包含大量无用信息,但深度算法不会区分信息是否有用,会把所有输入当作有用信息。例如当输入一只包含猫的图片时,图片可能会包含大量背景信息,猫只占很小一部分。但计算机不知道猫所处的位置,就会把整张图片当成猫。其次,深度分类器采用黑箱训练的方式,我们不清楚其究竟学习到了什么内容,起到了什么作用。为了打开深度学习的黑箱,张老师的团队进行了一系列的工作。他们通过观察深度神经网络中各神经元反应的强烈程度以及其对输入图像各部分反应的强烈程度来分析和研究深度神经网络究竟学习到了什么内容。经过大量实验和分析,他们发现深度神经网络只能通过图像中反复出现的可区分的片段来识别物体,而不是从语义特征上来识别物体。换言之,深度神经网络学习到的都是图像局部重复出现的可鉴别的模式,而没有真正理解物体的语义信息,这种没有理解的识别不是真正意义上的感知。
张老师从人工智能方法论角度出发,深入分析和阐述了深度模型无法从语义上理解物体的原因。人工智能有两大途径,即符号主义和连接主义。符号主义从信息处理的层面(宏观)去模拟智能,依靠知识驱动,多采用数理逻辑的办法,这也是传统人工智能所研究的内容。连接主义从网络层面(介观)去模拟智能,形成了一套以概率为基础的数学方法,依靠数据驱动,这就是当前机器学习、深度学习所研究的内容。传统的人工智能将文本、语言在一个语义符号空间中进行处理,所以其理解事物的语义信息,是可解释的。而深度学习将图像、语音在特征向量空间中进行处理,所以无法获取事物的语义信息,是不可理解的。但是相较于在语义符号空间中进行符号处理和运算,特征向量空间中的向量更容易计算和处理,这也是深度学习相对于传统人工智能的优势所在。
为了使深度模型学习到物体的语义信息,真正理解物体,张老师进一步给出了相应的解决方案。那就是建立一个统一的语义向量空间,并把传统人工智能中的语义符号空间和深度学习中的特征向量空间都映射(提升)到语义向量空间。很多研究人员认为人的大脑可能就是采用了类似的工作机制。将语义符号空间映射到语义向量空间的工作已经有很多,这一过程被称之为嵌入(embedding)。为了将特征向量空间提升到语义向量空间,需结合更多脑的特点,发展新型网络模型。例如采用反馈连接、横向连接、稀疏发放、注意力机制、多模态、记忆形成等。张老师介绍了他们关于此方面的工作,他们在网络中加入稀疏发放和HMAX结构,使得网络可以更好地理解物体,而非只是学到图像反复出现的有区分性的局部片段。此外,张老师进一步介绍了今年在Science上发表的关于验证码(即CAPTCHA)识别的工作,该方法(称为Recursive Cortical Network的生成模型)在网络中加入了横向连接来保证轮廓的连续性和完整性,并通过多轮的正反向传播消除虚假的识别。最终该网络只需要少量干净字体的训练样本,就可以在不同背景的验证码上取得很好的识别性能。除了跟神经科学结合,发展新型网络模型外,张老师指出,要获得鲁棒可解释的模式识别,需要数据驱动与知识驱动结合,概率方法与符号方法结合,感性与理性结合。关于这方面,张老师介绍了他们在视频标注中的工作。在视频标注中,他们将视频的文本描述通过LDA嵌入到语义向量中,基于该语义向量和网络学习到的特征向量,来构建一个可解释性的损失函数。该损失函数可以和和视频标注的任务损失结合起来,共同训练网络,使得网络在完成视频标注任务的同时学到更富语义信息的特征表示。基于学习到的语义特征,可以让该网络拥有更好的可解释性,相关实验也证明了这一点。张老师进一步总结到,现有模式识别系统应该跟语义空间结合,使其拥有更强的可解释性,Science,Nature上最近发表的工作都是在这个方向上向前迈进了一步。接下来,张老师也简要提及了他们有关贝叶斯方法和深度学习相结合的工作。
来源:模式识别国家重点实验室