查看原文
其他

符号主义AI和深度学习结合有哪些组和研究方向值得关注?

许铁 混沌巡洋舰 2023-04-28
 神经符号主义是AI发展的一个关键, 一是神经符号不同于机器学习,确实把握了一些当下AI没有解决的痛点, 二就是这个方向经过我亲手实践,觉得其实是有产业应用的潜力的。
何为神经符号主义(neural symbolic)?我们知道人工智能的经历过古典时期的以符号为依托的专家系统阶段(用符号表达的各种规则,比如if apple is red, then eat), 中期的统计机器学习, 和近期连接主义深度学习, 深度学习和基于符号的专业系统分别是最新和最古的两个流派, 然而这最老和最新的东西却不是对立的关系, 它们的统一就是神经符号主义-结合了符号表达的专家知识的神经网络系统。
为什么要结合?传统的专家系统就不用说了, 那些老家伙其实无法处理真实世界的任何问题, 它能模拟的知识和符号仅仅是非常局限于人类语言和数学整理出来的一小部分知识,遇到一个真实世界的问题, 比如任意一个视觉识别问题, 如人脸, 都存在大量无法言说的规则, 用if else无论如何都写不出一个人脸识别程序。因此从数据中直接学习特征或规则很快替代了专家系统。其中的集大成者是深度学习。而深度学习虽然给AI打了一剂强心药, 使得人脸识别这样的算法几乎进入了每个人的生活, 但是在自动驾驶等领域, 这个方法论是雷声大雨点小, 尽管一家家创业公司如雨后春笋, 产业化的步伐却步履蹒跚, 其背后的原因在于神经网络虽然善于单点突破某个问题(只要数据喂饱),但是它不理解这个世界,而整个自动驾驶是由无数的子问题构成的, 比如如何在大雾里辨识方向, 如何区分公交车上的巨幅广告上的人和真人,这些子问题的数量是不可枚举的, 单一使用深度学习,很快的就会陷入到不停的补漏也补不完的境地。而相比下, 老司机可以解决任意新问题,因为老司机解决问题用到的是从它几十年的生活常识, 不需要训练。人类的常识(知识)是一个不可分割的整体,描述了人类经历的整个世界, 这些知识可以被迅速的泛化到不同的新问题里, 是一个用有限应对无限的过程。
而神经符号主义试图让神经网络结合人类知识最终掌握这个完整的知识体系, 并且不失去神经网络的灵活性。我觉得神经符号系统也和AI一样有初级版本和进阶版本,和最终版本。所谓初级版本, 是简单的把神经网络和人类语言或知识图谱整合, 进阶版本, 是具有一定符号推理能力的多模态网络, 而最终版本, 就是通用人工智能 - AGI。
所有的知识都是建立在概念,而比每个概念更深刻的, 是其对应的结构,因此神经符号主义的三个要素,一个是概念的神经表示, 二是结构的形成, 三是应用概念结构解决新问题。
先看概念, 当下深度学习主要解决的核心问题是用庞大的神经网络对当下的问题进行表征, 大部分神经网络都是一个分类器, 它把不同的感知信息转化为可以被分类的符号, 比如形状,颜色, 复杂的如人脸,分类器所捕捉的是变化中的不变性,这其实是人类形成概念的基础。
但是单一离散的符号离实际人类的概念差异是巨大的。这个差距主要来自于人类的概念是符号和符号组成的网络结构,而非单一的符号。不同的深度学习网络有的学习颜色形状, 有的学习猫狗, 有的学习人脸, 每个都是解决分立的问题,但却无法真正构成人类的网状概念体系, 比如颜色和形状如何共同表征了物体, 人脸的形状, 肤色 ,眼睛鼻子如何一起构成了人脸, 这些特征不是割裂的,而是一个层次化的体系。如果要让神经网络能够掌握视觉概念,而不是单一分类, 就要把这些缺失的结构化信息补齐, 比如机器看到一个苹果, 要知道它属于水果,属于生物体,属于物理物体, 物理物体要占据一定的空间因此有大小形状,而作为水果它有味道,有食用性, 这些类(class),属性(attribute), 可以被一个个神经网络分类器捕捉, 并被一个个图结构有效组合(简单可以理解为一种知识图谱,比如家族树的结构),组合后就得到完整的苹果概念。构建这些分类器,并用相应的图结构把它们绑定, 就是构建这样一个视觉概念体系的基础。
这个过程和人类写程序时候有一个meta (父类)和其相关的属性功能,再有子类和属性功能, 是类似的。当一个新的实例出现(比如视觉里出现一个物体),我们通过attachment(binding)把它们的相应概念meta绑定, 并通过一个个分类器赋予属性,就将视觉中出现的这个物体和人类的知识体系连接到了一起。这就是神经符号感知的基础。这里工作量浩大的是构建很多的分类器去解决一个个单一的符号, 好在当下的深度预训练模型正在为这些小的分类器提供一个统一的底座。
这样机器人眼前的苹果就不仅仅是一个可以识别的物体,而是一个具有了完整的知识,可以决策机器人行为的情景, 它可以根据情况决定是不是给这个苹果拿给主人。如果苹果是甜的, 而主人是糖尿病老人, 它需要根据背景知识作出决定不给, 而如果是一个儿童可能这个决策就是给吃。
这个从感知概念到行为决策的过程,是神经符号主义所能体现的第二价值,我们通常称之为认知过程。认知很容易用符号和规则表达, 让机器做出人可以理解的决策。
它一样也需要用到关于结构的知识, 关于这部分结构的描述, 实际的零散分布于神经科学和认知科学的各个方向上,我们通常认为需要构建一个关于任务的符号结构来指导行为。科学家最早从小鼠的海马体得到了这方面的启发。因为大脑通过构建一个叫做“认知地图”的结构, 来指导我们任何跟导航有关的任务, 一篇叫做TEM(The Tolman-Eichenbaum Machine: Unifying Space and Relational Memory through Generalization in the Hippocampal Formation)的文章,提出关于meta structure prior 的想法,认为各种各样的元结构来自于海马体对空间的表征, 这个理论说动物通过不停的探索周边环境掌握了“位置”这个关键概念, 位置之间形成矢量关系,构成“空间”结构, 这个结构被用来刻画任何新环境,指导动物导航。这种关于空间有关的结构可以用来解决其它任务, 比如推理社会关系。
另一个关于任务结构的理论被称为“全局操作空间”(global workspace),这个理论有点像计算机“栈“的概念, 它说我们大脑里有那么一个“戏台” ,它把刚刚讲的从感知或空间里得到的各种抽象结构组合到这个戏台上面,根据任务目标, 来指导一个个木偶戏,这理论可以用来解释意识(木偶戏的编剧或导演)也可以解释不同的结构如何与当下环境的感知信息结合, 被调用来解决当下的任务。它暗含了在所有行为背后的各种动机, 一旦动机产生, 当下的记忆, 和现在感知的各种元素就被很灵活的组织起来,通过演习, 来指导真实世界的行为。
链接,拼装各种概念,形成任务等等,其实正是为我们的语言背后的最根本的东西,我们可以叫它脑语言, 它是我们复杂纷繁语言背后的支撑, 就好像你的念头出现的时候, 你未必能够说出来但是行为已经执行出来了, 这个执行调用的机制是先于我们的表观语言了, 因此可以称为脑语言, 它就是全局操作空间的剧本,具有调用各种神经网络结构的能力。
总结一下, 用神经网络形成相应的表征(分类器),把它们和人类层级化的概念相连, 通过meta 来赋予不同的感知信号以不同的概念class, 这是神经符号主义的初级阶段, 对应人类智能最底座的部分,在此基础上,如果加入和任务有关的结构, 也就是认知, 就构成神经符号主义的中级阶段。
自动驾驶等问题的症结, 也来源于没有打通这种自底层到顶层的智能原理,而只在表征层有所体现。也就是没有彻底的解决常识问题, 对于常识孤岛,只模拟了语言里最浅层的部分。而没有阐释其基础。
如何达到中级阶段的方法论:
神经符号整个对符号进行组合调用机制正好可以和人类思维结构的系统一和系统二相对应。所谓系统一 ,就是条件反射式的,比如主人发布了一个命令:给我拿杯水来,脑语言会被分解成为相应的符号, 比如 发现 水杯 , 检测位置, 抓取这个连续的算子组合。
一, 低级调用机制, 构建一个算子集合,对应人类语言中最高频最基本的操作,比如看,找,拿,抓, (如形状,颜色,材质), 同时, 使用之前的概念底座, 这些概念不仅是可以被神经表征所表达(MLP),还可以被算子操作,并被刚刚描述的脑语言系统所调用,也就是符号可以被有机的组合变成可以执行的行为。当一个信号到达的时候,会触及一套基础算子的连续反射完成任务。
二, 构建动机机制, 这个人类行为的根本机制,当不同感知信号到来时候, 人类的认知系统二会对情景加以阐述,也就是我们俗称的脑补过程, 我们会有意识的生成一个目的, 这个目的不一定是当下可以达到的状态, 而代表了一种理想的状态。而行为会根据当下的情景和这个理想的差距, 像一个在势能驱动下的发动机一样,源源不断的产生。
这个根本机制背后,就体现了神经符号系统的第二个优势, 也就是目标, 和行为都有相应的符号, 而目标到行为的构建, 则需要一个完整的世界模型的加入, 这个世界模型, 也要通过符号来构建。这个整个构建过程,也就是我们通常所说的大脑认知过程。
这部分的关键点在于回答两个问题, 1, 目标和动机是如何产生的。2, 目标和动机如何产生行为两部分展开。首先看1, 这个过程本身可以说是非常尖深的过程,也就是取决于什么是self, 自我。自我驱动那个目标机制背后组最根本的东西, 也体现不同的智能体, 人和人,人和动物最根本的区别 。
简单来看, 也可以把目标机制也看作是一种条件反射, 也就是应对不同事件,我都记住一个事件到目标动机的映射表, 这就可以通过数据来学习。复杂的看, 这个目标产生的机制涉及到所有哲学家探索的那个终极命题-生命的意义。
我们在看第二部分,这个第二部分, 是阐述如何从动机产生行为,这就包含了人的主观动机和真实世界的差异性, 和解决这个矛盾的根本方法所在。我们需要用我们的身体动作或语言, 产生一个对外的action,action可以改变世界到另一个状态, 同时我们在跟着发出第二个动作,以至这种矛盾和差距逐步缩小。这在Marvin minksy的文章里有很详细的描述。动作的结果也就是我们经常说的物理因果, 可能通过这种因果的投射, 我们也会产生对客观世界因果规律的探究。这也是和强化学习的机制是相通的,学习一个环境在行为下的改变称作世界模型,通过衡量这种改变的厉害得到一个价值函数, 通过两者的匹配得到任何game下可以行为自如的agent。
当然这种框架在面对真实世界问题的时候是有其局限性的 ,这个局限性在于, 我们需要离散的事件来结构化这个世界, 这是一个极高难度的诉求 ,同时,我们要能够学习事件之间的因果关系, 比如要构建一个厨房中使用的机器人,它需要理解牛肉加热 – 熟了, 何为加热, 何为熟了, 这些知识的表示和学习是高难度的问题,已经触及到了当下因果学习的天花板。
为什么会有这种局限性呢?这说明即使刚刚描述的神经符号框架, 离真正的人类智慧依然具有差距 ,首先这种事件因果和目标驱动的机制并不太能解决类似数学证明这样的问题。当然这里依然有目标驱动, 但是推理的过程却复杂的多, 人类形式逻辑所总结的一套已经十分经典,它通过总结逻辑规则来解决因果问题, 它是一种高度浓缩的单链结构, 比如if man is hungry, he wants to eat 。这部分东西是通过单纯的神经网络非常难学习的,而直接使用人类知识,则会回到专家系统所存在的各种问题。即使这部分可以完成,形式逻辑和直觉是如何像人一样完美结合在一起的, 依然是一个很难的命题。关于这部分工作,可以参考NAL系统 , 和knowledge engineering的工作, 同时可以联系所有知识图谱的工作。

神经符号框架的应用:
神经符号的价值在于提高模型的可解释性(概念,因果),小样本学习能力(概念是可以在不同问题间迁移的),掌握人类的知识和常识(可信赖的)。
1, 自动驾驶。刚刚文中重点使用的例子。这是一个需要符号表达的常识底座的领域,神经符号具有很大潜力。
2, 各类对通用型要求极高的服务型机器人, 如养老机器人
这类机器人不需要单一任务的性能,而是更加依靠稳定可靠的性能,可解释可沟通的能力, 那么理解场景,掌握人类符号,对它们意义是非凡的。
3, 个性化推荐等需要极少数据样本可以work的场景
由于神经符号系统提供了强大的概念底座, 它可以从极少的数据样本里学习到好用的规则, 这对于小样本, 比如针对特殊客群的推荐意义是巨大的。
抛去神经符号的正确使用场景,另外一些场景加入符号主义的拐棍则可能是一个弊端, 比如像围棋,纯粹的视觉识别问题。因为这些问题里神经网络的表示能力如果足够强大,可以轻易超越人类, 它们学习到的规则往往比人类更深刻, 只是没有用到一致的表达, 对于这些系统,加入符号主义拐棍,可能会制约机器的潜力。
总结一下, 符号主义人工智能是人工智能的先河, 基于仿生的神经网络造就了深度学习的时代, 但是人脑中的神经网络,恰恰是人脑中符号概念产生的基础,因此,神经孕育了符号。两者其实无非一颗硬币的两面, 恰如物理量子力学的波粒二象性, 是波,还是粒子,取决于你的问题和观测视角。神经和符号的统一不仅仅是人工智能前进的必由之路, 也是巨大的产业机会。

更多阅读
人工智能学派之间的「联姻」——Yoshua 新作居然用DL「复活」了符号主义
符号主义对深度学习的意义浅谈

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存