查看原文
其他

干货!原始数据中的反绎知识归纳

林则 AI TIME 论道 2023-10-20

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!


在许多机器学习任务中,既存在着充满噪声的原始输入,又需要复杂的推理能力。因此,设计一个合适的端到端学习算法非常困难。神经符号学习将此类任务分为符号感知和符号推理两个子问题,试图同时利用数据驱动的机器学习和知识驱动的推理方法来解决它。然而,为了桥接这两类系统,需要定义一个拥有指数级计算复杂度的接口,它导致机器学习模型的训练缺乏直接监督信息,且符号推理模型缺乏准确的输入事实。因此,现有的神经符号学习方法均假设存在一个充分的符号知识库,并利用它辅助机器学习模型训练。它们均回避了一个关键问题:知识从哪里来?在本文中,我们提出了反绎元解释学习(MetaAbd),它将反绎推理和归纳推理结合起来,从具有噪声的原始数据中同时学习神经网络和反绎逻辑模型。实验结果表明,MetaAbd不仅在预测精度和数据效率方面优于其他同类系统,而且它所归纳的逻辑程序可以作为背景知识在后续学习任务中重新使用。据我们所知,MetaAbd是第一个能够同时训练神经网络并归纳递归一阶逻辑模型、实现谓词发明的机器学习系统。


AI TIME 特别邀请英国帝国理工学院计算机系副研究员——戴望州老师,给大家带来分享:《原始数据中的反绎知识归纳》



戴望州:


英国帝国理工学院计算机系副研究员,2019年毕业于南京大学计算机系 ,是IBM博士生英才计划奖、Google优秀奖学金获得者。他在AAAI、NeurIPS、ILP、ACML、ICDM、Machine Learning等人工智能和机器学习领域顶级国际会议与期刊中发表过多篇学术论文。研究方向包括人工智能、机器学习与数据挖掘、归纳逻辑程序设计等,主要研究兴趣是结合机器学习与符号推理的人工智能。目前担任IJCAI、AAAI、NeurIPS、ICML、ECML等人工智能和机器学习领域国际会议程序委员会委员。 


01

 背   景 


AI的实现:数据驱动&知识驱动


  • 数据驱动的AI 

(1) 以深度神经网络、统计学习为代表的当下主流人工智能; 

(2) 主要通过积累数据(样本)来提升模型性能; 

(3) 直觉、捷径、唯一答案、速度快; 

(4) 难以实现复杂推理;


  • 知识驱动的AI 

(1) 以逻辑推理、专家系统为代表的传统人工智能; 

(2) 主要通过添加符号表达的知识(程序)来提高搜索效率;

(3) 推理、逐步、允许歧义、速度慢; 

(4) 复杂度过高,依赖事先的符号抽象;


神经—符号学习 :近些年由于神经网络的发展而重新被人们关注


 1. 用神经网络等连续可微函数逼近离散搜索

 2. 特征工程:将逻辑谓词的真值表张量作为神经网络输入


原因:神经网络在算数问题中外推(extrapolation)能力差 

任务:手写字符算数问题,例如:想学一个加法,可以用一个多层mlp来学这个加法 



方法:引入特殊神经元函数(算数运算)



训练数据-1—1,意思是在这个区间中重复采样得到很多个x和y,然后x加y输出一个z。然后用输入的xy和输出的这个z来训练这个mlp


一旦把-1—1这个区间外推,学会加法的神经网络性能下降很大。能否在神经网络中嵌入算数单元,使其获得稳定的推理能力?发现引入之后,效果远胜之前。


原因:排序操作很重要,但无法求导 

任务:对手写字符排序



方法:引入permutation matrix Pz,设计可微函数来近似排序操作



强化学习: 

  • 由逻辑关系导出的relational features 

(1) xi > xi+1 (1, 0, 0, 1, 1, 0,…)

(2)  … 

  • 预先定义的symbolicactions: swap(i,j)

一定要用神经网络“吃掉”符号推理吗?No!



  • 3的方块数量是否比1和2多?通过视觉很快得到答案

  • 2的方块数量是否比1多?凭视觉很难得到答案,需要调用算法

  • 如果把2堆起来,会不会比1高?


遇到这种需要慢下来的问题,我们的直觉思维就失效了,神经网络同理。

不可能用神经网络代替符号推理!模块化或程序化思维对于人是不可或缺的


1. 模块化、程序型思维对(人、动物、机器)智慧来说是必要的,特别是样本量少时

2. 高级知识的累积依赖符号语言和形式化

3. 特殊设计的可微逼近泛化性差 

  • 包括GNN、PGM中的概率近似和模糊逻辑近似

4. 黑箱机器学习难以解释和调试 (一个模型什么时候做出什么决策是很难解释、调试的)

  • 所有的内容都被掩藏在embedding中


综上想法,我们有了以下思路:

符号—神经混合系统 

数据驱动与知识驱动互促结合的人工智能系统



左边感知的部分,从有大量噪声的这种数据里面提取出一些简单符号;这样的事情是可以通过统计学习或者神经网络来做到的。


右边基于提取出的这些原始概念,通过一些复杂的思维最后推导出最终的决策。

将左右两边有机结合,使二者相互促进。


反绎学习 两种范式的互促结合

——基于知识的推理范式和基于数据的推理范式相结合


反绎推理


“对不完备的观测结果作出解释” 。(逻辑推理中的feedback inference) 假设我们有一些“基本的”先验知识:

  • P ← Q.

  • P ← R.

  • Q ← S.


若观测到P为真,那么 Q、R、S分别是什么?

“我们每天都在用反绎推理” 

  • 对于确定的观测和完备的知识,相当于约束规划(CP); 

  • 对于不确定的观测,相当于最大化后验概率(MAP); 

  • 对于不完备的知识,相当于先作出假设,然后验证,最后积累知识;


比如带小孩,我已知小孩如果尿裤子,那么尿片会是湿的;看到小孩子哭的时候,就会先去检查尿片,看似否是湿的,这样就算是确定的观测;如果我发现小孩子尿片没有湿,但是仍然在哭,我只能猜测是不是因为没有喝奶而肚子饿了。这是个估计,算是根据概率的知识进行那个反推;如果他刚吃完奶,那我更不知道了,只能走出一些假设,是不是因为想玩耍了才会哭;之后去验证,验证如果正确就可以进行知识经验积累。


监督学习



反绎学习:观测可能有误




但是可以根据最后的逻辑推理,对之前的观测结果进行修正


02

 实   验 


程序表达的先验知识(部分)

等式结构 (DCG grammars): 



  • 所有等式结构为 X+Y=Z; 

  • 数字由0和1构成.


手写等式破解

  • 任务:等式图片序列,标记仅有其正误



  • 无预训练的CNN   f : R ↦ {0, 1, +, =}

  • 未知加法规则:e.g. 1+1=10, 1+0=1,…(add); 1+1=0, 0+1=1,…(xor).


算法实现



我们设置了一个知识库,也叫做反绎逻辑程序。对神经网络识别出的东西做判断,并对这个判断进行优化。这个判断最后会告诉我们哪个地方对或错,就可以对可能错误地方修正,然后重新进行训练,实现不断优化。


实验设置


数据:长度为5-26的等式,每个长度300个样本 

  • DBA: MNIST等式; 

  • RBA: Omniglot等式; 

  • 运算有二进制算数加法 和 异或.


对比方法: 

  • ABL-all: 使用全部数据的ABL 

  • ABL-short: 仅使用长度为7-10等式的ABL 

  • DNC: 使用Memory的DNN; 

  • ransformer 

  • BiLSTM 

  • Human


训练Log



实验结果



从结果可以看出,引入反绎后,神经网络的泛化性是很好的,尤其是在知识这个领域。


知识不足。反绎一阶知识归纳该如何做?



 1. 数字是什么?0?1?2?……

 2. 算法是什么?连加?连乘?乘n个再加m个?加n个再一直乘? 知识 ⇔ Program


挑战:指数个指数级的搜索空间



反绎归纳


例如:



将序列内的未知数字记为z1, z2, z3,...

可以设f为: 

z1+z2+z3, 

z1+z2*z3, 

z1*z2+z3, 

z1*z2*z3 

并通过假设的f推理出zi:



  • 通过constraint solving加速zi的反绎;

  • 归纳f的同时进行反绎推理。


可以看出我们最后把反绎推理和约束规划引入后,效率的显著提高。


样本不足——半监督反绎学习

手写单词识别


数据样例



  • 连笔,未分割

  • 标记样本有限(最少10%)

完备的知识库:词典




我们知道哪些词会出现,哪些词不会出现,但是不会有这个图片具体是哪个词的标注;



 1. CRNN识别:qute (发现不是词典里的词)

 2. 不在可行解(词典)中

 3. 最简单的推理:词典中海明距离较近的解有cute, quite, quit, quirk, …… 

 4. 返回可行解中CRNN输出置信度最高的:quite


这样一个过程就是反绎推理,我们来看下实验结果:



我们发现,只需要5%的预训练(标记5%数据)就可以达到60%的识别精度,剩下的95%就可全部依靠查词典来做;


如果我们标注了20%或25%,结果就会与用了所有标注数据的CRN很接近;


只需要20%标记数据即可取得足够好的效果

仅依赖机器学习模型置信度?出现了问题



A`与A这组,毫无疑问A`可以很容易被纠正为A;但是如果落在C这个位置,C`距离D比距离C更近,导致我们的结果可能一直被错误纠正,这样就带来了问题,仅依赖机器学习模型置信度就行不通了。


在ABL中引入度量学习


同类间距小,异类间距大



同时考虑置信度与度量



Batch优化目标



基于法律文书的盗窃案判决


任务:根据盗窃案法律文书内容预测被告判决时长 

(1) 知识库:法律条文;

(2) 目标:同时有效利用未标记数据与法律知识,提高判决准确率。


模型结构



任务:根据盗窃案法律文书内容预测被告判决时长 

  • 知识库:法律条文; 

  • 目标:同时有效利用未标记数据与法律知识,提高判决准确率。

模型结构



  • 涉案金额用于计算基准刑; 

  • 训练BERT从文书中挖掘涉案要素(如:入室、扒窃、再犯、自首情节等);  

  • 学习涉案要素对最终判决的影响(基准刑±百分比);


实验结果



  • 与其他半监督方法相比,ABL使用更少的标记数据(10%)达到更好的效果; 

  • 引入度量学习后的ABL效果最好,且能够学到比置信度更好的距离度量。


03

Summary  


  • ABL框架保留了数据驱动和知识驱动两个系统 

  • 能够方便地表达、利用甚至学习图灵完 备的程序型知识;

  • 从数据中自动学习符号抽取; 

  • 能够减少对样本数量的依赖;

  • 有较强的可扩展性和可解释性;


04

Future work 


  • 对“接口”中未知概念进行自动发明;

  • 解决知识的存储和复用问题;

 (1) 习得的机器学习模型(学件)

 (2) 归纳的符号知识、程序




论文链接:

https://daiwz.net/org/pdf/meta_abd-ijcai21_cr.pdf


点击“阅读原文”,即可观看本场回放

整理:林则

审核:戴望州



往期精彩文章推荐




记得关注我们呀!每天都有新知识!


 关于AI TIME 


AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。


迄今为止,AI TIME已经邀请了550多位海内外讲者,举办了逾300场活动,超120万人次观看。

我知道你

在看

~

点击 阅读原文 查看回放!


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存