没有标准的方法来结合符号和子符号表示法。因此,我们观察到研究人员一直在使用不同的技术来集成这些表示,而且这些系统大多数是领域特定的。只要系统共同使用符号和子符号两种表示,我们就认为一个系统是一个混合的系统。在下文中,我们将讨论三种混合系统:LIME-Aleph、DeepProbLog和NLProlog,它们基于不同的体系结构,用于表示组件中的信息和组件之间的通信。这些系统分别在符号分量和子符号分量中使用Horn clauses和向量表示LIME-Aleph结合了符号表示和子符号表示作为两个主要组件,并通过控制器进行通信。子符号组件执行预测任务。为了解释这一预测,符号组件的任务就是从正面和负面的例子中学习规则。控制器通过修改通过算法选择的有影响的属性,从原始示例实例生成这些示例。为了决定哪个修改的例子是正的还是负的,控制器依赖于子符号组件。DeepProbLog学习单个任务,并集成符号和子符号表示。它引入了神经谓词,应用子符号方法对预测任务的概率进行预测。在DeepProbLog中,一个学习任务由几个子任务组成。其中一些子任务可能需要进行预测,并在神经谓词的帮助下进行表示。系统的符号组成部分代表学习任务的程序,因此它可以使用所需的背景知识。当系统评估程序时,一般谓词的概率是由给定的数据计算出来的,而神经谓词的概率来自于系统的子符号组件,并被合并到符号组件中。NLProlog是一个混合系统,专门为需要多跳推理的自然语言处理任务而设计。该系统将自然语言语句转换为由两个实体(例如,Socrates和Athens)和一个文本模式(例如,ENT1 was born in ENT2)组成的三元组,该文本模式将这些实体连接到一个语句中。这样的三元组在系统中被视为一个事实。系统的编码器组件将事实、查询和许多规则模板作为输入,并使用子符号方法来查找实体或文本表面模式之间的相似性得分。系统的目标是学习回答查询的规则。系统为此使用了一个验证器组件,该组件将编码器计算的相似性分数作为输入,包括事实、查询和规则模板。证明者利用具有弱统一的逆向链的符号推理找出查询的证明,并根据相似度分数计算统一分数。证明者找到的每个证明都将从统一分数的集合中分配一个证明分数。分数最高的证明被选择作为构造已学习规则的查询的答案。
Data efficient learning。一般来说,符号系统从少量的数据中学习规则,而子符号系统则需要大量的数据。然而,与符号系统相比,子符号系统可以有效地处理大的和有噪声的数据。在符号系统中可以引入有效的数据处理技术,在子符号系统中可以使用从少量数据中学习的技术
Reasoning with Transformer-based Models: Deep Learning, but Shallow Reasoning一文中对使用transformer进行reasoning进行了综述,这部分内容比较新,也很有意思。 Reasoning with Transformer-based Models: Deep Learning, but Shallow Reasoning
Types of Reasoning with Transformer-based Models
Horn Rule Reasoning:从下面这个例子中可以比较容易地看出这个任务需要做什么,给定一堆fact和一个question,从中推测结果。在本任务中,最佳模型T5-11B在校对和回答问题方面的准确率达到95%以上。因此,基于transformer的模型可以近乎完美地解决这个问题Commonsense Reasoning:常识推理是任何需要人类通常拥有的背景知识的推理任务。例如,指令“an you do a Napoleon for the camera?”需要常识推理才能意识到拿破仑这个词表示的是一种特定的姿势。一些研究表明,BERT在训练前学习了一定数量的常识知识。考虑下面这个例子,模型(预先训练的BERT-large)能够回忆这些常识知识。但是部分研究发现预训练的模型并不是真正的在做reasoning,因为对输入做微小的改变,模型的输出可能就发生了巨大的变化。比如在判断句子是否连贯的任务中但是仅仅修改几个字之后,他的结果就会改变[1]Implicit Reasoning:隐式推理任务,上述的任务不同,其中规则和事实没有明确给出。这些任务中的许多都可以通过基于transformer的模型来解决。下面是一个来自SNLI[2]数据集的例子在本任务中,使用few-shot learnng的方法训练的RoBERTa-large模型[3]达到了93.1的精度。然而,这些数据集包含了模型可以利用的表面线索。为了充分评估模型的reasoning 能力,研究人员设计了几个更具挑战性的逻辑推理任务,这些任务大多以机器阅读理解的形式出现。例如,LogiQA [4]是从中国国家公务员考试中翻译出来的多选题数据集最好的语言模型是经过训练的RoBERTa模型,在训练集上进行了调整,其准确性为35.31%(而人类的最佳表现为96%)。这表明,基于transformer的模型目前无法构建较长的文本的表示,并从中得出逻辑结论。这个弱点可以通过在RoBERTa之上添加符号表示[5](比如基于图形的模块)或者逻辑信息[6]来在一定程度上得到弥补。也有工作人员开发神经符号方法,通过基于梯度的优化来推理策略[7],或将概率逻辑编程与神经网络相结合[8]。将逻辑信息整合到RoBERTa中,使ReClor在简单问题上的表现提高到81.4%。然而,这些数据集更困难的问题会导致50%-60%的性能。
1.Daniel Khashabi, Sewon Min, Tushar Khot, Ashish Sabharwal, Oyvind Tafjord, Peter Clark,and Hannaneh Hajishirzi. Unifiedqa: Crossing format boundaries with a single qa system.InConference on Empirical Methods in Natural Language Processing, 2020.2.Samuel R Bowman, Gabor Angeli, Christopher Potts, and Christopher D Manning. A largeannotated corpus for learning natural language inference. InConference on EmpiricalMethods in Natural Language Processing, 2015.3.Sinong Wang, Han Fang, Madian Khabsa, Hanzi Mao, and Hao Ma. Entailment as few-shotlearner4.Jian Liu, Leyang Cui, Hanmeng Liu, Dandan Huang, Yile Wang, and Yue Zhang. Logiqa:A challenge dataset for machine reading comprehension with logical reasoning.arXivpreprint arXiv:2007.08124, 2020b.5.Yinya Huang, Meng Fang, Yu Cao, Liwei Wang, and Xiaodan Liang. Dagn: Discourse-aware graph network for logical reasoning. InConference of the North American Chapterof the Association for Computational Linguistics, 2026.Logic-driven context extension and data augmentation for logicalreasoning of text.7.Learning reasoning strategies in end-to-end differentiable proving8.Deepproblog: Neural probabilistic logic programming