「回顾」强化学习在自然语言处理中的应用

Original datafuntalk DataFunTalk 2021-04-25

分享嘉宾：黄民烈 清华大学计算机系副教授，博士生导师
编辑整理：邓力
内容来源：《Reinforcement Learning in Natural Language Processing》
出品社区：DataFun
注：欢迎转载，转载请注明出处。

本文首先介绍了强化学习的概念和相关知识，以及与监督学习的区别，然后就强化学习在自然语言处理应用中的挑战和优势进行了讨论。

1. 强化学习

首先简单介绍一下强化学习的概念。强化学习是一种与监督学习不一样的学习范式，通过一个智能体与环境进行交互从而达到学习目标。其最重要的概念包括状态(state),动作(action),回报(reward)。智能体接收到环境的状态，对该状态做出一个动作，环境根据该动作做出一个回报。

以走迷宫为例，state即为智能体所在的位置，action就是向东西南北移动的动作，当智能体到达目标位置则给100的奖励，当走入死胡同则给-100的惩罚，每走一步给-1的惩罚（希望走的步数越少越好）。在该例子中，我们并没有告诉这个智能体该怎么做，只是当它做对了给它一个大的正分，当它做错了给一个大的负分。

随着深度学习的兴起，我们可以将深度学习与强化学习进行结合从而对问题进行更好的建模。深度学习可以用来刻画强化学习中的状态，动作和策略函数。二者结合的方法在很多领域都有应用，如自动控制，语言交互，系统运维等等方面。

2. 强化学习与监督学习的区别

强化学习的特点：

1、序列决策，即当前决策影响后面的决策；
2、试错，即不告诉智能体怎样决策，让其不断试错；
3、探索和开发，即探索一些低概率事件，开发是利用当前的最佳策略；
4、未来收益，即当前收益可能不是最佳的，对未来来讲当前决策最佳。

监督学习就是给定一个样本集合得到一个X到Y的映射。

以游戏举例，监督学习就会告诉智能体每一步应该怎么做，是向左还是向右，但在强化学习中，并不会告诉智能体应该怎么走，会让智能体自己试错，走得好就给一个大的奖赏，走得不好就给大的惩罚。

3. 强化学习在自然语言处理中的应用

挑战

1、奖励的稀疏性问题；
2、奖励函数的设计；
3、动作空间维度高；
4、训练中的方差较大。

优势

1、适用于弱监督场景，问题中没有显性的标注；
2、不断试错调整，通过试错进行概率的探索；
3、奖励的积累，将专家系统或者先验知识编码进奖励函数。

1）强化学习用于文本分类

(Learning Structured Representation for Text Classification via Reinforcement Learning)

如果做一个句子分类，首先要给句子做一个表示，经过sentence representation得到句子表示，把“表示”输入分类器中，最终就会得到这个句子属于哪一类。

传统的sentence representation 有以下几个经典模型：

1、bag-of-words；
2、CNN；
3、RNN；
4、加入注意力机制的方法。

以上几种方法有一个共同的不足之处，完全没有考虑句子的结构信息。所有就有第五种 tree-structured LSTM。

不过这种方法也有一定的不足，虽然用到了结构信息，但是用到的是需要预处理才能得到的语法树结构。并且在不同的任务中可能都是同样的结构，因为语法都是一样的。

所以我们希望能够学到和任务相关的结构，并且基于学到的结构给句子做表示，从而希望能得到更好的分类结构。但面临的挑战是我们并不知道什么样的结构对于这个任务是好的，我们并没有一个结构标注能够指导我们去学这个结构。但我们可以根据新的结构做出的分类结果好不好从而判断这个结构好不好。

可以使用强化学习来对该问题进行建模，使用策略网络来对文本从前往后扫描，得到action(删除，切开)的序列，action的序列即为该文本的表示，利用该表示再输入分类的网络进行分类。在该应用中，强化学习的reward信号来自于文本分类的准确度。

第二种结构是层次的LSTM结构。

先把字符切开连接得到短语，层层往上，所以是一种层次化的结构，其中action是（Inside，End），状态就是当前的词与上一个词的组合，奖励就是当前类别的似然概率和结构化参数。

实验数据和结果：

总结

这个工作中学习了跟任务相关的句子结构，基于句子机构得到了不同的句子表示，并且得到个更好的文本分类方法，提出了两种不同的表示方法，ID-LSTM和HS-LSTM。这两个表示也得到了很好的分类结果，得到了非常有意思的和任务相关的表示。

2）强化学习用于从噪声数据中进行关系抽取

(Reinforcement Learning for Relation Classification from Noisy Data)

任务背景

关系分类任务需要做的是，判断实体之间是什么关系，句子中包含的实体对儿是已知的。关系分类任务是强监督学习，需要人工对每一句话都做标注，因此之前的数据集比较小。

之前也有人提出Distant Supervision 方法，希望能利用已有资源对句子自动打上标签，使得得到更大的数据集。但这种方法是基于已有知识图谱中的实体关系来对一句话的实体关系进行预测，它的标注未必正确。

这篇文章就是用强化学习来解决这个问题。之前也有一些方法是基于multi-instance learning 的方法来做的。

这篇文章就是用强化学习来解决这个问题。之前也有一些方法是基于multi-instance learning的方法来做的。这样做的局现性是不能很好处理句级预测。

基于以上不足，这篇文章中设定了新模型。包括两个部分: Instance Selector和 Relation Calssifier。

这个模型有两个挑战，第一是不知道每句话的标注是否正确；第二个挑战是怎么将两个部分合到一块，让它们互相影响。

在Instance Selector中的“状态”就表示为，当前的句子是哪一句，之前选了哪些句子，以及当前句子包含的实体对儿。

Relation Classifier 是直接用了一个CNN的结构得到句子的表示。

实验以及baseline：

提出一个新的模型，在有噪声的情况下也能句子级别的关系分类，而不仅仅是bags级别的关系预测。

3）强化学习用在面向目标的主题分割与标记的弱监督方法

(A Weakly Supervised Method for Topic Segmentation and Labeling in Goal-oriented Dialogues via Reinforcement Learning)

任务背景

1、客户服务对话经常出现在大型Web服务中；
2、主题分割和标记是一种粗粒度的意图分析，是对话理解的关键步骤；
3、对话结构分析是面向目标对话系统中的一项重要任务。

将上图中的对话数据自动切开并打上标签就是我们的具体问题。

基于先验知识对数据进行粗略的打标签，对打好的标签数据训练一个策略，根据该策略自动的纠正标签，再用纠正后的标注数据训练策略，这样不断的对数据进行纠正。

训练一个状态表示网络用于状态的表示，基于状态表示网络训练一个策略网络。

利用话题的连续性和全局主题结构作为奖励策略。

实验结果：

总结

1、从有噪声标签的数据开始（避免昂贵的完整标注）；
2、不删除有噪声的数据，而是使用强化学习对噪声数据标签进行纠正；
3、弱监督：我们需要的只是一组关键词和一些先验知识。

4. 强化学习在NLP中成功应用的关键

1、把一个任务描述成一个自然的顺序决策问题，其中当前的决定影响未来的决定；
2、当你没有充分的、强有力的监督时，记住试错的本质；
3、将任务的专业知识或先验知识编码进奖励中；
4、适用于许多薄弱的监控环境。

——END——

1月18日，黄民烈老师将来到中国农业大学，参与分享NLP与KG实训，届时将为大家带来3个半小时的详细讲座《自然语言处理理论基础与人机对话的关键问题》。

黄民烈老师的分享摘要如下：

1. NLP基础知识及背景介绍；

2. 人机对话中的挑战性问题：语义性、一致性、交互性；

3. 语义性问题：

a) 生成多样性（基本概率框架）；

b) 后处理策略；

c) 知识导引、知识嵌入。

4. 一致性问题：个性化、人格嵌入、风格迁移；

5. 交互性：对话行为、对话策略；

6. 总结与展望：话题导引的社交机器人。

除了黄民烈老师，我们还邀请了北大的邹磊教授，以及工业界的俩位资深技术专家，在中国农大的计算机教室，为大家带来整整三天的封闭式实训。

更多详情请点击下方链接，或者点击文末阅读原文。

实训收费标准：

非学生2900元/人、学生1800元/人，含电子版资料费、发票费、场地费、会议注册费等。

银行转账信息：

开户名：北京上善如水商业管理顾问有限公司

开户银行：工行北京市六里桥支行

账号： 0200281009021400308

说明：委托会务公司“北京上善如水商业管理顾问有限公司”代收会务费并负责开具会务费发票，支持转账、公务卡、银联卡、微信、支付宝的缴费方式。

团报与早报优惠方案：

1月11号24点前转账缴费优惠（仅限享受其中一项优惠）

1.缴费成功者可享受课程减免100元。

2.团报缴费：3人团体缴费成功者每人减免150元；6人及以上团体缴费成功者每人减免300元。（仅限选一种团体方式）

3.推荐优惠：凡推荐朋友报名缴费成功者，推荐者与被推荐者各奖励50元。（此优惠可与第1款、第2款累加）

1月11号24点以后缴费（含会场缴费）

1.团报缴费：3人团体缴费成功者每人减免80元；6人及以上团体缴费成功者每人减免150元。（仅限选一种团体方式）

2.推荐优惠：凡推荐朋友报名缴费成功者，推荐者与被推荐者各奖励30元。（此优惠可与第1款团报缴费优惠累加）

报名方式：

识别海报中二维码即可进入报名页：

会务联系：

刘老师（会务组）手机：15699709143 微信号： bit13269915971

嘉宾介绍：

黄民烈 清华大学计算机系副教授，博士生导师。研究兴趣主要集中在人工智能、深度学习、强化学习，自然语言处理如自动问答、人机对话系统、情感与情绪智能等。已超过 50 篇 CCF A/B 类论文发表在 ACL、IJCAI、AAAI、EMNLP、KDD、ICDM、ACM TOIS、Bioinformatics、JAMIA 等国际顶级和主流会议及期刊上。曾担任多个国际顶级会议的领域主席或高级程序委员，如 IJCAI 2018、IJCAI 2017、ACL 2016、EMNLP 2014/2011，IJCNLP 2017 等，担任 ACM TOIS、TKDE、TPAMI、CL 等顶级期刊的审稿人。作为负责人或学术骨干，负责或参与多项国家 973、863 子课题、多项国家自然科学基金，并与国内外知名企业如谷歌、微软、三星、惠普、美孚石油、斯伦贝谢、阿里巴巴、腾讯、百度、搜狗、美团等建立了广泛的合作。获得专利授权近 10 项，其中 2 项专利技术授权给企业应用。

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…