自然语言处理深度学习的7个应用

原创 2017-09-28 Jason Brownlee CSDN大数据

↑ 点击上方蓝字关注我们，和小伙伴一起聊技术！

自然语言处理领域正在从统计方法转变为神经网络方法。

自然语言中仍有许多具有挑战性的问题需要解决。然而，深度学习方法在一些特定的语言问题上取得了最新的成果。这不仅仅是深度学习模型在基准问题上的表现，基准问题也是最有趣的；事实上，一个单一的模型可以学习词义和执行语言任务，从而消除了对专业手工制作方法渠道的需要。

在这篇文章中，你会发现7个有趣的自然语言处理任务，也会了解深度学习方法取得的一些进展（前排提示：文中所有标蓝部分均可阅读原文获取详情）。

文本分类
语言建模
语音识别
字幕生成
机器翻译
文档摘要
问答（Q&A）

我试图专注于你可能感兴趣的各种类型的终端用户问题，而不是更多的学术或语言的子问题，在有些方面深度学习已经做的很好，如词性标注，程序分块，命名实体识别，等等。

每个示例提供了一个问题描述，示例，对演示方法和结果的文档引用。大多数参考来自2015年的Goldberg’s 的优秀的NLP研究人员深度学习入门文献。

你有没有一个深度学习中最受欢迎的NLP应用没有被列出？请在下面的评论中告诉我。

文本分类

给出一个文本实例，预测一个预定义的类标签。

文本分类的目的是对文档的标题或主题进行分类。

—575页，自然语言处理的基础统计，1999

一个流行的分类示例是情感分析，类标签代表源文本的情感基调，比如“积极的”或“消极的”。

下面是另外三个例子：

垃圾邮件过滤，将电子邮件文本分类为垃圾邮件或正常邮件。
语言识别，对源文本的语言进行分类。
体裁分类，对小说故事体裁进行分类。

此外，这个问题可以用某种方式加以解决，将多个类分配给一个文本，即所谓的多标签分类。如给一个源tweet预测多个#标签。

更多相关主题的内容，请参见：

Scholarpedia的文本分类
维基百科的文档分类

下面是3个文本分类深度学习的论文例子：

烂片评论的情感分析
文本分类的DUCR结构方法，2015
亚马逊产品评价的情感分析，IMDB电影评论和新闻文章的主题分类。
有效使用词序进行基于卷积神经网络的文本分类，2015
影评的情感分析，将句子分类为主观的和客观的，分类问题类型，产品评论的情感及更多。
基于卷积神经网络的句子分类，2014

语言建模

语言建模真的是更有趣的自然语言问题的一个子任务，特别是那些在其它输入条件下的语言模型。

…问题是根据给出的前一个词来预测下一个词。这项任务是语音或光学字符识别的基础，也用于拼写矫正，手写识别和统计机器翻译。

—191页，统计自然语言处理基础，1999.

除了对语言建模的学术兴趣外，它也是许多自然语言处理体系结构深度学习的一个重要组成部分。

一个语言模型学习词与词之间的概率关系，这样以来，新的词的序列可以生成与源文本统计学上一致的文本内容。

单独地，语言模型可用于文本或语音生成；例如：

生成新的文章标题。
生成新的句子，段落，或文件。
生成一个句子的建议延续的句子。

有关语言建模的更多信息，请参见：

维基百科上的语言模型
循环神经网络的不可思议的效用，2015
生成基于模型的合成文本语音，第十讲，牛津，2017

下面是深度学习语言建模（仅有）的一个例子：

英语课文、书籍和新闻文章的的语言模型。
一种神经概率语言模型，2003

语音识别

语音识别是理解说了什么的问题。

…语音识别的任务是将包含自然语言话语的语音映射成说话人想要表达的对应的词。（传统的语音识别模型是通过人工建立一张语音词表，将相似发音的字母划分为一类；并借助一个分类模型实现语音到字母的转译。）

—458页，深度学习，2016.

给定作为音频数据的文本的发声，该模型必须生成可读的文本。

自动给出自然语言的处理，这个问题也可被称为自动语音识别（ASR）.

语言模型用于创建以音频数据为条件的文本输出。

包含的一些例子：

录制语音。
为电影或电视节目创建文本字幕。
开车的时候向无线电发出指令。

有关语音识别的更多信息，请参见：

维基百科上的语音识别

以下是用于语音识别深度学习的3个例子：

英语语音到文字。
连接时间分类：循环神经网络的不分段标签序列数据，2006。
英语语音到文字。
深度循环神经网络的语音识别，2013。
英语语音到文字。
用于语音识别的卷积神经网络结构的研究和优化技术，2014。

字幕生成

字幕生成是描述图像内容的问题。

给定一个数字图像，如一张图片，生成关于这个图像内容的文本描述。

语言模型用于创建符合图像内容的字幕。

包含的一些例子：

描述一个场景的内容。
为照片创建标题。
描述一个视频。

这不仅仅是对听障者的一个应用程序，还可以为图像和视频数据生成可读的文本，将来可以搜索，比如在网上。

以下是字幕生成深度学习的3个例子：

为照片生成字幕。
展示，出席和讲述：视觉注意力的神经图像字幕生成，2016.
为照片生成字幕。
展示和讲述：神经图像字幕生成器，2015.
为视频生成字幕。
片段到片段—视频到文本，2015.

机器翻译

机器翻译是把源文本从一种语言转换成另外一种语言的问题。

…机器翻译，文本或语音从一种语言到另外一种语言的自动翻译，它是NLP最重要的应用。

—463页，统计自然语言处理基础，1999.

考虑到深度神经网络的使用，该领域被称为神经机器翻译。

在一个机器翻译任务中，输入由一些语言中的一系列符号组成，计算机程序必须把它转换成另一种语言中的符号序列。这通常用于自然语言，比如从英语到法语的翻译。深度学习最近开始对这种任务产生重要影响。

—98页，深度学习，2016.

语言模型用于输出翻译以后语言的目标文本，以源文本为基础。

包含的一些例子：

将一个文本文件从法语翻译成英语。
将西班牙音频翻译成德语文本。
将英语文本翻译成意大利音频。

更多关于神经机器翻译，请参见：

维基百科上的神经机器翻译。

下面是机器翻译深度学习的3个例子：

从英语到法语的文本翻译。
基于神经网络的片段到片段的学习，2014
从英语到法语的文本翻译。
联合学习对齐和翻译的神经机器翻译，2014
从英语到法语的文本翻译。
基于循环神经网络组合语言和翻译模型，2013

文档摘要

文档摘要是对创建的文本文档进行简短描述的任务。

如上所述，语言模型用于基于完整文档的摘要输出。

一些文档摘要的例子：

为一篇文档创建一个标题。
为一篇文档创建一个摘要。

更多关于这个话题的信息，请参见：

维基百科上的自动摘要。
深度学习已经被应用于自动文本摘要（成功）了吗？

下面是文档摘要深度学习的3个例子：

新闻文章中的句子摘要
一个抽象概括的神经注意力模型，2015
新闻文章中的句子摘要
使用片段到片段RNN(循环神经网络)的抽象总结及更多，2015
新闻文章中的句子摘要
通过提取句子和单词的神经摘要，2016

问答

回答问题就是给定一个主题，如文本文件，回答关于这个主题的一个特定问题。

…问答系统尝试回答用户以问题形式表述的疑问，它返回适当的短语，如位置，人员，或者日期。例如，问题是总统肯尼迪为什么被刺杀？可能回答的短语是：Oswald（“凶手”奥司华德）。

—377页，统计自然语言处理基础，1999

包含的一些例子：

维基百科上的问答

更多关于问答的信息，请参见：

关于维基百科文章的问答
关于新闻文章的问答
关于医疗记录的问答

下面是问答深度学习的3个例子：

新闻文章中的问答
阅读和理解的机器教学，2015
回答关于Freebase文章的一般知识性问题
用多列卷积神经网络回答关于Freebase的问题，2015
回答给定文件的事实型问题
深度学习回答选择句，2015

扩展阅读

如果你需要更深入的了解，本节提供更多用于NLP深度学习应用程序的资源。

自然语言处理的优先神经网络模型，2015
从零（几乎）开始自然语言处理，2011
自然语言处理深度学习，实践概述，牛津，2017
深度学习或神经网络的NLP问题已成功应用？
深度学习能像自然语言处理在视觉和语音处理领域一样取得类似的突破吗？

原文：7 Applications of Deep Learning for Natural Language Processing
作者：Jason Brownlee
翻译：无阻我飞扬

长按识别二维码享更多精彩

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

从地方目标看全国！今年经济增长还是有很高要求

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！