【业界】谷歌又双叒叕开源：TensorFlow 自动文本摘要生成模型

2016-08-25 新智元

1新智元编译1

来源：research at google

译者：胡祥杰

【新智元导读】本次谷歌开源的TensorFlow主要用于文本中的信息提取，并生成摘要，尤其擅长长文本处理，这对自动处理海量信息十分有用。这一模型当下最典型的例子是新闻报道标题自动生成。这对机器学习能力至关重要，可以想想为什么中外的大学入学考试中阅读理解这道题都占了很大分值。

(文/ 谷歌大脑软件工程师 Peter Liu) 每天，人们都依靠大量的信息源，来获取信息，从新闻报道到社交媒体帖子再到搜索结果。能够针对长文本自动生成精确摘要的机器学习模型对于以压缩形式处理大量信息是非常有用的，这也是谷歌大脑（Google Brain）团队的一个长期目标。

对于机器来说，摘要也可以用作一个有趣的阅读理解测试。为了做好摘要，机器学习模型需要能够理解文档、提取重要信息，这些任务对于计算机来说是极具挑战的，特别是在文档长度增加的情况下。

为了推动这一研究，我们开源了在Annotated English Gigaword ——一个摘要研究中常用数据库中执行生成新闻标题任务的Tensor Flow模型代码。我们还列举了文档中的超参数，在使用ROUGE（metric）验证的最常用模型中，我们的超参数在写作时间上可以获得当下最好的结果。

模型地址：https://github.com/tensorflow/models/tree/master/textsum

抽取和概括型摘要

做摘要的一个方法是提取文档中被认为有价值的部分信息（比如，倒排文档频率），然后把他们组合起来，形成一个摘要。这种类型的算法被称为抽取型摘要（Extractive summarization）。

原始文本：Alice and Bob took the train to visit the zoo. They saw a baby giraffe, a lion, and a flock of colorful tropical birds.

抽取型摘要：Alice and Bob visit the zoo. saw a flock of birds.

在上面这个例子中，我们提取了原始文本中加粗的单词，把他们组成一个句子。正如我们所见，有时候，提取的限定，会使得生成的摘要很奇怪，或者从语法上很不通。

另一种办法简单地提炼摘要，正如人类所做的那样，这种方法中，不要加入提取限定，并允许重新措辞，这被称为概括型摘要。

还是以上那段文本，概括型摘要的结果是： Alice and Bob visited the zoo and saw animals and birds.

在这个例子中，我们使用的单词并不出现在原始的文本中，但是却用相同数量的单词，保留了更多的原文信息。显然，我们会更喜欢好的概括型摘要，但是，一个算法要怎么做到？

关于这一TesorFlow模型

研究结果表明，在更短的文本中，摘要可以使用序列到序列的深度学习技术来端到端地学习，这和邮件中的自动回复的技术原理类似。需要强调的是，我们能够训练这样的模型，来为新闻报道生成很好的标题。我们提供的例子中，这一模型在阅读文章好，写出了非常适合的标题。

先要了解这一模型能产出什么，你可以查看下文的一些例子。第一列显示的是一个新闻报道中的一句话，也就是模型的输入，第二列显示的是模型写出来的标题。

Input: Article 1st sentence	Model-written headline
metro-goldwyn-mayer reported a third-quarter net loss of dlrs 16 million due mainly to the effect of accounting rules adopted this year	mgm reports 16 million net loss on higher revenue
starting from july 1, the island province of hainan in southern china will implement strict market access control on all incoming livestock and animal products to prevent the possible spread of epidemic diseases	hainan to curb spread of diseases
australian wine exports hit a record 52.1 million liters worth 260 million dollars (143 million us) in september, the government statistics office reported on monday	australian wine exports hit record high in september

进一步研究

我们通过观察发现，由于新闻的特殊格式，模型只要阅读文章的开头几句话，就能生产一个很好的标题。虽然，这一任务已经可以作为我们所提出的概念的一个很好的验证，我们仍然在寻找难度更高的数据库，在这些数据库中，想要得出好的摘要，只有通读全文才可能。在这些任务中，从头开始训练这一模型架构并没有获得我们此前达到的水平，但是这至少是个开始。我们希望通过本次开源，能够为其他的摘要研究奠定基础。

调查：新智元一周年，我们需要你发声

反向激励，在加速这个社会的黑化

平安信托深陷“爆雷”旋涡：终于尝到“偏爱”房地产的苦果

刀片电池存设计缺陷，或将导致几十万比亚迪车主自费更换or召回？

专家一会说要过“紧日子”，一会说“认为没坏就能用”是不对的

芒果TV十年：源自如日中天时的“诺亚方舟”计划