查看原文
其他

ACL2017 | 哥伦比亚大学:以实体为中心的公司描述生成方法

热爱学习的 读芯术 2019-05-05

你和“懂AI”之间,只差了一篇论文


很多读者给芯君后台留言,说看多了相对简单的AI科普和AI方法论,想看点有深度、有厚度、有眼界……以及重口味的专业论文。


为此,在多位AI领域的专家学者的帮助下,我们解读翻译了一组顶会论文。每一篇论文翻译校对完成,芯君和编辑部的老师们都会一起笑到崩溃,当然有的论文我们看得抱头痛哭。


同学们现在看不看得懂没关系,但芯君敢保证,你终有一天会因此爱上一个AI的新世界。


读芯术读者论文交流群,请加小编微信号:zhizhizhuji。等你。

这是读芯术解读的第33篇论文



ACL 2017 Short Papers

以实体为中心的公司描述生成方法

An Entity-Focused Approach to Generating Company Descriptions

哥伦比亚大学

Columbia University


【摘要】在网络上寻找新兴公司的高质量描述,如维基百科文章中的描述,可能是困难的:搜索引擎显示具有不同相关性的许多页面,而多文档摘要算法难以区分核心事实和其他信息,例如新闻报道。在本文中,我们提出了一种以实体为中心的混合生成方法,可以自动生成以前未见过的公司的描述,并显示出其相对于一个强大的摘要基准算法的优势。


1 引言

随着新兴公司的形成和成长,潜在投资者、采购部门和业务合作伙伴能够以360度的视角来描述他们,这一点非常重要。世界范围内的公司数量非常庞大,而绝大多数公司在维基百科(Wikipedia)等资料中没有太多的信息。通常,只有公司统计数据(例如行业分类、位置、大小等)是可用的。这就需要认知系统能够汇总和过滤网络上以及新闻、数据库和其他来源的信息。提供高质量的公司的自然语言描述,允许更容易地访问数据,例如在虚拟代理或文本语音化应用的情况下。


在本文中,我们提出了一个以实体为中心的系统,使用有针对性(知识驱动)和数据驱动生成的组合来创建维基百科描述风格的公司描述。系统从RDF三元组(例如DBPedia和Freebase中找到的三元组)生成关于给定公司的描述句子,并将这些句子与网络上与学习关系表达式相匹配的句子结合起来。我们评估我们的混合方法,并将其与仅基于目标的方法和仅基于数据驱动的方法以及强大的多文档汇总基准进行比较。我们的研究结果表明,混合的方法比单独的方法和基线的表现都要好得多。


针对公司描述的目标(TD)方法使用维基百科描述作为生成模型。它学习如何实现以公司为主题的RDF关系:每个关系都包含一个公司/实体对,这些对就是驱动公司描述的内容和表达。对于每个公司/实体对,系统找到在其他维基百科公司描述中表达类似公司/实体对的所有方式,将表达相同公司/实体关系对的句子聚类在一起。它为每个类中的句子生成模板,用类型槽代替公司和实体的提及,并通过在给定的公司和实体中插入表达式来生成新的描述。所有可能的句子都是从聚类中的模板生成的,所得到的句子被排序,并且为每个关系选择最好的句子来产生最终描述。因此,TD方法是一种自顶向下的方法,通过使用通常在维基百科上使用的方式在公司RDF数据中的关系的句子。


相比之下,数据驱动(DD)方法使用半监督方法从网上给定公司的描述中选择句子。就像TD方法一样,它也开始于少数公司的DBPedia条目中出现的关系种子集合,以公司/实体对的形式出现,但不是看相应的维基百科文章,而是学习通常用于表达在网络上的关系。在这个过程中,它使用bootstrapping(Agichtein和Gravano,2000)来学习每个公司/实体对相对应关系表述的新方法,并交替学习与学习过的表达模式相匹配的新对。由于bootstrapping过程仅由公司/实体对和词汇模式驱动,因此它有可能为每一对学习更多的表达式并学习每对可能存在的新关系。因此,这种方法可以使公司在网络上的描述数据以自下而上的方式确定表达这些关系的可能关系和模式。然后使用学习的模板从网上选择关于目标公司的匹配句子。

2 相关工作


TD方法属于生成流水线范式(Reiter and Dale,1997),内容选择取决于公司的DBpedia条目中的关系,而通过模板生成进行微观规划和实现。虽然一些生成系统,特别是在早期,使用复杂的语法来实现(Matthiessen and Bateman,1991; Elhadad,1991; White,2014),近年来,基于模板的一代已经显示出复苏迹象。在一些情况下,作者着重于文档规划,并且该领域中的句子足够程式化使模板足以表示(Elhadad和Mckeown,2001; Bouayad-Agha等人,2011; Gkatzia等人,2014; Biran和McKeown,2015)。在其他情况下,将数据库记录与文本片段对齐,然后抽取特定字段以形成模板的学习模型已经被证明对于生成各种领域是成功的(Angeli等,2010; Kondadadi等,2013)。其他的,像我们一样,将原子事件(例如出生日期,职业)作为目标列入传记(Filatova和Prager,2005年),但在其他工作中使用的模板是人工编码的。


句子选择也被用于问答和以查询为中心的概要中。一些方法聚焦在相关句子选择上,采用概率方法(Daume III和Marcu,2005; Conroy等,2006)、半监督学习(Wang et al., 2011)和基于图的方法(Erkan和Radev,2004; Otterbacher et al. 2005)。还有一些人使用了针对性和数据驱动方法的混合语言来完成纯粹的句子选择系统(Blair-Goldensohn et al., 2003; Weischedel et al., 2004; Schiffman et al., 2001)。在我们的方法中,我们针对相关性和多样性的表达,通过选择匹配公司/实体对的句子来驱动内容生成,并诱导多种表达方式。在以前的维基百科整体文章生成工作中也使用了句子选择(Sauper and Barzilay,2009)。他们的重点更多地放在学习概述主题结构的特定领域模板上,这个模板比我们生成的文本要长得多。


3 目标生成


TD系统使用一套由100家S&P500公司组成的开发集合以及他们的维基百科文章和DBPedia条目来形成模板。对于与公司的每个RDF关系作为主题,它标识包含关系中实体的相应文章中的所有句子。然后用它们的关系替换特定的实体来创建模板。例如,“Microsoft was founded by Bill Gates and Paul Allen”被转换为“⟨company⟩ was founded by ⟨founder⟩”,连接关系将实体合并为一个槽。创建了许多可能的模板,其中一些模板包含多个关系(例如,⟨company⟩, located in ⟨location⟩, was founded by ⟨founder⟩)。通过这种方式,系统学习维基百科文章如何表达公司与其关键实体(founders, headquarters, products等)之间的关系。


在生成时,我们使用来自目标公司的RDF条目的相应信息填充模板槽。槽由多个实体填充时插入连接关系。继续我们的例子,我们现在可能会为目标公司Palantir生成句子“Palantir was founded by Peter Thiel, Alex Karp, Joe Lonsdale, Stephen Cohen, and Nathan Gettings”。初步的结果表明,这种方法是不够的,目标公司的数据往往缺乏一些需要填充模板的实体。没有这些实体,就不能生成这个句子。由于维基百科的句子往往具有多重关系(高信息密度),因此包含重要的相关事实的许多句子被丢弃,是由于其提到了较少的事实,而我们没有数据去替换。因此,我们增加了一个后处理步骤,在可能的情况下,删除句子中无法填充的任何短语;否则,句子被丢弃。


这个过程为每个关系产生许多潜在的句子,我们只想选择最好的句子。我们通过关系对新产生的句子进行聚类,并对每个聚类的句子,根据他们包含的目标公司的多少信息(被替换的关系的数量)来评分。较短的句子也被加权得更多,因为它们不太可能包含无关的信息,并且具有更多后处理的句子得分较低。每种关系类型的得分最高的句子被添加到描述中,因为那些句子是最具信息性的、相关的,并且最有可能在语法上是正确的。


数据驱动生成

DD方法使用从Web中获取的句子生成描述。像TD方法一样,它的目的是生成实现投入公司和其他实体之间关系的句子。它使用自引导方法(Agichtein and Gravano,2000)来学习表达关系的模式。它从公司/实体对的种子集合开始,代表所需关系的一个小子集,但是与以前的方法不同,它可以产生额外的关系。


模式是通过从网络中读取文本并提取种子集合中包含对的句子而生成的。这个对的实体被替换为表示实体类型的占位符标签,而它们周围的单词构成了模式(标签之间的单词以及标签左侧和右侧的单词)。因此,每个模式的形式都是“⟨L⟩⟨T1⟩⟨M⟩⟨T2⟩⟨R⟩”,其中L,M和R分别是实体左边、中间和右边的词。 T1是第一个实体的类型,T2是第二个实体的类型。像TD算法一样,这本质上是一种基于模板的方法,但是这种情况下的模板并不与实体和公司之间的关系相对应;只有类型的实体(人,地点,组织等)被标签捕获。


通过将学习的模式与Web文本进行匹配来生成新的实体对。如果一个句子具有相同的实体类型,并且它的L、M和R词与模式中的相应单词模糊匹配,那么这个句子被认为是匹配一个模式。因此,这些实体被认为是相关的,因为它们被表达与种子对一样。与TD方法不同,实体之间的实际关系是未知的(因为我们使用的唯一数据是Web文本,而不是结构化的RDF数据)。我们所需要知道的就是存在一种关系。


我们交替学习模式,并在我们的100家公司的开发集合中生成实体对。然后,我们采取所有的学习模式,在Bing搜索结果中为目标公司中的每个公司找到匹配的句子。选择符合任何模式的句子并按匹配次数排列(更多匹配意味着更强关系),然后再添加到描述中。


4.1 剪枝和排序


在为描述选择句子之后,我们执行一个消除噪音和冗余的后处理步骤。为了解决冗余问题,我们使用完全相同的措辞去除在描述中以前传达的那些句子。因此,删除等于或是其他句子子句的句子。我们还删除了来自新闻报道的句子;分析我们在开发集上的结果表明,新闻报道很少包含与典型维基百科描述相关的信息。为此,我们使用正则表达式来捕获常见的新闻专线模式(例如[CITY,STATE:sentence])。最后,我们删除以“...”结尾的不完整句子,这些句子有时会出现在本身包含摘要的网站上。


我们根据选择句子如何引用公司来对其进行排序。以公司名称开头的句子得到25分的起始分数,以部分公司名称开始的句子以15分开始,并且句子中根本不包含公司名称开始于-15(如果它们包含公司名称在中间,他们从0开始)。然后,在句子中的每个关键词的分数上加上10分(关键字是从主体是公司的人口最多的DBPedia谓词中选择的)。这个评分算法在开发集上进行了调整。最终输出按照分数降序排列。


5 融合系统


除了这两种方法之外,我们还从两者的组合中产生了混合输出。在这个方法中,我们从DD输出开始;如果(修剪后)它少于三个句子,我们添加TD输出并重新排序。


混合的方法基本上补充了DD输出的较大的、更嘈杂的网页内容,其具有小的、高质量但较少多样化的TD输出。对于不是消费者或相对新的公司,因此我们的目标人群相对较少,这可能会对描述产生重大影响。


6 实验


为了评估我们的方法,我们比较了由TD,DD和混合方法产生的三个版本的输出与由TextRank(Mihalcea和Tarau,2004)生成的多文档摘要(来自我们的DD方法使用的相同搜索结果)。对于每一种方法和基准,我们都为截至2016年1月的所有S&P500指数的公司生成了描述。我们使用了100家公司的开发集进行调整,基于剩余的400 进行评估。


我们进行了两种类型的实验。第一个是自动化评估,我们使用METEOR得分(Lavie和Agarwal,2007)来描述我们的一种方法或基线的维基百科文章的第一部分。在维基百科的文章中,第一部分通常是关于公司最重要信息的介绍或概述。METEOR分数捕获生成的描述和维基百科文本之间的内容重叠度。为了避免来自不同文字大小的偏差,我们在比较所有的描述时设置相同的大小限制。我们尝试了三种设置:150字,500字,没有大小限制。


另外,我们在CrowdFlower平台上进行了众包的评估。在这个评估中,我们给人类注释者提供了两个描述,一个是我们的方法,另一个是基线,是随机的。然后要求注释者选择哪一个描述是对所述公司的更好的概述(他们被提供到公司的维基百科页面的链接以供参考),并对每个描述给出1-5的评分。为了保证质量,每一对描述都由三位标注员处理,而我们只包含在所有三位标注一致的结果实例中。这些占44%。在这个评估中,我们只使用了混合版本,我们将基线和输出的长度限制为150字,以减少长度差异造成的偏差,并保持对注释者合理的较短的描述。


表1第一个实验结果:各种大小限制下的平均METEOR分数

 

表2 第二个实验结果:人类注释者选择的最佳方法的公司百分比,并给出平均分数


7 结果


自动评估的结果如表1所示。我们的DD系统在所有大小变化下都比TextRank基线更高的METEOR评分,而TD本身在大多数情况下更差。在所有情况下,综合方法本身比DD系统获得更好的结果。


表2显示了人类评估的结果。这里我们的方法的优势变得更加明显:我们明显地击败了基线,无论是标注者选择我们的输出更好的频率(几乎75%的时间)还是给予我们描述的平均分数(3.81以1 5分制)。


所有的结果在统计上都是显著的,但两个实验的结果在数量上的差异是惊人的:我们认为,尽管TextRank总结器提取了与局部相关的句子,从而在METEOR方面取得了与我们接近的结果,我们这里介绍的聚焦方法能够提取对人类来说似乎更为合理的内容作为一般描述。图1显示了一个例子。


从一开始,我们看到我们的系统胜过TextRank。我们的第一句话介绍了公司,并提供了一个关键的历史,而TextRank甚至没有给其命名。混合生成方法产出的结构更为结构化,从公司起源到合并,到董事会,最后是产品。相比之下,TextRank的输出侧重于员工体验,而最终只提到产品。我们的系统更适合于对其不了解的人做简短的描述。

 

图1 Activision Blizzard的描述信息


8 结论


我们描述了两种生成公司描述的方法以及一种混合方法。我们表明,我们的输出结果是被读者压倒性喜爱的,并且与维基百科的介绍类似,而不是最先进的摘要算法的输出。


这些补充方法各有其优缺点:TD方法确保维基百科公司描述中的典型表达式,被称为关于公司基本关系的典型表述将在生成的输出中出现。但是,由于它会修改它们,因此会产生包含另一公司信息的不合语法的句子或句子。后者可能会发生,因为这个句子与原文有唯一的联系。例如,以下维基百科句子片段 “Microsoft is the world’s largest software maker by revenue”是对公司有用的见解,但是我们的系统无法正确修改以适应其他任何公司。


相比之下,通过从网上选择关于给定公司的句子,DD方法确保结果描述既是语法正确的也是相关的。这也导致了更多的表达形式和更多的句子。但是,它可能包含出现在各种不同网站的非必要事实。因此,混合方法比单独执行要好,这并不奇怪。


虽然在本文中,我们专注于公司的描述生成,该系统可通过更新种子数据集的两种方法(以反映所需的描述中的重要事实),来生成其他实体(例如人,产品)描述,并重新调整为最高准确率。


论文下载链接:

http://www.aclweb.org/anthology/P/P16/P16-2040.pdf


留言 点赞 发个朋友圈

我们一起探讨AI落地的最后一公里


长按识别二维码可添加关注

读芯君爱你


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存