查看原文
其他

ACL2017 | 都柏林城市大学:基于时间倾向的推特用户收入预测

2018-04-21 热爱学习的 读芯术

你和“懂AI”之间,只差了一篇论文


很多读者给芯君后台留言,说看多了相对简单的AI科普和AI方法论,想看点有深度、有厚度、有眼界……以及重口味的专业论文。


为此,在多位AI领域的专家学者的帮助下,我们解读翻译了一组顶会论文。每一篇论文翻译校对完成,芯君和编辑部的老师们都会一起笑到崩溃,当然有的论文我们看得抱头痛哭。


同学们现在看不看得懂没关系,但芯君敢保证,你终有一天会因此爱上一个AI的新世界。


读芯术读者论文交流群,请加小编微信号:zhizhizhuji。等你。

这是读芯术解读的第26篇论文



ACL 2017 Short Papers

基于时间倾向的推特用户收入预测

Temporal Orientation of Tweets for Predicting Income of Users

都柏林城市大学

Dublin City University


【摘要】在社交媒体上从用户语言使用自动评估用户的社会经济状况可以显著地帮助社会从商业到政治的科学研究和多样的下游应用。本文提出了第一个使用用户认知结构创建一个收入预测模型的研究。特别地,我们首先开发了一个使用弱监督学习框架的分类器自动地将推特的时间标记为过去、现在或将来。我们根据用户在推特上的分布来量化一个用户的总体的时间倾向,并利用此建立一个收入预测模型。我们的分析揭示了在未来的时间倾向和收入的相关性。最后,我们通过执行回归函数,评估了未来时间倾向对收入的预测能力。

1 引言


在Twitter等社交媒体上,用户生成内容使得对作者的分析成为了史无前例的规模。在社交媒体上作者特征提取旨在从他们所写的文本中推断出用户的多方面的属性。这一领域地大多数前期研究都集中在年龄、性别预测(Marquardt et al.,2014; Sap et al., 2014)、心理健康(Dodds et al., 2011; Choudhury et al., 2013),以及其他行为,心理和医学现象(Kosinski et al.,2013)。然而,人们缺乏对推特用户社会经济特征的研究。本文主要从推特用户的语言对推特用户的收入进行自动评估。社交媒体用户的收入预测对社会科学研究和在银行、市场营销和政治一系列后续应用中都非常有用。


之前的在收入证明上的社会研究表明,人们的收入与各种因素有关,比如人口统计特征(被调查者居住的国会地区)、教育类别、性别、年龄、年龄、性别、种族、婚姻状况和身高等(Kahneman and Deaton,2010)。其它研究表明,与外向性(如更大的社交网络)和尽责性(如秩序)有关的心理特征与收入有一个正相关,而神经质特征(如愤怒、焦虑)则是反相关的(Roberts et al.,2007)。人类的时间倾向是指在过去、现在或将来的相对重点上的个体差异(Zimbardo and Boyd, 2015)。过去的研究已经建立了时间倾向与大多数上述收入预测因素的一致性联系,如年龄、性别、性别、教育和心理特征(Webley and Nyhus, 2006; Adams and Nettle, 2009; Schwartz et al., 2013; Zimbardo and Boyd, 2015)。因此,这就引出了一个问题,即个人的时间倾向和他们的收入水平之间是否存在联系。传统上,时间倾向由自我报告的问卷调查评估。本文以推文的语言使用为基础,对时间倾向进行了评估。我们的方法使用了过去、现在和将来的推文级别的分类器,将用户分组以创建用户级别的评估。


我们的学习框架使用卷积神经网络(CNNs)来预测推特向量表示,并将其视为一个特征来开发一个分类模型,该模型能够自动检测推特的时间倾向(面向过去、现在和未来)。该框架利用一个由手工选择的80(80)高精度种子术语(并自动提取了类似的术语)提供的弱监督信号来表示过去、现在和将来来训练CNN。例如,推文只包含过去(分别为现在和将来)种子术语被标记为过去的弱标签(分别为现在和将来)。我们使用了推文级别的时间分类器自动分类包含来自5191个用户的1000万推文的大型数据集,并使用细粒度的用户职业作为代表。最后,我们测试了是否在过去、现在和未来的个体差异是否与收入有关。具体来说,我们将收入预测任务定义为线性回归和非线性学习算法,在这些算法中,时间倾向可以作为预测特征。据我们所知,这是第一个使用Twitter语言来研究基于时间倾向的收入预测。


综上所述,本文提出的方法与以往的方法不同(Schwartz et al., 2015;Preot¸iuc-Pietro et al., 2015; Park et al., 2017)与Schwartz et al(2015)不同,我们采用了弱监管的方法。在我们的案例中,训练数据的生成是半自动的。与手动识别特征不同,推文向量被输入到CNN分类器中。此外,Schwartz et al. (2015)研究了facebook数据的时间倾向,为了预测不同的人物关联比如责任心、年龄和性别,我们目前的工作重点是在推文中使用时间倾向的用户的收入预测。在Preot,作者iuc-Pietro et al. (2015)根据不同用户的人口统计和心理特征预测用户的收入。然而,提取这些特征的过程在计算上是复杂的。因此,目前的研究是首次探索利用用户推文的时间倾向来预测收入的方法。


2 相关工作


现有消息/句子级别的时间分类器方法通常分为两类:(1)基于规则的方法,以及(2)监督机器学习方法。基于规则的方法主要依赖于为每个时态类手工设计分类规则(Nie et al., 2015。)不管其有效性,这种方法在设计规则中需要付出巨大工作。大多数基于机器学习的句子时态分类研究都围绕特征工程进行,以提高分类性能。已经探索了不同种类的功能,如词袋、时间表达式、词性标记,和时间类特定的词汇(Schwartz et al., 2015)。时间类特定的词汇的创建和特征工程也要耗费大量的人力。此外,为监督机器学习方法建立一套大规模训练数据集也是非常艰苦的。

3 方法


在本节中,我们描述我们提出的确定推文基本时间倾向的方法和一组用作比较研究基线的对比系统。


3.1 推文时间倾向分类器


这个任务可以被定义为给予一个推文t以及发布时间d,参照他的发行日期来预测他的时态类c属于{过去,现在或将来}。


推荐的体系结构:推荐的框架有两个主要步骤:(i)训练模型参数,(ii)使用模型来标记看不见的推文。在训练中,我们使用弱标记的推文来学习CNN参数和时间倾向分类器。关于分类,使用一个线性支持向量机(ISVM)。特别地,我们训练了三个二进制分类器(每一个类)使用一个one-vs.-rest,并且给分配得分最高的类贴上一条推文。在第二部中,我们通过这两个优化的组件检测推文的时间倾向。


图1:推荐的学习架构。


选择CNN的特征提取的动机是:


•在各种计算机视觉任务中,CNNs被成功地用作特征提取器,并与手工制作的特性相比取得了更好的效果。研究表明,CNN特征映射可以与SVM一起使用,以产生优于原来的CNN(Athiwaratkun et al .,2015)的分类结果。


•在NLP任务的背景下,遵循相似的研究路线也取得了优越的准确性(Kim, 2014; Poria et al.,2015) 。


卷积神经网络(CNNs):这个任务很有挑战性,因为推文很短而且嘈杂。此外,英语和许多语言一样,使用各种各样的方式来指代过去、现在和将来。与以往主要依靠手工制作的规则和特性工程的方法不同,我们自动提取推文的特征已建立我们的推文级别的时间倾向分类器。特别地,我们使用CNNs自动提取推文向量作为分类的特征。


近年来,在许多自然语言处理和信息检索任务中,CNNs被证明是很有用的,它可以有效地模拟自然语言的语义(Collobert et al., 2011)。在我们的实验中,我们训练了一个简单的具有一个卷积层的CNN,然后是一个最大的汇聚层(Collobert et al., 2011;Kim, 2014)。在CNN的模型中,我们使用了3个过滤器,窗口规格为5、6和7,每一个都有100个特征映射。这些窗口规格将在推文中捕捉5克、6克和7克的信息。我们采用丢失的正则化,丢失率为0.5,这是一个合理的系统默认值。我们同样采用调整线性单元和50规格的小批量。CNN参数是根据3倍的折叠交叉验证的性能确定的。在预先训练的词条特征向量之上训练了推文表示,并且在CNN训练期间更新。我们使用在谷歌新闻语料库上训练的公共可用的word2vec向量,以及在标签数据创建阶段训练自己的word2vec向量。在训练阶段,CNN模型参数通过在单词向量上传递多个过滤器来学习,然后应用最大时间汇集操作来生成在一个完全连接softmax层使用的特征。最后,我们使用交叉熵损失函数学习模型参数。与Kim (2014)类似,我们使用丢失(Hinton et al.,2012)来规范化参数的改变,通过随机设置一些权重为0,以防止过度拟合。


3.2 收入预测模型


与Preot¸iuc-Pietro et al. (2015)类似,我们将收入预测任务定义为以用户级的时间方向为特征的回归。首先,推文的时间倾向分类器被用来标记一条推文是否着重于过去、现在或者将来。然后,在用户级,我们产生了三种时间倾向的类别(三个独立变量求和),简单的定义为用户的总推文分类的比例(tweets(user)all) 在给定时间范畴内(c ∈ { past, present, or future}),如在(1):


 

我们使用线性和非线性的方法。线性方法是采用弹性网正则化的逻辑回归(LR) (Freedman, 2009)。为了捕捉用户的时间方向与收入之间的非线性关系,我们使用高斯过程(GP) (Rasmussen and Nickisch, 2010)进行回归。考虑到我们的数据集非常大,并且特征量很高,对于GP推理,我们使用了完全独立的训练条件近似,其中有500个随机诱导点。


4 数据集


4.1 训练数据


使用Twitter流API收集推文。我们下载了英语推特在2015年1月1日至2015年1月31日期间,产生了约4000万条推文。在收集了推文之后,我们使用人工选择的有50个种子术语的高精度列表来过滤过去、现在和将来的推文。这些术语用很少的假阳性来捕捉推文的时间维度,尽管这些术语的召回率很低。为了增加召回率,并且捕捉过去、现在、和将来良好范例的新的术语,我们使用一个查询扩展技术扩展我们初始的种子术语。我们使用由Mikolov et al(2013)提出的连续的skip - gram模型(也称为Word2Vec)来使用连续分布向量表示。该模型在整个收集的4000万条推文上进行了训练,尺寸和窗口大小分别设置为300和7。


考虑到术语的向量表示,我们用余弦相似度计算词汇表中两对词之间的相似度。每个种子术语的前10个类似的术语被选择为了初始种子术语列表的扩展。我们再次使用新添加的种子术语过滤所有的推文集合。我们最终选择了12万条均匀分布在过去 (=40,000 推文)、现在(=40,000),和未来(=40,000)时间范畴内。过滤推文的例子如下:


•Thank you so much for coming in for our show yesterday. (seed=yesterday)


• @**** is currently out of the office working his other job. (seed=currently)


• I promise you don’t have to be afraid. (seed=promise)


表1给出了一些初始种子术语的扩展术语的例子。由于关键词选择的自动过程,在扩展种子列表中有一些不相关的关键字。


表1:初始种子术语和扩展种子术语的例子。


4.2 测试集


为了评估推文时间倾向分类模型,2035条推文由三个注解者人工注解为四个不同的类别:过去、现在、将来和不能确定的。大多数投票用于将最终的输出类分配给给定的推文。在测试集中删除了多数投票为不确定的时间方向的推文。注释推文的最终分布是:过去= 423,现在 = 1252,将来 = 325,不能确定= 35。


4.3 用户的收入数据


我们使用一个由Preot¸iuc-Pietro et al. (2015)开发的数据集,其中包含了5191个Twitter用户以及他们的平台统计和约1000万条历史的推文。该数据集势基于将一个Twitter用户映射到一个职位,并以此作为该特定职业的平均收入的代理。


5 实验结果


时间倾向分类结果:用人工注释测试集对我们的推文时间倾向分类器的性能进行了评估。为了我们的研究,我们将我们的方法与两个最相关的基线进行了比较:(i)基线1:基于规则的方法(Nieet et al,2015)和(ii)基线2:一种受监督的学习策略,包括词袋、时间表达式、词性标记和时间特定类词汇特征(Schwartz et al., 2015)。比较评价结果见表2。结果表明,我们的弱监督框架在准确性方面由于基于规则和监督学习技术。

 

表2:使用不同方法测量测试数据的过去、现在和未来分类的准确性。结果被精度(p)、召回率(r)和f1(f1)测量分数细分。提出的方法1和提出的方法2分别代表了从我们收集的推文和预训练的谷歌新闻料库中提取的Word2vec向量的分类框架。


我们调查了标记训练数据的大小对每个方法性能的影响。基线1(基于规则的方法)不参与这种不依赖于标记的训练数据。我们随机抽取训练数据的d %来训练分类器,并在测试集上进行测试,d范围从10到90。对于每个d,我们生成20次训练集,并记录平均性能。两种方法对测试数据的准确性在表3中给出。结果表明,我们所建议的框架的性能始终优于对应的框架。特别地,结果表明,在30K的训练事例中,我们的方法可以获得更好的结果,而不是依赖于120K的训练项目以获得最先进的监督机器学习方法(基线2)。

 

表3:有不同规格的训练数据的推文时间倾向分类器精度。


收入预测结果:与Preot¸iucPietro et al. (2015)类似,我们通过在用户收入上执行回归来测量时间倾向的预测能力。使用10倍交叉验证来测量性能: 在每一轮中,80%的数据用于训练模型,10%用于对使用网格搜索的模型参数进行调优,另外10%的数据用于测试。最终的结果由10个折叠的结果集计算出来。结果采用线性和非线性回归方法,在表4中给出过去、现在和将来的时间倾向特征。使用两个标准度量来测量性能: Pearson的相关系数r和平均绝对误差(MAE)在推断和目标值之间。结果表明,用户未来的时间倾向与收入的相关性是最高的,即未来时间倾向较高的人往往具有较高的收入水平。结果还表明,与过去和目前的时间倾向相比,具有以预测收入为特征的未来时间倾向的预测模型具有较高的准确率。我们的研究结果与之前的研究一致,即未来的思维与学术成就、社会参与度的提高、较低的压力、外向性和尽责性有关。这些因素也与收入呈正相关(Kahana et al., 2005; Roberts et al., 2007)。还要注意的是,非线性方法比线性方法有大幅度的优势,它显示了在我们的数据中建模非线性关系的重要性。

 

表4:利用时间倾向特征预测收入


6 结论


我们提出了第一个大规模的研究,目的是通过他们的时间倾向预测Twitter用户的收入。从他们的推文中评估用户的时间倾向。我们的弱监督学习框架会根据其潜在的时间倾向自动时间标记推文:过去,现在,或将来。在完善的时间倾向相关的背景下,我们发现在用户级别的未来时间倾向和收入之间的关联是新奇的。在未来的工作中,我们正在通过将语言和情绪相关的特征融入到深度学习阶段来提高时间倾向分类的准确性。


论文下载链接:

http://www.aclweb.org/anthology/P/P17/P17-2104.pdf

留言 点赞 发个朋友圈

我们一起探讨AI落地的最后一公里


长按识别二维码可添加关注

读芯君爱你



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存