查看原文
其他

EMNLP 2017|马里兰大学:针对基于社交媒体的药物使用预测的多视图无监督用户特征嵌入

热爱学习的 读芯术 2019-05-05

你和“懂AI”之间,只差了一篇论文


很多读者给芯君后台留言,说看多了相对简单的AI科普和AI方法论,想看点有深度、有厚度、有眼界……以及重口味的专业论文。


为此,在多位AI领域的专家学者的帮助下,我们解读翻译了一组顶会论文。每一篇论文翻译校对完成,芯君和编辑部的老师们都会一起笑到崩溃,当然有的论文我们看得抱头痛哭。


同学们现在看不看得懂没关系,但芯君敢保证,你终有一天会因此爱上一个AI的新世界。


读芯术读者论文交流群,请加小编微信号:zhizhizhuji。等你。

这是读芯术解读的第81篇论文



EMNLP 2017 Long Paper

针对基于社交媒体的药物使用预测的多视图无监督用户特征嵌入

Multi-View Unsupervised User Feature Embedding for Social Media-based Substance Use Prediction

马里兰大学

University of Maryland


【摘要】在这篇文章中,我们论证了如何使用最先进的机器学习技术和文本挖掘技术,来构建一个有效的,基于社交媒体的药物使用检测系统。由于药物使用的真实数据难以大规模获得,为使系统性能最优,我们研究了不同的无监督特征学习方法,以利用大量的无监督社交媒体数据。本文还展示了使用多视图无监督特征学习的优点,可以借助它对异构用户数据的结合(如Facebook用户的“点赞”数据和“状态更新”数据)来提高系统性能。根据评估,我们的最佳模型在预测烟草使用时达到了86%的AUC值,预测酒精使用时达到81%,以及预测违禁药品使用时达到84%,所有数据都显著优于现存的方法。此调查还揭示了用户的社交媒体行为(如词语使用)和药物使用之间的有趣关联。


1 引言


根据SAMHSA(美国物质滥用和精神健康服务管理局)2015年的定义,药物使用障碍(SUD)是指由于物品药物(如酒精,药品和烟草)的重复使用导致个体生活中产生临床性和功能性重大损伤的一种状态(SAMHSA, 2015)。据2014全国药物使用和健康调查显示,12岁以上美国人有十分之一患有药物使用障碍。2015年NIDA(国家药物滥用研究所)也显示,美国人当年因药物使用产生的花费已超出7000亿美元,主要在于日益增加的医疗护理费用、犯罪行为以及丧失生产力(NIDA, 2015)。


目前,人们仍然会在Twitter、Facebook和Instagram等社交媒体上花费大量时间,与家人朋友进行互动,交换意见想法,更新状态以及组织活动。社交媒体的普及和广泛使用提醒了人们探索其与药物使用之间的交集的必要性,也提醒了人们在筛选、药物误用与滥用上,社交媒体上或许会是一种低成本的弹性解决方案。


在本研究中,我们使用了最先进的机器学习技术和文本挖掘算法构造了药物使用的自动预测系统,此系统可鉴定人们是否处于SUD(药物使用障碍)的风险之中。由于SUD数据在大规模获取时常常价格不菲,为使系统性能最优,我们将视线转投另一种思路,即通过无监督特征学习以用到大量的无监督社交媒体数据。(Le et al., 2011; Lee et al., 2009; Leand Mikolov, 2014)等在机器学习、图像处理、语音及语言处理方向的研究已经表明,使用大量无监督数据是目前达到高性能的最可靠方法之一。此外,通过深入分析社交媒体上丰富的人类行为数据,我们还可以深入了解与药物使用相关的使用模式及风险因素。此工作的主要贡献在于:


  1. 我们探索出了一套全面的学习方法,即通过单视图特征学习来利用大量的无监督社交媒体数据。与仅使用受监督的训练数据的基准系统相比,我们的结果有着显著进步。


  2. 我们研究了数个多视图学习算法,并以此利用到不同类型的用户数据(如Facebook用户的“喜欢”数据与“状态更新”数据)。结果也表明,其与仅使用单一数据类型的基准相比有显著进步。


  3. 我们对一个人的社交媒体活动与药物使用之间的关系已有了新的见解,如字词使用与SUD的关联。


2  相关工作


药物使用障碍(SUD)包含了复杂的行为模式。目前也已有许多研究在探索与SUD相互作用的因素。而越来越多的研究表明,个人性格和药物使用之间有着强有力的关联。例如:2014年Campbell等人(Campbell et al., 2014)发现,吸烟者明显更乐于体验但自觉性较低,性格也倾向于表现出自律,尽职尽责与追求成就。1998年Cook等人(Cook et al., 1998)调查了饮酒与性格之间的关系,并发现饮酒与社交性和外向性是呈正相关的。2008年Terracciano开展了一个涉及1102名参与者的研究(Terracciano et al., 2008),并发现了吸毒者与低自觉性之间的关系。2009年Carrol等人(Carroll et al., 2009)揭露了与上瘾相关的风险因素,如年龄、性别、喜好、冲动、新鲜感,乐于运动以及贫乏的环境。此外,上瘾还与环境因素和社会因素等有关,如社区环境(1996年Crum等),家庭环境(1986年Cadoret等)以及社会准则(Botvin, 2000; Oetting and Beauvais,1987)。


从传统意义上来说,行为科学研究中,数据是从对有限数目的人们进行调查和采访中获得。社交媒体的出现为研究人员提供了大量可用的各类用户数据,这使得在自然条件下来研究基于在线用户行为的SUD成为可能。来自社交媒体的典型数据包括人口统计资料(年龄,性别等),状态更新(发布帖子等),社交网络(粉丝和粉丝图等)以及喜好(赞同或反对等)。近来,社交媒体分析已经越来越成为帮助理解成千上万的社交用户的特征行为的一个强有力的工具,如个人性格(Golbeck et al., 2011; Volkova andBachrach, 2015;Youyou et al., 2015; Kilic¸ and Pan, 2016),品牌偏好(Yang et al., 2015),团队活动(Sayyadiet al., 2009),流感趋势(Aramaki et al., 2011)与犯罪(Li et al., 2012)。然而,至今为止,直接使用大型社交媒体分析来自动预测SUD的工作仍然有限。在我们所知的这些工作中,2016年Zhou等人(Zhouet al., 2016)确定了一天或一周的普通药品使用行为。他们还发现了用药者(如名人克里斯·塔克和喜剧演员cheech&chong)的共同兴趣。此外,2013年Kosinski自发预测了基于社交媒体喜好的SUD(Kosinski et al., 2013)。由于他们的数据集和我们的非常相似,所以我们会将Kosinski模型作为我们的基准之一。


3  数据集


Kosinski等人的2015年报告表明,研究数据是从2007年到2012年收集的,并作为myPersonality项目的一部分(Kosinski et al., 2015)。myPersonality是一个很流行的Facebook应用,它为用户提供心理测试,并根据测试成绩予以用户反馈。而数据也是在用户明确同意其用于研究目的的重用后再进行收集的。我们的研究使用了三个来自myPersonality的数据集:Facebook状态更新(又名发帖)数据集、Facebook喜好数据集和SUD状态数据集。


状态更新数据集包含了由15.3万用户发出的2200万条帖子。平均每个用户发帖143条,平均每条1730字。我们剔除了那些只发非英文帖子以及发帖字数曾少于500字的用户。最终,我们的数据集包括由106509位用户发出的2100万条帖子。在滤掉低频词(在数据集中出现次数少于50次)后,状态更新数据集的词表大小是73935。


喜好数据集包含了Facebook用户对各类目标表达积极情绪的喜爱,这些目标有产品、电影、书籍、表情、网站和人们(被称为喜爱实体Like Entities或LEs)。先前的研究已经表明,社交媒体的喜好能够充分说明我们的身份。2013年,Kosinski等人研究(Kosinski et al., 2013)发现,除了直接表明兴趣和偏好外,社交媒体的喜好还隐含了种族、智力和性格等信息。此喜好数据集包括了1100万个Facebook用户的喜好。总的来说,有990万个独一无二的LE和18亿个“用户-喜欢”信息对。平均每个用户的喜好数目是161个,平均每个LE收到的喜好是182个。我们剔除掉那些只有少量喜好的用户和只收到少量喜好的LEs,剔除界限分别是50和800。剔除后,此喜好数据集包括了5138857个用户和253980个无重复的LEs。


据2012年Stillwell 和Tunney的调查(Stillwelland Tunney, 2012)表明,SUD数据集总共包含了13557个参与者。用户会被问到像“你吸烟么?”这样的问题,他们回答“每天都吸烟甚至更频繁”,“不是每天都吸烟”或者“从不吸烟”。他们还完成了香烟依赖量表(CDS-5) (Etter et al., 2003),饮酒问卷(AUQ) (Townshend和Duka,2005)和药物误用问卷评估(ASMA) (Willner, 2000)。基于这些分析调查,参与者被划分到不同的SUD类型组。例如,基于吸烟评估,“每天都吸烟甚至更频繁”的用户被分到组3,“不是每天都吸烟”的用户被分到组2,还有“从不吸烟”的用户被分到组1。这些小组的真实性由每组的CDS-5成绩来确保。类似的,基于饮酒评测,参与者被分为“每周一次或频率更高”(组3),“少于每周一次”(组2)或者“从不饮酒”(组1)。最后,基于用药评估,用户被分为“每周一次或更频繁”(组3),“少于一周一次”(组2)以及“从不用药”(组1)。在所有的SUD参与者中,有37%是男性,63%是女性。他们的平均年龄是23岁。


由于喜好数据集,状态更新数据集和SUD数据集仅有部分重叠,他们的交集通常都会非常小。表1总结了这些数据集的大小和用处。表2显示了SUD数据集的其他细节,包括每个SUD类的分布。


表1 数据集描述


表2 不同数据集的类分布


简言之,在我们所拥有的数据集中,无监督喜好数据集是最大的(超过500万用户)。无监督状态更新数据集的数据量也很大(超过100万用户)。相反,具有SUD真实数据的监督数据集很小,范围从喜好,状态更新和SUD三个数据集的交集大小(表1中的LikeStatusSUD)896到喜好数据集和SUD数据集的交集(表1中的LikesSUD)3508。因此,本研究的侧重点如下:(1)使用无监督特征学习来利用大量无监督数据;(2)使用多视图学习来结合不同类别用户数据以达到更好的预测效果。


4 单视图帖子嵌入(Single-View PostEmbedding,SPE)


本研究的主要目的是说明采用无监督特征学习的实用性,及可以通过使用大量的无监督数据导出一个Facebook用户帖子的特征表示。因此我们在此研究中只使用Facebook的状态更新数据集,并称此过程为单视图帖子映射过程。


4.1  SPE特征学习方法


由于每个用户都与一系列帖子相关联,我们探讨了以下几个方法来学习SPE。

奇异值分解(SVD)是一个常用的数学降维技巧(De Lathauwer et al., 2000)。给定一个m*n的矩阵A,通过SVD可得出三个矩阵U,V,W使得A=UWVT。这里,U是一个m*n的标准正交化矩阵,W是一个n*n的对角矩阵,V是一个n*n的标准正交化矩阵。降维是通过计算R=U*Wr来实现的,其中Wr忽略了对角矩阵W中除了r个最大奇异值外的所有值。在本文中,m是用户数目,n是词表中的非重复单词数。Aij=k,这里的k是指单词j在用户i的帖子中的出现次数。


潜在狄利克雷函分布(LDA)是一种图形生成模型,它可以通过不可观察的潜在主题来解释文档集。(Blei et al., 2003). 对每个文档,LDA输出一个基于一组潜在主题的多项分布。对每个主题,LDA也输出一个基于词汇表的多项分布。

基于每位用户的所有帖子来学习SPE,我们尝试了如下几个方法:


  1. 用户LDA:它将每个用户的所有帖子视为一个大文档,并训练一个LDA模型来驱动此文档的主题分布。然后,将每个文档的主题分布用作这个用户的SPE。


  2. 帖子LDA文档:它将每个帖子视为一个单独的文档,并训练一个LDA模型以导出每个帖子的主题分布。为了导出每个用户的SPE,我们对来自同一用户的每个帖子的主题分布向量进行平均化,再将由此得出的向量进行聚合。


  3. 帖子LDA单词:代替了基于帖子的平均主题分布向量,我们现在使用Schwartz在2013年提出的基于单词的聚合方法:


p(topic|user) =  


这里的voc代表词汇表,p(w|user)是字母w在用户帖子中出现的概率,此值在LDA模型中是内部可用的。UserLDA模型中所有的超参数都被设置为默认值。而所有的PosetLDA模型,由于Facebook帖子通常比较短,且每个帖子只会有少量主题,因此我们将其超参数设为2013年Schwartz的建议值0.3。


带有分布式存储的文档映射(D-DM)。给定一个文档,D-DM同时学习整个文档里每个单词和向量的向量表示。训练时,文档向量和一个或多个单词向量被聚合到一起来预测上下文中的目标单词。为了使每位用户学习SPE,我们研究了以下两种方法(1)用户D-DM:它将来自同一用户的所有帖子视为一个文档,并训练出一个文档向量用来表示用户。(2)帖子D-DM:它将每个帖子视为一个文档,并训练一个D-DM以学习每个帖子的向量。为了导出用户SPE,我们使用“平均值”来聚合来自同一用户的所有帖子向量。


使用分布式单词映射的文档(D-DBOW)。据Le和Mikolov2014年研究,D-DBOW学习了一个全局文档向量来预测从文档中随机取样的单词,它不学习个别单词的向量。也不使用本地上下文窗口,因为这些预测的单词是从整个文档中随机抽取的,为了使用户得到SPE,我们使用了两种方法(1)用户D-DBOW和帖子D-DBOW。


4.2 使用SPE的SUD预测


为了找到本实验的最佳模型,我们将SPE的输出维度系统地设定为50,100,300到500。在我们的试验中,使用了Gensim的SVD, LDA, D-DM和D-DBOW实现,并将D-DM的上下文窗口大小设置为5。


文中比较了我们的模型和两个只使用监督学习的基准模型(1)单个单词模型,它使用单个单词作为预测特征。因为我们拥有大量的单个单词,所以我们还进行了监督特征选择,以降低输入特征的总数。最后,由于SUD变量都有三个值,所以我们还采用了三维分类的SVW。(2)LIWC模型,它使用了人工设计的LIWC特征进行SUD预测。据Pennebaker2015年研究,LIWC是一个心理语言学词典,它常常被用于基于文本的人类行为预测。由于LIWC的特征数目相对较少,因此不再进行特征选择。这里,我们只使用表1中的状态更新数据集来进行SPE学习,使用StatusSUD数据集来进行无监督SUD预测。


我们使用了10倍的交叉验证来评估本模型的性能。表3中的评估结果是基于最佳模型的加权ROC和AUC得来。在基于Facebook状态更新数据集上的所有特征学习方法中,用户D-DBOW方法表现最优。它的表现显著优于所有仅依赖监督训练(t-test & p<0.01)的基准系统和所有的传统特征学习方法,如LDA和SVD(t-test&p<0.01)。此外,在将来自同一用户的所有帖子视为一个大文档还是一个单独的文档的问题上,LDA更倾向于后者,即一个帖子一个文档(模型带有“帖子”前缀),而所有基于文档向量的方法都更倾向于一个用户一个文档(模型带有“用户”前缀)。另外,在使用帖子等级的LDA来导出用户SPE时,基于文档的聚合方法(PostLDA_Doc)比基于单词的方法(PostLDA_Word)表现更佳。


表3 SPE:预测结果


5 单视图喜好映射(SLE)


除了发布帖子外,每个用户账户还和一系列喜好相关联。由于喜好数据集非常稀疏(比如Facebook上有成千上万个不同的喜好,但每个用户只喜欢一部分),我们通过实验学习了每个用户对所有喜好的密集向量表示,并称此过程为单视图喜好映射(SLE)。


5.1 SLE特征学习方法


SLE的输出只有一个用户喜好的LEs集,每个LE由其id值进行标识。为了将这样的表示映射到一个密集用户喜好向量,我们尝试了以下几种方法:


奇异值分解(SVD)除了当用户i喜欢LEj时使Aij=1,不喜欢时使Aij=0这点外,其他用法与其在SPE中相同。这里的A是一个m*n维矩阵,m是用户数目,n是喜好数据集中的非重复用户数目。


潜在狄利克雷分布(LDA)。为了将LDA应用到喜好数据集,每个LE被视为一个单词令牌,且同一个用户喜好的所有LE组成一个文档,而LE在文档中的顺序是随机的。对每个用户,LDA基于一系列现在“喜好主题”输出一个多项式分布。比如一个关于“嘻哈音乐”的“喜好主题”可能包括著名的嘻哈歌曲及音乐家。


自编码(AE)。据2006年的Hinton和Salakhutdinov研究,自编码是一种基于神经网络的自学习方法。它学习了一种使得输出尽可能接近于输入的标识功能。尽管标识似乎是一个琐碎的学习功能,但通过放置额外的约束(例如:使隐藏层中的神经元数量远小于输入层中的神经元数量),仍然可以促使系统发现数据中蕴藏的结构。从架构上说,我们使用的AE有一个输入层,一个隐藏层和一个输出层。对每个用户,我们构造一个训练实例(X,Y),输入向量X和输出向量Y是相同的。X和Y的大小之和是我们数据集中非重复的LE数目。如果用户喜欢LEi,Xi和Yi等于1,否则等于0。


带有分布式内存的文本向量(D-DM)。我们也在喜好数据集中使用了D-DM,给定一个用户的所有喜好,D-DM学习了每个LE的向量表示和来自同一用户的所有LE的文档向量。我们使用已学习的文档向量作为SLE的输出。


带有分布式词袋的文本向量(D-DBOW)。类似的,我们也将D-DBOW应用到此喜好数据集。因为D-DBOW不使用本地上下文窗口,并从整个文档中随机取样。它比D-DM更适用于喜好数据集,是因为LE的相对位置是最重要的。


5.2 使用SLE预测SUD


类似的,我们将SLE的输出维度系统地设定为50,100,300到500,以找到一个最佳模型。我们在实验中使用了Gensim的SVD,LDA,D-DM和D-DBOW实现。并将D-DM的上下文窗口大小设置为20。使用Keras搭配Theano后端来实现自编码AE。


我们使用SVW来执行三路分类,并将结果与单个单词的基准相比较。还将此结果与Kosinski在2013年报道的Kosinski模型进行了比对。Kosinski模型同样是基于Facebook喜好数据集进行训练的。然而,它的结果是基于双路分类,比三路分类更为简单。所有的结果都是基于加权ROC AUC。


如表4所示,在所有的SLE方法中,D-DBOW模型表现最佳。它明显优于不使用任何非监督数据(t-test & p<0.01)的单个单词基准,也明显优于传统的特征学习方法,比如SVD和LDA(Kosinski模型就是使用SVD进行特征学习的)(t-test &p<0.01)。在两个基于向量的文档方法中,D-DBOW比D-DM表现更佳。我们认为这是因为D-DBOW不使用本地上下文窗口,因此它对LE在文档中的位置并不敏感。因为在我们的喜好数据集中,LE的位置是随机的,因此D-DBOW似乎更加适合。


表4 SLE:预测结果


6 多视图用户嵌入(MUE)


本研究的主要目的就是说明结合不同类用户数据的有效性,比如通过集合喜好数据和帖子数据来为每个用户学习一个密集向量表示。因为我们使用无监督多视图特征学习来结合这些数据,我们称此过程为多视图用户映射。


6.1 MUE特征学习方法


我们已经研究了两种多视图特征学习算法:典型相关分析(CCA)和深度典型相关分析(DCCA)。


典型相关分析(CCA)。据2004年Hardoon等人的研究,CCA是一种用于探索两个多元变量(向量)集之间关系的统计方法。给定两个向量X和Y,CAA尝试找出两个最大限度相关的aX和bY,并使得:


  


其中,X,Y表示带有协方差的随机向量,。CCA是无监督数据分析中的常用算法。(Sargin et al., 2006; Chaudhuri et al.,2009; Kumar and Daume ´, 2011; Sharma et al., 2012).


深度典型相关分析(DCCA)。据Andrew等人2013年研究,DCCA或许是CCA的非线性扩展,它旨在倾斜高度相关的深层架构。直观来说,就是通过对两个视图进行多层非线性变换来找到它们的最大相关表示。典型地说,训练DCCA分为三步:(1)使用一个去噪的自动编码器来预先训练每一个视图,在本实验中,我们使用SPE或SLE。(2)计算拓扑表示相关性的梯度。(3)使用反向传播调整参数以优化总相关性。


6.2 使用MUE预测SUD


MUE的输入是我们之前获得的两个单独的视图(如SPE或SLE)。在这里,我们选择D-DBOW的输出,因为它的性能始终优于其他的SPE和SLE的学习方法。我们在以下两组设置条件下运行了CCA和DCCA。(1)平衡设置:SPE和SLE维度总是相同。(2)非平衡设置:SPE与SLE维度不同。因为我们将SPE和SLE的输出维度系统地设定为50,100,300到500。MUE的输入维度在平衡条件下是100,200,600和1000。当在非平衡条件下运行CCA和DCCA时,只选择最好的SPE和最好的SLE值,即分别在维度50和维度300时得出的结果。我们还将MUE的输出维度系统地设定为20,50,100,200,300,400,500到1000(直到MUE的输入维度最大值)。表1中我们使用LikeStatus数据集作为多视图无监督特征学习的训练数据。对于基于MUE的监督型SUD预测,我们使用了LikeStatusSUD数据。在本实验中,我们使用了由Benton等人在2016年研究的一种CCA的变体wGCCA(https://github.com/abenton/wgcca),并将两个视图的权值设为同一值。采用DCCA(https://github.com/VahidooX/DeepCCA)用为实现,并以Keras和Theano作为深度学习平台。我们还在1到3之间改变隐藏层数目以调整实验性能。


我们将多视图学习结果与其他三个基准进行比较,得出BestSPE和BestSLE是最佳的单视图模型。我们还使用了第三种基准,名为单字结合,它将所有的帖子和喜好单字简单地连接到一起,然后再使用基于SVM的分类中的剩余特征之前应用监督特征选择。如表5所示,wGCCA和DCCA的性能都明显优于基于单字的基准(t-test &p<0.01)。最佳多视图模型(wGCCA在酒精和药物下平衡,在违禁药物下不平衡)和最佳单视图模型之间的差别依然明显(p<0.02)。在我们的工作中,wGCCA也明显优于DCCA(t-test&p<0.01)。


表5 MUE:预测结果


7 社交媒体和药物使用


除了通过构造模型来预测SUD,我们还对一个人的社交媒体行为和药物使用行为之间的关系很感兴趣。由于许多SPE和SLE都难以理解,在这一章节,我们旨在研究来自状态更新数据集的LIWC特征和来自喜好和状态更新两个数据集的LDA主题。由于SUD的真实值是一个序数变量,LIWC/LDA特征是数字。这里,我们使用了斯皮尔曼等级相关分析来鉴定与SUD相关程度最高的特征。图1表明,LIWC特征至少与一种类型的SUD(P<0.05)显著相关。其中,蓝色表示正相关,红色表示负相关。此外,颜色的饱和度也蕴含了相关程度,颜色越深,相关程度越高。


图1 与药物使用最显著相关的LIWC特征


如图1 所示,诸如“fuck”和“shit”的脏话,“horny”和“sex”相关的性话,如“血”和“痛”的生物学过程相关词汇,它们与SUD的全部三种类型都成正相关。此外,与金钱有关的词如“现金”,与身体有关的词如“手”和“腿”,与摄食相关的词如“吃”与“喝”,它们三类与酒精和药物使用都呈正相关。与动作相关的词如“车”和“走”,与酒精和烟草使用都呈正相关。此外,诸如“女孩”和“女人”的女性代词,介词,诸如“上”,“下”的空间代词都和饮酒呈正相关。同时,与愤怒相关的词如“恨”与“杀”,与健康相关的词如“诊所”和“药丸”都与药物使用呈正相关。


就LIWC的特征而言,它与SUD是呈负相关的,与过去相关的词如“did”和“过去”与烟草和药物使用也皆呈负相关。诸如“好”,“是”和“同意”等赞同的词汇和饮酒与吸烟都呈负相关。此外,诸如“男孩”和“男人”的男性代词,诸如“奖品”和“收益”的奖励词汇,诸如“nice”和“sweet”的积极词汇,诸如“we”和“our”的第一人称代词与药物使用都呈负相关。此外,如“it”的非人称代词,如“but”和“else”的转折词,如“job”和“work”等与工作相关的工作词汇,他们都与饮酒呈负相关。令人惊讶的是,诸如“danger”的风险词汇,与悲伤,死亡和消极情绪相关的词汇都与饮酒呈负相关。


结果中还有一些令人惊异的部分。例如,诸如“女孩”和“女人”的女性代词与饮酒呈正相关,而诸如“男孩”和“男人”的男性代词与饮酒呈负相关。为了解释这一现象,2013年Schwartz等人的研究表明女性词汇的使用者多为男性,反之亦然。因此,我们的结果说明男性更经常饮酒而女性很少使用违禁药。


表6 与药物使用最显著相关的主题


我们还使用了斯皮尔曼相关分析来鉴定LDA学习到的,与SUD相关的“喜好话题”和“状态更新话题”。由于重要话题的数目较多,我们在表6中只显示了一部分案例。基于用户的状态更新,“脏话主题”(T1,T9)与烟草和吸毒都呈正相关,这与我们的LIWC的发现结果一致。“夜生活主题”(T5)与饮酒呈正相关。此外,“学校主题”与饮酒和吸烟都呈负相关。积极的家庭活动(T10)与服用药物呈负相关。此外,基于从“喜好”数据集学得的LDA主题,偏好摇滚乐(T3,T11)与烟草和服用药物都呈正相关。偏爱诸如“V字仇杀队”和“处刑人”的电影的(T7)与饮酒呈正相关,而有业余爱好(T12),喜欢孩子们喜欢的卡通片和节目(T8)或者喜欢女孩们喜欢的电影和乐队(T4)都与服药,饮酒和吸烟呈负相关。


8  讨论与未来工作


当前,我们的多视图无监督特征学习方法只学习了喜好数据集和状态更新数据集的交集,这比喜好数据集或状态更新数据集任意一个都小。类似的,基于MUE的监督预测只使用了这三种数据集的交集,此交集就更小了(只包括896位用户)。因此,如果以后有一个可以使用到全部的可利用数据(如:所有监督训练数据和非监督训练数据的并集)的多视图特征学习算法,效果将非常可期。此外,我们的最佳SPE模型维度只有50,最佳SLE模型维度只有300。这或许因为SPE使用的监督训练数据比SLE使用的监督训练数据三倍小。但是令人惊讶的是,基于SPE的模型比基于SLE的模型表现更优。我们期待着,当有了更多的训练数据,基于SPE的方法表现会表现的更加优异。


9 总结


我们相信,无论是在研究与SUD相关的人类行为上,还是在让更多的公众参与到物质滥用的预防和筛选上,研究社交媒体都将会是一个令人充满期待的平台。本研究中,我们重点研究了以下四个主要问题:


  1. 使用无监督特征学习来利用大量的无监督媒体数据。


  2. 使用多视图的特征学习来结合异类用户数据,以学得一个全面的用户表示。


  3. 基于已学习的用户特征来构造一个SUD用户预测模型。


  4. 利用相关分析来获得可人类可解释的结果。


我们的研究不仅构造了最先进的预测性能模型SUD(例如:对全部的SUD类型,我们的模型达到了80%AUC的准确度),还证实了将非监督的异类用户数据结合到一起来进行SUD预测的优异效果。


论文下载链接:

http://www.aclweb.org/anthology/D/D17/D17-1241.pdf


留言 点赞 发个朋友圈

我们一起探讨AI落地的最后一公里


长按识别二维码可添加关注

读芯君爱你


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存