查看原文
其他

谢幸:你的朋友圈正在“出卖”你 | 造就

造就 造就 2019-11-10

https://v.qq.com/txp/iframe/player.html?vid=n0383li8qxh&width=500&height=375&auto=0

第162位讲者:谢幸

微软亚洲研究院社会计算组主任研究员

中国科学技术大学兼职博士生导师


什么叫用户画像?就是通过用户产生的各种数据,去试图理解用户的性格及各类属性,如年龄、性别、爱好等。

 

要对这些进行深入研究并不容易,但在心理学领域,这些已经研究了上千年。

 

公元前400年左右,有一个叫希波克拉底的古希腊医学家,他提出「四体液说」的概念,他认为人体中有四种体液:黑胆汁、黄胆汁、血液和黏液。

 


这四种体液的分布决定了人的性格。如果你容易抑郁,则是黑胆汁比较多;你比较乐观,则是血液比较多;你冲动易怒,则是黄胆汁比较多;你冷静理智,则是黏液比较多。


在现代医学看来,体液学说并不科学,但这对人格的探讨和分类却很有启发。

 

心理学有「词汇学假说」,是指在研究人格时,我们不用漫无目的地去观察各种各样的人,而是可以简单一点,直接去看人类语言中相关的词汇即可。


在100多年前,心理学家们翻阅词典,从里面找到了18000多个单词描述人,然后又从这当中找出4000多个词用于描述人格。

 

虽然这些词好像很少,但实际操作起来还很复杂。心理学家不想那么复杂,于是他们通过一些因素分析的方法,找到以上那些词汇的相关性,再将之归类,归到比较小的维度里。



现在比较流行的分类是「大五人格理论」,即外向性、随和性、神经质、尽责性和开放性。

 

心理学家整理的这些词汇,以及生成这样的人格分类体系,很多方法都是数据驱动的,跟计算机科学有很多紧密的联系。我们最关注的一点就是,能不能自动计算用户的大五人格呢?


心理学里面有一种方法叫行为测量。就是如果你每天抽出足够长的时间观察一个人,即便不问问题也能大概猜出他的性格。但这需要大量行为数据做支撑,在过去比较麻烦。


但现在这个事情比较容易了,为什么呢?因为有了社交网络,大家会主动告诉别人自己在干嘛。比如你今天来听演讲会发一条朋友圈,这体现你某方面的特质;你去高大上的餐厅吃饭,你发张照片秀一下,这也会体现了你的特质。

 

我们把所有用户提供的数据结合起来,就可以相对准确地去猜测。我们提出了一个「人格推测模型」,其特点就是去集成不同来源的用户数据,包括你发的文字、图片、常用的表情符号,以及你填写的个人资料等。

 

你们可能会说,有了这个模型以后,怎样进行训练呢?其实还是要和心理学家合作,因为首先我们得标注这些用户的行为特点和人格特征,它们之间是否有映射或者联系。把这样的映射输入模型里面,我们才能训练出一个好的模型。



比如说我们可以计算你发表的文字和性格之间的关系,得出文字和每个维度是正相关还是负相关。如果经常在朋友圈里面写「青春」「自我」的人可能比较外向;经常写「面对」「失败」的人就比较内向。

 

有些人经常写「时代」「社会」「成功」等非常正能量的词汇,他们尽责性比较高;一些写「随便」「萌萌」「气质」这些词的人,尽责性则比较低。

 

所谓尽责性是指他更在乎结果还是过程,在乎结果的人就是尽责性比较高,在乎过程的人则尽责性比较低。所有的这些人格都没有好坏之分。

 

大家可以看看自己发表的文字,看你的朋友圈写了一些什么呢?体现你什么样的性格?



我们还计算了头像和大五人格的相关性,比如内向的用户可能不太喜欢用正脸,更偏好用侧脸,或者看不清全脸的这种照片;比较外向的用户可能用很夸张的表情,或者卡通的照片。

 

比较开放的用户经常会用一些合影或活动的照片,开放性比较低的人可能经常用自拍做头像。所以大家可以看你的头像是什么,是不是暴露了你的性格?

 

我们做了很多用户理解和人格推测的工作,但下一步呢?


我们真正的目标是想搭建一个更像人的机器人。

 


去年,有一个俄罗斯创业者的朋友去世了,他非常痛苦,就在想那我怎么去悼念他?他就收集了朋友的8000多条短信,用其训练了一个机器学习的聊天模型。你可以跟这个模型对话,它可以用他朋友的话语方式来回应你,就好像这个人还活着一样。

 

我们需要和心理学家一起来合作,让机器人更逼真,更像人类。那么,做这样的聊天机器人有什么用呢?

 


在未来我们希望聊天机器人能够帮助解决实际的社会问题,比如有很多农村留守儿童,他们的父母在外地打工,这些孩子非常孤独,我们是不是可以通过这样的聊天机器人帮助他们缓解一些心理问题,并陪伴他们呢?

 

我们希望让机器人拥有像人类一样的思维,当人类需要的时候,能够真的帮助人类,去陪伴他们。




胡慎之 | 为什么那么多人爱看《三生三世十里桃花》?

谢幸 | 我能不能再造一个自己?

马晨骋 | 舞台去哪了?

史航 | 谁能把旧的给创造出来?

王双强 | 文字的力量 

黄海清 | 五年后,我们都活在云端

伏彩瑞 | 中国教育散不去的霾 

点击标题 查看往期回顾


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存