查看原文
其他

【大数据专栏】用大数据挖出微博抑郁患者?

2014-11-26 科技杂谈

【摘要】“大数据”正在成为当下的一个热词,但这项研究的科学性到底如何?业界如何评价?能否作为公认的心理学评估手段?




| 科 | 技 | 杂 | 谈 |

中国通信行业第一自媒体



本文来源于南方都市报


在微博上经常抱怨“去死”,或许会被甄别为抑郁患者。近期,一项“利用社交媒体数据挖掘识别抑郁倾向人群”的研究成果在网络引发热议,来自哈尔滨工业大学的研究人员称,通过构建抑郁倾向识别模型,实验室在新浪微博近亿用户中识别出几百名重度抑郁症患者,研究结果经医学机构确认准确度可达83%。相关人士表示,这项研究结果或成为抑郁症临床诊断之外的新兴诊断方法。


建构预测模型在新浪过亿用户中扫描


该项研究由哈工大“社会网络与数据挖掘”联合实验室与国内社交媒体数据挖掘公司“宏博知微”共同开展。实验室负责人哈工大博士于霄告诉记者,他是在微博上几位抑郁症患者自杀事件发生后开始关注抑郁症患者这一群体的,“仔细看这些人的微博,非常触目惊心,负面情绪在每一条都很明显,当时我们就感叹,如果通过数据识别这一群体,让其亲友能早点干预,也许可以避免悲剧发生。”


如何识别抑郁群体?于霄和同事首先是挑选新浪微博用户中被确认为抑郁症的人群作为样本,通过计算机强大的计算能力分析样本数据,从这些数据获取出规律后建构预测模型。有了数据模型,计算机就可以用这一模型扫描新浪微博上过亿用户了。


“计算机算法会包括自然语言处理、时间序列、机器学习等,比如失眠在抑郁症患者中比例非常高,会成为语言处理的关键词,机器还会对关键词出现的频率和时间段打分。”于霄说道。


约200用户被人工判定为抑郁患者


计算机最终统计的数据比他们想象中要更为丰富:存在抑郁倾向的微博用户与普通用户发博时间有明显差异,这部分人群发博高峰在23点,其夜间活跃度比普通用户平均约高出30%。该群体微博关键词为:死、抑郁症、生命、痛苦、自杀。有60%为女性,40%为男性,女性比例比男性略高,也与之前两位女性微博用户@走饭、@sienna赛娜因抑郁症而自杀的报道相符。


“有很多数据很值得关注的,比如有些表现出抑郁症倾向的用户除了喜欢用小号来表达痛苦情绪,还有群落聚集趋势,他们会同时关注很多其他同类人群,有的甚至会习惯每天到已经自杀的用户微博上评论‘今天你还好吗?’,这听起来有点瘆人。”


截至目前,实验室从识别出的抑郁倾向用户中,辅以人工判定约200名抑郁症患者,研究者发现,有多人在微博中称准备自杀。


据于霄介绍,除了抑郁倾向人群外,精神类疾病、危害社会行为(有暴力倾向人群)也是实验室数据研究的方向,希望能够对这些人群的提前干预提供数据支持。


焦点争议


数据挖掘触犯网友隐私?


有网友称:“一想到死了微博还要被翻,就连死都毫无尊严”


事实上,利用大数据干预抑郁症诊断及治疗是否可行,微博用户对此看法不一。持反对态度的网友@sen哥-认为:“一想到万一我死了微博也会被素不相识的人翻出来,就觉得连死这件事都他妈的毫无尊严。”持支持态度的网友@La_Prairie认为:“多一些关爱,就少一些遗憾。”


中山大学心理学系教授周欣悦也对此表示担忧,”抑郁症患者未必就愿意让别人知道自己有抑郁症,如果公开给别人贴标签就不太好。


霄告诉记者,大数据的隐私权一直是敏感话题,当用户看到自己的性格特征、人际交往等通过数据挖掘整理被罗列出来,肯定会很惊讶,但实验团队认为,由于搜集的是微博上用户自愿公开的数据,并非私人聊天记录,用户被侵犯的感觉会小很多,当然这还需要整个社会对大数据挖掘的理解。


不过于霄强调,不会把识别出的抑郁症用户数据对外公布,他们希望的是这些数据能得到卫生部门或医疗机构的重视和介入。“对愿意为这部分人群提供帮助的专业机构,他建议可以联系其新浪微博@社会网络与数据挖掘,共同研究微博抑郁倾向用户自杀干预方案。


大数据识别,结论科学吗?


心理医生:可做初筛不适合作为确诊手段


“大数据”正在成为当下的一个热词,于霄与其伙伴们所运用的正是这一利器。但这项研究的科学性到底如何?业界如何评价?能否作为公认的心理学评估手段?于霄告诉记者,他们把这些数据提供给北京、上海的一些精神病医院,得到了不少专家的认可,“不过专家会私下里说,应该就是(抑郁症患者)了,但不会明确判别,从医学手段来看,这样就做判断会显得不严谨。”


中山三院精神科副主任医师陶炯昨日接受南都记者采访时认为,利用大数据来识别抑郁症患者,有一定参考价值,一定程度上反映了用户的情绪,可以作为对这个群体初筛的一种方式。但就此给这名微博用户贴上“抑郁症”标签还不行,因为每个人都会有情绪发泄的时候,如何甄别这些是否“假阳性”,要确诊还需要医生面谈。他建议,可以给识别出的高危人群做些专业测试,比如可以让用户在网络上填些量表问卷。


与陶炯看法不太相同的是,中山大学心理学系周欣悦教授认为,这种关键词联系是相关关系,不是因果关系,预测的人群能否作为真正适合干预的人群很难说,需要更深入地研究。


背景资料


据公开数据,我国抑郁症发病率约为3%~5%,目前已有超过2600万人患抑郁症。全国地市级以上医院对抑郁症的识别率不到20%。


数据还显示,在过去50年里,我国平均每年有28.7万人死于自杀,200万人自杀未遂。自杀人群中有63.5%患有抑郁症,但仅9%在自杀前曾到精神科或心理咨询机构就诊。




2013年度最佳IT原创自媒体

2014年度最佳新媒体人

国资委微公益行动联合发起人


| 新科技 | 睿思想 |

已入驻百度百家、腾讯新闻、搜狐新闻、今日头条、网易阅读
犀牛财经自媒体联盟(xinews)成员

欢迎争鸣 谢绝软文


转载授权、商务合作,联系微信号:sophie0306



—【菁英汇】—


| 探索 | 交流 | 协作 | 分享 |

点击下方 “阅读原文”,加入 “科技杂谈菁英汇”



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存