太阳底下无隐私:那些年我们做的微博数据挖掘
非常开放的微博接口
彼时,各大互联网公司都在发展开放数据平台,作为自媒体的翘楚新浪微博自然不例外。通过高级账号接口,几乎可以访问微博上所有的数据。
2013年年底,新浪微博官方称拥有3亿用户。但经过我们对全网数据的抓取和分析,发现真正活跃用户不超过五千万人。这也与观察相似,绝大多数父母辈的人,只是听说过微博,但远远没有像现在使用微信一样产生重度依赖。
通过好友关系了解八卦
我们能够分析好友间的关系。可把每个好友看做一个小球,好友的连接作为一条弹簧,设定初值后,这个好友构成的网络就会逐渐稳定,所谓物以类聚,人以群分。初高中,本硕同学,亲戚同事,有共同爱好的各自聚在一起。甚至两个人如果是情侣或是基友,那么位置也会分外接近。各种八卦在一张图上一目了然。
上面就是主页君微博300多位好友的分析,整个计算过程从采集数据到可视化,需要约10秒钟。小球的颜色代表了分组,大小展示了好友的重要性。在中心位置的人,当然是主页君啦。
你可以通过这张图推测此人的爱好,比如放大看一个只有六个用户的小类:清晰的表明了他关注书画鉴赏。
超大规模网络分析
仅仅分析某人的好友,这太easy了。为了研究巨大社群的关系结构,我们针对海淀的20万个微博用户,进行了超大规模网络分析,绘制出了如下的复杂结构(密集恐惧症慎入):
通过3D引擎,我们能够把整个网络以三维的结构绘制出来。你可以成为一架飞机,能在天空中漫游,从不同角度观察好友间的关系。
在微博营销过程中,客户将特别关心微博的传播能力,即,对用户群造成了多大的影响,哪些节点是核心传播节点,是否有水军等。我们专门对此开发了一项功能:
我们随意以潘石屹的其中一条微博“一句话不会讲,将来中国做支教老师了,勇敢啊@美丽中国" 。 这条微博比较中性,讲的是鼓励美丽中国 (Teach For China)这个公益组织中的一些外国友人,来中国偏远山区进行支教的故事。
之所以选这样普通的微博,是因为潘老大随便发一条微博就上十万次转发,传播量大的微博需要花费太多时间抓取原始数据。
这种技术有三个重要用途
这贪官该落马了:舆情分析
说起舆情分析,就不得不谈论2012年的网红“表哥”杨达才。 原陕西省安全生产监督管理局局长杨达才,在一场悲惨的车祸现场微笑而惹怒网友。万能网友通过他戴的世界名表来找他的“茬”,结果拔出萝卜带出泥,挖出他有多块名表,现金存款1600多万元。再后来,他被有关部门”高度重视“,双规了。
黄线是微博讨论“表哥”的热度,红线是报刊新闻的热度,系统针对每个高峰值,自动打上了和它相关的新闻标签。
微博讨论一共有三个高峰。第一个高峰是8月26日,表哥的微笑第一次被天涯曝光,原创微博数高达四万条。第二个高峰是几天后网络上曝出他有多块名表。一个礼拜后,传统的新闻报刊开始介入。进行了四周的高强度的报道,每天都有两三千篇。
我们特别好奇为何新闻总是在周末处于低谷,进行了不少讨论也没结果,后来问了新闻界的朋友,才知道好多报社周日不上班(汗)。微博的第三次高峰,就是杨达才被双规,但在微博引起的波澜,已经远远没有前两次那么强烈。
我们通过这张图,能够明显发现微博和传统新闻媒体的不同模式。微博来得凶猛,去得也快,是网民草根的狂欢,热度不会超过三天,而且”车祸现场微笑戴名表“的关注度明显比”双规“来得更疯狂;传统媒体慢热,却代表官方意见,在微博冷却后才有所反应,一般不会报道“微笑”,但一旦出现真正的腐败(大量存款)后马上就介入,来得慢,去的也慢。
他们的观点是什么?分析语义
微博是有观点和情感的,分析其内容很重要。但语义是很难被量化的,受到计算复杂性和时效性的限制,也不可能做到太精细。
首先是话题。微博有针砭时弊,也有娱乐八卦,我们通常用关键词来进行判断。词汇和好友一样,也构成了一个语义网络。”自责“和”羞耻“相似而不同,一旦出现”满五唯一“,”免税“,大概就和楼市相关了。通过这种手段,我们能够对话题进行筛选和分类。比如只关心微博中与”苹果手机“相关的内容。
情感有很多种,但我们将情感简化为正向和负向的数值,而且正向和负向的情感可以共存。下图是我们分析某网红从2011年到2013年的情感变化(图表来自笔者的研究生毕业论文)。
我们分析的只是信息海洋中的沧海一粟。仅仅通过公开的数据,就能做出大量的分析。
如今人们如此的依赖于手机和各类应用。电商掌握了所有的购物行为,地址,银行账户,电话号码。通信运营商记录了短信电话和位置。各类社交工具存储了用户所有的语音和聊天记录。搜索引擎记录了你每一次的点击动作。滴滴打车明白你的出行轨迹,大姨吗,陌陌了解你的...
总之,如今的互联网,根本没有任何隐私可言。理论上说,通过半公开的数据,你就能了解某人的一切隐私。而这些数据只是冰山一角,大量的暗数据蕴含着更可怕的能量。
彼时,在“开放数据平台”的风气下,各大微博API接口是非常开放的。只要拥有高级访问接口,便可以几乎无限制地访问所有数据。然而棱镜门之后,用户对数据隐私开始前所未有的重视。目前微博对于这种高强度的数据分析,已经不可能了,除非用户授权。
但是,这只是公司不公开了,但那些数据,还存在服务器并被买卖交换。可想而知,企业的”不作恶“是多么重要。
备注
1. 这些工具都是自行开发的吗?
是的,整个软件除了图表使用了第三方可视化库之外,所有的采集,分析和可视化都是自行开发的。尤其是那套可视化画布系统,其布点算法,图形引擎花了将近一个月时间。
微博接口都几乎都已经关闭。但2013年,我们就进行了一项计划,在四个月内通过十几台机器并行抓取,存储了微博两千万高质量用户的基础信息和社交关系,还有上亿条微博和相关评论。虽然并非实时数据,但针对科研学习和分析已经足够。
其实,在微博中,有很多用户并不是真正的人,而是机器。2013年,我们进行了一项名为”魔法小屋“的计划。通过微博和纯粹的自然语言,你可以方便地控制家里的电器,了解天气,股票,了解朋友的八卦,还能和它闲聊。如今小娜和Siri已经很火爆了,但实际上我们通过不到1000行代码,就实现了可圈可点的语义解析和对话系统。
”沙漠之鹰“个人公众号,不代表任何团体的利益,亦无任何商业目的,所有文章全部原创。任何形式的转载,演绎,必须经过公众号联系原作者获得授权,保留一切权利。
作者其他文章(后台回复"租房"即可查看):
《租房数据分析:2016年在北京如何租到好房子?》
大数据
为大家提供与大数据相关的最新技术和资讯。
近期精彩活动(回复数字获取):
160415 福利 · 阅读 | 免费申请读好书 第6期
近期精彩文章(回复数字获取):
160423 10年内,这三大领域将被人工智能和大数据重塑
160412 爬取QQ空间3000万用户,玩玩大数据分析
160331 华为内部狂转好文,有关大数据,看这一篇就够了!
160303 大数据的误区:数据统计≠大数据
160228 揭秘微信用户行为习惯,用户究竟爱看什么?
160107 网购评论是真是假?文本挖掘告诉你
160102 自拍有风险!大数据在用什么姿势“出卖”你?
151221 大曝光 | Facebook内部高效工作指南
151109 大数据告诉你,电商会把假货发给谁?
151023 凯文·凯利:未来20年科技的必然走向
151007 十张图看懂未来的大数据世界
150925 大数据研究常用软件工具与应用场景
150916 写给新人数据挖掘基础知识介绍
150812 中国互联网公司最新最全阵亡名单,涉及16个领域千余企业!附死因和反思!
150802 (深度好文)留几手:互联网创业到底是咋回事