此帐号已被封,内容无法查看 此帐号的内容被自由微信解封
文章于 2018年11月20日 被检测为删除。
查看原文
被微信屏蔽
其他

怎样才能保证自己的裸照不被泄露?

2018-04-01 沈粹华 新闻实验室

热点

媒介事件点评

今天的推送来自加州大学戴维斯分校(UC Davis)的沈粹华老师。这篇文章比我前几天的那篇《Facebook“数据门”究竟是怎么回事》增加了更多的干货以及有趣的细节。本文转载自她的知乎@沈小猫,内文带链接的版本请点击文末“阅读原文”跳转知乎,标题是我拟的。

——方可成

∙ ∙ ∙ ∙

作者:沈粹华

先上个总结:


第一,Facebook和剑桥分析这次的事件,真正灵感的来源是Kosinski和Stillwell的研究。Kogan仅仅是一个抄袭者和操作者。


第二,Facebook并没有被黑客入侵,也不存在数据”泄露“或”偷盗“一说。所有的数据都是用户自己同意出让的(隐私其实很廉价)。


第三,这个事件最违法的部分是Kogan把用研究名义取得的数据转手给了剑桥分析,用作他途。


第四,根据现有信息,我们无法确定这五千万大数据建模是不是真正影响了美国大选和英国退欧。因果推断证据不足。


第五,只要人类继续留下电子足迹,我们的隐私就会继续被挖掘和用作他途。删除Facebook无法解决今天的隐私危机。

            

Facebook和剑桥分析(Cambridge Analytica)数据泄露丑闻席卷了整个社交媒体圈。在卫报和纽约时报的报道上,居然看到了我的两位合作者的名字:Michal Kosinski和David Stillwell, 可以说是相当魔幻了。


这两个人都是心理学家。Kosinski现在斯坦福商学院教书,Stillwell现在剑桥商学院教书。虽然他们没有直接参与这次Facebook数据泄露事件,但称他们为始作俑者,应不为过。 



事情要从2007年说起。当时,David Stillwell还在诺丁汉大学念心理学本科,平时爱写个小程序。毕业之前,他在Facebook上发表了一个第三方app,myPersonality,专做性格测试。和大部分瞎扯淡的心理测试不同,这个小程序上的测试题是基于经典的心理学量表,比如大五性格量表(开放性,外向性,情绪不稳定性,随和性,尽责性)。参加测试是免费的,同时参与者还可以匿名捐献自己在Facebook上的行为数据作为研究使用。


这个小程序及其成功,据Stillwell自己统计,有六百万用户使用过。其中一小部分用户同意捐出他们在Facebook上的行为数据供研究使用。


这两部分数据(心理性格测试,Facebook行为)相叠加,就形成了myPersonality数据集,约有数十万用户的数据。这个数据集目前还有很多学者在用,包括我的实验室(http://www.mypersonality.org)。



就样本量而言,myPersonality数据集远远小于这次Facebook和剑桥分析的数据泄露(据说有五千万之多)。但对于社会科学研究者,这个数据集无疑是一个金矿。


这是为什么呢?传统的定量社会科学研究,收集数据的方法很有限,主要是实验和问卷两种。实验很难规模化,能达到几百人就相当不容易了。问卷方法也许可以收集几千人甚至上万人的数据,但是只能知道人们当时是怎么说的/想的(态度),而不是怎么做的(行为)。 填过问卷的人都知道,怎么说和怎么做经常是两回事。


但myPersonality数据集把性格量表和用户的Facebook行为结合在了一起。而且样本量之大,远远超过了传统定量研究。(样本量对社科的结论可信度有很大的影响,这里不展开了,有兴趣的可以关注一下心理学界最近的实验重复危机和p值的讨论)。



2008年,Michal Kosinski加入了剑桥大学,在心理测量中心读硕士。他和Stillwell带领了一个团队,用myPersonality这个金矿,在美国国家科学院院刊上发表了两篇极有影响的文章。


第一篇发表于2013年,题目是”Private traits and attributes are predictable from digital records of human behavior” 个人性格特质可以用行为数据来预测。 这篇的大意是,他们用行为数据(主要是Facebook上点赞)建了模型,来预测用户的性格和其他特质(比如性别,性取向,党派),得到比较高的准确率。比如说,赞Hello Kitty的人较神经质,更可能支持民主党而非共和党。


第二篇发表于2015年,题目是”Computer-based personality judgments are more accurate than those made by humans.“ 这篇的大意是,运用他们之前建立的模型来预测你的性格,竟然比你好友的预测还准确。基于电子足迹的算法模型比你亲近的人更了解你。



Kosinski和Stillwell的研究成果在当时取得了轰动,有两大原因。


第一,大家意识到海量行为数据建模能够精准的预测用户性别,年龄,性取向,政治倾向,购买意愿……之前不管是营销,广告公司,还是公关,民调机构,要了解用户,只能辛辛苦苦做访谈,问卷,焦点小组。不但劳民伤财,准确率也不够高。电子足迹不但精准,而且俯拾皆是,每个人都有。


这是大数据结合人工智能的一次胜利。过去的几十年(弱)人工智能已经发展到了一定高度,但是算法再先进,也遵循GIGO原则:如果输入(数据)精度不够,输出(预测)也不会准确。


Kosinski和Stillwell所用的算法并不高深。但海量的电子足迹充分发挥了算法的优势。用户的心理画像很高的精准程度。


第二,他们的研究启发了很多人,原来科研还可以这么搞!Facebook的用户数据原来可以通过第三方app获取!要知道Facebook的海量行为数据极少对外界开放。虽然在Facebook上可以精准投放广告给用户,但是没有靠谱的行为模型做支撑,广告仿佛大炮打苍蝇,对绝大部分的受众都是打水漂。这一来,通过第三方app收集数据,给大家提供了一个崭新的思路。



毫无意外,剑桥分析(Cambridge Analytica)也找上了Kosinski和Stillwell。虽然叫剑桥,这家公司和剑桥大学没有任何关系。值得一提的是,这家公司的背后金主是Richard Mercer,他为英国退欧和特朗普2016年大选做出了贡献。Mercer的另一重身份是伊利诺伊大学计算机系博士,曾经的研究课题就是人工智能。


但剑桥分析并没有买到Kosinski和Stillwell的数据。根据卫报的报道,问题出在价格上。Kosinski和Stillwell要价50万美金,导致谈判流产。(这一点颇有争议,因为剑桥分析后面和Kogan的合作付出了更高的价格,近一百万。)


Kosinski和Stillwell的退出,给别人制造了机会。剑桥分析最后和同在剑桥大学心理系的讲师Aleksandr Kogan达成了协议(到底是怎么达成的协议,现在众说纷纭。Kogan本人说是剑桥分析找上门来;剑桥分析则说是Kogan毛遂自荐)。


在剑桥分析的资助下,Kogan直接抄袭了Kosinski和Stillwell的研究设计,也写了一个Facebook第三方app,专做心理测试,叫this is your digital life (据卫报报道,Kosinski和Stillwell早在2014年就举报Kogan侵犯了他们的知识产权。Kogan则认为已发表的知识产权属于公众领域,谁都可以用)。


在Mechaincal Turk和其他网络平台上,Kogan以五美元的酬金,吸引了27万用户答题并出让自己的Facebook数据。


五美元是什么概念呢?Mechanical Turk是亚马逊旗下的兼职网站,上面有很多小任务,完成一项任务会有一定的报酬。任务的价格非常低廉,耗时十分钟的任务的报酬在一角到一元美金不等。五美元不亚于是一个天文数字。吸引27万人参加,也就不奇怪了。


注意,所有的参加者都是心甘情愿的让出他们的Facebook行为数据。Facebook没有被黑客入侵,也没有所谓的数据“泄露”或是“偷盗”。当时,Facebook小程序在用户同意的情况下收集数据是完全合法的。


那么,所有的报道中都提到了五千万用户,这又是哪里来的?因为Kogan的程序不仅收集了用户本人的数据(以五美元做交换),也收集了用户的Facebook好友的数据。一个用户可能有几百个好友,所以27万个“种子”最后变成了5千万用户。


这里有一个很有意思的问题,就是数据的归属。张三有个朋友叫李四,这个信息是张三个人的信息,还是李四的信息?张三为了五块钱出卖自己的数据(其中包括李四的姓名,性别,年龄等等),需不需要李四的同意?很多学者认为,在社交媒体上,隐私不再是一个个人的决定,而已经演变成一个网络共同的决定。


但在当时,收集用户好友的基本信息是合乎Facebook规定的。不仅仅Kogan的app这么干,其他数十万个Facebook app都这么干。比如糖果传奇(Candy Crush)这样的小游戏,就靠好友的网络效应进行病毒式传播。一旦张三装了糖果传奇,游戏就可以通知李四:你的好友张三玩的很嗨,你要不要也试试?


2015年,Facebook调整了隐私设置,用户不再能够轻易的和app”分享“自己的好友信息。这一改变还遭到许多Facebook app开发者的诟病。




到了这里,整件事情都还是合理合法的。下一步则不然。


Kogan本人也是心理学家,他设计这个app声称要研究社交媒体和心理健康。Facebook也是基于这个研究目的,才同意了他收集了5千万的用户数据。


但不久以后,Kogan通过自己开的公司GSR,把这个庞大的数据集转手给了剑桥分析。


这一转手违背了Facebook的安全协议,也违背了app本身和用户之间的协议,是整个事件最违法的部分。


但也有人说,这时的数据集属于”二手数据“(secondary data),在数据的监管上属于灰色区域。Kogan当时和Facebook用户的协议是收集数据做研究用,他也的确做了研究,那么数据完成了它的使命之后,是否应该直接删档(这是Facebook对Kogan的要求)?这时的数据到底归谁所有?


[这里插一句,欧美多数的大学和研究机构在做人类相关研究时(human subjects),专门有一个委员会(Institutional Review Board,IRB)来监管类似的伦理问题。就我个人的经验,IRB对二手数据一般都网开一面。至少在学术界,因为A而收集的数据后来用作B用途并不少见。很多数据集都是开放下载的,比如斯坦福的SNAP, Data verse等等。前文提到的myPersonality数据集,也对学术界全盘开放。]


之后的故事大家都知道了


剑桥分析运用这五千万的超大数据,建立模型,目的是找出符合某种特定心理画像的选民(低开放性,高情绪不稳定性)。在美国“赢者通吃”的大选制度下,绝大部分的选票对选举结果都没有影响(比如说深红州和深蓝州的选票)。还有一部分选票,无法被广告左右(比如民主党或者共和党的死忠粉)。能左右选举结果,且可以被广告影响的选票数量微乎其微。


一旦有了一个特定的心理画像,剑桥分析就可以在茫茫人海中找出他们要的这一小撮选民,集中精力给这一小部分选民施加影响就可以了。他们买了大量Facebook广告对这些人进行狂轰滥炸,进行所谓的”信息战争“ (information warfare),以期达到操纵大选的目的。



那么,这五千万数据和模型,真的如剑桥分析所说,操纵了2016年美国大选,影响了英国退欧吗?


我们可能永远也不会知道答案。


不管媒体是如何渲染报道的,科学上的因果推定有严格的标准。当因变量X存在时,我们观察到了结果Y,无法做出X导致Y的推断。就像一个小朋友爱吃冰激淋,后来发现了蛀牙,很难说冰激淋直接导致了蛀牙(可能这个小朋友同时爱吃糖,不刷牙,或者其他原因导致蛀牙)。


只有当我们能直接对照两个一模一样的平行宇宙,在一个宇宙里这个小朋友爱吃冰激淋,另一个宇宙里不吃,然后比较结果,才能得出最令人信服的因果推断。


可惜,这样的平行宇宙并不存在。所以,剑桥分析究竟有没有影响大选结果,影响有多大,也只能永远存疑了。这是整个证据链里最为薄弱的一环。


就连Kogan本人,也对此不置可否。有个教授直接发信去问了Kogan,剑桥分析所用的模型究竟有多精准。Kogan的回答是,根据Facebook大数据建模预测出来的选民性格和选民的实际性格(根据心理学量表)仅有30%的相关性。这个准确率比之前Kosinski和Stillwell的模型低。


不管Kogan的回答是否可信,即使他的模型有效,能找出符合特定心理画像的选民,用假信息广告轰炸符合这个心理画像(低开放性,高情绪不稳定性)的选民究竟有没有作用,是不是真的让他们选择了特朗普,永远是一个未知数。



事件发生以后,Facebook的股价大跌,市值蒸发。另有很多人发起了删除Facebook账号的行动。这一切看看就好,不必当真。


删除Facebook账号并不会根本上解决今天的隐私危机。第一,Facebook有超过20亿活跃账号。也许Facebook已经不是年轻一代最爱用的app了,但它依然是全球最为广泛使用的社交媒体,拥有全球最多最广最全的行为数据集。


第二,删除了Facebook,我们还有Google、Twitter、Snapchat、Netflix、微博、微信、淘宝、今日头条、各种互联网接入商……我们的数据不给Facebook,也会给别的媒体平台。当用户数据变成所有平台核心竞争力的今天,类似剑桥分析的事件每天都在发生。只不过有的被曝光了,更多的,并没有。


给学生上社交媒体课的时候,都要问一问大家:怎样操作才能保证自己的裸照不被泄露


正确答案是,不要拍裸照。


只可惜,这个答案在今天已经不现实了。我们做任何事情都会留下电子足迹。买东西,叫外卖,看剧,打车,乘坐高铁和飞机,上各种社交平台……当一切都电子化,所有的信息都有电子存档,我们的足迹也一览无遗。


大数据结合人工智能,可以根据这些海量足迹建模型,卖给我们东西,灌输给我们思想,改变我们的行为。这一切早已发生,并不会因为一个区区剑桥分析的爆料,而有任何改变。


从前意义上的“隐私”早已死去。如今我们尚能做的,也许就是更好管理自己的隐私,呼吁监管,要求各平台对数据的存储、建模和买卖,更加透明。再大胆预测一下,也许某一天,“数据烟幕”公司会出现,为客户建虚假账号,留下虚假电子足迹。也许这才是保护隐私的新方法呢。


如今我们尚能做的,也许就是更好管理自己的隐私,呼吁监管,要求各平台对数据的存储、建模和买卖,更加透明。


总结一下:


第一,Facebook和剑桥分析这次的事件,真正灵感的来源是Kosinski和Stillwell的研究。Kogan仅仅是一个抄袭者和操作者。


第二,Facebook并没有被黑客入侵,也不存在数据”泄露“或”偷盗“一说。所有的数据都是用户自己同意出让的(隐私其实很廉价)。


第三,这个事件最违法的部分是Kogan把用研究名义取得的数据转手给了剑桥分析,用作他途。


第四,根据现有信息,我们无法确定这五千万大数据建模是不是真正影响了美国大选和英国退欧。因果推断证据不足。


第五,只要人类继续留下电子足迹,我们的隐私就会继续被挖掘和用作他途。删除Facebook无法解决今天的隐私危机。

往期推荐


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存