查看原文
其他

大数据应用 | MIT教授Acemogulu:有人泄露了你的数据,还让数据市场价格低廉且低效

数据Seminar 数据Seminar 2021-06-03

导言

Daron · Acemogulu教授是目前全球最炙手可热的经济学家之一,博士毕业于伦敦政治经济学院。Acemogulu教授作为Berker式的学者,涉略制度经济学、发展经济学、劳动经济学乃至人类学、社会学等多个领域,并于2005年获得了克拉克奖。截至2018年底,Acemogu教授已在五大刊物(AER、QJE、JPE、ECTA、RES)共发表论文63篇。本文作者还有Ali Makhdoumi、Azarakhsh Malekian、Asu Ozdaglar


在毛咕噜教授最近的一篇Working paper《Too Much Data: Prices and Inefficiencies in data markets》中,描述了当前互联网用户大数据市场的运行现状。

他发现,当一个用户在互联网平台上共享其数据时,通常会产生一种“同时泄露其他用户的相关信息”的外部性

举两个简单的例子:
  • 我们在微博上发情侣自拍照时,不仅共享了自己的肖像,也泄露了伴侣的肖像(有时候还会@一下对方,这使得这种肖像泄露的指向性更为明确);

  • 我们在去朋友家聚会时,发了一条微信朋友圈的同时可能也附带泄露了朋友家的定位地址。


这种数据的外部性会降低数据价格,因为一旦用户的信息被他人泄露,那么用户就没有理由再费力保护自己的数据隐私了
进一步地,数据价格的低迷导致了过度的数据共享,这使得数据市场的效率趋于低下;各个互联网平台之间的相互竞争也并没有解决价格低和共享多的问题,反而进一步降低了用户福利。


那么问题来了:我们一方面貌似享受着大数据所带来的舒适和便利,另一方面又不由自主地放弃了个人隐私(当然,有些放弃也许是我们愿意的,有些放弃是被迫的,或者是不知不觉的),我们真的无所谓吗?


01

我们不重视数据隐私吗?


目前,有数十亿人的数据正被用于个性化广告或其他在线服务。个人数据的使用和交易在未来几年仍将以指数级增长,新的APP的出现和互联网技术将提供更广泛的数据收集渠道,这也使得人工智能和机器学习技术得到更广泛的应用。

  • 目前有一种共识是,数据能够带来更好的资源分配和更多更高质量的创新行为,而市场机制产生的数据共享行为太少(Varian[2009]、Jones and Tonetti [2018]、Veldkampetal [2019] 和 veldkamp[2019]);

  • 当然,经济学家也已经认识到消费者的数据共享涉及隐私问题(如Stigler[1980]、Posner[1981]和Varian[2009])

  • 但也有观点提出,数据市场可以适当地平衡隐私问题和其带来的社会效益之间的关系(如Laudon[1996]和Posnerandweyl[2018])。


无论如何,大多数用户愿意他们的数据用于没有或几乎没有直接好处的用途,这一事实就会被认为是大多数用户并不重视其隐私的证据

有趣的是,这一观点与饱受诟病的百度 CEO李彦宏在中国发展高层论坛2018年会上的言论不谋而合:“我想中国人可以更加开放,对隐私问题没有那么敏感,如果他们愿意用隐私交换便捷性,很多情况下他们是愿意的,那我们就可以用数据做一些事情。

总的来说,由于经济主体产生的数据在解决社会中其他人面临的经济、社会或技术问题,以及设计或发明新产品和服务等方面很有用,因此针对该领域的许多分析都认为市场产生的数据太少

相反地,Acemogulu针对用户不重视隐私这一问题给出了原因。他认为,有相当大的力量推动着个人层面的数据的价格低廉化, 从而市场经济产生了过多的数据,很简单:



  • 当一个人共享自己的数据时,不仅损害了自己的隐私,而且还损害了与其自愿共享的数据相关的其他个人的隐私;

  • 这种负外部性往往会引致过多的数据共享行为;

  • 此外,当过多的数据共享行为发生时,每个人都会忽略自身信息中的隐私问题,因为其他人的数据共享行为已经揭示了他的很多情况。





02

为什么我们不重视数据隐私?


震惊世界的Cambridge Analytica干预政治的丑闻凸显了我们强调的一些问题。

该公司从270,000名Facebook用户共享的数据中获得了数百万个体的私人信息,这些用户自愿下载了一个用于描绘其个性特征的APP。

该APP访问了用户的新闻浏览记录、帖子和消息,并显示了有关其他Facebook用户的信息。Cambridge Analytica最终能够推断出超过5000万个Facebook用户的有价值的信息,并将其部署于设计“脱欧公投”和“2016年美国总统大选”时的个性化政治信息和广告


尽管该丑闻的某些情况是独特的,但问题具有一般性。例如,当一个人分享自己的行为、习惯和偏好的信息时,这不仅透露了他的朋友的信息,而且具有相似特征的其他人的行为、习惯和偏好的大量信息也会被分享。

下面的示例可以帮助说明问题的性质,介绍一些关键概念,并阐明为什么会有过多的数据共享行为,而用户却鲜有保护隐私的意愿。

考虑一个拥有两个用户(i = 1,2)的平台。每个用户拥有自己的个人数据,我们用一个随机变量来表示(从平台的角度来看):

两个用户的相关数据自然是相关的,因此可以作出以下假设:

  • 随机变量服从零均值和相关系数ρ的联合正态分布;

  • 该平台可以获取或购买用户的数据,以便更好地估计其偏好或行为;

  • 平台的目标是最小化他们对用户类型的估计的均方误差MSE(估计值与真值之间的差异,若只有一组数据,即样本方差),或最大化有关用户的泄漏信息量;

  • 平台对用户泄漏信息的估值(以货币计)为1,而第1个用户对隐私的估值(以及有关她的泄漏信息的估值)为1/2,第2个用户则认为其估值是一个不确定的值v>0;

  • 该平台向用户提供“要么接受要么放弃”的产品来购买用户数据。

    例如你必须提供定位信息来获取打车、导航等服务;必须提供相册的访问权利来发送个人动态。


在对数据市场或交易成本没有任何限制的情况下,用户1将始终出售他的数据(因为他对隐私的估价为1/2,小于平台对其信息数据的估值1)。但是,考虑到两个用户的类型之间的相关性,这意味着该平台已经对用户2的信息进行了很好的估算。

举例来说,假设ρ≈1,即用户1与用户2的数据具有高度相关性

  • 在这种情况下,平台基于将从用户1的数据中了解到用户2的一切信息,这削弱了用户2保护其数据的意愿

  • 实际上,由于用户1几乎公开了有关自己的所有信息,因此他愿意以非常低的价格出售自己的数据(在ρ≈1的情况下大约为0)

  • 但是,一旦用户2出售了她的数据,这其中也显示着用户1的数据,因此用户1只能为其数据收取非常低的价格。


因此,在这个简单的示例中,该平台能够以接近免费的价格获取两个用户的数据。

然而需要清楚的是,这个价格并不能真实反映用户对其隐私的真正估值。

  • 当v≤1时,即用户2对隐私信息的估值较低时,均衡是有效的,因为在这种情况下数据对社会有利(即使数据的外部性改变了平台和用户之间经济剩余的分布);

  • 当v>1且很高时,均衡就会在很多情况下无效,这是因为第一个用户通过出售其数据正在给第二个用户造成负面的外部性。




03

如何纠正数据分享的外部性?



实际上,将以上的结论(单个平台)扩展到具有多个平台的环境下,得出的结果也是一致的。

各种不同类型的平台之间的竞争不会改变导致数据共享过多和数据价格过低的原因,实际上竞争反而会使效率低下的状况变得更糟

这是因为在竞争的情况下可能会共享更多的数据,并且还因为某些用户想要避免过多的数据共享,会选择效率低下的跨平台这一方式。
即使所有用户都加入同一个平台,才能使网络的外部性会得到更好的利用。

那如何解决数据市场的这些问题呢?

  • 可以对数据交易征收特定于个人的税款(庇古税);

  • 关闭数据市场(例如对所有数据交易征收高额统一税)也将改善福利。


但是,这会阻止那些本来不包含什么隐私信息的用户数据的分享,以及使得那些依赖于平台访问数据的商品和服务获得更高收益,这是不切实际的。

有趣的是,Acemogulu教授在文中提出了一个可以提高福利的基于中介数据共享平台的方案。

如果用户数据首先与中介共享,中介在向平台披露之前将其转换,那么数据与隐私意识用户信息的相关性就可以消除,这相对于完全关闭数据市场这种选择来说,提高了总体福利(但同时应考虑到这个中介也可能存在不可信的风险)。

文章还在结尾处提到,数据市场的价格或当前保护隐私的用户行为,并没有真正体现出隐私的价值。这还需要仔细的实证分析,记录和估计数据对平台的价值,以及在数据存在外部性的情况下用户对其隐私附加价值的估值。

至于单个平台/多个平台/未知估值/政府管制等情况下具体的建模与分析求解过程,请自行阅读Acemogulu教授的工作论文《Too Much Data: Prices and Inefficiencies in data markets》。






点击搜索你感兴趣的内容吧


推荐阅读丨2019年中国经济学研究热点分析


统计计量丨干货!你不可不知的七大统计模型


软件应用丨收藏!盘点最实用的数据科学Python库









数据Seminar




这里是大数据、分析技术与学术研究的三叉路口





作者:Daron Acemogulu翻译整理:谈佳辉、陈姗姗编辑:Rye





    欢迎扫描👇二维码添加关注    

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存