你从未关心过你的数据隐私，但苹果为这事操碎了心。。。

查看原文

其他

你从未关心过你的数据隐私，但苹果为这事操碎了心。。。

原创 2017-11-17 差评君 差评

克己复礼

能者多劳

* 请注意，本篇文章学术高能，不易理解
* 请注意，本篇文章因考虑易读性丧失部分严谨性

前两天，差评君看到个消息，苹果在一份报告中公布最受美国用户欢迎的十大表情，排在了第一位，而且远超其他的。

这个数据来源于苹果的一份关于 “ 差别隐私 ” （differential privacy）的报告。

仔细想想自己和朋友聊天时经常用的表情，似乎用得的确比别的多很多。。。

不过呢，差评君今天要讲的不是这个，而是这篇消息中提到的苹果的一份关于 “ 差别隐私 ” （differential privacy）的报告，这份报告要有意思得多。

这年头，大公司收集用户数据的事实大家都知道，当你们疯狂地撕开新手机的包裹，开机以后看也不看一眼又臭又长的用户条款（差评君也不看），就点了同意的那一刻，大公司就开始收集你的数据了。

不过这也是没办法的事情，因为你不点同意就用不了他们的产品，最后这些数据就当是给厂商交了服务费了。

因此，咱们作为那些大公司的用户，在个人隐私安全这方面，只能赌他们的社会责任感和道德感。

某电商数据分析，他们可能比你更了解自己

说回到苹果的 “ Differential privacy ”（差别隐私，简称 DP ) 报告，里头说了啥？和上面提到的大数据又有什么关系呢？

在那份报告中，苹果公司承认他们收集大数据来研究大部分用户，但同时也认为苹果没有必要，也不应该研究个体用户的数据。

为了做到这一点，苹果公司用上了一门技术，叫差别隐私（DP），你可能不知道，事实上 DP 从 iOS 10 开始就已经在使用了。

但你会问，大数据不就是一份份个体数据组成的么？

那苹果怎么说绕过个体数据，还能研究大数据？？？

能的！来，一起喊：科学的力量~

首先，咱们先讲讲为啥一般情况下大数据可以暴露个人隐私。

假设一家商场在结账的时候会匿名统计用户买了什么，在下午 1 点，小黑胖进去买东西，这时他们整合了 500 份数据得到了一份大数据，咱们叫它 A 。

十分钟之后，小黑胖出来了，这时候他们有 501 份匿名数据整合成的大数据 B。

差评君只要比对一下 B 和 A 有什么区别，算一算（举个不恰当但好理解的例子：两次数据之间，如超市里剩余商品都少了哪些），就能知道有个用户买了什么，要是小二还正好撞见小黑胖的行踪，那么管他买鸡腿还是飞机杯，差评君都知道。

这就是传统匿名收集用户数据的局限性，虽然是匿名收集，但厂商还是能通过某些方式确认某个个体做了什么，上面说的情况现实中是可以实现的。

在 2006 年，美国的在线影片租赁公司 Netflix 办了个机器学习比赛，想提升自家的推荐功能。

Netflix 准备了一些用户浏览数据，擦掉了 ID 等个人隐私（在大数据中，这种剥离敏感信息的做法叫脱敏），公布了出来给参赛者用。

结果有两个人把这些浏览数据和 IMDB （电影评分网站）上的用户观影记录比对，反推出了 Netflix 公布数据对应的本人。

上面是传统大数据过程中的脱敏及其弊端，那么 DP 是怎么做的呢？

就是在用户上传数据里加一些无伤大雅的 “ 扰动 ”，让最终数据无法通过对比分析来确定某个个体（比如上面小黑胖去超市的那个例子里的分析 AB 之间差距），具体怎么操作咱们来举个例子。

差评君叫来了公司里的小伙伴们，问他们一个问题 “ 你有没有 XXX ”，回答为 “ 是 ” 或者 “ 否 ”，写在纸条上传给差评君。

回答的人需要先抛一个硬币：

如果是正面，那么如实回答。

如果是反面，那么再抛一次硬币，然后不管事实是什么，正面就写 “ 是 ”，反面就写 “ 否 ”。

这么一来，如果那个问题是 “ 你有没有偷吃鸡腿 ”，并且差评君在收集到的纸条里有 “ 是 "，即使按照平时的经验来谈，小黑胖的回答应该是 “ 是 ”，但你不能因此确定这个回答来自于小黑胖，因为有可能他连抛两次反面。

哪怕小黑胖真写了 “ 是 ”，也不代表他偷吃了，也许只是他第一次抛反面第二次抛正面，被迫写了 “ 是 ”。

这样一来，由于在收集回答的时候，有了抛硬币产生的扰动，差评君完全不可能找到任何一个回答的主人，但是收集到的数据也会损失一半真实度，因为有一半人的回答不是真的。

在现实中，数据损失一半真实度那肯定没用了，不过现实中收集的数据不是一个 “ 是 ” 或者 “ 否 ” 的回答，添加的 “ 扰动 ” 也没有抛硬币这么随意，所以收集来的数据依然是有用的。

苹果公司就是靠着这个原理，在你的手机传匿名数据的时候，在你的手机本地给数据添加一些 “ 扰动 ”，并且删除个人信息，才能传到苹果的服务器。

这个扰动不能太大，否则大数据就没用了；也不能太小，小了你的隐私保不住。

那么应该多大呢，可以用数学公式算出来。

源自维基百科

通过数学方法，可以让大数据依然有很强的可靠度，而且完全找不到每条数据对应的来源。

苹果不光给你的数据添加扰动，还做了其他的努力。

苹果公司的数据只保存三个月，而且不含 IP 等信息

搜索功能上，每个用户每天限制搜集 2 条数据，表情每天 1 条，输入联想每天 2 两条。

苹果启用 DP 是在 2016 年 WWDC 上公布的，虽然大部分用户可能不太关心，但是苹果公司显然很关心。

这么处理数据，从技术上根绝了苹果有针对性的研究和掌握某个个体，自己把作案工具没收了，哪怕真起了贼心也耍不来流氓了。。。

苹果公司给人什么印象呢？

苹果有时候给人一种高傲的姿态，例如各种不兼容别家的产品生态圈，App 的收费机制，不友好的定价。。。

但是对于用户个人隐私，他们的姿态却很低，差评君从里面看到了克制二字。

在苹果看来，搜集用户数据是被赋予的一种特权，那么苹果公司应该尽量克制自己，减少数据采集量，添加扰动，不惜牺牲一点点数据可靠性也要保护用户的隐私。

这方面，苹果甩了某些国内厂商几条街~

某国产大厂的用户隐私条款

在上面这个条款中，某厂在某些特殊情况下保留了使用用户数据的权利。

对于苹果公司，条款里不存在这些特殊情况，因为这不是权利不权利的问题，而是他们也没有用户隐私数据，根本不存在这些 “ 权利 "。。。

为了做文章开头的表情统计，苹果付出了很多你没看见的努力

所以再来看看这个问题：苹果公司给人什么印象呢？

在差评君看来，苹果还是一家总能比别人多做一点点，而且还做得很好的公司。

One more thing ...

譬如他们对于环保的贡献一直走在世界前列，差评君对于这一点以前写过文章（传送门）

今年年初 " 绿色世界和平 " 发布的清洁能源报告中，苹果在各大公司中名列前茅

（榜上两家中国科技公司，百度和腾讯由于能源煤炭资源比例太高，评级被划为了 F）

虽然他们的明星产品线 iPhone 曾经推动了智能手机潮，如今却快要被其他厂商追上了，苹果公司最近在产品发布时很少再能自信地喊出 “ one more thing ”。

但差评君认为这个 “ one more thing ” 其实转移到了别的地方，这些努力是藏在产品背后的，某些更重要的东西：

社会责任，企业道德。

“ 能不能顺便关心一下用户健康，毕竟肾少了一个 "

反向激励，在加速这个社会的黑化

平安信托深陷“爆雷”旋涡：终于尝到“偏爱”房地产的苦果

刀片电池存设计缺陷，或将导致几十万比亚迪车主自费更换or召回？

专家一会说要过“紧日子”，一会说“认为没坏就能用”是不对的

芒果TV十年：源自如日中天时的“诺亚方舟”计划