其他
1.一个电表引发的隐私矛盾2009年,美国总统奥巴马站在演讲台上说:“我们要建立一个更坚强、更智能的电网……”随即,美国能源部门宣布投资34亿美元资助智能电网技术的开发,“投资智能电网”自此成为美国的一项国策。在这个庞大的智能电网计划里,电表是重要的一环。电厂送出来的电,没用完的,要么转送到别处,要么就直接浪费掉了,所以能源部门就设想:只要成千上万的智能电表分布到每一个角落,每隔15分钟上传一次数据,电网就能根据实际用电量来实时调度电力,用多少就送多少,减少浪费。这个设想当然很好,可智能电表的推广进展很快受阻。“我感到自己正在被监视。”“电厂有什么权力这么做?!”类似的声音此起彼伏,人们害怕频繁上传用电量会暴露自己的隐私。乍一看,有点杞人忧天,就像之前国内有人担心辐射,宁愿手机没有信号,也不准运营商在自家附近建基站。但电表隐私问题还真不是杞人忧天,研究人员发现:每15分钟上传一次的电量数据,真的可以用来搞监视!王爽当时在美国读计算机博士,他发现,利用一些特定的算法,很容易就能通过用电数据推算整个屋子里的活动情况:“你什么时间做饭、用电脑、看电视、洗衣服等等,全都能计算出来。”这些用电数据一旦被滥用,坏人可以拿来监视别人,商家可以做所谓的“大数据营销”。例如,商家先得知你家是否用了某种医疗器械、你的私人时间是如何度过的,再给你不同的商品定价和广告策略。事情到这,就陷入一个死循环:国家要节能,电网就得高效,电网要高效,数据必不可少,可人们又不愿意给数据。当时有人想到一个妥协方案:降低上传数据的频率——原本15分钟上传一次,现在改成每天上传,或每周上传。但这样一来,电网调度的实时性和效率也会大大降低,频率降得太低,跟抄表员十天半个月上门来抄电表也没多大区别。“有没有可能,既能让电厂用到这些数据,又不暴露个体的隐私数据?”王爽发现,电厂想要的其实只是统计信息,比如一片区域在特定时间内的总用电量、平均用电量、高峰用电量等等,并不需要个体数据。而这类问题在数学上是有解的。举个例子:爷爷想知道家里的仨葫芦娃这个月一共挣多少钱,但是哥仨谁都不想暴露自己的收入,怎么办?(你可以思考5秒再往下读)有一个办法是这样的:第一个葫芦娃在脑子里想一个很大的随机数,加上自己的收入,把求和结果告诉第二个葫芦娃。第二个葫芦娃再加上自己的收入,给求和结果第三个葫芦娃,第三个葫芦娃加上自己的收入,把结果交给第一个葫芦娃。第一个葫芦娃再减去自己一开始的那个随机数,就得到三个人的总收入,交给爷爷。整个过程中,大家谁也没暴露自己的收入,却一起计算出了总数。王爽很快研究出一套方案,可以做到既让电厂拿到各项统计数据(中间计算结果),又不暴露单个用户的用电量。他把方案写成论文,发在学术期刊上。(当然比上面葫芦娃的例子复杂得多的多,葫芦娃只是为了帮大家理解为什么“既使用数据,又不暴露数据”是可以做到的)。由于这篇论文,王爽和“隐私计算”结下不解之缘。不过严格来说,当时还没有“隐私计算”这个领域,充其量是“混沌初开”。那时王爽也没意识到,若干年后,隐私将成为各行各业的难题,对整个世界产生深远影响,电表引发的矛盾,只是科技发展与隐私保护之间矛盾的一个小小缩影。要科技发展,还是要保护隐私?这个矛盾是深刻而本质的,它深埋在各个领域,就像一颗定时炸弹,即将被“云计算、大数据、人工智能”等新兴技术引爆。在一次学术活动上,王爽遇到一位师哥,师哥来自加州大学圣地亚哥分校(美国全国性一级大学)医学院,听说王爽在研究隐私保护技术,又临近博士毕业,正在找实习,便盛情邀约。师哥告诉他,医疗行业的隐私问题由来已久,当年,就连麻萨诸塞州(就是大名鼎鼎的麻省理工学院所在的“麻省”)的州长都是医疗隐私问题的受害者。2.连州长都遭殃的医疗数据之困1997年,美国麻省政府的一个部门为了帮助医疗科研人员,公布了一份政府雇员的医疗记录。为了防止暴露个体隐私,他们专门给数据“打了个码”——删掉了姓名、地址和社会安全号码(相当于身份证号码),但保留了出生日期、性别和邮政编码这些看似无关痛痒的信息。麻省理工学院当时有一位学者叫拉坦娅·斯维妮(