【大数据专栏】美国白宫”大数据“白皮书节选
文 / 本文来源于美林大数据(meritpluto),由浙江大学翻译
美国总统行政办公室
2014年5月
概述:
“即使大数据技术重塑了我们周围的世界,今天的发言也将帮助我们持续贯彻自身的价值观念。”“这份评估报告本质上被认为是一种对大数据作用范围的调查。在过去的90天中,评估小组对学术专家、产业代表、保护个人隐私的倡导者、人权团体、执法者,以及其它政府机构进行了调研。白宫科学与技术政策办公室(WhiteHouseOfficeofScienceandTechnologyPolicy)与麻省理工大学、纽约大学、加州伯克利大学联合组织了三场大学会议。”“在2014年,美国国税局通过一个名为‘Gettranscript’的工具将纳税人的信息数据加以共享,纳税人可以通过它获得他们自己最近三年的纳税记录。个人纳税者可以借此下载过去的纳税申报单,这使得居民进行抵押、学生贷款、商务贷款等活动与填写纳税表变得更加便捷。”
“尽管医学技术不断变化,但健康数据仍然是我们生活中非常私密的部分。在大数据使得较之以往任何时候都更为强大的发现成为可能的同时,重新审视相关信息被所有医疗保健机构共享后的隐私保密方式也显得相当重要。医疗保健行业的领导者已经呼吁构建一个更为广泛的信用框架,使得不同来源、不同隐私保密程度的健康数据得以汇聚。这一框架需要附加《健康保险便利和责任法案》与《反基因歧视法》(“GeneticInformationNon-DiscriminationAct”,GINDA)中的隐私保护条款,并同时设计标准化数据结构以提高其跨平台适应性。”
“大数据正在改变世界。但是它并没有改变美国人对于保护个人隐私、确保公平或是防止歧视的坚定信仰。这份调查报告旨在鼓励使用数据以推动社会进步,特别是在市场与现有的机构并未以其他方式来支持这样的进步的领域,与此同时,我们也需要相应的框架、结构与研究,来帮助保护我们的核心价值观念。
给总统的一封信
亲爱的总统先生:
我们正生活在社会、经济与技术革命之中。我们如何通信、交际、度过闲暇时光以及开展业务已经转移到了互联网上。互联网又渗透进入我们的手机,进入蔓延在我们家园和城市中的设备中,进入推动工业经济的工厂中。其导致的数据爆炸和挖掘正改变着我们的世界。
今年一月,你要求我们进行为期90天的调查,检验大数据将如何改变我们生活和工作的方式,改变政府、公民、企业家和消费者之间的关系。这次调查的重点在于公共和私营部门如何在将风险最小化的同时,将大数据的价值最大化。它也为大数据确定了发展我们的经济,改善健康和教育以及使我们国家更加安全和节能的机会。虽然大数据毫无疑问地加大了政府权力累积未经核实的事实的可能性,但它也提供了增强公众责任、隐私和权利的方案。如果正确实施,大数据将成为历史前进的推动力,帮助我们国家保持长期以来成为我国特点的公民和经济活力。
大数据技术将变革生活中的每一个领域。它们使之成为可能的知识发现提出了我们为隐私保护构架的框架如何在大数据生态系统中应用的重大问题。大数据也引发了其他问题。这个报告的一个重大发现在于,大数据分析有一定可能使长久存在的公民权利保护黯然失色,特别在于个人信息如何利用于住房、信贷、就业、健康、教育及市场领域上。美国人与数据的关系将扩展他们的机会和潜力,而不是缩减。
我们正在建设我们将继承的未来。美国比世界上的任何其他国家更适合确保数据革命能够持续地为个人发展和社会良好效力。我们欣然提交本报告,建议我们如何在保护诸如隐私、公正、自决等基本价值的同时拥抱大数据技术。我们致力于这一倡议和改进。我们今天在这发起的对话将帮助我们在大数据重塑我们周围世界的同时,坚持我们自身的价值。
目录
1、大数据与个人
·什么是大数据?
·大数据有什么不同?
·证明我们的价值
2、奥巴马政府在数据开放与隐私保护问题上的发展路径
·奥巴马政府关于公开数据的举措
·美国隐私法案和国际隐私法框架
3、公共部门的数据管理
·大数据与医疗保健服务
·对学习的研究:大数据与教育
·大数据在国土安全部
·在执法过程中贯彻隐私价值观
·大数据技术对隐私法的启示
4、私营部门的数据管理
·大数据对消费者与企业的益处
·广告支撑的生态系统
·数据服务业
5、为大数据构建的政策框架
·大数据与公民
·大数据与顾客
·大数据与歧视
·大数据与隐私
·预测大数据变革的下一篇章
6、结论与建议
·保护个人隐私的价值
·数字时代负责任的教育创新
·大数据与歧视
·执法与安全保护
·数据公共资源化
美国白宫“大数据”白皮书PDF版本下载:http://vdisk.weibo.com/s/GgQB3axicQgj/1401278850
1、大数据与个人
什么是大数据?
自从古代有过第一次计数和农作物产量记录以来,数据收集和分析便成为社会功能改进的根本手段。17、18世纪的微积分、概率论和统计学所提供的基础性工作,为科学家提供了一系列新工具,用来准确预测星辰运动、确定公众犯罪率、结婚率和自杀率。这些工具常常带来惊人的进步。在19世纪,约翰·斯诺(JohnSnow)博士运用近代早期的数据科学绘制了伦敦霍乱爆发的“群聚”地图。霍乱在过去被普遍认为是由“有害”空气导致的,斯诺通过调查被污染的公共水井进而确定了“霍乱”的元凶,并同时奠定了疾病细菌理论的基础。
从数据中撷取洞见以提振经济行为,这也是美国工业的惯常做法。弗雷德里克·温斯洛·泰勒(FrederickWinslowTaylor)在宾夕法尼亚州的米德瓦尔钢铁厂采用秒表和笔记板来分析生产力,这大大增加了车间产量,也铸就了他的信念,即数据科学可以为生活中每一个方面都带来革命性影响。
1911年,泰勒撰写了《科学管理原理》,以回应西奥多·罗斯福(TheodoreRoosevelt)总统有关提升“国家效能”的倡议:
从我们单个人的行动到大型企业的工作,科学管理的基本原理可以应用到一切类型的人类行为中……无论何时,只要正确运用这些原理,必定会产生真正令人惊讶的成果。
今天,数据比以往任何时候都更加深入地与我们的生活交织在一起。我们期待着用数据解决各种问题、改善福利,以及推动经济繁荣。数据的搜集、存储与分析技术不断提升,这种提升看上去正处于一种无限的向上轨迹之中。它们的加速是因为处理器能力的增强、计算与存储成本的降低,以及在各类设备中嵌入传感器的技术的增长。2011年,新生成的和复制的信息量估计超过了1.8ZB(泽字节);而在2013年,这一数字估计可达4ZB。
什么是泽字节(ZB或Zettabyte)
一泽字节等于10的21次方字节,或相应的信息单元。想想看,一个字节等于文本中的一个字符。1ZB相当于存储323兆份列夫·托尔斯泰所著的1250页的《战争与和平》所需的容量。6或者想象一下,假定每一个美国人每秒钟拍一张照片并连续拍1个月,所有这些照片存储进来容量就相当于1ZB。
世界上每天大约有5亿张照片上传或分享,另外每分钟还有超过200小时的视频上传、分享。但是,即使是人们自己产生的信息,即从语音通话、电子邮件、文本到上传的图片、视频、音乐等全方位交流产生的信息,与每天产生的与他们相关的电子记录等数字化信息相比,在数量上都是相形见拙的。
这些趋势还将持续下去。我们只是处在所谓的“物联网”(“InternetofThings”)的相当初级的阶段。在物联网中,我们的各种应用设备、运输工具以及持续增长的“可穿戴”技术产品将可以彼此交换信息。技术的进步将促成创建、捕捉、管理与存储信息的成本降至2005年的六分之一。自2005年以来,人们在硬件、软件、人才与服务方面的商业投资增长了近50%,达到4万亿美元。
“物联网”
“物联网”这个术语用来描述具有可交换信息能力的设备网络。这些设备通常嵌入了传感器,并通过有线或无线网络连接后进行彼此间的信息交换。它们可能包括你的温控器、汽车,甚至是你咽下去的“小药片”,医生可以用它来监控你的肠胃以及消化道的健康状况。这些连接的设备通过互联网传输、编制和分析数据。
关于“大数据”有许多种定义,这种差别取决于你是一位计算机科学家,还是一位金融分析师,抑或是一位为风险投资人推销一个概念的企业家。多数定义都反映了那种不断增长的捕捉、聚合与处理数据的技术能力,而这个数据集在数量、速率与种类上持续扩大。换言之,“现在,数据可以更快获取,有着更大的广度和深度,并且包含了以前做不到的新的观测和度量类型。”7更确切地说,大数据集是“庞大的、多样化的、复杂的、纵深的和/或分布式的,它由各类仪器设备、传感器、网上交易、电子邮件、视频、点击流,以及现在与未来所有可以利用的其他数字化信号源产生”。就大数据而言,真正重要的是它能做什么。先且不论我们如何把大数据界定为一种技术现象,大数据分析那多元而广阔的潜在用途将面临一些关键性的问题,即我们的法律、伦理与社会规范在大数据时代是不是有足够的能力保护个人隐私和其它价值。前所未有的计算能力与持续的改进能力为我们的生活带来了可能是先前从未预料到的发现、创新与进步。但是,这些能力对于普通消费者来说,多数都是既不可见,也无法得到的,因此,它们在持有大数据的一方与有意无意地提供着数据的一方之间,形成了一种非对称的力量。
部分挑战也在于如何理解大数据发挥作用的许多不同的应用场景。大数据可以被看成一种资产、一种公共资源,或者一种个体身份的表达;它的应用或许可以驱动未来的美国经济,也可以是我们所珍视的自由的一种威胁。大数据可能是所有这些事情。就这为期3个月的研究而言,评估组并不旨在对大数据的作用做出全面的解答。大数据技术和支撑它的产业都在不断地创新和变化中。相反,我们的研究集中在探讨个人与数据的搜集、利用方之间那些至关重要的问题。
这份评估报告的范围
今年1月17日,奥巴马总统在司法部就改革美国信号情报工作的演讲中,责成他的顾问约翰·波德斯塔(JohnPodesta)就大数据技术正在或将要对经济、社会与政府行为的范围内发生的影响做出全面评价。为此,波德斯塔召集了商务部部长佩尼·普利茨克(PennyPritzker)、能源部部长欧内斯特?莫尼兹(ErnestMoniz)、总统科学顾问约翰·霍尔德伦(JohnHoldren)、总统经济学顾问杰弗里·泽恩斯(JeffreyZients),以及其他高级政府官员。总统科学和技术顾问委员会(President’sCouncilofAdvisorsforScience&Technology,PCAST)组织了一项平行报告,以评估基础技术。他们的成果支持了本报告中的许多技术性判断。
这份评估报告本质上被认为是一种对大数据作用范围的调查。在过去的90天中,评估小组对学术专家、产业代表、保护个人隐私的倡导者、人权团体、执法者,以及其它政府机构进行了调研。白宫科学与技术政策办公室(WhiteHouseOfficeofScienceandTechnologyPolicy)与麻省理工大学、纽约大学、加州伯克利大学联合组织了三场大学会议。白宫科学与技术政策办公室也发放了“咨询请求”,就大数据和个人隐私问题寻求公众意见,并得到了超过70起回复。此外,白宫网站平台就公众对于大数据的各类使用及不同类型的大数据技术所持的态度,做了一项粗略的调查。在本报告附录中,可以看到工作组各项工作的列表。
大数据有什么不同?
这章首先界定一下大数据真正新颖和不同的是什么,它得益于总统科学和技术顾问委员会(PCAST)的工作。PCAST写作了一份平行而独立的报告《大数据与个人隐私:一种技术的视角》。
“3V”:数量(Volume)、类别(Variety)、速度(Velocity)
为了本项研究,评估小组聚焦的是那些数量巨大、类别繁多且高速运行的数据,而传统的数据采集与分析模式已经难以应对了。我们将其特征通俗地称为“3V”。数据采集、存储与处理成本的下降,连同像传感器、相机、地理位置及其它观测技术提供的新的数据来源,意味着我们生活在一个数据采集几乎无处不在的世界中。采集与处理的数据量是空前的。从基于网络的应用、可穿戴技术与先进传感器到监测生命体征、能源使用状况与慢跑者跑步速度的监测仪,由此带来的数据爆炸将推进人们对于高性能计算技术的需求,并推动针对最复杂数据的管理能力的提升。
不仅是数据的数量正在快速增长,它的格式也越发多样,来源也越发广泛。就像总统科学和技术顾问委员会的报告中所说的,有些数据是“天生数字化的”(“borndigital”),意思是说它就是特别创造出来用于计算机和数据处理系统的。这些例子存在于电子邮件、网页浏览,或GPS定位之中。其它数据是“天生模拟的”(“bornanalog”),这是说它从物理世界中发散出来,但可以不断被转化成数字格式。模拟数据的例子包括手机、相机或摄像设备录制的语音或可视信息,或者还有通过可穿戴设备监测到的身体活动数据,如心率或排汗量。“数据融合”(“datafusion”)能够将分散的数据源整合在一起,随着这种能力的提升,大数据可以带来一些远见卓识。
大数据来源是什么?
数据的来源与格式,连同其类别与复杂程度,都处于持续增长之中。部分数据来源如下:公众网络;社交媒体;移动应用程序;联邦、州和地方记录与数据库;聚集商业交易与公共记录中的个人数据而形成的商业数据库;地理空间数据;各类调查;通过扫描并借助光学字符识别转化而成电子形式的传统离线文献。更多具有上网功能的设备与传感器的出现扩大了从物理实体,包括通过传感器和射频识别(radio-frequencyidentification,RFID)芯片采集数据的能力。而个人定位数据则来自GPS芯片、移动设备蜂窝信号基站的三角测量、无线网络映射,以及个人支付行为。
不仅如此,数据采集与分析的执行速度越来越接近即时时间,这意味对于一个人就其周边环境或生活所做的决定产生即时的影响而言,大数据分析有着越来越大的潜力。高速数据的例子包括记录使用者在线与网页互动活动的点击流数据,即时追踪定位的移动设备获得的GPS数据,以及得到广泛分享的社交媒体数据。客户与公司希望通过分析这种数据使其即刻获益的要求越来越高。事实上,如果手机定位应用不能即时准确地确认手机位置,它根本就不会有什么用处,并且,在确保我们的汽车安全运行的计算机系统中,实时操作就至为关键了。
新机会、新挑战
大数据技术能够将大量的数据集以从前不可能的方式分析出有价值的东西。的确,部分大数据所能产生的卓见是研究者过去从未敢想过的。但是,有关大数据的技术能力已然达到了成熟与普及的水平,它要求我们思考如何努力在大数据提供的机遇与这些技术所带来的社会、伦理问题之间做出平衡。
大数据应用的威力与机遇
若使用得当,大数据分析能够提高经济生产率,改善客户与政府服务体验、挫败恐怖分子并且拯救生命。例如:
大数据与不断发展的“物联网”使得人们将产业经济与信息经济进行整合成为可能。喷气式发动机和运货卡车现在能够装配许多传感器以监控上百个数据点,并且在需要维护时自动报警。这就使得整个系统更加扁平化,减少了维护成本,并同时增强了安全性。
医疗保险和医疗补助服务中心(TheCentersforMedicareandMedicaidServices,CMS)已经开始在要求支付前用预测分析软件来标示看似报销欺诈的凭据。欺诈预防系统有助于实时甄别高风险医疗保健提供者的欺诈、浪费与滥用行为,它已经终止、阻止或确认了1.15亿美元的欺诈性支付,在该程序上头一年花的每1美元带来了3美元的成本节约。
在阿富汗战争最激烈的那几年,美国国防高级研究计划局(DefenseAdvancedResearchProjectsAgency,DARPA)派遣了数据科学家团队和可视化技术团队到战地。在一个名为Nexus7的计划中,这些团队被直接派进作战部队,用他们的工具帮助指挥官解决特定的作战计划。在其中一个地区,Nexus7的工程师将卫星数据和监测仪数据融合,观察交通工具是如何在道路网中流动,这使其更容易定位并摧毁简易爆炸装置。
有一个大数据研究综合了通过监测器采集的数百万个来自新生儿重症监护病房的数据样本,以确定哪些新生儿有可能感染了潜在的致命性传染病。通过分析所有数据(不只是医生在他们的巡视中标记的),该项目能够识别像体温升高、心率加快这样的因素,以此作为有可能发生了某种感染的早期预警信号。这些早期感染信号并不是经验丰富、工作细致的医生通过传统方式能够了解到的。
大数据技术也具有其它极大的前景,它可以用来更好地管理电网间的调配需求、改进能效、为发展中国家提高农业生产力,以及预测传染病的传播等许多其它的应用领域。
大海捞针
现在,计算能力要做到“大海捞针”不仅是可能的,而且依然成为现实。过去,搜索多个大数据集既需要合理组织数据,也需要提出特定的研究问题,依赖选择对的查询以返回正确的结果。大数据分析令数据科学家积聚了海量数据,包括非结构化数据,并且使他们能够找出异常点与数据模式。在这种发现的模式中,为了找到针,你得有个大海;为了获得确定的洞见,你需要一定量的数据。而在其中所涉及的巨大数据量内,就隐含了对于个人隐私的关键性挑战。
例如,Broad研究院的基因研究人员发现,海量的基因数据集在识别遗传变异对疾病的意义中有着关键的作用。在这个研究中,当样本数量是3,500时,和精神分裂症有关的遗传变异无法检测出来;当使用10,000个样本时,也只能有细微的识别;但是当样本达到35,000时,统计学上的意义便突然显示出来。正如一个研究人员所观察到的一样,“当达到某个拐点时,一切都变了。”对于更多数据的获取,尤其是像基因数据等私人敏感的数据,对于研究者来说将会是一个巨大的挑战,这一情况是由以限制其访问的隐私法为主的各种因素造成的。
大数据之下的数据集群与数据的关系可能会出乎人的预料,但同时也很深刻。同时,即使有海量的数据,大数据分析的结果也不一定完美。图像识别并不能识别这个图像是否重要。相关性仍然不等于因果性。利用大数据技术找到的相关性,或许不能为对结果、行为的预测以及其他个人判断提供恰当的基础。与一般数据一样,在大数据中,解释始终是重要的。
完美个性化的福利和后果
融合大量不同类型的数据并实时处理他们,就有可能在消费者开口之前,就提供给他们正确的信息、产品或者服务。少量数据能够被结合在一起,从而创造出某个人的清晰的行为图谱,进而预测他们的偏好与行为。这些详细的私人档案和个性化的经历在消费者市场上很有用,它能够向确定的一类人推送产品与服务,他们中的一员可能是一位酷爱编织的专业会计,也可能是一位喜欢恐怖电影的家庭主厨。
不幸的是,“完美的个性化”(“perfectpersonalization”)也会在定价、服务与机会方面造成微妙的或是不明显的歧视。例如,一项研究表明,涉及到黑人常用名(例如,“杰梅因(Jermaine)”)的网络搜索比涉及到白人常用名(例如,“杰弗里(Geoffrey)”)的搜索结果中更容易出现含有“逮捕”意味的广告。这项研究无法确定为什么种族偏见的结果会产生,因为在算法上,广告显示的生成是一个基于多变量的综合决策过程。显然,不同的群体通过不同的信息服务所产生的结果,有可能对个人造成真实的伤害,这种伤害可能发生在他们求职、买房甚至只是简单的搜索信息的时候。
还有一处值得关注:大数据技术能够从意识形态或文化上把人隔离开来,就像泡沫过滤器一样,有效地防止他们接触到一些对他们的偏见与假设构成挑战的信息。一些公司正在搜集并处理大量急剧增长的数据,并煞费苦心地挖掘个人资料与他们的喜好。然而,公众对这些活动的范围与规模的认知是有限的,消费者是很少有机会来控制这些被搜集并且反复使用的数据文件。
模糊与再识别
数据整合等技术在使大数据分析功能日益强大的同时,也为对目前个人隐私的保护带来了严峻挑战。当数据开始连接到个人或设备时,一些隐私保护技术将设法去除这种链接,或者将个人身份信息“模糊化”(“de-identify”)——但是一些同样有效的技术也可以把这些碎片化的链接复原,并重新确定相应的个人或设备信息。同样,整合不同的数据可能会导致一些分析师所说的“马赛克效应”(“mosaiceffect”),即个人身份信息甚至可以从不包括其个人识别码的数据库中得到或者推断出,只要明确包括其爱好等倾向在内的行为图谱即可。
许多技术人员认为,数据的模糊化处理作为保护个人隐私的一种手段,其作用也只是有限的。19事实上,对数据进行收集与模糊化处理是基于相关公司不恢复数据的承诺与对应的安保措施的基础上的。对数据进行加密、删除独特标识符、打乱数据使其无法识别个人,或者在其个人资料的控制上给予使用者更多的权限是目前采用的几种技术解决方案。但是有目的的模糊化处理可能使数据丧失其实用性与确保其出处及相应责任的能力。此外,它很难预测再识别技术将如何演变以应对看似匿名的数据。这将导致大量的不确定性,个人该怎样控制他或她的数据?他或她该怎样反对建立在海量数据之上的决策?
数据的保持
在过去,对于个人信息的自然控制的保存技术经常可以保证足够的隐私。数据可以被摧毁,对话可以被遗忘,记录可以被消除。但在数字世界,信息可以被获取、拷贝、分享、精确的翻译并且无限期的保存。从前存储大量数据的成本巨大,现在这些数据可以储存在一粒米大小的芯片里,既简单又实惠。结果是数据一旦被创造出来,就可以在许多情况下永恒的有效。此外,电子数据经常涉及到复杂多样的人群,使得个人的控制难以实现。比如,谁是一张照片的拥有者?是照片的拍摄者,还是照片里表现的人,是第一个邮寄它的人,抑或是邮寄它的地址?这些新科技的发展基本改变了一个人和与他/她相关的数据的关系。
数据自由的分享和复制的确比任何时候都要更多。个人、政府、企业、人际网络、同事、上台控制私人数据的其他政党,他们间的特殊责任仍在彼此区分。然而,技术发展的目标是明确的:越来越多的私人数据会产生,并在他人的控制下保存。保证数据的安全是当务之急。出于这个原因,“公众-个人合作社的各种模型”(“modelsforpublicprivatecooperation”),例如在2014年2月成立的行政网络安全结构(Administration’sCybersecurityFramework),是确保该基础设施的安全与可调整性的重要部分,而正是这套基础设施,正在为世界上许许多多的数据库提供服务。
证明我们的价值
无论大数据所带来的问题是多么的严重与重要,政府依然会支持相关电子经济的发展并提供免费的数据流来激发大数据的创造力。科技的进步总是会产生如何权衡我们的隐私与社会价值之间的关系的问题。美国在公共领域内,在国会上,在法庭里,均遭受过这个的问题所引发的争议的挑战。而在历史长河之中,无论科技如何变化,我们一直坚定地保护宪法赋予公民的权力。
奥巴马总统上任伊始,政府就号召公众与私营部门善加利用数据的力量,使其提高生产力,改善生活质量,服务大众社会。这也就意味着,这项研究并不仅仅涉及大数据科技的可行性,还包括了大数据是如何可能挑战一般美国人的价值观与美国当下的法律框架。这份报告集中叙述了联邦政府如何在大数据科技改变消费者与公民的世界观的同时,确保我们价值观的延续与法律的与时俱进。
去年,关于隐私方面的公共争议主要集中于政府,尤其是在情报机构如何收集、储存,并应用数据这一方面。这份报告在很大程度上搁置了由信号情报领域的大数据使用而引发的问题,对这一问题的详细处理可以参加总统在1月份发布的政策指南。相应地,这份调查报告也同样考虑到了政府通过收集与使用这些大型数据库给公众带来了便利。公众的信任要求政府合理地运行与工作,并要求较之个人,政府必须以一个更严格的标准来收集与使用个人信息。正如奥巴马总统所明确指出的,“对于一个领导者而言,仅仅说‘相信我们,我们不会滥用我们所收集到的数据’是不够的。”
这份调查报告开阔了我们对于大数据问题的视野,它将大数据的应用范围远远扩大到情报领域之外。这种新的技术不仅仅只是在考察个人隐私,无论这种隐私是被定义成不被干涉,或者是掌握某人身份等其他权利。在这份调查报告中,一些影响最为深远的挑战主要集中在以下方面:大数据的分析有可能导致新型的不公平待遇,尤其是对于弱势群体;也可能产生不透明的决策制定环境,以至于个人自治完全迷失于在一堆无法理解的算法之中。
这些都不是不能解决的问题,但是它们都需要更加深入与严肃的思考。谨记历史学家梅尔文?克兰兹伯格(MelvinKranzberg)的科技第一定律是非常重要的:“技术既无好坏,亦非中立。”22科技可以被用来服务群众,但也可以伤害个人。不管科技多么先进,美国公众都保留着一种力量,即他们能够通过制定政策与法律来管理新技术的使用,进而在某种程度上保护基本的价值观。
大数据正在改变世界。但是它并没有改变美国人对于保护个人隐私、确保公平或是防止歧视的坚定信仰。这份调查报告旨在鼓励使用数据以推动社会进步,特别是在市场与现有的机构并未以其他方式来支持这样的进步的领域,与此同时,我们也需要相应的框架、结构与研究,来帮助保护我们的核心价值观念。
2、奥巴马政府在数据开放与隐私保护问题上的发展路径
回顾美国历史,技术与隐私法都处于不断交替发展之中。在营造创新环境、促进经济繁荣的同时,美国一直在全球范围内扮演着保护个人隐私的领导角色。
宪法第四修正案保护了“人民的人身、住宅、文件和财产不受无理搜查和扣押的权利”。对实在空间与有形资产的保护体现了尊重、重视人身安全与个人尊严的意识,公民良好的社会行为与民主社会的正常运行依赖于此二者。
在美国,一个保护隐私利益的法律框架已经建立起来,并覆盖了宪法、联邦、各州等各个层面。“隐私权”不是一个狭隘的概念,而是由一系列概念组成的,它们针对侵害公民隐私权的各种行为,形成了各个样式的有针对性的保护措施。在美国,数据收集与将数据造福大众有着同样长的历史。宪法第二章第一款授权进行十年一度的人口普查,以分配美国众议院议席。在实践中,人口普查从来没有仅仅只进行简单的人数计算,而是收集一些更为具体的以公共利益为目的的人口统计信息。
自从奥巴马总统执政以来,联邦政府采取了史无前例的政策措施,将更多的它所拥有的数据向公众、公司与创新者开放。从2009年开始,奥巴马政府将大量资料库向公众开放,并且将许多数据公布在美国政府的中央信息交换库——Data.gov网站上。这种将政府的信息数据当作一种资产并加以披露,使其易于获取与使用的做法,换句话说,就是信息的公开化。这大大加强了社会民主程度、开拓了经济发展机会、改善了公众生活质量。
奥巴马政府关于公开数据的举措
公开数据计划
根据政府的公开数据,我们凭借口袋里的智能手机就能知道我们所处的位置。几十年前,联邦政府将气象数据与全球定位系统免费对外开放,企业家们得以发明大量的新工具,提供新型服务,天气预报APP、汽车导航系统等新发明因而不断涌现。
在过去,政府收集数据的方式主要是由政府机构自己进行收集,而奥巴马政府的一系列公开数据的倡议与决策,使得过去在健康、能源、气候、教育、经济、公共安全与全球发展等领域内难以收集的数据变得易于收集,开启了一个新的富有价值的数据宝库。奥巴马在2013年5月9日签署的第13642号总统行政令为联邦数据管理工作提出了新的准则:在保护好隐私安全性与机密性的同时,将数据公开化以及可读写化纳入政府的义务范围。扩大公开数据的影响也同样是总统第二期管理工作规划的核心部分,例如管理和预算办公室(OfficeofManagementandBudget,OMB)就已经建议其下属机构公开更多他们决策所依据的政府信息,因此,相信信息公开将可以惠及更多的人。
公众在Data.gov网站上可以找到有关联邦消费者金融保护局(ConsumerFinancialProtectionBureau,CFPB)受到的所有抗议的信息,这些抗议主要针对于阿肯色州学生贷款的911个服务领域。这表明每个人可以利用Data.gov网站获得他们所需要的公开信息,而不需要对政府机构和这些机构所推动的工作项目有特别多的了解。感兴趣的软件开发者运用一些简单的工具,就能够自动获得这些数据包的信息。
联邦机构在某种程度上应根据公众的要求优先公布它们的数据以扩大数据的影响面,每一个机构都被要求需通过诸如邮件系统或是在线平台等数据反馈机制来征求它们应当收集哪些数据。这样一来,任何倡议者、企业家、研究者就能第一时间联系联邦政府,建议哪些数据应该被公开。为了更进一步的形成反馈并促进政府公开信息的有效使用,政府官员一直在积极召开并参与编码马拉松(code-a-thons)、头脑风暴工作坊(DataJams)、数据开放运动(Datapaloozas)与其他的一些以数据开放为主题的会议。
根据2013年5月的总统行政令,管理与预算办公室以及科技政策办公室(OfficeofScienceandTechnologyPolicy,OSTP)发布了一个工作框架方案,为各机构管理运用即时更新的信息资源这一新形式财产提供指导,包括了对保护个人隐私、信息可信度的一系列要求30。政府机构根据开放程度已将信息资产划分为三个种类:开放性、半开放性、非开放性,并且只能出版发行开放性密级的信息。为了增进透明度,一些机构需将一些还没公布到网上的技术性公开数据纳入他们的外部数据财产清单。
“我的大数据”计划
使政府信息更公开透明、更易被机器读写仅仅是政府信息政策的一个组成部分。1974年颁布的《隐私权法案》授予了公民可接触一些与其有关的个人信息的权利,公民行使这一权利应该变得更加安全高效,从2010年开始,奥巴马政府着手采取了一系列主题为“我的大数据”的倡议与措施,使得美国人可以更安全地获取他们的个人数据,用来更好地处理他们私人领域的申请活动和服务。
“我的大数据”计划具体包括以下部分:
“蓝纽扣”计划:“蓝纽扣”允许消费者安全地获取他们的健康信息,使得他们可以更好地管理他们的健康与经济状况,并与信息提供者交换相关信息。在2010年,美国退伍军人事务部(U.S.DepartmentofVeteransAffairs,DVA)开始了“蓝纽扣”计划,退伍老兵可以通过该计划下载他们的健康记录。从那时起,540万退伍军人利用“蓝纽扣”获取他们的健康信息,超过五百家私人公司允诺向“蓝纽扣”计划的参与者提供更多他们所掌握的健康数据,今天,超过1.5亿的美国人能够从健康服务提供商、医药实验室、零售药房供应商与州免疫信息数据库获得他们所需的个人健康数据。
“创建副本”计划:在2014年,美国国税局通过一个名为“Gettranscript”的工具将纳税人的信息数据加以共享,纳税人可以通过它获得他们自己最近三年的纳税记录。个人纳税者可以借此下载过去的纳税申报单,这使得居民进行抵押、学生贷款、商务贷款等活动与填写纳税表更加便捷。
“绿纽扣”计划:在2012年,美国政府与电力行业合作推出了“绿纽扣”计划,这为家庭与企业提供了便捷的途径来获得他们的能源使用信息,并且有利于营造良好的消费者环境与电子化模式。今天,为5900万家庭与企业提供服务的48家电力供应商通过参与“绿纽扣”计划,帮助他们的消费者节约资源。凭借自身掌握的能源数据,消费者可以选择享受何种私人服务,以更好地管理他们的能源消耗状况来达到理财的目的。
“我的学生数据”计划:教育部将助学金免费申请表与联邦助学情况的一些信息共享,这些信息囊括了借贷、补助金、注册与超额偿付等方面的具体事项,这使得学生与资助人能够上网下载所需信息资源。在这些计划中,信息都是通过“注重使用者体验”、“机器可读写”、“文本信息平面化”的方式实现共享的。
除了为人们提供安全、高效的个人信息,“我的大数据”计划帮助建立了一个有效的个人数据获得性模型,政府也希望将其推广到更多的私人与公众领域。获取个人信息的能力在未来将会变得越来越重要,生活的各个方面都将会逐步卷入到个人、公司与公共组织的信息交换之中。
大数据计划:“数据-知识-行动”
在未来,“大数据”将会成为这个信息交换过程的核心,使得数据转化为知识,并进而转化为行动的过程更加快捷。在2012年3月29日,六个联邦机构加入到“大数据研究和发展计划”(“BigdataResearchandDevelopmentInitiative”)中来,超过两亿的科研经费被用于工具与技术开发以推进对海量数据进行获取、组织与整理并发现有效信息的相关技术发展。
自从“数据-知识-行动”(“DatatoKnowledgetoAction”)计划实施以来,在1亿美金的“XDATA”项目支持下,美国国防部先进项目研究局(DefenseAdvancedResearchProjectsAgency,DARPA)创建了一个关于研究出版物与公开化资源软件的“开放目录”,努力发展能够处理分析存在缺陷的、不完整的海量数据的技术。国家卫生研究院(NationalInstitutesofHealth,NIH)也拿出5000万美金支持开展生物领域的“数据-知识-行动”计划。国家科学基金会(NationalScienceFoundation,NSF)赞助的大数据研究计划,为人类基因组研究节省了40%的经费。能源部也宣布向“可扩展数据的管理分析及其可视化协会”(“ScalableDataManagement,Analysis,andVisualizationInstitute”)提供一项2500万美元的赞助,这家机构所处理的气候数据信息使得季节性台风预报的准确性提高了25%以上。还有许多针对大数据的研究支持计划,比如奥巴马总统2013年4月发布的创新神经技术脑(BRAIN)计划。作为政府大数据计划的组成部分,国家科学基金会为大数据中出现的社会、道德与公共政策问题的相关研究也提供了特别的资金支持。
美国隐私法案和国际隐私法框架
美国《隐私法》的发展
工业革命带来的技术革新浪潮使得社会发生巨大变迁,《隐私法》正是在这一社会背景上发展起来的。隐私权最初由美国学者沃伦(SamuelWarren)和布兰蒂斯(LouisBrandeis)在1890年由两人合著的著名法学论文《隐私权》一文中提出,初代可便携照相机的出现直接促成了他们观点的提出,在论文中,他们指出“最近的发明与商业应用将人们的目光吸引到个人隐私权的保护上来,…这项权利应不受侵犯…很多技术发明威胁到了隐私权,‘窃窃私语被公之于众’的预言可能被实现。”提出建立普遍性的隐私保护法的倡议出现在20世纪,这一倡议富有预见性,建立了从政府到个人的涵盖各个方面的公民隐私权。
案例法历经了上个世纪的发展,其中关于宪法第四修正案的解释条目随着时间与技术的发展也在不断进行调整。在1928年,联邦最高法院受理了“欧姆斯戴徳诉美国联邦政府”(Olmsteadv.UnitedStates)一案并宣判在诉讼人屋外设置电话窃听装置并没有违反宪法第四修正案,即使政府以此获得了屋内谈话的内容。但是,欧姆斯戴德案的裁定因为贾斯蒂斯·布兰蒂斯(JusticeBrandeis)的抗辩而传播得更广,他写道:“国父们曾经授予公民其隐私不可侵犯的权利以限制政府的行为。”
欧姆斯戴德案的法庭决议一直沿用,直到1967年“卡茨诉联邦政府”(Katzv.UnitedStates)一案才被推翻。法庭认为,联邦调查局(FederalBureauofInvestigation,FBI)在没有调查授权的情况下在公用电话亭外安装监听记录装置,侵害了个人使用公用电话时应有的同时也是符合个人期待的隐私权,即使这个装置没有置于电话亭内部,或是身体以及财物上。此后,主观期待的隐私权得到保护,社会也开始将这视为理所当然。
民事法庭并没有立即将隐私权认定为一个公民向他者提起诉讼的正当理由——也就是律师们常说的“诉因”(“causeofaction”)。直到1934年的《侵权行为法》中,无正当理由地严重侵犯个人隐私才被正式确定为可作为起诉的基本出发点。大多数州的法院这才开始将隐私权认定为诉因,这份规定并不是对民事侵权行为的单独一款规定,而是由4款复杂的规定组成的:
1.行为侵犯个人私人空间或私人事务
2.公开散播个人隐私
3.为丑化某人信息而将信息公开
4.为了非个人本人目的而挪用了个人肖像
现在许多批评认为这四款并没有很好地解决隐私问题,市场经济下因商业目的而大范围收集、使用、散播个人信息的现象仍很严重。同时一些人声称,自动化的程序应该能减轻隐私问题给公众带来的忧虑,因为它是使用电脑来进行操作并完成一系列任务,而不是像过去一样由人来操作完成。
信息公平实践原则
随着计算技术的发展与它在政府和私人间的应用更加普及,全球的政策制定者们开始重新审视它与隐私的关系。1973年,美国卫生、教育与福利部发布了一份题为“录音、计算机与公民权利”(“Records,Computers,andtheRightsofCitizens”)的报告。报告分析了“自动化个人数据系统可能导致的不良后果”并建议建立信息使用的保障措施。这些措施,也就是如今广为人知的“公平信息实务法则”(FIPPs),成为了当今数据保护制度的奠基石。
尽管这些法则在法律与国际公约中都有不同的表现形式,但本质上,“公平信息实务法则”清楚地表达了处理个人信息时的基本保护措施。它规定个人有权知道他人收集了那些关于他的信息,以及这些信息是如何被使用的。进一步说,个人有权拒绝某些信息使用并更正不准确的信息。信息收集组织有义务保证信息的可靠性并保护信息安全。这些法则成为了1974年《隐私法》的基础,这一法案规范了联邦政府在个人信息的维护、收集、使用与传播等方面的行为。
19世纪70年代后期,几个其他国家也相继通过了隐私法。1980年,经济合作及发展组织(OECD)发布了其《关于隐私保护和个人信息跨界流动管理的指导》(“GuidelinesGoverningtheProtectionofPrivacyandTransborderFlowofPersonalData”)。基于“公平信息实务法则”的经济合作及发展组织指导并提供了关于过去三十年里国家隐私法,特别行业隐私法及其实践的信息。1981年,欧洲委员会通过了《个人信息自动处理中的个人保护公约》(“AutomaticProcessingofPersonalData”,Convention108),这一公约采用“公平信息实务法则”的手段来凸显欧洲对于隐私权的保护。
尽管有一些关键的不同,但是美国和欧盟国家关于隐私权保护的框架都是基于“公平信息实务法则”。基于隐私权是基本人权这一认识,欧洲国家的保护措施通常包括自上而下的严格法制与对于个人信息的使用的全面限制或是要求信息主体的明确同意。相对的,美国则通常采用在例如医疗保障与信用体系等特别领域实施特别规定来管控特定的风险。这使得美国很少有对于信息使用的全领域普适规则,从而为产品与服务的创新留下空间。但是,但这也为潜在的数据跨领域使用留下了空间“公平信息实务法则”形成了诸多部门法与国际公约的共同思路。他们被编入2004年《亚洲太平洋经济合作组织隐私权法则》(“AsiaPacificEconomicCooperationPrivacyPrinciples”),这一文件由亚洲太平洋经济合作组织(简称亚太经合组织或APEC)成员国签署通过,并构成美国-欧盟与美国-瑞士的安全港框架基础,这一框架将以对于“公平信息实务法则”的一致观点作为沟通美欧法律的基础。
美国特定行业的隐私法
上世纪七八十年代的美国,特别制定的行业法律开始出现并作为以侵权行为为基础的习惯法的补充。这些法律只对特定的数据提供保护。除了少数例外,大多数州与联邦政府都通过了相应法律。
《公平信用报告法案》(“FairCreditReportingAct”,FCRA)最初颁布于1970年,这一法案旨在促进消费报告机构所收集的信息的准确性与公平性的同时,推进相关隐私保护。这些信息被用于信用与保险报告、雇员背景调查与租户筛查。这一法案赋予了个人访问与修正个人信息的权利,从而保护了消费者的权利。它要求那些提供消费者报告的公司确保信息的准确与完整;它限制这些信息的使用;它要求这些机构在依据报告进行不利于当事人的措施(例如拒绝贷款)时需尽到告知的义务。
1996年的《健康保险携带与责任法案》(“HealthInsurancePortabilityandAccountabilityAct”,HIPAA)规定个人健康信息只能被特定的、法案中明确的主体使用并披露,法案中也包括了用于帮助个人了解并控制其健康信息使用的标准。《健康保险携带与责任法案》(HIPAA)的核心原则是“最小化必须”(“minimumnecessary”)原则。国会与卫生部会周期性地升级健康数据的保护。1998年《儿童在线隐私保护法案》(“Children’sOnlinePrivacyProtectionAct”,COPPA)和联邦贸易委员会(FederalTradeCommission,FTC)的法令要求用于13岁以下儿童的在线服务或要收集儿童个人信息的在线服务需要获得父母的同意才能进行。在金融领域,《金融服务现代化法案》(“GrammLeach-BlileyAct”,GLBA)要求金融机构尊重客户隐私并保护客户非公共信息的安全与机密。在诸如教育,通信,录像带租借与基因信息等其他领域,也有相应法案保障隐私。
消费者隐私权法案
2012年2月,白宫发布了一篇名为消费者数据隐私权的报告:在全球数字化经济环境下保护隐私权与促进创新的新体系框架(“ConsumerDataPrivacyinaNetworkedWorld:AFrameworkforProtectingPrivacyandPromotingInnovationintheGlobalDigitalEconomy”)。这种“隐私”蓝图包含四个关键要素:基于信息公平实践原则的消费者隐私权法案;呼吁政府的多方利益相关者在特定的商业环境应用这些原则;对隐私权有效执行与对制定消费者隐私权立法基准的支持;对支持数据跨国流动的国际隐私权制度的承诺。
隐私权蓝图的核心是消费者隐私权利法案,它对消费者保护标准进行明确规定。这些权利是:
个人控制:消费者可以对企业从自己这里收集什么信息,以及如何使用这些信息进行控制
透明:消费者有权简单易懂地获取有关隐私权与安全实践的信息。
相关环境:消费者有权得知企业如何在消费者提供信息的相关环境方面进行收集、使用与披露用户数据
安全:消费者的个人数据必须得到安全与负责任地处理
可修改和准确性:因个人数据的敏感性,以及不准确的数据会对消费者有产生不良后果的风险,消费者有权查阅并更正个人资料
聚焦收集:企业在合理的限度内收集与保存用户数据
问责:拥有个人数据的公司有义务采取适当措施,以确保它们符合《消费者隐私权法案》(“ConsumerPrivacyBillofRights”,CPBR)
《消费者隐私权法案》更加关注消费者而非仅仅是以往用法律术语表达的隐私结构。比如,它根据“易接受性和准确性”(“accessandaccuracy”)的原则对权利进行描述,与以往对于“数据的质量和完整性”的公式化表达相比,更易为用户理解。同样的,它确保了公司将会尊重从消费者收集与使用数据的背景环境,从而取代“目的说明”(“purposespecification”)。
《消费者隐私权法案》还借鉴了公平信息实践的原则以更好地适应我们所生活的网络环境。
与要求企业遵循一系列专一、严格的条令不同,《消费者隐私权法案》建立了一般原则并提供给企业自由决定如何实施这些条令的权力。《消费者隐私权法案》的相关环境原则与其他六大原则相互间产生作用,确保消费者的数据将以符合他们的期望收集并使用。与此同时,相关环境原则允许了企业在信息的使用与“企业-用户”间的关系以及围绕如何收集数据的环境保持一致时,可以开展新的能够使用个人信息的服务。
互联网的复杂性、全球性与持续的发展需要及时的、可发展的创新扶持政策。为了应对这个挑战,《隐私法》的蓝图呼吁所有利益相关者聚集到一起,制定自愿性的,强制性的行为准则,明确规范如何将《消费者隐私权法案》应用到具体的商业环境中。《消费者隐私权法案》是基于广泛的基准原则与具体的行动守则的结合,能够在支持创新的同时保护好消费者。
提升全球互操作性
在其他国家与国际组织开始复核他们的隐私保护框架时,奥巴马政府发布了《消费者隐私权法案》。在2013年,经济合作与发展组织升级了自己的隐私权指导方针,这在机制上补充了公平信息实践原则,帮助落实并加强了隐私保护。在2013年发布的亚太经合组织跨境隐私规则系统,也在很大程度上效法了经济合作与发展组织的指导方针。53欧委会正在审核第108号协定(《个人信息自动处理中的个人保护公约》,“AutomaticProcessingofPersonalData”)。在这些不同的隐私保护框架之间建立桥梁,对确保国际贸易的强劲增长是至关重要的。
欧盟也正在推进其数据保护规则的改革进程。现有的欧盟数据保护指令仅允许欧盟公民数据享有“充分的”隐私保护法案,或向拥有有效的数据安全保护机制的国家(如美国-欧盟安全港协议)流出。在2014年1月,美国与欧盟开始协商,如何加强安全港协议框架以确保它能继续提供有力的数据保护,并且能使提高其透明度,得到有效执行与法律上确定性三者成为可能。这些谈判都还在继续,即使像欧洲、美国,也都在磋商这些隐私保护框架将如何适应大数据技术的同时,能够增加计算与存储能力。
在2014年3月,联邦贸易委员会与欧盟机构的官员连同亚太经合组织一同宣布,欧盟与亚太经合组织将发布共同的计划文件,满足双方在隐私保护框架方面的共同需求。56这项筹划工作将帮助那些在欧盟与亚太经合组织地区同时进行贸易的公司解决在两方隐私保护中的认证问题,避免因双方框架不一致或重叠所带来的困难。这样的努力澄清了公司的义务,帮助在全球隐私框架之间建立起相互间的操作性。
结论
目前最普遍的隐私风险依然是涉及“小数据”——定向妥协的内容,例如,以个人银行信息为目的的金融诈骗。这些风险并不涉及到大量的、急速的数据,或是繁多的信息种类,也没有隐含有与大数据有关的复杂化信息。对于“小数据”的隐私保护在美国已通过公平信息实践原则,借由特定的部门法律,强有力的执法部门与全球隐私保护机制得到有效的解决。
隐私权方面的学者,政策制定者与技术专家现在正转向大数据的问题,即如何在“公平信息实务法则”的基础框架下对大数据技术进行有效的管理。这份调查报告的剩余部分就将探索大数据在公共与私营领域的应用,然后将考虑大数据的整体应用对现有隐私保护框架的可能影响。
欢迎大家加入科技杂谈菁英汇,交流思想、分享信息。仅限行业商端人士参与。参与方式:点击左下方“阅读原文”填写您的加入信息,科技杂谈通过审核后,会添加入群。
本文仅代表作者观点,科技杂谈授权刊登。
转载必须注明作者与科技杂谈,侵权必究。
科技杂谈文章,均同步发布于犀牛财经网。
已入驻搜狐新闻客户端,网易阅读客户端。