智能终端隐私防跟踪技术实践
背景:隐私问题已与笔者的生活息息相关,不断有知名厂商有关的新闻出现, 包括某公司因cookies泄露、人脸识别滥用被要求支付巨额罚款;apple 也在2020年底要求“所有想要跟踪用户的app都需要获得用户的明确同意,否则将会被从应用商店删除”。
法律法规层面也有密集的动作,包括:
(1) 工信部今年通报五批、共计300+款侵害用户权益行为APP
(2) 11月27日工信部组织召开全国APP个人信息保护监管会
(3) 电信终端产业协会发布《APP用户权益保护测评规范》10项标准及《APP收集使用个人信息最小必要评估规范》8项标准,涉及人脸、通讯录、麦克风录音、位置、图片、软件列表、设备、录像信息等多个方面
(4) 11月25日欧盟委员会公布《欧洲数据治理条例》(数据治理法案)提案,以促进各部门与欧盟成员国之间的数据共享
出现这些情况的时代背景是笔者已经进入移动互联时代,包括如下几个特点:
01以数据为中心人类社会以信息为中心的IT时代走向了以数据流为中心的时代。这是一个基于数据生存的时代,笔者每个人都不断地生成数据,数据又不断地被人收集利用。
02数据驱动商业在移动互联时代,数据驱动已经成为现实,产品技术的创新和持续发展依赖于数据驱动。移动互联是一个开放的充分竞争的市场中谁跑得快(数据获取能力强)+ 跑得稳(数据安全和隐私保护做得好),就有机会在移动互联的竞逐中脱颖而出。
03伴随风险新常态意味着新风险。数据安全和隐私保护能力缺位,黑产灰产发达,个人信息保护成为全社会关注的问题。消费者对数据安全和隐私保护的敏感度提高, 数据安全和隐私保护成为竞争的着力点。
另外,由于所在行业的关系,笔者也对最大的两个移动生态:ios、android诞生之初的每一个版本在隐私与安全方面的发展历程进行了研究。其中一个明显的趋势是ios与android都从安全逐渐向隐私过渡,社会的认知水位线正逐步提高,安全已是基础(用户认为手机厂商本来就应该做好安全),用户将会对隐私保护提出越来越高的要求。
要做好隐私保护,技术是重中之重。隐私保护也是目前的热点研究方向,在过去一年中笔者调研了大量学术界、工业界的研究成果。过程中对一篇综述论文中的两句话留下深刻印象:这篇论文题目是《 Advances and Open Problems in Federated Learning 》,出自MIT、Google等研究机构的70余名研究人员对于联邦学习技术方面进行的讨论,虽然论文研究的课题是联邦学习,但其中用大量篇幅讨论了隐私保护目前的最佳科学理解、实践以及面临的挑战。
第一句:Privacy is not a binary quantity, or even a scalar one
可量化是可被科学研究的前提。这句话是对唯技术论的一个提醒
第二句:While some of the risks can be mapped to technical privacy definitions and mitigated with existing technologies, others are more complex and require cross-disciplinary efforts
作者们在分析了主流的隐私保护技术、隐私威胁建模、隐私保护技术与主流安全技术配合等方面后的一个总结
这两句话提醒我们隐私保护系统的复杂性,但更客观地认识所面对的问题是解决问题的第一步。
隐私保护涉及的方面有很多,接下来笔者聚焦到隐私防跟踪方向。接下来的内容是分为如下的3个部分:
(1) 隐私跟踪的特点、危害、重点
(2) 提出一种方法缓解这种危害的方案
(3) 验证该方案的有效性
隐私跟踪具有如下特点:
1. 隐私信息泄露是跟踪的基础
2. 攻击者对于信息的掌控能力从时刻提升到时段;从无序到有序
3. 最终攻击者的能力将从观察一个人的行为发展到预测再到主动影响一个人的行为
目前隐私跟踪的现状包括:
1. 从大V 到普通人
2. 从小规模到大规模
3. 跟踪成本和门槛从大到小
4. 精准识别、不透明、不可控
隐私跟踪失控带来的危害有对个人具体、实际的威胁,包括广告、人肉、人身安全等,另外还包括整改社会严重的不安全感,这种不安全感可能会反过来影响所处其中人的行为。
Q:隐私防跟踪涉及的数据有很多,其中哪些数据是保护的重点?笔者的判断:标识符/准标识符跟踪、地理位置跟踪、人脸跟踪做出这个判断的依据是过去两年主要学术界会议的研究结果、工业界产品、服务的推出和落地情况,以及大范围用户调研结果支持。
标识符(以及准标识符)是最重要也是风险最大的数据之一。具体包括:
1. 设备ID:IMEI、IMSI、 MAC、 电话号码、SIM、 SSID等
2. 另外还包括cookies、设备指纹
3. 生物指纹、行为习惯等
标识符使用的现状是:
1. 标识符种类多、差别大,场景复杂
2. 存量业务多,整改难度大
3. 精准识别的木桶效应
位置跟踪包括GPS跟踪、基站跟踪、蓝牙跟踪,常见的还有wifi、IP跟踪。另外,未来IOT设备跟踪会受到很多关注,当我的手机与IOT标签发生交互就留下了我的行动记录。
另一个风险较大的场景是人脸跟踪
人脸的主要用途可归纳为:
1. 身份认证(这种用途争议较小)
2. 识别与追踪
3. 影响主体的行为选择
人脸识别技术为什么相较于生物、指纹技术更具有敏感性?主要是人脸具有如下特点:
1. 无意识性
2. 非接触性
3. 侵入性强
人脸识别滥用的风险包括:
1. 使公民成为“透明人”的风险。人脸识别不仅收集数据,更通过你的人脸数据迅速锁定你的身份
2. 数据泄露引发的风险。比如AI换脸技术,在违法犯罪的视频上被换脸的人很可能被刑事追究,而真正的犯罪分子却可以此牟利、逃避刑事追究
3. 数据被滥用的风险。数据滥用的主体除了违法犯罪分子,还包括公权力
4. 个体被操纵的危险
5. 被歧视性使用的风险
6. 无法有效救济的风险
数据的价值在于流动、利用;而安全与隐私保护技术的本质是对信息流动过程的合理控制。
经过对行业产品现状、学术界前人的成果进行分析,笔者给出一个简单、可行的方案,从软件产品生命周期的上游很好解决隐私跟踪的问题。
首先是一个定义:
极端用户跟踪 = 行为信息 + 丰富性 + 准确性 + 完整性
含义是如果假设跟踪方的能力不受限制则可以实现无所不知的跟踪,即为极端用户跟踪;
在这个理解的基础上,笔者提出的思路为: 以各个相关方的需求为约束条件,对‘极端用户跟踪’进行最大程度的限制。
Q:具体操作中如何对隐私跟踪中的信息流进行控制呢?
包含3个维度共5*4*3 个控制点:
1. 数据生命周期维度。包含:采集、使用、存储、传输、销毁
2. 事件描述维度。 包含:who、when、where、what
3. 隐私保护原则维度。包含:非关联性、透明性、可管理性
总结一下,即在综合考虑业务各个方面诉求的前提下,对于 “极端用户跟踪情况”使用隐私增强技术进行控制,达到业务与隐私的平衡。
其中,常见的隐私增强技术包括 去标识化技术、经典加密技术、本地差分隐私、联邦学习、多方安全计算技术。
业界已经有了很多隐私防跟踪的方案,上面提到的思路可以覆盖这些技术吗?带着这个疑问此处选取最核心的3大移动业务进行分析。
对于浏览器场景防跟踪方面的技术如上图所示。经过逐项分析,均可以映射到下表的控制点上。
另外,可以看出浏览器的防跟踪保护主要集中在非关联性和可管理性方面。
对于定位场景防跟踪方面的技术如上图所示。经过逐项分析,与下表的控制点映射关系如下:
可以看出对于地理位置保护方面,现有技术在非关联性、透明性、可管理性方面均进行了很好的保护。
对于人脸相关场景防跟踪方面的技术如上图所示。经过逐项分析,与下表的控制点映射关系如下:
人脸识别是AI的主要基础应用场景之一,可以看出现有技术对于非关联性、透明性、可管理性方面均有涉及。
光识别出哪些数据项需要控制是基础, 在落地过程还需要参考IAPP提出的隐私设计原则:
1. 主动而非被动响应,预防而非补救
2. 默认隐私
3. 隐私设计
4. 业务正和
5. 端到端安全
6. 开放透明
7. 以用户为中心
下面笔者介绍两个典型的业务场景:
一个例子是标签业务,业务需要使用一些数据改善业务体验。之前的方案是传输了大量数据到业务方,现在这样的做法肯定是行不通的。经过上面的方法和原则的应用, 最终的结果如下:
1. 首先业务后台发送OAID列表给数据平台
2. 数据后台计算分类和分值、并排序
3. 并添加噪声对排名进行扰动
4. 业务后台以此排名结果推动消息给用户
此方案仅传输了很少的个人信息,很好平衡了用户体验与隐私保护。
另一个例子是联邦学习中的隐私保护。
如图所示是联邦学习的基本过程,在某业务中笔者在其中引入差分隐私技术,进一步保护端侧用户隐私(联邦学习自带隐私保护属性)。包括:
1. 端侧训练模型结果在返回后台中心之前添加噪声
2. 后台模型汇总后添加噪声,用户进一步保护隐私
最后,对于方案的有效性进行验证, 笔者引入了权威的ePrivacyAPP 隐私评估标准,该标准对于具体业务在5大类、47个子类上的隐私保护程度进行了评估。
ePrivacyApp评估标准是定性的, 为了方便对比,此处将符合度规整到1~10的分数,分数越高隐私评估结果越好。
上面介绍的各个场景的隐私保护效果如下图所示,可以说效果还是不错的。
另外,该方案也帮助笔者发掘、申请了多篇专利,包括手机投屏、视频会议场景下的隐私保护、手机隐私保护状态自动回退机制等。
总结与展望
总结:
1. 隐私跟踪是隐私泄露危害的重要组成部分,标识符、地理位置、人脸是其中的重点
2. 提出一种隐私防跟踪设计方案
3. 针对行业的主要场景对该方案的有效性进行验证
未来发展与挑战
1. 隐私量化模型
2. 隐私威胁建模
3. 隐私保护技术与主流安全技术的融合
4. 标识符管控对于广告生态的影响
最后是笔者对于隐私保护的理解:
·内容已在CIS2020网络安全创新大会发表,附ppt下载