查看原文
其他

【大数据专栏】刘鹏:大数据利用中的隐私安全

2014-06-24 刘鹏 科技杂谈
科技杂谈keji_zatan

新谈友,请点击题目下蓝字关注我

中国通信行业影响力最大的自媒体


【这是“大数据专栏”的推送文章,本专栏由中关村大数据产业联盟与科技杂谈合作提供】


文 / 刘鹏,本文为刘鹏在中关村大数据产业联盟“大数据100分”论坛上的交流探讨实录


  主讲嘉宾:刘鹏


  主持人:中关村大数据产业联盟副秘书长陈新河


  承办:中关村大数据产业联盟


  嘉宾介绍:


  刘鹏,360商业产品首席架构师,曾任微软亚洲研究院研究员、雅虎北京研究院高级科学家、MediaV首席科学家及搜狐集团研究院负责人。


  以下为分享实景全文:


  大家好,我叫刘鹏(微博@北冥乘海生,微信bmchsl),一直在从事计算广告和大数据相关的工作。关于我在计算广告方面的一些总结和心得,大家可以参见我在网易云课堂的《计算广告学》公开课(study.163.com/c/ad),那是以我在北大开设的一门研究生课的概要。今天就不谈这部分内容了。


  我现在担任360商业产品首席架构师。商业产品指的是以广告为核心的面向客户的产品系列,是利用数据比较早的领域,也是大数据目前产品规模化营收和利润的主要流域之一。


  首先谈谈我对于大数据的认识。在研究大数据技术以前,我认为先要界定什么样的问题才算是大数据问题。比如利用网站日志统计各个地区的访问量,这算大数据问题么?个人认为不算,因为不论你的网站有多大的访问量,都可以用很小一部分的采样得到相当准确的结果,因此实际上大数据的技术架构在这个问题上是用不上的,这只是一个传统的数据问题。


  再举一个例子,商业产品里最常见的行为定向广告,由于每一个用户都产生独立的价值和利润,因此简单的数据采样将会使得系统的目标明显下降,必须利用大规模处理数据的架构和算法。这样的问题我认为才算得大数据问题。


  因此,我认为可以根据一个数据问题对采样率的依赖,来判断它是不是一个大数据问题。如果可以通过很低的数据采样得到基本接近的结果,则不是一个大数据问题,而应该被视为传统的、技术已经成熟的数据统计问题。也有一些例子,数据的价值随着采样的降低温和地下降,这样的问题介于传统数据统计问题和大数据问题之间,例如常见的文本主题分析技术PLSA,LDA等。


  很显然,按照上面的说法,商业产品里所有对需要单个用户行为做分析的问题,一般来说都是大数据问题,例如精准广告、个性化推荐等等。我们今天不探讨这些个性化技术本身,而是跟大家一起讨论下其中与用户隐私相关的问题。


  所谓用户隐私问题,就是看在某个数据集或某个系统中,是不是能把某组记录跟某个具体的人对应起来。需要解释的是,这里的对应一般情况下担心的并不是对整个数据及或系统的所有用户完全去匿名化,而是指把其中某条记录跟观察者熟悉的某个具体人对应起来。(这一点是很关键的理解要点)


  用个体行为数据来加强产品体验,从一开始就遇到了有关用户隐私的担忧。经过业界和法律界人士长期的探讨,欧盟的A29委员会对这一问题给了有意义的、但比较初级的边界约束。这一约束主要包括以下几点:


  1.PII(PersonalIdentifibleInformation)被严格禁止用于任何性质的个性化算法中,这是一项基本的准则。PII包括姓名、住址、email、电话号码、身份证号等一系列可以定位到人的信息,这些信息是严格不能使用在个性化算法中的,即使保证安全也不可以。


  2.用户需要被告知自己的那些行为或信息数据被用于个性化系统,并且有权利和手段要求系统停止使用自己的这些数据。大家在一些美国市场投放的显示广告上,可以看到右上角的"AdChoice",点进去可以了解系统如何使用自己的数据,并且也可以选定系统停止使用自己的数据。


  3.用户数据的存储、使用有时间和加密等保护措施的要求。


  欧盟的这个标准是比较严格和明确的,在欧盟开展业务的互联网公司必须遵循。当然,美国互联网公司为了给本国公民同等待遇(否则美国国会会找他们麻烦),往往在美国国内和其他地区也采用同样级别的用户隐私保护措施。做互联网大数据的朋友们,尤其是需要用到用户行为数据的朋友们,需要对上面的这组规则有一点了解。


  不过,实际的用户隐私问题远远比PII要复杂。我们举个例子:如果我在某个公开的数据库里发现一条记录,所有的PII已经被去掉,但是里面显示这个人的其他一些信息:性别-男、住址-朝阳区**小区、年龄-35岁、工作单位-奇虎360,那么熟悉我的朋友一眼就能看出这条记录就是我的,记录中后面的其他信息也就同时被泄露了。


  在上面这个例子中,“性别、住址、年龄、工作单位”这样的一组字段,虽然单独看来都不会造成隐私泄漏,但放在一起的组合由于空间太过稀疏,往往还是能够反推出具体的人。这样的一组字段,数据库里叫做"Quasi-identifier"。


  为了解决Quasi-identifier带来的用户隐私泄露问题,数据库领域的研究者们提出了"k-anonymity"的方法。简单来说,就是将Quasi-identifier中的字段做一些泛化,使得它们不再具有确定一个具体人的能力。


  比如说,在上面的例子上,我们把“住址”泛化成“朝阳区”,把“年龄”泛化成“30-40岁”,那么就没人看得出那条记录是我的了。所谓"k-anonymity",就是说泛化后的数据库里,要求每条记录都至少能找到k-1条其他记录,他们的Quasi-identifier完全一样。


  这似乎相当严格地保证了用户隐私的安全,在著名的Netflix百万美元推荐大赛中,他们发布的数据库也经过了这样的处理。不过互联网的问题远比想象的还要复杂,这一著名的大赛实际上举办了一届就停办了。是什么原因呢?还是用户隐私安全出了问题。


  虽然Quasi-identifier已经被k-anonymize掉了,但是推荐大赛用到的用户行为数据,即每个用户看过的影片列表并没有,也无法做进一步模糊化处理。试想某人在数据库里发现了一条记录,发现他观看的影片列表及评价中有若干部跟自己的某位同事非常一致,那么十有八九这就是那位同事了;如果他进一步发现,该条记录里还有一些影片是同性恋主题的,那么就会怀疑自己的这位同事是不是有同性恋倾向,于是隐私就这样悄悄地泄露了。


  上面的例子虽然听起来离奇,但是非常类似的案例就在Netflix百万美元推荐大赛后发生了,在一场诉讼之后,这一大赛也就没有再继续进行。在令人遗憾的同时,我们发现了一个严肃的问题:互联网上的用户行为数据是极为稀疏的,很难被anonymize,这实际上是比PII或Quasi-identifier更加棘手的技术挑战。在没有解决之前,类似的个性化推荐或广告比赛,发布出来的数据集实际上都是有风险的。


  有人可能会问,这样的案例也太凑巧了吧。但是实际上,在专门以破译用户隐私为目的的黑客面前,这样的巧合会变成必然的结果。著名的论文"RobustDe-anonymizationofLargeSparseDatasets"以Netflix这次比赛的数据及为实验集,系统性地揭示了这一风险的存在。


  这一问题的发现让我们意识到一个问题,那就是在所有的以用户行为为基础的个性化系统中,由于用户行为高度的稀疏性,都会给用户隐私带来巨大的挑战。然而,现代互联网从用户体验优化、变现都各个环节,都深度依赖于个性化系统,因此这方面的研究和工业实践需要大大加强。


  如果我们仅仅能看到一个个性化系统的输出,而不是其原始数据,是不是这样的问题就不存在了呢?答案依然是否定的。实际上,我们可以认为,一个深度个性化的系统,其结果的变化往往能直接发现数据上的某些变化。因此,通过对结果变化的“差分”的捕捉和统计推演,也能发现一些原始数据上的隐私内容,这在将来有可能会产生一个新的黑客领域。


  对应于这样的担心,学者们也在研究如果通过对个性化系统本身的改造,使得从其结果的差分不太容易反推隐私信息,即所谓的"DifferentialPrivacy"问题。这方面需要一些专门的领域知识和数学基础,有兴趣可以看看"DifferentialPrivacy-ASurveyofResults"这篇论文。


  林林总总说了很多,说实在的,这部分内容不是我的老本行,我对其了解也非常有限。分享这一主题的目的,是因为我们越来越深切地认识到,如同网络服务不能只重性能不重安全,大数据问题也不能只重效果不重隐私安全。而互联网环境下的隐私保护问题,远比想象的要复杂,绝非用简单的规则和纪律可以解决,而是需要技术方面的深入研究和落地。


  总结一下几个关键点,希望对大家有所帮助:


  1.欧盟的A29委员会制定的隐私保护协议,特别是PII的去除和用户个人的可控性,是隐私保护问题最基础的原则和边界。


  2.在一些结构化的用户数据中,Quasi-identifier可能带来的隐私问题需要引起重视,并且用k-anonymity的方法加以解决。


  3.用户行为数据由于高度的稀疏性,使得隐私保护问题变得十分具有挑战,相应的数据保护和技术处理意识十分重要。


  4.所有高度个性化的系统,其数据结果都会对原始行为数据有一定程度的反映,围绕这方面的用户隐私攻防技术在未来值得大家注意。


  隐私技术与安全技术一样,都是与用户体验相博弈的,没有大问题的出现,很难得到真正的重视。Netflix大赛的漏洞给了我们一次绝好的机会去认识和研究隐私技术。作为一名计算广告的从业者,我也会时时提醒自己在这方面的敏感性。大家要保持警惕,用户隐私攻防很可能会成为大数据头上的达摩克利斯之剑。


  陈新河:联盟副秘书长;《软件定义世界,数据驱动未来》再次感谢刘鹏的精彩分享!


  【入中关村大数据产业联盟500人微信群指南】


  您只需在中关村大数据产业联盟500人微信群中分享一次大数据思想、案例,即可进入500人微信群,与众多大数据朋友沟通、交流、合作!(入联盟500人微信群,请把代表您能力和水平的PPT及姓名、单位、职务、联系方式发chenxinhe2020@126.com。详情请订阅微信公众号:软件定义世界(SDX)后,查询 500 )


  【中关村大数据产业联盟主旨与目标】


  落实国家战略,聚合产业势能,促进商学互动,


  助力企业成长,倡导数据伦理,探寻数字文明


  【中关村大数据产业联盟活动】


  〖大数据100分〗以500人圈大数据技术、资本、专家和政策专业人士为依托,每晚9点进行的线上活动。


  〖大数据地平线〗以大数据执委会和中关村大数据产业联盟成员为依托,进行的走入企业现场调研活动。


  〖大数据香山汇〗以“运动、分享、进步”为宗旨的爬山、PPT分享、研讨活动。


  〖大数据沙龙〗以“数据驱动,创新未来”为主题的高端大数据沙龙活动。


  【中关村大数据产业联盟联盟网站】


  http://www.zgc-bigdata.org/


  【大数据媒体方阵】


  〖软件定义世界(SDX)〗、〖大数据文摘〗、〖大数据栋察〗、〖科技杂谈〗、〖CSDN〗、〖天云融创〗、〖大数据邦〗、〖199IT〗、〖大数据实验室〗、〖云里数里〗、〖中云网〗、〖云华时代〗、〖大数据问答〗等,目前已覆盖20多万订阅用户。


  欢迎加入大数据媒体方阵,第一时间获得〖大数据100分〗等中关村大数据产业联盟提供的独家信息,请在公众号留言或加入个人微信号沟通。


  【联系方式】


  地址:北京市海淀区东北旺西路8号中关村软件园软件广场C座3层


  电话:010-56380808


  电子邮件:sdxtime@gmail.com


  个人微信号: sdxtime


  欢迎大家加入科技杂谈菁英汇,交流思想、分享信息。仅限行业商端人士参与。参与方式:点击左下方“阅读原文”填写您的加入信息,科技杂谈通过审核后,会添加入群。


本文仅代表作者观点,科技杂谈授权刊登。

转载必须注明作者与科技杂谈,侵权必究。

科技杂谈文章,均同步发布于犀牛财经网。

已入驻搜狐新闻客户端,网易阅读客户端。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存