DPO社群对数据堂事件的精彩点评
今年6月初,数据保护官(DPO)沙龙第一期顺利召开【详情见数据保护官(DPO)沙龙第一期纪实】,DPO社群在线上讨论也如火如荼地持续开展。本公号将陆续刊登社群讨论的精粹。此次关注数据堂被查事件。
事件聚焦
据新华社新媒体2018年7月8日报道,山东日前破获一起特大侵犯公民个人信息案,涉案的大数据行业知名企业数据堂在8个月时间内涉嫌侵害数百亿条公民个人信息。
https://v.qq.com/txp/iframe/player.html?vid=b0715noem92&width=500&height=375&auto=0
在接受采访时,办案民警透露出许多重要的信号。对此,DPO社群从四个问题展开全面探讨:
如何识别“个人信息”的外延?怎么理解设备信息的“可识别”、“可关联?
刑事法律语境下对个人敏感信息的判断有哪些标准和考量因素?
企业在并购上市等资本运作中要如何考虑数据合规风险?
企业在数据合规措施上可以有哪些反思和借鉴,尤其是在数据流动和交易方面的风险控制措施?
问题一
如何识别“个人信息”的外延?怎么理解设备信息的“可识别”、“可关联?
在接受采访时,办案民警指出,该案的一个重要特点是“涉案数据隐私性较强”。
冯坚坚(竞天公诚):
这个案件这涉及“手机上网记录”在刑法范围内的界定。两高司法解释第一条:刑法第二百五十三条之一规定的“公民个人信息”,是指以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息,包括姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等。
其中的“特定自然人活动情况”是否包括“手机上网记录”,一直在实务中存在争议和分歧,很多人认为不能追踪到实际个人身份的设备信息、上网信息至少不构成刑法意义的个人信息。但从这个新闻的字幕来看,这个争议和分歧似乎要消失了。
王芳(华为):
手机设备号有imei、sn、udid等,个人认为这些设备标识符都属于个人数据,有这些设备标识数据再采集上网记录等其他数据就和用户关联了,都属于个人数据范畴。
新闻里说采集数据有手机号,手机号关联的上网记录能够定位到某个人。上网记录我觉得是原始通讯内容,目前某些浏览器出于各种原因把用户浏览url上传服务器,个人认为有隐私合规问题。
判决可以震慑犯罪分子,我这边更关注的是pbd,pia,以及如何在产品研发设计阶段识别和降低隐私风险,这个案例没看出来具体的问题,在每个环节出了哪些问题,如何消减。
鲁可兴(中兴)
URL的内容可能反映了一个人的上网喜好、搜索内容等信息,特别是那些带参数的,有很大的商业价值,比cookie暴露的信息更多,属于个人数据,合规处理是必须的
人机互动或者是上网数据可以理解为元数据meta data吧,类似通话时长、通话号码、上网地址等,这些数据一般和个人挂钩的,像上网地址一般和IP地址一起,甚至上网账号联系在一起,所以我认为单独看一类数据是不是个人数据没有意义,必须其它数据放在一起看,放到应有场景中看。
刘笑岑(美团)
本案中反映出一个实践中的高频问题:公民个人信息的范围是否包括cookie、IMEI等非身份类信息?
尽管包括刑法、网安法及新国标在内的多项规范中都对个人信息下了相应定义,但是实践中仍然争议不断。一方面,如果以“可识别性或者间接识别”作为确定个人信息范围的依据,那么只要技术足够强大,结合的其他信息范围足够广,似乎没有哪个单独的信息可以从个人信息的外延中豁免,甚至包括用户画像或标签,这无疑会给企业增加巨大的合规成本,用户也会在被索取授权中不胜其扰。另一方面,在欧美以识别性为核心确定个人信息话语体系下,如何理解刑法和新国标中有关“关联”的路径,可能对实践中确定个人信息的外延至关重要。有关这一点,《个人信息安全规范》的附录中给出了很好的解释路径:“关联即从个人到信息,如已知特定自然人,则由该特定自然人在其活动中产生的信息(如个人位置信息、个人通话记录、个人浏览记录等)即为个人信息。”可见关联的核心目的仍然是建立起识别性。
因此,确定某个信息的识别性程度还是需要结合它所能指向到个体自然人的程度以及需要花费的成本等来综合考虑。举例来说,即使同样作为非身份性信息,用户的设备号和cookie信息在安全风险评估时可能就会有所差异,因为前者具有相对独立性和确定性,而后者同样需要跟其他信息(例如账号信息)相结合才能指向个人。因此企业在日常合规评估时就需要考虑二者的风险程度而分别设置不同的流转规则。
薛颖(海尔):
随着技术发展和智能设备增多,设备(尤其是终端设备)数据的敏感性、可识别性、数据量都在急剧增加。业务团队千万不要以为不是用户身份注册信息就必然会低敏感度甚至非个人信息。《2018加州消费者隐私法案》(简称“CCPA”)中提到了对"设备"的识别和连结,还是值得关注的。
对于设备数据(1)是否属于数据个人信息、(2)是否属于敏感个人信息、(3)属于哪个级别的敏感个人信息,需要在具体场景下进行动态判断,不能一概而论,特别是要考虑立法的本意,始终把握(a) "数据的可识别性"和(b) "识别后对权利主体的影响"这两个基本点。
目前阶段还是不宜把有关个人信息的入刑标准做扩大化解释。在个人信息保护领域已经是刑强民弱,如果再鼓励和肯定政府部门按照《个人信息安全规范》的附录内容来宽泛解释入刑标准,则企业的风险太大了,不利于产业创新发展。虽说乱世重典,可监管者也不能矫枉过正。
吴沈括(北京师范大学刑科院暨法学院)
全球来看,个人信息权属于相对权,应避免泛化成绝对保护,需要个别场景下的具体衡平,例如所谓“设备数据”,是谓“客观保护”。
问题二:
刑事法律语境下对个人敏感信息的判断有哪些标准和考量因素?
某美女
报道中提到“数据堂累计传输数据压缩后约为4000GB左右“,面对如此海量的数据,公安部门是不可能进行精细分类并筛选哪些构成刑法上”侵犯公民个人信息罪”中的“个人信息”的,所以报道中把“上网基站代码、设备号”等40余类信息均作为个人信息做了罗列,这是在定罪底线已经达到的情况下,出于执法便利的考虑对信息数量的交代,但不能直接就说明刑法上已经把“设备、上网基站代码、”等信息等也作为需要上升到刑事手段保护的个人信息类型了。也不能就此说明除了山东费县之外的公安都会认同这种标准。
杨建媛(方达):
本案目前披露的细节较少,但依据司法解释“从新兼从轻”的原则适用2017年6月1日生效的《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》进行执法的可能性较大。本案对于企业及投资人了解目前有关个人信息犯罪的执法动向、及时完善数据合规很有意义:
其一,本案涉及11家公司,其中3家被认定为单位犯罪,甚至包括数据堂这样一家新三板挂牌且在大数据领域颇具知名度的公司,颠覆了个人信息刑事执法基本是针对个人犯罪的认知。单位犯罪意味着单位留下犯罪记录,单位中除直接责任人外直接负责的主管人员也可能承担刑事责任,本案值得所有数据重资产公司重点关注。
第二,两高解释中将“个人活动情况信息”纳入“个人信息”范畴,此次可视为公安机关通过执法对“个人活动情况信息”进行解释。警方称案件涉及了40余项信息要素,其中不仅有手机号,也包括上网URL数据等。此类信息在两高解释中并未列举,其可能落入“其他信息(5000条入罪)”的范畴。有意思的是《个人信息安全规范》中将个人上网记录作为个人信息,是心有灵犀还是执法机关也在多方借鉴尚不得而知。
第三,构成侵犯公民个人信息犯罪必须达到“情节严重”的情形,但该等“情节严重”仅需依侵犯个人信息的类型达到50、500、或5000条的数量级即可,看上去入罪门槛确实不高。侵犯个人信息犯罪的特点是往往会出现collateral damage,侵犯个人信息的同时危害公民个人的人身、财产安全,较低的入罪门槛和高压执法有一定现实意义。
第四,现在都还只是查提供方,看一下接收方的入罪标准,同样后背发凉:对于信息接收方而言,除窃取方式外,违反国家有关规定,通过购买、收受、交换等方式获取公民个人信息,或者在履行职责、提供服务过程中收集公民个人信息的,也可能构成该罪名。
冯坚坚(竞天公诚):
数据堂新闻字幕中提到“涉及的数据隐私性高,案件涉及的上网URL数据包含了手机号、上网基站代码等40余项信息要素;记录手机用户具体的上网行为”。
而两高司法解释中,50条入刑的范围是“踪轨迹信息、通信内容、征信信息、财产信息”,500条入刑的范围是“住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息”。50条和500条的这个范围通常被做为刑法范畴中高敏感度个人信息的判断标准。但显然,新闻字幕中例举出来的信息不在上述高敏感度信息列举之列。所以,关于刑法范畴个人信息敏感度的判断标准,是否也发生了实质性变化,是否开始与《个人信息安全规范》资料性附录中的口径以及网信部门目前希望将“网络浏览历史”列入个人敏感信息的态度相一致了。
两高司法解释中50条入刑之一的“通信内容”,过去在实践标准的掌握中还是以狭义为主(两个或多方个人信息主体之间的交互内容),王芳总提出的见解实际将个人信息主体与机器(非自然人)之间的交互内容也纳入了其中,范围肯定是扩张了。从当时的立法意图来看,我觉得主要是考虑到通信内容直接反映了公民个人的日常生活、心理状态、人际关系等信息,所以特别敏感,但是现在由于技术的进步,人机互动的信息确实也同样可以达到人人互动信息的敏感度了。
吴沈括(北京师范大学刑科院暨法学院)
刑法253之一与个人信息安全规范有着不同的条款逻辑与适用场景,应严格注意区别分析,尤其避免直接融入刑事司法,导致产业萎缩,是谓“刑法谦抑”。
王强(eID运营机构-金联汇通):
如果单纯从信息内容本身分析入手,会让企业觉得很多类型数据不能再触碰了。但从办案角度出发,此次案件是从结果端数据非法获取出发,反向追溯数据源头,进而给出数据堂违法拥有与交易大量个人信息的结论。个人认为,设备上网数据并不能直接划到个人通讯信息,而当结合其他个人信息数据被非法或违规使用,造成违法结果进而使得数据提供方形成了单位犯罪。
方兴(全知科技):
大数据公司的数据来源最核心的是三条路径:
1)公开数据的爬取。
2)数据中间服务时的截留。
3)大数据公司之间的交互。
再是黑市获取,主要是内鬼窃取和黑客入侵获取的,黑客入侵的在数据整体量级上会小很多。
数据堂case定案核心不是爬的数据用于合法商业分析了,而是被内鬼倒卖给黑市了。被爬数据的大公司也希望打击爬数据的公司,但从爬上面是很难有定性为刑事案件的司法解释的,爬数据的公司的数据出去导致出了诈骗案件就是另一说了,大公司把自己用户因此被诈骗案件都推送给公安去定案。
买卖公民隐私数据现在这个就构成犯罪了。难定性犯罪的是爬取的数据用于自己的群体性的合法商业分析或提供分析的结果。只是这种案件没法查,只能通过诈骗案件产生倒推了查。
公开信源的你可以爬这个没有司法说法,要说也是对方设置了限制你用技术去绕过防爬可能被解释为破坏计算机系统罪;截留数据肯定比爬严重但也难举证。司法实践上都是案件倒推查。你搞了数据就得管好别出问题。出了案件,管你是爬是截留来的,只要没数据主体的授权,都可以从你把隐私数据买卖(你买来路说不清楚,你卖流到了黑灰产)去打。而且出一个案件可以牵涉一批公司出来。很多大数据公司是互相交换数据的。后面征信,广告营销,业务安全风控,都会受这个案子的影响
问题三:
企业在并购上市等资本运作中要如何考虑数据合规风险?
薛颖(海尔):
企业在进行"数据重资产"类型的目标公司并购和其他资本市场运作中,数据资产合规性的尽调一定要成为律师尽调清单中的核心和重点,否则就能把投资人拉坑里了。数据资产(含个人信息和非个人信息)的数量与敏感程度,数据收集、分享、处理等环节的合规程度,投资方或目标公司的数据合规与安全能力等,均可能影响数据资产的价值和可流动性以及交易的不确定性(可以考虑参见支付宝并购速汇金的案例)。
杨建媛(方达):
本案据说是因为后续出现诈骗引发的,警方也提到可以基于相关涉案数据进入用户个人账户,但并未说明造成何种损失。实际上,从两高解释来看只需有非法提供+情节严重即可入罪,后面导致的犯罪并非必须。于大数据公司而言,评估其商业模式的合法性恐怕要提上日程。于投资人而言,可以考虑特定标的的数据合规尽调常态化,否则可能面临经济、声誉损失,甚至在特定情况下的刑事责任。
朱敏 (汉坤):
资本市场对待数据合规的态度,跟制度环境有很大关系。去年我们做了一个投资项目,海外背景的PE明确把业务、知产和数据作为三块独立的重点尽调领域;现在做投资或并购,只要标的公司的业务涉及数据,“网络安全和数据合规”基本上就是LDD Checklist的标配,项目经验也证明,目前在这块还的确会发现许多值得提醒客户的合规问题点。另外,去年有个上美股的公司,数据合规这块如何写招股书,也是反复讨论。要上市的公司,不光要应付监管机构,在美股的制度环境下,监管以公司的信息披露为主,发行人更主要的其实是随时得应对投资人和公众的挑战,企业基因里面有合规的意识或制度体系里有合规的压力,一般也不会在数据合规上有太多挑战红线或明显违规的行为。
问题四:
企业在数据合规措施上可以有哪些反思和借鉴,尤其是在数据流动和交易方面的风险控制措施?
王强(eID运营机构-金联汇通):
注意到,办理数据堂案件的是山东某县网安警察,说明该案件不是行业监管的结果,而是以点溯源的案例。当前大数据领域的行业监管细则尚未出台,数据资产是一个随时可能会引爆的雷。
其实也不用谈虎色变,因合规担忧而完全停止业务。可以考虑把握底线,把问题放到桌面上研讨,并寻找有背书的支持方案。
公安三所针对互联网的公民身份明文信息推出了一种eID数字身份保护体系,或许能帮助一些企业规避数据风险。
结合前不久的等保法规出台,国家对互联网的信息安全合规管控开始严抓。
孟洁(出门问问):
数据公司,从商业目标上必须进行数据交易,无可厚非,但是从企业责任上,是否对其上下游企业进行控制、评估和审计,在数据合规管理上进行严加防控,却是特别关键。如果故意或者疏忽泄露用户数据的,不但需要受到公众质疑,而且需要承担法律责任。有些数据公司自己也收集用户数据,但还是会买很多第三方数据(比如数据堂还大张旗鼓从黑市廉价购买数据),那么是否对买来的数据事先经过合法性来源的审查,对供应商的资质与数据脱敏进行评估,亦或者是否通过事先调查的方式确认所收购的数据中含有敏感数据,是否由经过用户明示同意。在出卖数据给的第三方的情况下,是否有考虑买售方的公司性质,是否有在隐私协议里面提到过收集的用户数据在进行某些加工处理后可能会向第三方进行出售?是否有采取安全措施,是否有做脱敏,脱敏到什么程度,是否仍可识别?是否有做安全影响评估?这是需要数据公司或者有涉及数据交易的公司设置一整套数据“入口”和“出口”的合规流程设计。
其实CCPA给了很好的启发,一方面要求因商业目的批露消费者个人信息的企业需要向消费者个人披露该等披露本身,包括企业从哪里收集的信息,出售信息给谁、该买售方的类别和具体披露什么个人信息;另一方面还要求企业在其主页上、隐私政策和对消费者隐私权的其他描述中设置“opt-out”的链接,使消费者或经消费者授权的人可以选择不出售消费者的个人信息。我国立法也可以进行相应的借鉴
某美女:
报道中提到数据堂在“8个月时间内,日均传输公民个人信息1.3亿余条“,既然数据堂本身无To C业务,无法稳定的获取如此大规模的用户信息,而通过正规合作间接获取的信息也不可能有如此稳定的数量。其能做到日传输如此大规模的数据最可能的原因是有固定的泄密性数据来源,或是利用了数据上游的漏洞或是数据上游有内鬼呼应,这部分数据获取本身就是违法的,也不可能纳入公司的合规体系,一定仅有少数人知情。这也是为什么数据堂被抓的都是高管而不是下面的员工。因数据来源的问题,类似数据堂提供独立数据服务的公司肯定经不起深查。
数据堂作为创业板公司,是不会直接把数据卖个黑市的,身份、手机号类敏感个人信息的常规需求方往往是网贷公司。根据报道此次事发源于有人在QQ群里售卖个人信息,说明数据最终流到了黑市中,数据堂是被向上追溯几层被挖出来的,这再次说明了数据链条的感染性,数据一旦离岸,下游的使用场景和二次分发都是不可控的。数据堂还有两块业务,一块是为AI提供定制的数据集、数据清洗、数据标注等服务,一块是混合加工后输出脱敏数据,这两块业务都不是独立的数据交易,在用户知情同意的情况下进行数据处理或提供纯技术服务。但因为数据交易的牵连,这两块业务也将全面停摆。这再次验证合规问题牵一发动全身。由于数据链条的感染性,任何数据引入都应履行尽职调查,确保引入数据合法:审查个人信息提供方的主体资质及个人信息来源,评估第三方的业务场景是否可能获得所共享的数据;要求第三方提供用户授权凭证(隐私政策、隐私条款、授权文件)等,并予以记录。
注:以上仅为个人观点,与所在公司无关。
近期,DPO还将举办线下沙龙第二期,重点关注国家标准《个人信息安全影响评估》公开征求意见