查看原文
其他

“用户画像”大数据的合规边界

陆雯菁 周公观娱 2022-03-20

 

如今,随着相关技术日臻成熟,各种大数据应用纷纷落地,并开始重塑现有商业模式。其中,用户画像(persona)作为大数据的根基,扮演了至关重要的作用。


无论是一年一度的支付宝账单、私人音乐报告,还是日常生活中丰富的个性化推送,都提醒着人们:你的行为轨迹随时会被数据记录、存储、分析。每当在软件中邂逅怦然心动的音乐、觅得喜爱的电影、买到恰好需要的商品,可能都要归功于用户画像背后的大数据分析。


这正是用户画像的强大之处:通过抽象出一个用户的信息全貌,商家可以精准、快速地分析用户行为习惯、消费习惯等重要信息,并进行有针对性的商业推广。但与此同时,也有越来越多人开始担心自己的隐私、个人信息是否安全?有鉴于此,本文将分析当下常见的对动态数据、静态数据的利用,并通过案例分析的方式剖析相关的法律要点。



1

用户画像的数据基础:动态数据&静态数据

                     

简单来说,用户画像是根据用户的静态数据(属性数据)和动态数据(行为数据)来构建一个可标签化的用户模型。其中静态数据一般是用户的注册信息,比如生日、性别、住址、爱好等;动态数据记录于用户的访问日志,比如常用的一些后端日志数据、前端埋点数据等等。

 

而上述信息数据的获取与分析,可以帮助企业实现精准营销、个性推荐及用户流失预测。但上述利用在为社会生活带来便利的同时,也会使部分用户产生隐私被侵犯之感。不仅如此,由于上述信息具有极高的经济价值,数据占有方之间也会引发不正当竞争纠纷。




2

动态数据与个人信息


不可否认的是,精准营销不仅使广告主以最优价格获取匹配的流量,也在一定程度上降低了用户的搜索成本。但精准意味着数据的充分挖掘,因此极易造成隐私泄露的风险。

 

以朱烨诉百度公司隐私权纠纷案为例:原告朱烨表示,其在通过百度网站搜索“减肥”、“人工流产”、“隆胸”关键字后,再进入“4816”网站和“500看影视”网站时,就会分别出现相关广告。原告认为,百度公司未经其知情和选择,将其兴趣爱好、个人需求等显露在相关网站上,并利用记录的关键词,对其浏览的网页进行广告投放,侵害了其隐私权,使其感到恐惧,精神高度紧张,影响了正常的工作和生活,因此提起诉讼,主张停止侵权并赔偿精神损失。

 

经过两审法院判决,此案以原告败诉告终,关键原因在于法院对于关键词等cookie信息的性质界定存在不同观点:一审法院认定关键词搜索记录是个人隐私,认为关键词展示了个人上网的偏好,在一定程度上标识个人基本情况和个人私有生活情况,属于个人隐私的范围;二审法院则认为,搜索记录虽具有隐私性质,但不属于个人信息,因为百度公司个性化推荐服务收集和推送信息的终端是浏览器,没有定向识别使用该浏览器的网络用户身份,而网络活动轨迹及上网偏好一旦与网络用户身份相分离,便无法确定具体的信息归属主体,不再属于个人信息范畴。

 

从上述终审结果来看,我国现有的司法实践认为动态行为数据如果不具有可识别性,则不构成个人信息。鉴于本案发生2014年,法院判决援引了工信部《电信和互联网用户个人信息保护规定》第4条中对于“个人信息”范围的界定。然而即使放在最新施行的《网络安全法》框架之下,“可识别性”仍然是界分个人数据与个人信息的关键。


例如《网络安全法》第76条第5项规定:“个人信息,是指以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息,包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码等。”


由此可以看出,在动态数据应用领域,目前的司法实践倾向于认为“可识别性”是相关数据构成“个人信息”的关键。只有当动态数据能够与具体的个人相关联时,才有可能构成受到法律保护的“个人信息”。




3

静态数据与不正当竞争纠纷


从数据采集方式来看,前述百度案中利用的是自行采集的数据,而相关数据除了可以自行采集,还可以通过接入第三方平台Open API进行调用。然而在企业之间通过API接口共享数据的情况下,同样会产生关于数据利用的不正当竞争纠纷。

 

一个典型的案例为微博诉脉脉案。“脉脉”作为一款广受欢迎的职场社交软件,一方面能够借助大数据和AI对简历进行筛选评估,并进行职位匹配;另一方面,脉脉大数据和算法也会通过用户的关系链显示其有几度人脉,极大地提高了招聘的真实性和有效性。然而,不当的数据利用,使其在2016年卷入了一场瞩目的不正当纠纷案。

 

人脉社交软件脉脉上线之初与新浪微博进行合作,用户可以通过新浪微博帐号和个人手机号注册登录脉脉软件。据新浪微博称,脉脉用户的一度人脉中,对于大量非脉脉用户,也直接显示了非脉脉用户的新浪微博用户头像、名称、职业、教育等信息。后双方终止合作,非脉脉用户的新浪微博用户信息仍存在。新浪微博遂提起诉讼,主张脉脉非法抓取新浪微博用户信息,构成不正当竞争行为。

 

不同于百度案的动态行为数据,本案中涉及的数据属于静态属性数据,直接指向用户职业信息、教育信息等具有可识别性的个人信息,因而对于此类数据的保护原则更为严苛,具体表现为该案中北京知产法院强调的“三重授权规则”,即在Open API开发合作模式中,对于API平台在收集用户数据应当经过用户授权,API数据合作方之间的权限应当经过平台授权,而在API中数据调取和使用平台在使用用户数据中应当经过用户的再次授权




4

“动静结合型”数据的隐私侵权风险


实际生活中,还有一类数据既包含属性信息,也包含行为信息,最典型的体现则为各类旅游app中可以获取的用户行程信息。

 

此类“动静结合型”数据在旅游行业精准营销中的应用非常广泛:根据游客的年龄、性别等属性数据,可以推知其消费能力;而游客游前的攻略搜索,游中的目的地查询,游后的游记都会形成行为数据,由各大社交媒体网络根据用户的兴趣、爱好和倾向进行个性化整合推送,实现精准营销。


例如,旅游广告公司Sojern收集并聚合来自航空公司、酒店、汽车租赁商和信用卡公司的数据,通过机器学习和高级分析极大丰富了用户个人资料,从中可以发现注入“人们什么时候出行”“去哪里”“旅行者喜欢什么品牌”“旅行时间和服务等级”等有价值信息。此种“智慧旅游”概念正在以前所未有的速度改变消费者的旅游模式。

 

然而,由于订票规则具有特殊性,第三方平台获取的数据包含了用户的真实姓名、证件号、个人行程信息,极易被恶意泄露或非法窃取,侵犯用户权益。现实中不乏真实案例,比如发生于2014年的庞某诉去哪儿网、东航隐私权纠纷案。该案中,原告委托他人从去哪儿网站购买东航机票一张,后原告收到“航班因机械故障而取消”的诈骗短信。原告认为去哪儿网、东方航空泄露了自己的隐私信息,遂将两公司诉至法院。

 

该案中,原告被泄露的信息包括姓名、手机号、行程安排(包括起落时间、地点、航班信息)等。根据《最高人民法院关于审理利用信息网络侵害人身权益民事纠纷案件适用法律若干问题的规定》第十二条的界定,庞某某被泄露的行程安排无疑属于“私人活动”信息,从而属于隐私信息,可以通过隐私权纠纷主张救济。此外,二审法院还权衡了原被告的证明能力,确定数据占有方具有较高的举证义务,最后以原告胜诉告终。


从上述案例可以看出,当企业收集的数据同时包括动态数据和静态数据时,这些数据已经能够与具体的信息归属主体相对应,具有了可识别性。不当使用这些数据将可能构成对用户隐私权的侵犯。




从不可识别的动态数据,到静态数据,再到二者结合后被明确定义成“隐私信息”的数据,可以看出:法律对数据的保护力度与数据占有方收集数据的范围密切相关。在这个“用户画像”逐步演化成真实的用户面貌、用户越来越在意信息安全的时代,如何妥善平衡不同主体之间的利益,将成为大数据时代亟待探索的重要问题。


从宏观层面来讲,这一问题依赖政府顶层设计、一体化建设以及大数据治理等方面,而微观层面来说,作为用户和数据占有方都有改进的空间。


一方面,绝大多数软件在登录之前都会提醒用户阅读并接受隐私条款,但用户往往不会去仔细阅读,而是被动接受相关条款。从前述案例来看,用户至少应当重视信息权利,阅读隐私政策条款。如有相关需求,也可通过多种方法删除cookies数据;此外,应在权利受到侵害时,应及时寻求救济。


而从数据占有方的角度,则应该采取切实有效的技术措施和其他必要措施,确保其收集的个人信息安全。以微博诉脉脉案为例,虽然微博要求开发者必须申请接口权限才能调用相关信息,但微博实际上没有设置足够的技术障碍,这也使得脉脉未经许可同样也能调用教育和职业接口。这也为包括微博在内的网络服务商们敲响了警钟。




往期精彩内容:





“周公观娱”,由北京金诚同达律师事务所高级合伙人周俊武率领的精英律师团队倾力出品。“周公团队”主要从事知识产权及文娱业投融资法律业务,在文化娱乐、影视游戏、互联网等多领域有极为丰富的经验,系中国最早及领先的专业娱乐法团队之一。联系方式:zhou_junwu@jtnfa.com                    010-57068585


(编辑:刘宗鑫)



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存