张厚灿|数据爬取行为的违法性分析范式
数据为数字时代发展所必需的资源,但是受制于对数据权属的不确定,对爬取手段、方式、内容的合理性不清楚,导致众多数据需求主体不敢冒于爬取其他数据拥有方的数据,因此限制了数据的流通。因此,应首先从数据爬取的不同行为进行分析,以了解爬取行为可能造成的损害。其次,再从数据使用行为方面进行探讨,从而明晰数据内部存在的法益。最后,再给出数据爬取违法性判断的分析范式,为数据爬取双方以及司法审判提供参考。以此来明确数据爬取的违法性边界,从而促进数字时代的数据流通与共享。
引言
数字时代的发展与人工智能产业息息相关,人工智能产业的运行原理为广泛的数据输入、并通过特征提取器提取数据特征后对特征进行整合后全连接神经网络输出最终结论,其主要的发展方向可分为问题求解专家系统、机器学习、神经网络、模式识别等。人工智能的结果虽然能达到一定的高度,但是为了提高他们的性能,仍然需要收集更大的数据集、使用更好的技术、学习更强大的模型。在数据收集端,不仅仅依靠人工智能开发者单向的数据输入,自动对其他企业内部的数据进行爬取同样是一种常用的手段,其通过代码指令对网页内容进行循环访问以调取相应的数据信息。不同网站内部的数据对其开发者而言通常具有财产属性,任由他人对企业内部数据进行爬取将会对企业的财产利益带来不可估量的损失。因此本文基于人工智能广泛运用的时代趋势,在数据赋权的问题解决之前,根据现行的法律模式对数据爬取行为进行合理的规制,并为数据爬取者划清数据爬取的边界。
一、数据爬取的规制模式及其弊端
当下,参与数据爬取的各方主体似乎都对于数据爬取行为的认识不够明晰,具体可体现在:第一,数据爬取方对于爬取数据的违法性边界认识不清;第二,数据被爬取方对于权益受到侵害的维权方式不详;第三,法院在审判时对于数据爬取行为的分析不定等。究其原因主要包括以下几个方面。
(一)有关数据爬取规定的不明
关于数据的规定具有模糊性。现行法律中关于数据爬取以及数据保护的规定可散见在各种法律规范中,如反不正当竞争法、著作权法、个人信息保护法、民法典、刑法、网络安全法、信息安全法以及各级法院及各部委下发意见及解释的配合使用。此外,各部委也相继下达了数据保护的办法,如2022年市场监管总局起草了反不正当竞争法(修订草案征求意见),新增了经营者不正当获取或使用其他经营者的商业数据的专条规定,而同年3月最高人民法院发布的《关于适用〈中华人民共和国反不正当竞争〉若干问题的解释》完全删去了此前征求意见稿中关于数据爬取纠纷审理规定乃至“互联网专条”的进一步解释,可能是认为相关司法实践尚不成熟。市场监管总局与最高人民法院对于数据爬取规制的态度大不相同,反映了涉及网络和数据审理规则上存在的争议未有定论,值得学界深入研讨。
目前司法上对于企业数据利益的保护大部分利用的是反不正当竞争法中的商业秘密条款(反不正当竞争法第9条第1款),互联网专条(反不正当竞争法第12条第2款第4项),一般条款(反不正当竞争法第2条第1款和第2款),但是上述条款存在着条款内容同数据本身性质不符合、直接适用将影响该条款本身的意义、论证说理明显不充分、不利于企业数据权益边界的确定性预期等问题。尤其是反不正当竞争法第2条作为对不正当竞争行为的一般性、概括性规定,使用了较多抽象性、模糊性的表达,增添了司法适用的难度。若被滥用,该条款很可能减损反不正当竞争法权威,影响其作为市场秩序基本法的指引和预测功能,甚至阻滞市场竞争领域内对有效规范的探求。综上所述,在现行法律中缺乏能够有效规范数据爬取行为的相关规定。
(二)数据爬取行为认识的不足
近年来,随着知识产权“三合一”审判机制的建立健全,知识产权民事、行政、刑事整体司法保护水平显著提升。但就涉数据权益案件而言,知识产权刑事案件由法院知识产权审判庭审理,而非法获取计算机信息系统数据罪等扰乱公共秩序罪仍由法院刑庭审理,知识产权“三合一”审判工作机制无法发挥其作用,知识产权刑事案件的专门审理可能因涉数据权益刑事罪名的认定不同而造成分案混乱。而对于各种数据权益罪名认定不同的原因则是对于数据爬取行为认识的不清。数据爬取分为爬取行为和数据使用过程,两个过程涵盖的内容均不相同,必须进行分类分析才能明晰数据爬取全过程所产生的问题。在数据权属不明的情况下,各国大多采取审慎的态度对数据爬取进行约束、限制,弱化对其本身的合法性、正当性的探究,更加关注行为所引发的社会效果,偏向“结果主义”的规制态度。而该种“结果主义”的态度则容易导致不能较好地对数据爬取行为以及爬取到的数据进行分析。“结果主义”虽然可能会为数据被爬取方带来一定数据权益方面的补偿,但数据有着多种权益竞合的性质,单纯地从单个角度切入来分析数据爬取的整个过程,不能够充分填平其对于被爬取方带来的财产性及其他权益的损害。
(三)被爬数据性质分析的不准
对于所爬取到数据的性质分析不够准确。我国目前的理论和实践主要关注从数据主体的身份特征进行分类,对数据本身的性质关注不足,尤其对动态化场景下数据性质变化的研究有待加强。数据中凝结的不止是企业的经济型利益,还含有个人信息、版权、商业秘密等多种法益,贸然地采用数据经济利益的衡量标准对数据爬取的侵权行为进行判定,将无法全面顾及数据中的内容。例如在上海某网络科技有限公司、侯某某等非法获取计算机信息系统数据案中,法院忽略了数据中内含的其他诸如著作权权益等,而单凭借数据爬取的侵入行为进行爬取性质的界定,从而判定被告构成了非法获取计算机信息系统数据罪。归根结底,还是因为法院对于该种数据爬取案件的审判分析流程不够准确。数据爬取并非一种单一的行为方式,而是多种行为以及多种法益竞合存在的新型现象,单纯地考虑整个数据爬取活动中的一个部分,将会贸然得出数据爬取行为的侵权结论。如此,便无法实现数据爬取的有效规制。为解决该困境,一方面需要科学地划定数据爬取边界,以准确定性数据爬取行为及侵害的权益内容;另一方面需要完善法院审判分析的步骤与流程,从而合理应对数据爬取中的法益竞合问题。
二、数据爬取行为侵害的法益分析
数据不正当竞争行为可以分为两大类:数据获取行为和数据使用行为。虽然两者之间存在紧密关联,但在认定其不正当性时所考量的因素并不完全相同。数据爬取行为形式繁多,爬取到的数据内容多样,数据内容涉及主体范围较广,数据自身的性质复杂多变,如何在每一种行为步骤下明确其涉及的权益内容才是解决数据爬取合理性边界问题的关键之策。
(一)数据爬取的双重理解
数据爬取为单纯的数据获取方式,其通过一定的数据获取指令或者其他计算机技巧获取对方网站内部的数据资源。传统的数据爬取行为指代的应为上述形式的数据爬取,只是目前学界已经将数据爬取的范围扩大至爬取各种类型的数据,因此有必要就传统的数据爬取与广义的数据爬取进行区分,方能揭开数据爬取的“面纱”。
网络爬虫技术是对网页中数据提取、分析的技术,可以被应用到多种网络信息的检索、存储之中。如现实生活普通用户常常使用搜索引擎,获取自身想要的网络数据信息,此外,其还在科学研究、Web安全、产品研发、舆情监控等领域得到广泛应用。爬虫的功能是获取网页,将有关网页的信息存档到数据库中,并提取和跟踪所检索页面中的链接,其主要分为通用网络爬虫、聚焦网络爬虫两种类型,均是按照一定的规则,自动地抓取万维网信息的程序或者脚本。
狭义的数据爬取行为是对于公开内容的机械获取。在该种情况下,爬虫只是作为一个单纯的抓取型工具,如果没有爬虫的技术,通过大量的人力及时间获取也能获得相同的数据。该种爬取行为最为多见,不仅在商家直接被相互使用,即使是普通用户在学习过爬取技术后也能够被广泛使用。互联网产业需要发展便不得不采用该种数据爬取行为,单纯地自我生成数据或者根本无法使用他人的数据,对于互联网产业的发展影响将是巨大的。
对于数据爬取的概念其实应该以传统的数据爬取为对象,但是现今的数据爬取已经被扩大化理解为——无论数据的获取手段如何,只要最终的表现形式为数据的获取,皆可将之称为数据爬取。即狭义的数据爬取应当指代的是利用爬虫软件代替人工单纯获取公开数据爬取行为,广义数据爬取却还包括破解技术措施后获取数据、违反合同约定内容获取数据、侵入系统内部获取数据等几种数据爬取行为。对于该种对数据爬取扩大理解的趋势,应当准确地对各种类型的数据爬取进行分析,以使得数据爬取双方及法院等主体在面对该种数据爬取行为时采取正确的措施。
首先,存在某种有条件公开的数据只对部分用户开放,因为其中蕴含着数据持有者的某种财产性利益,所以商家有意控制该种数据的流通,例如面部识别,指纹,ID账号等。而对于该种数据的获取,普通用户可能需要支付相应的对价以获得查阅该种数据的权利。若数据获取者希望通过爬取的方式大量获取该种数据,则在不支付对价的情况下,其必须采取相应的技术破解方式来获取目标数据。例如在杭州执某科技有限公司、杭州利某科技有限公司等与浙江中某网络科技有限公司不正当竞争纠纷案中,被告采取“撞库”的方式暴力破解原告的会员账户,以获取其账户中的数据内容。
其次,对于尚未公开的数据,爬取者往往会采用侵入数据拥有者的服务器内部的方式获取企业内部的该种数据。该种情形类似于“黑客”的性质,但目前实务界或者司法界还是将该种数据获取方式列为数据爬取的范围之内。比如在衢州万某网络技术有限公司诉周某民等侵害商业秘密纠纷案中,被告破解原告的技术方式获取数据,法院认为涉案网站数据库中的用户信息,包括客户名单数据表中的注册用户名字段、注册密码字段和注册时间字段等信息构成商业秘密。而学界将该种数据获取的方式也列入了数据爬取行为中进行讨论。
(二)爬取数据的实质性损害
单纯就爬取行为而言,其可能会给被爬取人带来两方面的损害:一是实质性损害,主要指数据爬取者造成对方服务器坍塌或因侵入系统而带来的直接经济损失。二是非实质性损害,数据作为数据持有者重要的经营资源,数据爬取者获取数据的侵入行为对数据持有者的经营利益可能造成损害,因为数据的价值不似实质性损害可直接被计算,因此将该种对于数据内生价值的损害称为非实质性损害,以下将分而论之。
目前在数据爬取案例的司法审判中,法院广泛地对被爬取数据的非实质性损害进行认定。但是应该明晰的是,任何计算机操作方式都不应当损害对方服务器而造成财产性损失,否则可能面临侵权责任,严重者可能还面临着严重的刑事责任,爬虫作为经典的操作方式更不能逃离这一束缚。有观点认为,数据爬取技术完全是“中立的”,可能存在侵犯法益的情况是对于数据的后续性利用行为。但是事实情况是,技术层面的数据爬取行为并非完全没有任何危害。网络爬虫将会为web服务器带来巨大的资源的开销,大量的请求会加重网站服务器负担,极端情况则会导致网站崩溃。
因此,无论采取任何爬取方式,爬取者首先都不能够造成对方财产性的损失,否则将直接面临法律责任。而落实在技术层面上,便是数据爬取者的爬取行为不能造成诸如服务器崩塌这种损害后果;如果出现了该种损害后果,则无论爬取到数据为何种内容,数据爬取者的侵权责任都应由被爬取企业所追究。因此爬取者在爬取时尽量不给网站带来不合理的负担,例如可以采取降低爬取压力的方式进行爬取。
数据爬取者对于侵入系统式破坏和服务器的破坏不同,侵入式破坏行为可能触及不同的法益。具体情形包括以下四个方面:第一,如果为了爬取数据而故意入侵对方的技术措施,该种行为在不考虑数据具体内容的情况下,也可能因为造成对方系统的损害受到惩罚,严重的可能面临刑事责任。第二,如果侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统,无论是否获取数据,均构成非法侵入计算机信息系统罪。第三,即使进入非国家事务、国防建设、尖端科学技术领域的计算机信息系统而未抓取数据,只要是干扰了信息系统正常运行,后果严重的也可能构成破坏计算机信息系统罪。第四,即使没有达到需承担刑事责任的严重后果,侵入计算机系统给对方造成的直接财产损失也应该由爬取方所承担。
(三)爬取数据内容区分及法益类型界定
在讨论过数据爬取行为给被爬取方带来的实质性损害后,便可以对经过数据爬取行为后爬取到的数据内容进行分析。单纯爬取数据的行为,即使在不对对方产生实质性损害的情况下,也可能侵害数据中内含的其他利益,唯有分别进行分析后才能认清爬取行为所可能侵犯的权益。数据内部内含的权益大致可分为纯数据和其他权益内容。
数据中内含有多种权益。比如著作权、商业秘密、个人信息等,唯有准确认定其中隐藏的各种权益内容才能拨开数据迷雾,认识数据。
首先,从网络服务器或他人计算机的“共享区”下载将导致作品被永久性地保存在本地计算机硬盘,也完全符合著作权法规定的复制行为构成要件。但是单纯的复制行为并不必然构成侵权,是否侵权还是需要由其之后的使用方式进行判定。其次,通常情况下,隐藏在服务器中只可以通过管理员账号或其他方式,仅供内部人员查看的数据。该种数据通常已经满足了商业秘密的秘密性构成要件,如果该种隐秘数据能够满足价值性以及保密性,则数据的爬取行为便是违法获取商业秘密的行为,该种行为可以直接受到反不正当竞争法第9条的规制。另外,含有个人信息数据的权利归属尚不明确。有观点认为,自然人对个人数据的权利并非物权等可以积极利用的绝对权,只有在该权利被侵害而导致其他民事权利被侵害时,才能得到侵权法的保护。那么单纯地爬取载有个人信息数据的行为并不会必然导致侵权,同著作权类似,是否涉及侵权仍然需要具体分析其之后的使用行为。
数据由多种权益内容构成,一份数据中既可能含有著作权、商业秘密、个人信息,也可能存在其他竞争性或财产性利益。因此,“纯数据”指代的应当是剔除了著作权、商业秘密、个人信息等其他权益内容后而仅剩余竞争性利益或财产性利益的部分。纯数据大致可分为两种:原始数据以及衍生数据。原始数据指不依赖于现有数据而产生的数据,衍生数据指原始数据在被记录储存后,经过算法加工、计算、聚合经过脱敏处理,生成新的、系统的、可读取、有使用价值的数据。本文认为无论何种数据,以何种形式爬取,在数据爬取后如果没有任何形式的数据利用行为而仅仅存储在存储器中的情况均不应该被视为侵权,也即在不产生实质性破坏的情况下单纯地复制公开数据的情况没有侵犯任何人的权益。任何民事主体如果仅仅获取或复制二进制代码的数据而未能在“信息”的意义上加以呈现和利用,该行为既不会为获取者带来任何经济利益,也不会损害被复制者的经济利益或人格利益。对于公开数据单纯的复制性行为和单纯的网页访问以及数据查看行为并无二致,但是后续的使用行为却不一定不会侵权。
(四)违反Robots协议及合同约定的违法性讨论
在探究数据爬取的过程中,始终绕不开违反Robots协议以及违反双方约定爬取数据的问题。但是两种违反方式究竟是否侵犯数据持有者的权益仍然没有定论,以下将分而论之。
Robots协议作为数据爬取的协议在互联网产业相互爬取数据的限制中起到了很大的作用,但是Robots协议在数据爬取中的效力如何至今仍然没有被确定。数据持有方未设置技术措施或者Robots协议限制他人获取数据,并不意味默许他人可以随意使用该数据。因为数据在被获取之后有多种多样的用途,既有可能会损害数据持有方的利益,又可能根本不对其产生影响,还有可能达到双方共赢的效果。因此,Robots协议作为数据提供者单方意愿的体现,与整体公平竞争秩序的构建未必相符,在有的情况下会被企业用来作为不合理限制竞争对手发展的手段。法院有必要对个案中Robots协议的合理性进行检视。从举证责任来看,违反Robots协议可以初步被认定为违反商业道德,因为就一般情况而言,Robots协议作为能够有效降低网络交互成本的计算机语言,应当得到广泛遵守才能发挥其应有的效用。但是在特殊情况下,确实也存在Robots协议不当设置的情况,此时被告可以提出抗辩并提供相关证据予以证明。Robots协议作为单方的意思表示虽然含有一定的经济正当性,但数据爬取者违反Robots协议的内容进行爬取是否必然导致侵权仍无法给出具体答案。
关于爬取双方订立的协约,企业之间如果存在合作关系,则可能会开放openAPI接口或者通过其他约定方式,使得一方可以从另一方中调取相应的数据。针对超出约定而获取对方数据的行为,使用合同法追究对方的违约责任是必然可行的路径,但关键问题是违约责任不一定能够完全弥补数据被爬取方的损失。至于违反双方之间的协约是否会构成不正当竞争行为,学界以及法院莫衷一是,目前学界的共识是数据的获取和使用如未遵循双方协议的约束范围,则可能被认定违反诚信和公认商业道德而有较高的不正当竞争风险。然而,诚实信用原则以及商业道德都具有较强的模糊性。商业道德在不同行业、不同商业模式、不同交易习惯中更是有着不同的判断标准,很难直接对其内涵和外延进行严格界定。因此,目前仍然没有较为统一确切的标准对于违反协议规定使用数据的行为进行判定。
本文认为,不能贸然将违反Robots协议或者违反双方约定的数据爬取行为认定为不正当竞争行为。首先,违反Robots协议并不一定会造成侵权结果,而不违反Robots协议也不一定不会侵权,具体仍然需要综合考虑被爬取数据的性质、必要性、手段、Robots协议本身的内容等方面进行考量。其次,对于绕开反爬取技术措施的行为,也应该同不遵守Robots协议考虑方式相同,不能贸然将绕开技术措施的行为认定为不正当竞争行为,因为数据持有者的技术措施并非一定是合理。最后,涉及双方的合同约定问题,一方违反约定擅自爬取他方的数据,该种行为已经可以被合同法所规制,已然构成违约行为,而至于该种行为给被爬取方造成的损失,则需一种较合理的方法判断该种行为于对数据被爬取者的竞争性及财产性利益进行补偿。
三、数据爬取后的利用行为侵害的法益分析
广义上讨论,数据的爬取大致可以分为三种,即机械爬取公开数据、通过破解限制方式获取相应的限制公开型数据以及爬取完全禁止公开型数据。对应地,便可以将爬取到的数据分为三种,分别为完全公开型数据、限制开放型数据以及尚未开放型数据。数据爬取行为不同于数据利用行为,应该根据被爬取数据性质的不同对数据利用行为进行相应分析,进而再根据现行法律规定寻找合适的解决方案。
(一)完全公开型数据
全面开放型数据指普通用户可直接在网站上查看或获取的数据,在此情况下爬虫只是单纯地代替了普通用户对网页公开数据进行循环提取,狭义的数据爬取的对象应当是该种数据。此数据的获取方式以某点评诉某度案为代表,即将前台公开数据爬取后应用于自身的行为。数据内部的利益由数据的竞争性财产性利益和数据内部内生的其他权利带来的利益构成,因此我们可以将数据内生的权益分为两大类型——即非数据型利益以及纯数据型利益。
公开数据的非数据性利益由数据内在的其他权利内容构成,分别为著作权、个人信息。公开数据的数据全部公开,因此无法满足商业秘密的构成要件,所以公开数据中不存在商业秘密的利益。
爬取数据中存在著作权权利和数据性权益的竞合,首先应当考虑的是对于著作权的侵害问题。如果对于已经公开的含有著作权的数据进行爬取复制行为,在之后如果进行网络传播、改编、使用等行为,则有可能侵害著作权人的信息网络传播权、改编权、复制权等权利。如在佛山电容某软件科技有限公司、白某信息有限公司著作权权属、侵权纠纷案中,被告通过反向破解获取、复制了原告数据库中的数据用于盈利,侵犯了原告对于该数据库享有的著作权。
对于含有个人信息的公开数据,在爬取后进行相应的数据复制、数据分析等行为都有可能侵害到个人信息权利人的权利。民法典第111条规定:“自然人的个人信息受法律保护。任何组织或者个人需要获取他人个人信息的,应当依法取得并确保信息安全,不得非法收集、使用、加工、传输他人个人信息,不得非法买卖、提供或者公开他人个人信息。”但是具体对于该种个人信息数据处理结果的公开性以及爬取者可爬取的边界,还需结合数据的特性、个人信息权利人、爬取方、公共利益综合进行考虑。如在麦某波、北京法先某科技有限公司等网络侵权责任纠纷案中,法院结合被告对于该种数据的技术处理、目标导向、结果评估进行分析,从而认定了被告侵害了原告的个人信息权益。另外,如果大量爬取该种数据还可能承担刑事责任,如在王某杰、邓某奕侵犯公民个人信息案中,被告非法获取公民个人信息并贩卖牟利,其行为已侵害了众多消费者的合法权益,损害了社会公共利益,侵犯公民个人信息罪。涉及个人信息数据的问题较复杂且尚未定论,因此目前还仍然需要一套确定的准则对这种数据的可爬取边界进行界定。不妨就脱离数据的权属问题,直接划定由平台享有该种数据的竞争性权利,暂时搁置用户的个人信息数据的问题,除非存在确实出现了侵害个人信息权利的情况,则可以由个人信息权利人直接进行诉讼。根据个人信息保护法的规定,个人信息权利人享有撤回同意权、加工使用权、删除权等,其不仅可以直接起诉数据收集平台,对于侵权的数据爬取者也可以进行起诉。
纯数据指不含有著作权、个人信息、商业秘密等内容的单纯具有商业价值的数据。该种数据的爬取行为不应当被视为侵权,但是一旦涉及该种数据的使用便不可避免地会出现诸多的法律问题。应当明确的是,公开数据获取和使用应该是被允许的。通常情况下对公开数据的爬取中,爬虫只是代替用户循环访问网页,那么用户能够审阅查看的数据,爬取该部分数据也应当被允许,但是该种允许也应当附上合理性的边界,不然容易产生“搭便车”的行为。
如上文所说,爬取的公开数据分为两种,一种为原始数据,一种为衍生数据,通常认为原始数据来源于用户,数据收集平台对其没有财产性权益,因此都应当可以被爬取。但是需要注意的是,平台对该种原始数据虽然不享有财产性权利,但是却享有竞争性权利,一旦数据爬取侵犯到数据收集平台的竞争性利益,也会被反不正当竞争法第2条所规制。例如,在百某公司诉大众某评公司案中,百度公司通过搜索技术抓取并大量全文展示来自大众某评网的信息,这种行为已经实质替代了大众某评网的相关服务,因为百某公司被判侵权。又如在大众某评诉爱某网中,大众某评网的商户简介和用户是汉某公司搜集、整理和运用商业方法吸引用户注册而来。汉某公司为此付出了人力、财力、物力和时间等经营成本,由此产生的利益应受法律保护。因此,其他经营者使用垂直搜索技术的网站对特定行业网站信息的利用,应控制在合理的范围内,不得对该特定行业网站造成市场替代的后果。爱某网的商户简介和用户某评已经构成对大众某评网相应内容的实质性替代,必将不合理地损害汉某公司商业利益。
另外,衍生数据通常由数据收集者经过一系列的加工收集后得出,内含了数据收集者的劳动,理应由数据加工者享有财产性权益。对于该种数据的爬取通常含有较大的风险。在安徽某景信息科技有限公司与淘某(中国)软件有限公司不正当竞争纠纷案中,法院认为,网络运营者对于其开发的大数据产品,享有竞争性财产权益。未经许可,直接将他人数据产品作为自己获取商业利益工具的,构成不正当竞争行为。
对于纯公开数据的爬取合规性与否应当综合考虑爬取方使用行为的性质、被爬取方的利益损失以及公共利益。如果爬取方抓取数据之后并未将数据做竞争性使用,而是用作生产新的数据产品,例如将平台上的公开信息抓取之后,进行统计、分析,用来预测行业发展的走向,这种数据再利用并不会替代被爬取方提供的产品和服务,从而也不会无偿占有被爬取方的劳动成果。
(二)限制公开型数据
限制性开放的数据是指并非对于所有的用户开放,访问获取该种数据需要通过相应的方式,例如会员、缴费、合约等。以杭州执某科技有限公司、杭州利某科技有限公司等与浙江中某网络科技有限公司不正当竞争纠纷为例可知,限制性开放数据的获取需要通过攻克一定的技术措施后配合爬虫技术才能获取。
对于爬取限制公开型数据侵害法益的讨论,应当结合数据内容的性质加以分析。对于限制公开型数据中的著作权以及个人信息问题,同公开数据中的权利内容相似。但是对于限制公开的数据,则有必要同公开数据进行区分考量。毫无疑问,限制公开的数据大多由加工后的数据,即衍生数据构成(部分也存在原始数据)。在剥离了著作权以及个人信息等非数据型利益后,限制公开型数据内部必然蕴藏着被爬取方的财产以及竞争性利益;该种数据的财产利益一般体现在例如会员等财产性收入上,而竞争利益则体现在企业通过该种数据获得的竞争性优势。通常情况下,破坏相应的技术措施爬取限制公开类型的数据,即使不存在破坏被爬取方的竞争性利益的情况下,对于对方财产性利益的损害也需要爬取者承担相应的责任。
(三)尚未公开型数据
尚未公开型数据是指企业完全禁止用户获取,非管理员或企业内部人士不能获取的数据,该种数据在网页前端不会显示,而是存储于后端并通过严格的技术措施进行反数据爬取的保护。以杭州某科技公司与汪某商业秘密纠纷案为例,首先,尚未公开型数据一般是企业运行的命脉,企业会采取一切手段防止其流通。因此,对于这种尚未公开型数据,爬取方需要面对的首先是破解相应的技术措施,才能获得此类被企业保密的数据。另外,正是由于尚未公开数据的保密性,使得此种数据中内含的著作权以及个人信息的性质,即被侵权的方式也发生了转变。
首先是对于被爬取方数据中享有著作权内容的描述。如果爬取了隐藏数据中的著作权内容,不仅要面对爬取公开数据中侵犯复制权、信息网络传播权等权利,最重要的是该种行为可能直接涉及侵犯发表权的情况。著作权有着发表权一次用尽的情况,发表权作为著作权中非常特殊的权利的存在,一旦发表便无法撤回,这对于著作权人存在较大的损害风险。另外,该种行为可能还存在侵害著作权中的其他情况,爬取者需要谨慎地分析该种数据中蕴藏的著作权风险。
其次,对于其中含有的个人信息问题,爬取尚未公开的数据不仅具有侵犯个人信息权利的可能,更有侵犯隐私权的可能性。隐私是指自然人的私人生活安宁和不愿为他人知晓的私密空间、私密活动、私密信息。个人信息和个人隐私的保护范围存在交叉关系,构成私密信息的个人信息将由隐私权加以保护。从保护客体来看,个人隐私在客观上一般情况下呈现为不为公众所知悉的样态,在主观上权利人也具有不愿为他人知晓的意愿;从保护方式来看,一般认为个人隐私一经泄露即易导致人格利益受损,故其保护方式更注重消极防御,对他人的行为限制更为严格。尚未公开数据中的许多内容均能达到隐私权的保护标准,譬如破坏了对方的技术措施后爬取到他人的个人照片、通讯录、活动轨迹等私密信息,该种情况下便很有可能侵犯他人的隐私权。
另外,尚未公开的数据中将很有可能包含该企业的商业秘密,因为尚未公开满足商业秘密构成要件中的秘密性,如果尚未公开数据的持有者对该种数据进行了相应的保密措施,并且该种数据对数据持有者具有一定的经济价值,则爬取该种尚未公开数据构成侵犯商业秘密的风险极大。
最后是尚未公开数据中“纯数据”的内容。需明确的是,“纯数据”中的竞争性或者财产性利益必须由为公众所知才能释放出其中的价值。因此,尚未公开的数据中的财产或竞争性利益通常已经被著作权或者商业秘密以及用户个人信息所吸收,即尚未公开的数据中不存在为企业带来竞争性利益的纯数据,因为纯数据中的价值必须经由公开才能发挥。换句话说,对上述三种权益的保护已经足以弥补尚未公开数据的价值。因此,爬取的尚未公开型数据中不存在“纯数据”竞争性或者财产性利益上的补偿问题。
四、数据爬取的违法性分析范式
无论是数据爬取方对于爬取数据的违法性边界认识不清,还是数据被爬取方对于权益受到侵害的维权方式不清,抑或法院在审判时对于数据爬取行为的分析不定。究其原因,还是因为缺乏对数据爬取流程完整的理解和分类分析。只有厘清数据运行全周期数据权利或权益的具体内容,才能建构符合数据运行发展规律,兼顾公平和效率的数据共享范式,实现数据在不同场景下于不同主体间的流转和增值。
爬取数据中的价值性难以估量,而且数据并非单纯的财产性权益,现行无实体法为数据赋权很大程度上就是数据的性质太多,不便将权利单一划给某一主体。在数据尚未确权前,数据爬取侵害的法律救济存在两方面问题:一是数据的价值难以衡量,数据侵权损害计算方法不明;二是数据生产环节复杂多样,数据主体难以认定。因此,本文提出数据爬取侵害法律救济的不妨就先考虑数据爬取行为能给被爬取方造成的实质性损失,即先用现行明文规定的条款筛选数据爬取行为中所能侵犯的法益,最后再考虑数据的价值性及竞争性影响,这样才能在数据权利尚未明确规定时及时弥补被爬取方的损失。
因此,本文在综合分析了数据的各个流程以及爬取数据的内在权益后,给出数据爬取侵权分析的三种范式。藉以此,为数据爬取者指明数据爬取的合理性边界,为数据被爬取方明确数据维权的法益主张内容,为司法适用提供层次化、步骤化的审判参考。
(一)实质性损害认定的第一标准
数据爬取行为并非不能造成任何非竞争性损害,因其频繁访问或寻找系统漏洞,又或者攻克技术措施等行为造成的服务器或系统的损害不能够被忽视。就司法审判的结果来看,法院似乎较少关注爬取行为带来的直接损失,而直接关注爬取数据的性质;又或者是只关注爬取行为,而不关注爬取数据的性质。因此无论是爬取方还是被爬取方,在经历数据爬取行为时,首先应当思考的应该是爬取行为是否造成了服务器坍塌或者系统被攻陷的实害性后果,如果造成了实害的结果便需要去进行相应的侵权诉讼。就数据类竞争行为而言,可以将经营者擅自抓取其他经营者持有的数据,导致其服务器过载,无法正常经营的情形纳入第12条兜底条款中,结果严重的还可能面临着刑事责任。现行司法审判中对于数据爬取的刑事处罚较为严厉,但事实上,与计算机信息系统相关的罪名多在于保护计算机信息系统和数据安全,应据此立法目的将无实质法益侵害性的爬虫行为出罪,限缩刑事处罚范围,以实现数据开放、数据共享与数据安全平衡,本文不作详述。
总而言之,就广义的数据爬取而言,无论是何种类型的数据爬取行为、爬取到何种性质的数据、进行何种方式的使用行为,都应该以对被爬取方造成的实质性损害结果为第一考量标准,对爬取行为对被爬取方造成的实质性损害结果进行第一层补偿。
(二)其他部门法过滤的第二标准
法院对于数据爬取的考量方式不清晰还体现诸多案件中。如在上海晟某网络科技有限公司、侯某某等非法获取计算机信息系统数据案中,被告使用“tt_spider”文件实施视频数据抓取行为,并在数据抓取的过程中使用伪造device_id绕过服务器的身份校验,使用伪造UA及IP绕过服务器的访问频率限制。法院认为,被告单位上海晟某网络科技有限公司违反国家规定,采用技术手段获取计算机信息系统中存储的数据,情节严重,其行为已构成非法获取计算机信息系统数据罪,应予惩处。如前文所述,数据爬取的刑事处罚范围是否合理的问题在此不做具体阐述。但是,仅仅凭借数据爬取的行为对整个数据爬取活动进行概括是不充分的。另外,在分析侵入行为后不再考量数据中存在的诸如著作权等其他权益,也是审判中不合理之处。因此,无论是审判部门还是爬取主体,都应当从爬取数据中隐藏的著作权、个人信息以及商业秘密去判断所使用的爬取方式以及使用该数据的行为的正当性与否。
如果在满足第一层的不侵权标准后,又能够合理地规避著作权、个人信息、商业秘密等内在权利的侵权情况,那么便可以进入到第三标准的判断中。
(三)竞争法模式判断的第三标准
在经过了对第一标准和第二标准的考量后,便可进入第三层的考量——纯数据的竞争性利益以及财产性利益判断。
如上文所述,现行关于数据爬取的规制法律主要基于反不正当竞争法展开,也有观点认为通过反不正当竞争法保护数据企业对数据的权利,实际上等于将数据企业的数据权利降格为一种受法律保护的纯粹经济利益,只能在其遭受特定方式侵害的时候获得救济,其保护的强度和密度显然不足。这种保护方法既不利于数据的流动和分享,也无法充分地鼓励数据企业更多地收集、存储、转让和使用数据。但是经过了前两层法益的过滤,剩余的“纯数据”只能体现竞争性及价值性的特性,所以通过反法进行保护也是合理的策略,只是数据的种类和状态多种多样,难以提炼出一个统一的衡量标准,以至于出现“同案不同判”的情况。
目前各地法院对于数据爬取的审判思路大致相同,即分别考虑双方是否具有竞争关系、原告对于数据是否享有竞争性权益、被诉行为的损害后果、被诉行为是否具有不正当性。但数据的类型、状态多样,使得数据无论在权属层面的法律认定、还是司法层面的竞争边界认定上都难以提炼出一个放之四海而皆准的规则。因此,唯有对数据的类型、状态,平台对数据的创新和投入程度,用户作为数字劳动生产者的利益,数据流通的公共利益等要素和价值加以考量,方可得出爬取数据是否侵权的结论。
另外,关于数据获取行为的正当性,浙江省高级人民法院联合课题组关于企业数据权益知识产权保护的调研报告所罗列的正当及不正当竞争行为也能为爬取双方带来一些参考价值。目前关于数据爬取合理性边界考量方式的观点较多。对于数据爬取正当性边界的判断既不能期待整齐划一的答案,也不能陷入一事一议的窘境,而必须基于统合的分析架构,仔细衡量数据爬取各方的权益。最终作出体系性和操作性兼备的制度回应。
结语
数据赋权是时代的趋势,但在数据相关的法案出台前,利用现行法规合理地平衡各方综合的利益是首要的任务。数据爬取并非一种单纯的事实行为,其涉及多个方面,在考虑数据爬取行为时不能一叶障目,只考虑爬取行为带来的单个后果。爬取到的内容通常是多种法益竞合存在的复杂客体,界定好数据内部存在的各种法益,对数据内部存在的各种权利进行相应的涵摄,方能维护数据中存在各个数据权益人的利益。因此,在判定数据爬取行为的合理性时要分层进行考虑,先考量爬取行为造成的实害结果,再分析爬取数据及使用数据行为中涉及的其他权利情况,最后结合相应的明文规定的法律对数据爬取及使用行为的合理性进行判断。另外,在涉及纯数据的使用行为时,要结合爬取方、被爬取方、公共利益等多个方面综合判断使用数据的行为,方能明晰数据爬取及其后续行为的合理性。
往期精彩回顾
刘玉林 刘昱|认罪认罚的自愿性及其程序保障——基于协商性的尝试与突破
耿妆群|论执行过程中失信惩戒滥用问题的应对——以构建信用修复制度为路径
邵文龙 夏晓明|劳动者的辞职权问题研究——以裁判文书网200篇判决书为样本
上海市法学会官网
http://www.sls.org.cn