青年| 杨志琼:数据时代网络爬虫的刑法规制
数据时代网络爬虫的刑法规制
作者:杨志琼,东南大学法学院讲师,法学博士,东南大学法学院网络安全法治研究中心研究员。
文章来源:《比较法研究》2020年第4期,第185-200页,本文注释已略,建议阅读原刊。
法学学术前沿联系和赐稿邮箱:fxxsqy@163.com
责任编辑:姜楚言
内容提要
网络爬虫具有促进数据共享与侵犯数据权利的两面性,域内外司法实践呈现出“严厉”与“缓和”的不同趋势,但都未能有效识别网络爬虫的技术特征和数据类型,由此而面临部门法责任界分的难题。私法赋权和公法规制形成了当前各国数据保护体系,这启发我们将网络爬虫的司法规制建立在数据权利的谱系分析之上,而网络爬虫的违法性判断恰恰源于数据主体的上述权利安排,并与数据的开放程度和访问权限密切相关。由此形成了网络爬虫归责体系的两个维度:在行为不法层面,违背民事合约与突破技术措施是界分网络爬虫民刑责任的形式标准;在对象不法层面,开放数据、限制重新使用的数据和限制访问、获取的数据是确定网络爬虫民刑责任内容的实质标准。
在当今数字经济时代,网络爬虫成为数据资源取得与利用的重要手段,并引发了一系列的侵权纠纷、不正当竞争纠纷和刑事犯罪。如何区分网络爬虫的合法使用与违法犯罪成为当前亟需解决的司法难题。对此,民法学者在检讨私法规制的局限性之后开始关注数据的公共性原理及其公法规制框架,却未能深入探讨网络爬虫的入罪问题。而刑法学者在研究个人信息领域网络爬虫出入罪标准之后,亦未能深入研究网络爬虫的前置法规制框架。这种部门法研究各自为政、画地为牢的割裂局面,不可避免地导致网络爬虫研究结论的片面性和裁判标准的不科学性。显然,对于网络爬虫而言,“法律要规范的并非技术原理,而是技术运用所造成的当事人间的利益分配格局”。这要求我们将网络爬虫的司法规制追溯至部门法数据权利体系,并建构一个能充分平衡数据主体、数据网站和网络爬虫利益的操作规则,以合理确定网络爬虫的入罪边界与责任类型。
一、域内外网络爬虫刑法规制的检视:严厉与缓和的分野
网络爬虫(Web Crawler)是指利用“机器人”“蜘蛛”或“网络浏览器”等程序从数据网站、手机APP、小程序、搜索引擎中检索、提取、收集数据的行为。网络爬虫能系统扫描、分析和保存有关网站的信息,帮助识别和提取数据以供分析,汇总来自不同来源的信息,并绘制出未经开发的服务器和网站,因而广泛运用于互联网金融、天气预报、招投标、视频图书类聚合平台等领域。据统计,目前网站访问量中约有1/4的网络流量是通过数据抓取工具进行的,谷歌、百度、搜狗、必应等数据公司都普遍使用网络爬虫获取数据资源。但网络爬虫同时也存在导致ICP网站拥堵,影响服务器正常运行或者耗费服务器资源等技术风险和侵害个人信息、知识产权等法益风险。美国民意研究协会(The American Association for Public Opinion Research)的研究报告指出,网络爬虫对数据所有权、数据管理、数据搜集权、隐私保护以及其他数据保护提出了政策挑战。
(一)域内网络爬虫的刑法规制:严厉趋势
近年来,我国对网络爬虫的司法规制在强化数据安全理念下日趋“严厉”,逐步由民事领域转向刑事领域。如2013年百度诉奇虎360案、2015年新浪微博诉脉脉案、2016年大众点评诉百度地图案等仅将网络爬虫抓取数据认定为不正当竞争行为,确立了企业数据不能为其他竞争者获取的裁判理念。而近年来司法实务对网络爬虫的刑事关注度不断提升,如2017年运满满诉货车帮侵犯个人信息案、酷米客诉车来了非法获取数据案、晟名公司非法抓取视频数据案等都因数据抓取而被起诉或定罪量刑,这些案例表明对网络爬虫的司法评价正逐渐由侵权行为、不正当竞争行为转向犯罪行为,并成为悬在数据企业头上的“达摩克里斯之剑”。尤其是2019年以来,国内新颜、魔蝎等多家数据公司高管因涉嫌数据抓取业务被警方带走调查,此后,金融行业率先发文对网络爬虫进行“围剿”,都为蓬勃发展的数据产业蒙上一层阴影。
梳理上述网络爬虫典型案例可发现,我国司法对网络爬虫的“严厉”态势大致遵循了如下路线:首先,不识别网络爬虫的技术特征而一律入罪。网络爬虫抓取数据的方式多样,既包括获得数据网站同意的爬取行为;也包括违背数据网站授权意思的爬取,如违反爬虫协议、服务协议、点击生效协议、浏览生效协议等;还包括故意避开或强行突破数据网站安全措施的爬取,如对数据进行解码、解密或者用其他方法避开、越过、瘫痪、去除、取消或毁损技术措施。数据保障措施的复杂程度与追责可能性密切相关,数据网站不能对其未能有效保护的数据提起诉讼。网络爬虫面临的数据网站的技术排他性不同,抓取数据行为所承担的法律责任亦不相同,但当前我国司法实务却将上述情形等同视之,一概入罪,不当扩大了网络爬虫入罪范围。其次,不区分网络爬虫抓取的数据类型而一律入罪。实务中网络爬虫抓取的数据类型不一,既包括数据网站完全开放的数据,如中国裁判文书网公开的裁判文书;也包括允许注册用户用账号登录后访问、浏览但不允许不当利用的数据,如酷米客公交后台数据可供注册用户浏览,但不允许竞争对手爬取后用于不正当竞争;还包括数据网站严禁获取的数据,如作为公司商业秘密且采取保密措施的数据。网络爬虫抓取的数据类型取决于数据网站的授权目的、保护需求,数据的排他性需求越低,法益保护需求就越低,网络爬虫所面临的法律责任亦愈低,但当前我国司法实务对网络爬虫抓取的数据类型不加区分而一概入罪,扩大了网络爬虫的处罚范围。
从实效来看,网络爬虫的权益侵害和行为模式涉及多个部门法责任,但我国司法实务对网络爬虫的经验累积和规范评价明显不足,难以合理确定网络爬虫的责任类型。究其原因,首先,未能对不同技术特征的网络爬虫确立不同的评价标准。网络爬虫的违法性判断取决于是否“未经授权”,从技术角度而言,“未经授权”的方式包括明示与暗示:明示的“未经授权”包括与员工签订保密协议、网页上标注的禁止爬虫的警告、合同使用条款说明等;暗示的“未经授权”主要是指密码认证,如用户通过密码来获取访问权限,如果规避技术访问屏障、绕开认证,就属于“未经授权”。而我国刑法对网络爬虫涉及的非法获取计算机信息系统数据罪、侵犯公民个人信息罪中“行为不法”的“获取”要件规定得过于简单,相关司法解释也未能给予进一步的规定,导致上述罪名对网络爬虫的解释力和涵摄力大大降低而难以作出准确评价。其次,未能对不同类型数据确立不同的获取、利用规则。数据的公开方式多种多样,带来的风险也不尽相同,所体现的法益侵害与责任轻重也不相同,应将数据开放与受限公开、托管访问等进行分类保护。这就要求对数据自身内容、使用价值和侵害风险进行独立的规范评价,以体现不同保护、利用需求。如开放数据与非开放数据的开放性、共享性不同,所体现的法益侵害和责任轻重也不尽相同,应在网络爬虫归责时进行不同层次的分析。但我国司法实务却未对不同类型数据“分而治之”,将网络爬虫抓取公开数据的行为入罪在当前司法实务中较为常见,其合理性却值得质疑。最后,未能合理确定网络爬虫的入罪情节而导致入罪过广。刑法对非法获取计算机信息系统数据罪、侵犯公民个人信息罪等的“结果不法”规定了两种认定标准:一是获取特定类型的数据(如身份认证信息)达到一定数量;二是造成一定数额的经济后果,如违法所得或经济损失。由于上述认定标准的数额普遍偏低,极大地降低了入罪门槛,导致动辄抓取海量规模数据的网络爬虫具有先天入罪基因。加之上述标准在司法实务中极易得到证明而被广泛采用,使得刑法在网络爬虫案件中一路“攻城略地”,逼窄了民法的适用空间,导致网络爬虫民刑责任进一步模糊。
(二)域外网络爬虫的刑法规制:缓和趋势
域外网络爬虫案件主要涉及直接商业竞争对手之间或彼此紧密相邻的市场主体之间的诉讼纠纷。对网络爬虫主张法律责任已成为数据经营者用来消除商业竞争对手的主要手段,eBay、LinkedIn、Craigslist、Ticketmaster都曾对经营模式上具有数据依赖性的竞争对手采取过类似的法律策略。在推崇数据共享且网络信息科技产业最为发达的美国,基于数据经济驱动功能发展出的多种数据红利共享计划极大地推动了数据流动和再利用。而与网络爬虫“如影随形”的美国《计算机诈欺及滥用法案》(Computer Fraud and Abuse Act,CFAA),是全美乃至全球研究者最为关注的立法,也是近年来美国司法实务判断网络爬虫法律责任的主要依据。
考察美国近年来的司法实践,可以发现判例对网络爬虫适用CFAA刑事责任的反思与犹豫,并在鼓励数据再利用和促进数字技术发展的理念下日趋“缓和”。这主要表现在:首先,从合同责任理论走向技术责任理论,采用基于代码的授权机制来限缩网络爬虫的入罪范围。以往判例对于网络爬虫抓取数据是否被“授权”的判断曾经采取宽泛的入罪标准,几乎所有能显示数据网站对网络爬虫不满的信号都足以让法官认定访问是“未经授权”的,如违反数据网站使用条款、违反雇员忠诚义务、违反保密协议、违反数据库授权或其他合同限制都被认为“未经授权”或“超越授权”,甚至有判例认为数据网站对网络爬虫提起控诉就足以证明抓取“未经授权”。上述观点被批判为以数据网站自身利益作为网络爬虫入罪的判断标准,具有将互联网中合同违约行为演变为刑事犯罪的风险。因而,近年来多数学者主张以技术规则为基础的代码理论作为抓取“授权”的判断标准,以区分有害的数据抓取和有益的数据抓取。这种趋向于审查技术保护措施的责任标准对网络爬虫显示出极大的容忍度,使其入罪率大大降低。其次,对抓取公开数据行为采取“明确分割规则”将使部分网络爬虫免于诉讼。2017年美国HiQ v. Linkedln案首次阐明了为保护数据自由竞争秩序,数据使用者可以正当获取、使用数据网站的公开数据。本案中HiQ抓取的是Linkedln的公开数据,而非有技术保障措施的数据。对此,学界基于互联网共享功能和开放目的主张对公开数据抓取应采取“明确分割规则”,认为满足下列条件的网络爬虫将免于诉讼:(1)抓取行为没有在技术上使数据网站的负担过重;(2)抓取的是公开而不具有技术保护措施的数据;(3)抓取数据没有侵犯他人的信息权、知识产权等权利;(4)所抓取的数据被用于创建变革性产品,而非以类似产品来窃取数据网站的市场份额。受判例法传统以及HiQ v. Linkedln在竞争法领域的深远影响,上述“明确分割规则”将善意的、有利于数据收集和流通的网络爬虫排除在了司法纠纷之外,大幅度降低了网络爬虫的处罚范围。
从实效来看,在过去10年间美国法院通过一系列解释性操作重塑了网络爬虫的司法格局,这代表了当前数据共享理念和数字技术发展背景下网络爬虫司法判断的全球共性问题。但前述“缓和”趋势也导致网络爬虫的部门法责任难以界分。首先,网络技术规则的法律效力难以识别和证成,导致网络爬虫的民刑责任混淆不清。对网络爬虫的法律规制,不仅要适用现有的法律规范,还应将网络技术规则作为政策事项来对待。美国CFAA同时包含了民事责任条款和刑事责任条款,而数据抓取案件大多是在民事背景下产生,作为民事责任基础的行为同时也是作为刑事责任基础的行为,使得网络爬虫的民刑责任本身就难以界分。加之CFAA对数据抓取中“未经授权”“超越授权”等规范性要素并未作出明确规定,实务中法院通常以“平常的、当代的、常用的”方式予以解释,但普通法既未对爬虫协议、服务协议、身份认证机制等网络技术规则的法律效力作出明确规定,也未能为网络爬虫侵权诉讼提供足够清晰的操作规则,任何违反数据网站隐晦或明确授权意思的抓取行为都可能被认定为“未经授权”,导致网络爬虫的民事违约和刑事犯罪难以区分。其次,现有判例对开放数据和私人数据的二分法处理使网络爬虫民刑责任的界分面临新的挑战。由于网络效应和锁定效应,数据资源已成为上游数据控制者的竞争优势,并成为下游数据使用者进入相关市场的壁垒,因而,当前司法规制的主要目的是对数据滥用或竞争失序进行纠偏,而非阻止数据分享和流动,以服务于数据产业的良性发展需求。在HiQ v. Linkedln案中,涉案双方都声称自己的主张能最大程度地促进网络数据的流动,有利于公共利益。法院最终认定,选择公开其数据的用户应预料到他们的公开数据将被搜集、挖掘、整合及分析。如果赋予Linkedln等数据企业任意决定谁可以收集、使用其数据,将会造成数据垄断的风险,进而危害公众利益。该案突破合同法思维和CFAA的限制,引入了公共利益考量,将CFAA的解释重心从传统的“未经授权”延伸至“受保护的计算机”,如果被访问、抓取的数据是向公众开放的数据,则不属于CFAA中“受保护的计算机”,抓取行为亦不受CFAA刑事条款规制。这意味着网络爬虫刑事责任认定逐步让位于数据反垄断的公共政策需求,即对于公共领域的数据抓取应谨慎入罪,使网络爬虫的民刑责任面临重新划分的难题。
综上可见,域内外对网络爬虫“严厉”与“缓和”的不同司法趋势都面临其合法使用与违法犯罪的界分难题,而司法裁判亦在数据保护与共享之间摇摆不定,难以抉择。其核心问题在于如何准确识别网络爬虫的技术特征和数据类型并分而治之。这要求我们必须充分考察网络爬虫的技术排他性和数据排他性,并在衡量数据网站和网络爬虫利益的基础上形成合理的入罪体系。
二、网络爬虫刑法规制的教义学基础:数据权利的谱系分析
对数据主体、数据网站利益诉求的司法回应是对数据权利化,因为“法律要规范的并非技术原理,而是技术运用所造成的当事人间的利益分配格局”。网络爬虫司法规制涉及合同法、侵权法、竞争法、刑法等多个部门法,不同部门法的理念和特征决定了其在观察维度和规制范畴上的差异,这是确定网络爬虫行为边界的教义学起点。其中,民法看重数据的隐私保护和商业利用价值,重视事前对数据“赋权”以制止网络爬虫的侵权行为;竞争法着重数据竞争秩序建构,重视事后对竞争利益损害进行追认以制止网络爬虫的不正当竞争行为;而刑法偏重网络数据安全保护,重视事后对网络爬虫法益侵害进行认定以惩罚犯罪。
(一)网络爬虫侵害的民事权利:个人信息权、财产权、知识产权
民法领域网络爬虫侵权对象包括个人数据(个人信息)与企业数据,前者以用户个人权益为中心,后者以数据企业权益为中心。
(1)对网络爬虫侵害的个人数据的权利属性主要存在人格权说、财产权说等观点,旨在防止个人信息的不当搜集和滥用。人格权说赋予数据主体个人信息权,强调自然人对其个人数据被收集、存储、转让和使用过程的自主决定利益,这种权利不止于消极排除他人使用,也强调在意思自治下允许他人积极利用。但吊诡的是,虽然学界和立法者普遍认为个人信息权不同于传统隐私权并尝试在立法上将二者分立,但实证研究显示,以扩张隐私权外延的方式保护被网络爬虫抓取的个人数据却是当前我国民法实务的主要做法。此外,对个人数据的财产化(data propertization)旨在保障数据主体能从对自身数据的收集、利用中获益,并强化数据本身的经济驱动功能,以打破传统隐私权、信息权过度保护而阻碍数据流通的僵局。但财产权保护只能说明个人数据法律保护的必要性,却不能作为采取绝对权保护模式的依据,且当前我国司法实务中亦无判决认可个人数据的财产权属性,可见个人数据的财产权保护进路与现实生活经验、需求并不吻合。这导致以个人数据财产侵权来追究网络爬虫民事责任难以实现。
(2)对网络爬虫侵害的企业数据的权利属性主要存在知识产权说和财产权说等观点,旨在保护企业数据的前期投入和后期收益。在知识产权领域,企业数据的权利类型主要涉及著作权、专利权、商业秘密等。其中,著作权保护仅针对企业数据中具有“独创性”的作品部分,而不包括缺乏独创性的企业数据编排;专利权保护仅针对具有鲜明技术属性并能解决一定技术问题的大数据运算程序,但不包括缺乏新颖性、非显而易见性和实用性的企业数据编排;商业秘密保护仅针对具有价值性、新颖性和保密性的企业数据,而不包括缺乏新颖性、秘密性的企业原初数据。上述技术特征导致实务中通过知识产权保护对网络爬虫提起诉讼存在较大障碍。对于企业数据的财产权保护,主要考虑数据经营者通过对数据的收集、加工、利用、交易等而形成了动态的使用、利益关系,获得了数据资产的经营权和资产权。这种财产权旨在安排一种鼓励企业数据经济化的私有结构,以体现企业数据的可支配性和排他占有性私益,却又面临相关财产权的控制、分享、救济难题。
显然,个人数据与企业数据在理论维度和价值目标上存在较大差异,在面对网络爬虫时的保护力度、广度也就不尽相同,因而一概“权利化”并不能真正解决本质问题。更重要的是,上述分类忽略了与个人数据、企业数据无关的大量非结构化数据——由单个数据组成的集合体,包含了“海量”特性但又缺乏“技术分析、加工”的无数个低价值数据和无价值数据。这些非结构化数据多是收集者非法抓取且未经编排而随意堆积的初始数据,收集者无意了解数据的具体内容,更无意对其加工整理,仅在非法获取后用来实施违法犯罪或转卖他人。由于其既不能识别个人信息,也不具有知识产权价值或财产权价值,因而向来为民法研究者所忽视。但从当前数据犯罪的黑灰产业生态来看,这类非结构化数据恰恰处于数据犯罪链条的前端,网络爬虫随意抓取上述数据仍存在法益侵害风险,应受到法律的保护。
对数据“权利化”的私法保护进路是通过对个人数据、企业数据的迭加式赋权来回应数据主体的利益诉求,却在权益层级方面(民事权利或利益)和权益属性方面(人格权、财产权)历经旷日持久的争论,导致网络爬虫的民法规制在权利确定、行为边界和权利救济上都相当困难。其根本原因在于,私法赋权忽略了数据本身的无形性、可分享性、公共性特点以及数据必须通过分享来实现自身价值的客观事实,因而,基于数据的流动性、共享性对数据的开放程度及其公共秩序建构成为规制网络爬虫的另一个重要手段。
(二)网络爬虫侵害的竞争法权益:竞争秩序、经营者利益、消费者利益
竞争法视域下网络爬虫纠纷演化为数据资源的争夺、竞争,但关注的重点不在于数据确权,而在于具有竞争关系的企业获取、利用数据的行为是否构成不正当竞争。当前司法实务主要利用《反不正当竞争法》第2条的一般条款对网络爬虫案件进行处理,该条阐述了不正当竞争行为的基本元素,即违反竞争原则(如诚实信用和商业道德)和损害市场竞争秩序、经营者利益、消费者利益,因而,由竞争秩序、经营者利益、消费者利益组成的“三叠加”法益成为我国不正当竞争法所保护的权益。这种“功能性的市场取向法”(the functional market-based approach)诠释了现代竞争法的基本理念,要求数据竞争的利益衡量规则必须充分考虑数据经营者、数据用户和社会公众的决策自由和利益平衡。
(1)网络爬虫侵害的数据竞争秩序包括公平、自由的竞争秩序。从竞争法的角度而言,规制数据竞争的核心目标是维护数据要素市场的竞争秩序和竞争机制,这既需要兼顾数据控制方与数据使用方的利益诉求,也需要均衡数据资源的产出激励效率和配置使用效率。当前数据竞争的实质是上下游数据竞争者之间的利益博弈,上游数据企业基于对数据资源的巨大投资和收益期待,产生了数据保护诉求;下游数据企业基于互联网“互联互通”精神倡导数据流通和开放共享,产生了数据共享诉求。因而,对数据竞争秩序的维护包括对公平数据竞争秩序的维护和对自由数据竞争秩序的维护:前者需要关注数据使用者的不正当竞争行为,如利用网络爬虫恶意窃取竞争对手的数据资源,攫取他人竞争优势的“搭便车”行为;后者需要考察数据控制者限制竞争的不当垄断、圈占数据行为,如利用服务条款、技术措施等有针对性地拒绝他人获取数据以打压潜在竞争对手。在HiQ v. Linkedln案中,法院要求Linkedln必须在24小时之内移除妨害HiQ获取期公开数据的技术障碍的禁令,是因为《谢尔曼法》禁止公司利用垄断权力阻止竞争或获得竞争优势、摧毁竞争对手,而Linkedln拒绝爬取的数据垄断行为显然不利于数据流动及数字技术发展。
(2)网络爬虫侵害的经营者权益表现为财产性权益。竞争法历来保护诚实经营者免受不诚信竞争对手的商业攻击,因而多对经营者予以“权利化”保护,典型的是将竞争成果“权利化”、“财产化”,甚至“法益化”。在大众点评诉爱帮网案、淘宝诉美景案等网络爬虫案中,我国法院逐步认可了数据经营者对于企业数据享有竞争法上的财产性权益,并成为诸多判例认定不正当竞争损害的关键。虽然多数企业数据缺乏创造性而不能获得知识产权的保护,但这些企业数据是数据企业长期经营积累形成的,具有商业价值,能够为企业带来直接经济收入,因而应受到竞争法保护。如在酷米客诉车来了抓取公交后台数据案中,法院认为公交车作为公共交通工具,其实时运行路线、运行时间等信息虽然是客观事实,但当此类信息经过人工收集、分析、编辑、整合并配合GPS精确定位后已成为公交信息查询软件的后台数据,具有了实用性并能够为权利人带来经济利益,已具备无形财产属性,权利人对该数据享有占有、使用、收益及处分权益。
(3)网络爬虫侵害的消费者权益被“附属化”。竞争法保护消费者基于决策自由所产生的利益以及其人格权、财产权等不受侵害。如在新浪微博诉脉脉案中,二审法院认为脉脉通过用户上传手机通讯录展示非脉脉用户的微博信息,损害了非脉脉用户的知情权和选择权,因而构成不正当竞争。网络爬虫抓取数据可能侵犯消费者的数据知情权、携带权、遗忘权等数据权利,但多数数据不正当竞争纠纷的提起和裁判都跨越了数据权属争议,在没有消费者参与的情形下,直接将企业收集、整理的数据认定为企业经营的核心竞争资源。作为消费者的用户数据权益已沦为竞争法裁判的隐性影响因素,而数据经营者的大数据竞争优势才是主要保护对象。如在HiQ v. Linkedlin案中,法官对数据抓取可能侵犯的个人隐私权保持缄默态度,而对企业数据的竞争法品性着墨颇多,结果是消费者个人的权利救济机制将隐匿不见,企业之间的利益竞争乃至依托公权力的救济机制成为网络爬虫纠纷的诉讼主流。
通过反不正当竞争法来保护被网络爬虫抓取的企业数据已成为数据行业的通行做法,并集中体现出“数据正在改变竞争的性质与方式”的整体趋势。就此而言,反不正当竞争法和民法、知识产权法在规制网络爬虫的立法目的上存在差异:民法、知识产权法旨在保护具有权利属性的数据产品而禁止网络爬虫侵权行为,反不正当竞争法旨在维护市场竞争秩序而防止“食人而肥”等网络爬虫不正当竞争行为。但当数据私法确权存在争议时,利用《反不正当竞争法》第2条的一般条款对网络爬虫案件进行处理可以有效回避对数据权属认定难题和损害赔偿难题,因而更具司法便利性。
(三)网络爬虫侵害的刑法法益:传统法益与数据安全新型法益
大数据背景下网络爬虫侵权过程可能发生于数据处理的多个环节,尤其是抓取数据后泄露、滥用而产生下游犯罪、社会分层、消费操控等衍生性、继发性新型损害,使得传统侵权法难堪重任,网络爬虫被公法“俘获”成为必然。事实上,早在数据的私权争议之前,刑法就已经对数据表征的各类权利进行保护,而且比民法的保护力度更强,规范也更为完善,在立法和司法上都呈现出“先刑后民”的格局,如《刑法修正案(七)》《刑法修正案(九)》对数据犯罪、侵犯公民个人信息罪的增设、修订以及与之相关的多个司法解释,都为公检法系统依法侦查、起诉、审判网络爬虫提供了有力依据。
从保护法益的范围来看,刑法较之民法和竞争法更为周延,因为刑法并未从数据主体角度来确定数据法益,而是从数据所具有的表征传统法益和新型法益的多重功能出发,涵盖了所有数据私权在刑法领域的映射,为应对各类网络爬虫的法益侵害预留了足够的空间。
(1)网络爬虫侵害了数据表征的传统法益,依其特定内涵和识别标志可包括个人信息权、财产权、知识产权等。其中,具有“识别可能性”的数据表征了个人信息权,因为只有能够识别特定个人的数据才具有侵犯个人信息权的隐忧,应成为个人信息法的保护对象,这恰好与民法中的“个人数据”范畴相对应。具有经济价值和可转移性的数据表征了财产法益,主要体现为财产性利益,因为数据产生、利用、交易中所体现的利益形态和财产价值已不言而喻,数据主体相应的财产权应受到法律保护。具有“创造性”的数据表征了知识产权,具体包括“独创性”的著作权和具有“秘密性”的商业秘密权等,其价值在于维护权利人的专有控制力以及排他性处分、使用收益权能。上述数据表征的传统法益回应了民法中个人数据和企业数据的保护需求,是数据的私权属性在刑法领域的映射。
(2)网络爬虫侵害了数据表征的新型法益——数据安全法益。随着数字化技术的发展,数据利用渗透至生活的每一个角落,针对数据的窃取、篡改、破坏、扩散等行为日益增多,并转化成整体的资讯风险,对数据主体的使用、处分权能造成极大威胁,因而产生了针对数据自身安全的独立保护需求。这催生了新的数据法益——数据安全法益,包括数据的保密性(confidentiality)、完整性(integrity)和可用性(availability),旨在保护数据利用的三个面向(CIA triad):数据的“保密性”是指确保数据免受未授权人探知、获悉、使用;数据“完整性”是指确保数据不被修改或损害;数据“可用性”是指确保权利人能及时、有效地获取、使用数据。当前,各国主要通过“身份认证、访问控制、安全管理审计、平台基线配置等大数据平台安全技术,以及数据防泄漏、业务数据风险管理、结构化和非结构化数据保护等安全制度,确保数据的保密性、完整性、可用性”。数据安全法益弥补了民法对非结构化数据的权利的忽视,并采取预备行为实行化的策略将网络爬虫非法获取数据的行为纳入刑法保护范畴,如我国《刑法》第285条第2款规定的非法获取计算机信息系统数据罪。
综上可见,各国有关网络爬虫的法律规制都确立私法赋权与公法规制双管齐下的治理模式:私法赋权是通过确立数据的权利属性而对数据予以制度保护;公法规制则旨在规范数据收集、存储、转让、使用等。这要求我们将网络爬虫的归责体系建立在部门法数据权利谱系的分析基础之上,以全面判定网络爬虫可能落入的部门法规制范畴,确定其责任类型。
三、网络爬虫刑法规制的出路:访问权限与开放程度
随着社会将数字技术应用于更多有益目的,必须在法律层面明确区分网络爬虫的合法使用和违法犯罪。无论是私法领域数据确权还是刑法领域数据法益保护,网络爬虫抓取数据的正当性、有效性都源于数据主体的授权,这种授权与数据的访问权限和开放程度密切相关,由此衍生出的技术排他性规则和数据排他性规则构成了网络爬虫入罪判断的两个维度,并依法益侵害程度形成侵权责任→不正当竞争法责任→刑事责任的责任梯度。
(一)行为不法:数据的访问权限
数据的访问权限是界定网络爬虫法律责任的关键要素,要求对抓取是否被“授权”进行规范性解释。为了维护数据安全,防止非法抓取,通常要求数据网站主观上对数据具有保护的意思,客观上采取一定的安全防控措施。这些保护措施包括:(1)合约授权,即通过意思表示允许或禁止他人访问、获取数据。如Facebook、LinkedIn、eBay、Craigslist等都在其网站中设置爬虫协议、用户协议、权责声明、使用条款、服务条件等对网络爬虫进行限制。(2)技术措施,即通过设置各种技术性手段来监控、防止数据抓取。如监控网站流量、设置身份验证措施等。违反合约授权或突破技术措施意味着对数据权利的侵犯,但合约授权和技术措施所体现的数据保护意愿、自治能力及法律实效均不同,所承担的法律责任也不相同。这构成规制网络爬虫的第一个维度,并决定了其民事不法与刑事不法的界限。
1.违反合约授权的网络爬虫仅承担民事责任
对于网络爬虫可能违反的合约授权类型包括数据网站单方面授权的意思通知和数据网站与用户之间存在合同的情形。
首先,基于数据网站单方面授权的意思表示。该观点认为网络爬虫违法性判断取决于数据网站允许抓取的意思表达。重点考察:其一,数据网站如何通知用户其限制访问的意思。积极的意思表达通常被认定为有效的意思表示,而消极的不表达则难以起到禁止抓取的作用。其二,何种内容的通知有资格作为抓取限制。如果将所爬取的数据用于未经授权的目的,则违背了数据网站的限制访问意思。实务中基于数据网站单方面授权的意思表示包括基于使用条款和其他单方面声明的授权,如网站上的告知、警告、弹窗等,以及数据产品中的备注说明、解释等,典型的是爬虫协议,会告知允许或禁止抓取的数据范围。只要有足够的证据来证明通知意思到达了网络爬虫并且被阅读理解了,则违背通知意思的数据抓取是“未经授权”的。美国判例强调数据网站限制抓取的意思表达必须以访问用户所能明确知悉的方式来告知,否则不承认其法律效力。如在Cvent, Inc. v. Eventbrite, Inc.案中,法院认为原告的限制抓取的意思表达“未能以用户可能注意到的方式显示在网站上”,因为访问链接“被埋在第一页的底部,字体非常小,并且条款本身非常长而难以被完整阅读、理解”,因而对于没有积极采取安全措施阻止他人抓取数据的数据网站,难以承认其损害。同样地,在2006年我国泛亚诉百度侵犯著作权案中,法院最终认定,如果被链接网站没有建立禁链的协议,对搜索引擎服务系统而言,意味着对该网站可以互联互通、信息共享。因此,被告提供搜索引擎服务并没有侵犯原告著作权的主观故意和过失,不构成著作权侵权。
其次,基于用户与数据网站之间的合同关系。该观点认为,网络爬虫违法性判断取决于访问者与数据网站之间是否存在明确的合同关系,重点考察抓取行为是否违反了网站的用户协议、使用条款或服务条件等。当前几乎每个数据网站都部署了服务条款作为访问网站的内容条件,在用户访问数据时,双方受到隐含或明确规定对数据访问权限的合同约束。如果数据网站在其使用条款中包括了访问者不能获取的数据,而访问者继续获取数据,则数据网站可以提起违约诉讼。这类合同通常涉及点击生效协议(clickwrap)或浏览生效协议(browserwrap)。在点击生效的情况下,网站用户在使用之前点击“我同意”或“我接受”等选项就表示已同意数据网站的授权内容并受合同法的约束。相比之下,浏览生效协议只有使用条款的链接出现在网站(通常是在一个不显眼的地方,如网页的最底部),此时,数据网站必须显示实质性或建设性的合同条款,以确定授权内容的拘束力。在这类案件中,法院通常会评估:其一,数据网站是否对数据抓取给予了合理的条款通知或明确同意。如用户协议、服务条款、权责说明等都表明了数据主体的授权内容。其二,何种意思表达有资格作为访问限制。数据网站基于自身利益的单方面规定显然不如网络空间公认的社会规范更具认可度。其三,用户是否对数据访问、使用的合同条款进行了实质性的了解并作出真实的意思表示。当数据网站合同条款的内容过于专业、内容晦涩且被置于不易被用户阅读的位置时,判例对该合同条款的效力会存在争议。
合约授权体现了数据网站对数据的“弱”保护意愿,是披着契约外衣的“私立规则”,不具有技术上的强制作用,即无论网站所有者在合同条款中服务协议和终止信、停止函的措辞如何,违背合同规定的数据抓取都只构成违约责任,应采用传统的合同法规则和补救措施予以规范和制止。显然,“合同既是实现此类数据信息的重要工具,又是行使其权利的法律边界”。值得关注的是,合约授权意味着由数据网站依据自身利益来设定数据抓取的权利义务,进而影响“抓取”的违法判断。这被批判为通过授予数据网站广泛权限来定义“授权”,实质是将网络爬虫违法犯罪的判断委托给数据网站,使得网络用户普遍面临入罪风险,严重侵犯了受宪法保护的网络行为。尤其是在数据竞争背景下,数据网站的使用条款可能禁止竞争对手访问该网站,从而造成数据垄断并影响数据流通。
2.故意避开或强行突破网站技术措施的网络爬虫需要承担刑事责任
美国学界在批判前述合约授权理论的缺陷时提出了代码理论,认为只有回避或突破计算机信息系统中代码屏障的访问才是非法的。当数据网站希望借助网络来保护其数据安全时,通常会对计算机软件进行编码,以授予特定用户对数据的访问权限,同时将其他人排除在访问范围之外。这种方法其实通过计算机代码来创建一个屏障,以阻止用户超越其在网络上的访问权限。当抓取者绕过受保护的计算机的代码屏障时,就是未经授权访问、抓取数据。美国著名数据犯罪专家奥尔·科林(Orin S. Kerr)教授在最新研究中认为这种代码机制是身份验证。虽然网络是开放的,但数据网站通常会对网站访问权限进行限制,以区分开放空间和封闭空间。身份验证恰好创建了一个必要的屏障,既可以保护隐私,又可以在网上划分公共访问权限。因此绕过身份验证时应被视为“未经授权”的非法侵入网络空间。典型的身份验证机制是密码认证,如在登陆某个网站的时候需要输入账号和密码,这就在暗示用户需要通过密码来获取访问权限,如果绕开了认证予以暴力访问,那么可以被推定为“未经授权”而构成犯罪。而事实上,除了身份验证措施之外,数据网站采取的防止爬虫的常见技术手段还包括IP限制、验证码、登陆限制、数据伪装、参数签名、隐藏验证和阻止调试等。这些反爬技术措施在维系数据网站服务质量的同时确保了数据不被爬取。
代码理论体现了数据主体对数据的“强”保护意愿,是依据技术措施来确定网络爬虫的行为边界,能在用户隐私保护与数据共享之间划定明确的界限,当抓取者在明知没有授权而故意避开或强行突破技术措施时,属于“未经授权”访问或获取数据。与违反合约授权的数据抓取相比,其危害更为严重,行为人应承担刑事责任。显然,相对于合同责任是基于数据网站的利益损害进行的主观违法判断而言,代码理论是以计算机访问技术为基础作出的客观违法判断,能更明确无误地传达数据网站允许抓取的数据范围,而使抓取者无需担心因违反合同限制而被起诉。近年来,美国网络爬虫诉讼的判断标准已从合约授权理论转向代码责任理论,以阻止有害的网络爬虫并保护有益的网络爬虫。如在Facebook v. Power Ventures案中,Power公司开始具有访问Facebook公司数据的权限,但Facebook以停止信函告知Power撤销其访问授权后,Power公司仍故意无视撤销许可,通过技术设置规避Facebook发送的互联网协议(IP)壁垒并访问了受密码保护的Facebook会员账户档案。后法院认定,当抓取者明知没有获得访问授权而突破技术保护措施时属于“未经授权”访问计算机,应承担CFAA下的刑事责任。
代码理论与我国数据犯罪的立法规定和司法解释不谋而合,都认为网络爬虫只有规避、绕过、突破计算机技术屏障时才入罪。如我国《刑法》第285条将非法获取计算机信息系统数据罪的行为要件明确规定为“采用侵入或其他技术手段”。最高人民法院、最高人民检察院2011年8月1日颁发的《关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》第2条对于“专门用于侵入、非法控制计算机信息系统的程序、工具”的定义也强调其“具有避开或者突破计算机信息系统安全保护措施”。实务中判例多根据数据网站设置的技术安全保护措施对访问权限进行认定,并将突破安全措施的访问、抓取行为视为对计算机信息系统的“不法侵入”。在我国首例利用“爬虫”技术抓取视频数据案中,上海晟名网络科技有限公司使用“tt_spider”软件抓取被害公司信息系统中的视频数据,在抓取过程中使用伪造的device_id绕过服务器的身份验证,使用伪造的UI和IP绕过服务器的访问频率限制,从而进入被害公司计算机信息系统获取了视频数据。法院认定被告人使用技术手段绕过服务器身份校验等系统保护措施并获取服务器中数据,属于未经允许进入其计算机信息系统,构成非法获取计算机信息系统数据罪。
(二)对象不法:数据的开放程度
数据网站有权决定数据的公开或共享的范围和程度,除非涉及公共利益或其他强制性要求。显然,数据的性质决定了网络爬虫的正当性和有效性;数据的独占性与价值越弱,法益保护需求就越低,网络爬虫被认为犯罪的可能性就越小。因此,数据的开放程度成为规制网络爬虫的第二个维度,并决定了其抓取数据行为的侵权内容和法益侵害实质。
1.抓取开放数据的网络爬虫无需承担法律责任
开放数据是指任何人可在任何时间、地点访问、使用的数据。数据开放意味着数据主体放弃了数据的控制权和对价获取,且不排除任何人利用。一旦数据主体将数据置于公众可以自由获取、利用的状态,数据即转化成公共物品。除非存在十分充分的理由,否则不宜在法律层面赋予私人主体对数据的支配力,使其有权控制数据的传播范围并独占其蕴含的各项价值。
对数据的开放意味着权利人同意他人访问、获取数据且自愿承受相关不利后果,因而阻却违法性,即“同意不生违法”(volenti non fit injuria)。这种数据公开的同意在规范功能上成为数据处理行为合法与不法的泾渭界限,在规范效果上成为数据流动走向数据控制的阀门。
首先,对公开数据的抓取阻却民事责任,不构成侵权行为。在民法领域,被害人同意向来被认为是侵权责任的免责事由。被害人就他人访问数据作出有效同意时,将构成个人信息权的违法阻却事由,他人的损害行为不具有违法性,无须承担损害赔偿责任。就个人开放数据而言,社会公众可自由、正当获取、利用,数据主体不得因为网络爬虫技术的应用来追究他人侵权责任。我国司法解释和法院判例也都承认经被害人同意授权的数据抓取行为具有阻却侵权责任的效力。如2014 年10 月10 日最高人民法院颁发的《关于审理利用信息网络侵害人身权益民事纠纷案件适用法律若干问题的规定》第12条第一款第一项规定,网络用户或者网络服务提供者“经自然人书面同意且在约定范围内公开个人信息”,不承担侵权责任。根据我国《民法典》第1036条第一项的规定,在权利人同意范围内合理处理其个人信息的行为不承担民事责任。就企业开放数据而言,互联网领域的双边市场特性和经营目的决定数据网站不得追究网络爬虫的侵权责任。当前,多数数据网站一边通过提供免费数据资源来吸引更多的基础用户,另一边面向广告商提供收费业务或向用户提供其他增值服务来获取利润,如通过数据访问、获取来获得点击量、流量等,由此形成了“基础网络服务免费+增值服务收费+广告服务收费”的经营模式。这些数据网站主动免费向公众提供的数据资源,符合互联网互联互通和开放性使用需求,网络爬虫可自由抓取、使用。
其次,对公开数据的抓取也阻却刑事责任,不构成犯罪。刑法的目的在于保护各类数据权利,如果数据主体主动将所有人能查看、获取的数据在网站上公开,意味着授权公众查看这些信息。这种作为法益自决权内容的“权利人同意”在刑法教义学上被称为“被害人承诺”,具有阻却违法性的功能。因为根据“保护必要性阙如原理”,当权利人放弃自己权利保护时,将导致刑法保护法益阙如,该同意具有排除国家刑罚干涉的机能。从技术层面而言,一旦数据网站选择了公开数据,就不能再通过使用协议或技术授权规则来增加网络爬虫“未经授权”的刑事风险。对于这类缺乏可识别性管理措施,无需注册、登录且可以随时访问、获取的公开数据,抓取行为只是加快了数据的获取速度,没有改变数据的存在状态,不构成犯罪。[在HiQ v. Linkedln案中,一审法院也认为当用户访问的数据是对公众开放时,不属于“未经授权”访问计算机,不承担CFAA中的刑事责任。
2.抓取限制重新使用数据的网络爬虫需承担民事责任
限制重新使用的数据对访问、获取不加限制,同意他人知悉、获取,但是对数据被获取后的重新使用方式存在限制,尤其是不能使用所抓取的数据来侵害数据网站利益。典型的是各类数据企业的网络APP或视频,对注册用户开放使用,用户可以在权限范围内浏览、下载相关数据,但不得在后续使用中侵犯相应数据权利。
由于此类数据并不拒绝有访问权限的网络爬虫,因而具有访问权限者抓取这类数据并不构成犯罪。如在United States v. Nosal案中,Nosal曾在猎头公司Korn工作,在辞职后他说服了一些仍在Korn工作的同事利用他们的登录凭证从公司计算机下载机密数据传递给自己以开展竞争性业务。法院认为现有员工使用其有效凭证登录公司数据库说明其拥有访问权限而未违反CFAA,即便他们对数据的使用违背了当初被授予知悉数据的目的。因为CFAA中“超越授权”的立法目的在于惩罚黑客规避技术准入障碍的行为,而不是盗用商业机密,因而“超越授权”仅限于违反对数据访问的限制,而不是对其使用的限制。而Nosal的同事有权访问公司的数据库并获取其中的数据,因而不符合“超过访问权限”,不构成犯罪。但网络爬虫对被许可获取数据的后续不当使用行为仍可能被追究其他部门法责任。虽然民法领域的数据权利可分为个人数据权和企业数据权,但数据抓取技术的海量规模使得大数据侵权纠纷往往涉及不特定个人数据,加之个人数据侵权损害证明困难,导致个人数据权缺乏民法上的可诉性,因而,大数据的权益配比往往聚焦于数据企业间的整体大数据竞争。实务中网络爬虫抓取限制使用的数据纠纷主要是知识产权纠纷与不正当竞争纠纷。
首先,网络爬虫可能承担知识产权侵权责任。数据作为非实体物,其法定权利最有可能成为我国知识产权下的著作权。在信息网络环境中,网络爬虫侵害著作权的行为又多指向信息网络传播权,即以有线或无线方式向公众提供作品,使公众可以在其个人选定的时间和地点获得作品的权利。网络爬虫侵害作品信息网络传播权的情形包括两种:其一,直接侵权行为,即未经许可通过信息网络提供权利人享有信息网络传播权的作品、表演、录音录像制品等。如数据平台通过爬虫技术将他人享有信息网络传播权的视频内容抓取后存储到自己的服务器上,经过转码或适配后直接向用户提供观看服务,构成对该作品信息网络传播权的直接侵犯。其二,间接侵权行为(教唆、帮助侵权),即网络服务提供者通过网络基础设施或者网络服务为他人实施的侵权行为提供实质性帮助,且主观上有过错的侵权行为。2006年7月国务院颁布的《信息网络传播权保护条例》将“网络服务”分为接入服务、缓存服务、存储服务、搜索链接服务四种类型。其中存储服务和搜索链接服务与信息网络传播行为的关联度高,是实务中的主要规制类型。如果数据平台对于用户抓取并上传的短视频未尽审查义务而存在过错,则可能构成帮助侵权或者教唆侵权。对数据平台的主观过错,需要综合考虑其专业程度和行业地位、涉案作品的知名度和热度、平台方是否对涉案作品进行人工干预、接到通知是否及时删除侵权作品、是否具有诱导用户上传侵权作品等因素来综合衡量。
其次,网络爬虫可能承担不正当竞争法责任。由于知识产权保护有严格的法定框架和适用条件,且知识产权侵权损害赔偿数额远低于不正当竞争损害的赔偿数额,因而实务中多数企业对网络爬虫寻求反不正当竞争法规制。现代竞争法从市场参与者基于竞争享有的利益角度出发,将竞争过程中经营者自由竞争的利益、消费者自由决策的利益和竞争不受扭曲所产生的社会公共利益作为认定不正当竞争的关键因素。对被抓取数据重新使用的正当性评价,需要对上述利益进行综合权衡,判断数据企业是否通过损害其他市场参与者利益的方式不合理地获得了竞争优势。从竞争者角度而言,主要是对数据使用后果进行经济利益分析,确保其财产性价值不因数据复制、使用而贬值;从消费者角度而言,则考虑其自由决策所依赖的基本条件是否受到破坏、私人领域是否受到侵害。如在“大众点评诉百度案”中,百度抓取大众点评平台上的用户评价数据后大量用于“百度地图”和“百度知道”,构成了对大众点评的“实质性替代”,消减了其竞争优势和交易机会,消费者的知情权、选择权也受到侵害,只是未被明显感知,因而属于不正当竞争行为。此类判例中,数据再利用行为对数据资源的依赖性远大于数据抓取技术本身,并没有对数据资源进行创造性利用,也没有为消费者提供更好的差异化服务,属于典型的“搭便车”不正当竞争行为。国外判例也认为这类数据抓取行为的本质是寄生行为,是盗用数据资源并损害经营者与用户关系的搭便车行为。
3.抓取限制访问、获取数据的网络爬虫需承担刑事责任
限制访问、获取的数据是指仅限于特定群体、特定目的、特定范围内访问、获取的数据,是在尊重数据网站产权的前提下允许其附条件地选择数据使用人、决定数据的使用目的、方式、对价等。这类数据旨在保护数据不被知悉、窥探的状态,是为保护特别重要的数据权利安全而将刑法防线前移,提前对网络爬虫进行干预、规制,因而对于未能获得授权或超越授权的数据抓取行为可能入罪。
在刑法领域,网络爬虫突破限制访问可能构成非法侵入计算机信息系统罪。这取决于被侵入的计算机信息系统的性质以及访问是否被授权。根据我国刑法第285条第一款的规定,违反国家规定,侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的,可构成非法侵入计算机信息系统罪。该罪旨在保护特定领域的计算机信息系统安全,因此,网络爬虫在无授权情况或超出授权范围使用账号、密码登录涉及国家安全和国家秘密的政府内网、国防建设、尖端科学技术领域的计算机信息系统,可构成非法侵入计算机信息系统罪。
网络爬虫抓取限制获取的数据依照侵害的不同法益构成不同犯罪。其一,网络爬虫抓取表征传统法益的数据构成传统犯罪。奥林·科尔(Orin S. Kerr)认为,随着越来越多的权利客体被以数据形式予以储存、使用,数据表征的传统法益内涵日益丰富,但这只是传统法益的网络化、数据化,并没有对传统刑法提出新的挑战,因而仍可以适用传统刑法罪名来应对。首先,抓取表征个人信息权的个人数据应构成侵犯公民个人信息罪。根据我国《刑法》第253条第3款规定,窃取或者以其他方法非法获取公民个人信息的,构成侵犯公民个人信息罪。因而,网络爬虫抓取具有“可识别性”的个人数据,可构成侵犯公民个人信息罪。如被告人马某为牟利,于2018年2月至4月间使用自己编写的爬虫程序窃取APP及网站内包括姓名、联系方式等的公民个人信息约20万条出售给苏某某,非法获利共计人民币2﹒4万元。法院审理后认为马某违反国家相关规定,窃取公民个人信息后向他人出售,情节特别严重,其行为已构成侵犯公民个人信息罪。其次,抓取表征财产权的数据应构成财产犯罪。其行为实质是通过财产犯罪的方式来获取财产性利益,在当前我国学界普遍认可财产性利益可成为盗窃罪、诈骗罪等犯罪对象的背景下,将网络爬虫抓取财产性数据的行为认定为财产犯罪应无疑议。因而并不需要像民法学者所建议的在我国刑法分则“侵犯财产罪”章中增设“侵犯数据资产罪”,以将具有财产权属性的“数据资产”纳入保护范畴。最后,抓取表征“创造性”知识产权的数据应构成知识产权犯罪。如实务中编写爬虫软件从互联网上抓取具有“独创性”的小说、知名视频的行为多被认定为侵犯著作权罪。
其二,网络爬虫抓取表征数据安全法益的数据应构成数据犯罪。根据我国《刑法》第285条第2款的规定,违反国家规定,侵入国家事务、国防建设、尖端科技领域以外的计算机信息系统或采用其他技术手段,获取该计算机信息系统中储存、处理、传输的数据的,构成非法获取计算机信息系统数据罪。本罪的“非法获取”是指非法改变了数据主体所设定的数据“不被知悉”的状态,进而非法取得了本应“保密”的数据,侵犯了数据的保密性需求。在行为类型上包括未经授权访问、获取数据的外部网络黑客行为和超越授权访问、获取数据的内部网络黑客行为。如被告人黄某、翁某自2014年5月15日开始,以非法获取cookie数据为目的,编写了用于获取cookie的javascript,存储在其租用的阿里云服务器中,非法获取淘宝用户cookie达2600万余组,并将获取的cookie存放在虚拟队列中。黄某又利用翁某事先编写的网络爬虫程序读取虚拟队列中的cookie并获取淘宝用户的交易订单数据(内容包含用户昵称、商品价格、交易创建时间、收货人姓名、收货地址等)达1亿余条。后法院认为黄某、翁某构成非法获取计算机信息系统罪。
综上可见,数据的访问权限与开放程度构成了网络爬虫归责体系的两个维度,其中,数据的访问权限是判断网络爬虫入罪的形式标准,而数据的开放程度则划定了网络爬虫入罪的实质标准。对此,域外判例也认为有益的网络爬虫通常具有如下特征:(1)抓取的是已公开且不受代码保护的数据,如没有身份验证或其他技术安全措施保护。(2)抓取的数据应该用于为网络用户提供了效率或方便性。(3)数据抓取没有损害数据网站的利益,即没有妨碍数据网站的运行或破坏数据网站盈利等。值得注意的是,当网络爬虫突破数据网站技术措施而抓取其公开发布的数据时,虽然抓取手段非法但对行为对象无害,应基于实质可罚性的立场通过实质标准予以出罪。显然,网络爬虫“获取”数据行为的评价可能在责任类型上存在公法和私法的分界,但在“利用”数据行为的评价上则只涉及私法主体之间的权利保护和利益分配。
四、结语
当网络爬虫逐渐成为互联网生态系统中的一个重要组成部分,数据网站必然向法院寻求抓取、使用数据的法律边界。这凸显了数字经济时代数据经营者对数据资源的重视与争夺,以及建立在数据流动规律基础上的数据权利化与数据分享性的理念冲突和法律关切。但这一问题不可能通过一般性的犯罪评估予以解决,而必须“清晰划分相关领域的边界,平衡相应的被保护利益,创立新的均衡机制”。这启发我们将网络爬虫的司法规制建立在数据权利谱系的分析之上,从民法、竞争法、刑法等多个部门法形成私法赋权和公法管制的数据保护体系。在这种保护体系之下,可发现网络爬虫正当性和有效性的基础源于数据网站的授权,这种授权与数据的访问权限和开放程度密切相关,需要关注数据技术上的排他性和权利上的排他性。因此,数据的访问权限和开放程度这两个维度形成了网络爬虫的归责体系:就形式标准而言,对于违反数据网站合约授权的网络爬虫,仅承担民事违约责任,而回避或突破数据网站技术措施的网络爬虫则面临刑事责任;就实质标准而言,网络爬虫抓取开放数据无需承担任何法律责任,抓取限制重新使用的数据面临知识产权侵权责任和不正当竞争法责任,抓取限制访问、获取的数据则面临刑事责任。