段一鸣｜合法爬虫行为的入罪思考——大数据环境下公民个人信息保护视角

Original 段一鸣上海市法学会东方法学 2022-11-11

收录于合集

段一鸣

复旦大学法学院研究生

要目

一、爬虫行为对公民个人信息可能带来的侵害二、爬虫行为侵犯公民个人信息的两个面向三、大数据背景下爬虫行为侵犯公民个人信息的规制路径结语

网络爬虫行为目前已进入刑法视野，而爬虫技术的不当使用也会损害到公民的权利。公民个人信息具有其特殊性，在经过大数据处理后可用性极高，传播能力极强，会给其他犯罪提供便利，必须要谨慎对待。符合协议的多次爬虫目前不存在形式违法性，所以现有的法律法规很难针对性地进行规制，但其具有的实质违法性不可忽视，出于防患于未然的需要，有必进行入罪的思考。大数据爬虫行为入罪具有理论正当性和现实可能性。现有的刑法分则并不需要修改，通过对相关行政法规的解释和补充即可完成入罪。

网络爬虫，是指于计算机技术和互联网技术，能够按照一定的规则或者要求，自动地、批量地从互联网上下载、拷贝或获取信息的程序，也可以说是一种技术。爬虫技术在最初产生的时候是为了弥补通用搜索引擎的不足，辅助人们从大量的互联网数据中获取有用的信息，具有技术中立的属性。这里说的中立，是相对于所有使用者而言的，因为爬虫本身在技术上就必然会侵犯互联网信息中有关版权的部分，所以网络社会上达成了一个共识，就是robots（Robots Exclusion Protocol网络爬虫排除标准）协议，这个协议可指示爬虫程序，目标网站是否允许进行信息的抓取行为，结合自动化处理，就可以正确地进行信息的获取，而不损害到其他人的权利。但这个协议就如同计算机领域的许多其他协议一样，可以说是“君子协议”，不是什么技术壁垒，是行业从业者互相尊重的体现，好比私家花园的门口挂着“闲人免进”，尊重者绕道而行，不尊重者依然可以推门而入。虽然目前国内外对爬虫协议的效力尚无定论，但表明了如果不遵守则有可能有承担法律责任的风险。

近年来，随着互联网和计算机的不断普及，这项技术愈发广泛地被使用，如许多互联网公司运用爬虫来获取用户位置、喜好等信息，结合大数据处理就可以针对性进行产品推广，提高效率，是一种双向互利的应用。但也有许多不法分子利欲熏心，利用这项技术实施了损害他人利益的行为。如2012年360搜索违反协议，非法抓取百度公司旗下若干网站信息，被裁定赔偿70万元。2016年，百度公司未经大众点评授权，在自己旗下的若干网站中非法使用了大众点评的用户点评信息，被裁定赔偿300万元。2017年，晟品网络科技有限公司负责人违反协议，破解了今日头条服务器的保护措施并抓取信息，被判决非法获取计算机信息数据罪，处有期徒刑和罚金刑，是国内首起“爬虫入刑”案件。由此，可以看出，爬虫技术作为犯罪工具已存在相当规模，对其进行刑法上的规制也事不宜迟。但从广义上来说，上述案例中被侵害的大多是企业的商业利益，而笔者认为，爬虫技术对于公民个人信息的侵害也是必须要加以考虑的，甚至应当是刑法就爬虫行为着重关注的部分。

一、爬虫行为对公民个人信息可能带来的侵害

就涉及公民个人信息的爬虫行为而言，目前已经发生诸多案例。例如，2019年北京巧达科技因其简历数据业务被查封，原因在于通过大数据和爬虫技术获取并汇总了多家招聘网站的账号信息，并提供相关功能，为企业类用户提供了大量便利，存在同时侵犯商业利益和公民个人信息之嫌。2019年央视315点名“社保掌上通”，因为该app涉嫌窃取用户社保信息并使用，随后该app从应用商城下架，所属公司也被深交所下发询问函。瑞智华胜公司通过爬虫软件非法抓取30亿条公民个人信息、用户账户密码，并进行使用、贩卖来谋取巨额非法利润，相关非法经营人员被判有期徒刑或罚金。上述案例都是在爬虫抓去的信息内容上都涉及了公民个人信息，在司法实践中多以计算机相关犯罪或商业机密相关犯罪进行认定，笔者认为，这在司法实践上是没有问题的，在形式上它们都违反了爬虫协议和相关法律法规，在实质上也对其他公司和国家利益造成了损害，根据罪刑法定原则被认定为相关罪名是合理合法的。但笔者想在这里提出的是，在不违反爬虫协议的情况下，以合法的手段从其他网站抓取用户个人信息并加以利用，在刑法上该如何看待？

根据2016年发布、2017年实施的网络安全法第41条和42条的规定，“网络运营者收集、使用个人信息，应当遵循合法、正当、必要的原则，公开收集、使用规则，明示收集、使用信息的目的、方式和范围，并经被收集者同意”“网络运营者不得泄露、篡改、毁损其收集的个人信息；未经被收集者同意，不得向他人提供个人信息”，都在形式上对爬虫抓取个人信息及其使用进行的规制，在一定程度上对公民个人信息起到了保护的作用。但笔者认为，该条文可能存在缺漏，即该法规中的抓取行为，是发生在网络运营者和个人用户之间的，而根据现实来看，即使网络运营者在用户协议中明确醒目地表示会开放爬虫协议，或者说是允许信息的二次“被抓取”，用户也不会对其提出异议。因为，在用户可见的范围内，其信息的可用性是有限的，并不足以谨慎对待。而笔者在此则要提出一个概念，就是在二次抓取的情况下，公民个人信息的“量变与质变”，即公民个人信息相对于其他爬虫可获取信息的特殊性，以下就这一概念展开论述。

笔者认为，公民个人信息在互联网上流通并被使用的，分为三个形态，分别是统计态、识别态、可信态。第一形态，统计态，具有统计学上的价值，就如网络安全法第42条中规定，这些信息是“经过处理无法识别特定个人且不能复原的”，所以商业公司在运用这些信息的时候，大多是用大数据处理的方式，来得出某一地区、某一行业、某一时间段的信息价值，也就是非个人的某一群体的信息价值，这样的信息利用只要在符合爬虫协议及相关法律法规的情况下是没有问题的，也是应当从技术革新的角度加以提倡的。而如果第一形态的信息是通过非法手段，违反协议获取的，实际上只存在对其他互联网运营者权益的侵害，存在不当竞争等行为之嫌，而很难说是侵害了公民个人信息背后隐含的个人法益，或者说是公民权利。第二形态，也就是识别态，则是能识别特定个人的指定信息，如某人的姓名、身份证与其工作场所的结合；某人的学生证号与其专业、所在学校的结合。这种信息一般是通过某些特定网站，如就业招聘网、考研辅导网等，在一次获取时一般都是合法的，并且在信息可用性上范围狭窄。

而如前文所述，这种特定网站有可能在用户授权的情况下允许二次爬虫（可能用以规避相关法律法规以出售信息牟利，这种情形在此并不展开），从而用户个人信息的泄露，常见的二次使用场景就是产品推销、辅导产品定向推销等，危害性也是有限的。而第三形态，可信态，则是通过爬虫收集的识别态个人信息的结合体，经过大数据处理后的状态。在获取手段非法的情况下，获取这些信息自然不具有合法性，并无太大的论述空间。而在合法获取，也就是满足二次或多次爬虫协议的情况下，这种信息就会具有很大的可用性，在犯罪分子手中也就具有了很大的破坏性。最简单的例子，就是诈骗类行为，如校园贷、电信诈骗。一般的个人信息结合体，在犯罪人的手中具有局限性，因为信息过于简单，犯罪人在诈骗、敲诈、勒索等行为中很容易被受害人识破而失手，即使有较多的信息组合使用，也只是处于 “量变”的阶段，在可用性上仍然受限。而一旦公民个人信息经过大数据处理，密切地结合起来时，信息的可用性就产生了“质变”。如在校园贷中，犯罪人通过大数据处理的爬虫信息，获取的学生的家庭信息、财务状况、学籍信息、消费习惯等，很容易针对性地选择被害人，犯罪成功的概率以及造成的损害会大大加强。而在电信诈骗中，通过收集公民个人信息如常居地、家庭成员、财务状况、犯罪史、投资喜好等，精通“表演”的诈骗人可以轻而易举地在电话的另一头扮演任何角色，假警察、假销售、假银行柜员都不在话下。再谨慎地普通公民在一连串紧密相关、真实有效的信息面前也会放下防备。此时，大数据环境下爬虫信息的超强可用性使得公民的人身安全、财产安全等重要权益都完完整整地“裸露”在了互联网社会上，任何有不法企图之人都能加以利用。

除此之外，公民个人信息还具有其他常见犯罪客体，或者说是被侵害法益所不具有另一特殊性质，即可复制性。可复制性是计算机数据的一个重要特性，不同于著作权犯罪中的常见复制行为，计算机数据的复制可以说是无成本、无时效、无难度限制地，任何普通人都能够轻易地通过的下载工具、计算机自带的复制粘贴功能对公民个人信息进行备份。这与“制作、复制、贩卖、传播淫秽电子信息牟利行为”中的复制行为看似类似，但在结构上完全不同。淫秽电子信息如色情视频、色情文学作品，对其进行打击是因为它们损害了国家对于淫秽物品的管理秩序，而不是因为色情内容传播损害了公民的某些权利，本质上亦是基于高速的科技、社会发展对刑法第363条做出的合理的扩大解释，它们是同源的。淫秽电子信息离开犯罪牟利者或者是网络监管者掌控后，其造成的影响并不会扩大，正如我国刑法并不处罚个人仅持有或使用淫秽物品的行为，淫秽物品本身造成的损害也极其有限。对于公民个人信息则不同，如果把互联网社会比作统一的意识体的话，公民个人信息在经过传播和备份之后，由于其特殊的可用性，会像记忆一样存在于互联网上。而这一点也是有迹可循的，比如前些年引起社会各界重视的“裸贷门”事件，间接导致了“套路贷”的爆发，在公检法强势介入后才得以收尾。裸贷门中的公民个人信息仅仅是借贷人所拥有的部分联系人信息及个人私密照片，就已经足以引起社会动荡，而经过互联网的消化记忆，这些信息甚至在今天还可以轻易地获取到，导致借贷人的权益持续受到损害。“裸贷门”中仍处于识别态的公民个人信息，经过传播、复制就有如此“杀伤力”，那么经过爬虫批量获取，以及大数据处理的可信态公民个人信息，可能，抑或是在未来必将带来的损害显而易见。

综上，笔者认为，那些借爬虫协议和法律法规所赋予“合法性”，掩盖自身违法性质的大数据爬虫行为，有必要进入刑法的视野。

二、爬虫行为侵犯公民个人信息的两个面向

形式违法的爬虫行为及刑法规制

在公民个人信息保护方面，形式违法的爬虫犯罪，实际上就是违反了合法性原则或爬虫协议的行为，其考察的核心是“非法”要素。违反合法性原则，指的就是我国刑法第253条之一“侵犯公民个人信息罪”中的“违反国家规定”。爬虫本身作为中立技术，在进行数据抓取行为时应当符合国家法律、行政法规、部门规章等有关收集、处理、利用数据信息的规定。我国刑法第253条之一规定，构成侵犯公民个人信息罪的行为，必须首先是“违反国家规定”的行为，这里的“国家规定”，根据2017年6月1日施行的《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》（以下简称《信息犯罪司法解释》）第2条的规定，是指“违反法律、行政法规、部门规章有关公民个人信息保护的规定”。作为该罪前置法的国家规定，主要包括2016年11月7日全国人大常委会通过的网络安全法、2017年12月29日全国信息安全标准化技术委员会制定的《信息安全技术个人信息安全规范》、2013年7月16日工业和信息化部制定的《电信和互联网用户个人信息保护规定》、2012年12月28日全国人大常委会通过的《关于加强网络信息保护的决定》等。这些法律法规基本都确立了个人信息数据的取得使用等要遵循合法性原则。比如，《电信和互联网用户个人信息保护规定》第5条规定：“电信业务经营者、互联网信息服务提供者在提供服务的过程中收集、使用用户个人信息，应当遵循合法、正当、必要的原则。”《关于加强网络信息保护的决定》第1条规定：“任何组织和个人不得窃取或者以其他非法方式获取公民个人电子信息，不得出售或者非法向他人提供公民个人电子信息。”这些规定表明，技术中立的网络爬虫行为只要不当使用，也有认定其违法性的法律根据。除了这些前置法律法规外，2021年通过的个人信息保护法也对公民个人信息相关事宜进行了规定。违反爬虫协议，指的是违反robots协议进行的爬虫行为。如前文所述，robots协议作为一种“君子协议”，通过设置目录文件来“指示”爬虫程序什么数据可以被抓取，什么数据不可以。但由于其不具有强制力，可以视为互联网运营中的行业规则。而违反行业规则的爬虫行为，根据通说，可以认定是“以其他方法非法获取公民个人信息”之“非法”。上述两个层次，即形式违法的爬虫犯罪，在实践中通常会同时侵犯多种法益，如抓取友商合法获取的一手公民个人信息，同时侵害了友商的商业秘密、计算机相关权利等，又侵害了作为信息所有者的公民个体的权，此时就需要进一步判断是否构成想象竞合、法条竞合，进而以一罪从重处罚或数罪并罚。不过，这并非本文讨论的重点，如刘艳红教授等学者也对这种情况进行了分析，此处便不再赘述。

实质违法的爬虫行为及刑法规制

对于实质违法的爬虫行为的讨论，笔者赞同法益侵害说。为了论证本文对形式合法的爬虫行为的入罪观点，达成逻辑的连贯，在此先讨论不具备实质违法性，而具有形式违法性的爬虫行为。如刘艳红教授指出，行为人在权限许可范围内使用爬虫行为获取公民个人信息的，不属于“非法”，不应认定为犯罪。典型的情况就是行为人在有权限进行一定范围内数据抓取，而为了提高数据抓取的效率，采用了违反爬虫协议，也就是具有一部分形式违法性的行为，不应当认为构成侵犯公民个人信息罪。如公司内部负责程序的员工，为了提高工作效率，在系统允许其手动查看其他员工个人信息的情况下，该员工使用爬虫程序，破解了公司服务器的防爬设置，并不构成犯罪。首先是相对于公司而言，获取其他员工的信息是公司赋予其员工的数据权利，利用爬虫软件批量抓取和手动查看在行为的性质和结果上不存在差异，没有造成法益侵害，故不构成犯罪。而对于其他公司员工而言，所有员工都具有这种数据权利，可以推定在公司内部获取其他员工信息是符合知情同意原则的，亦不构成犯罪。由此可见，信息的获取范围，在判断合法爬虫行为是否侵害法益、构成犯罪的关键点。但本文同时认为，信息的可用性也很重要，对于爬虫行为的定性，考察范围不能仅限于“获取”阶段，更要涉及信息的“使用”阶段。

如前文所述，公民个人信息可以分为三个形态，其可用性，也就是识别力递增。在统计态中，合法手段抓取的公民个人信息由于失去的识别力，如果作为后续犯罪的原材料，很难产生破坏力，通常只涉及对其他主体财产权的损害。在识别态中，合法手段抓取的公民个人信息存在有限识别力，如果排除了形式违法性，其作为后续犯罪的原材料，能够造成的破坏力亦有限，如用于电话骚扰等，对于公民个人法益的侵害程度远不足以进入刑法的视野，大多由其他法律如治安管理处罚法来规制。而第三个层次，则是笔者着重关注的部分。在前文中，笔者提出了两个论断，即“允许信息的二次‘被抓取’，用户也不会对其提出异议，因为在用户可见的范围内，其信息的可用性是有限的，并不足以谨慎对待”。“一旦公民个人信息经过大数据处理，密切地结合起来时，信息的可用性就产生了‘质变’。”第一个论断是为了设定形式完全合法的情形。在以往情况下，公民授权信息被二次抓去，并不违反法律法规以及行业规则，信息的可用性也并没有产生质的变化，只是在互联网上传播的更为广泛了。但随着大数据行业的兴起，只要有足够的数据源，即使信息之间并不严格关联，也能够通过大量的计算来挖掘信息的可用性。在商业公司手里，这些被挖掘出的信息可以更好地为用户提供便利，让服务业更加个性化，是合法合规的，但在不法分子手里，就如前文所述，可信态的信息会使得传统犯罪的成功率更高，所以笔者希望去论证这种数据抓取行为，是应当受到管制的，也是有可能构成犯罪的。而在这种入罪化的论证路径上，笔者认为，存在这样一个“靶子”，即存在社会危害性的是对大数据处理过后的信息进行利用的其他犯罪行为，法益侵害并不是由爬虫行为造成的，而一定条件下的数据抓取、大数据处理行为本身又完全不存在形式违法性，此时对数据抓取行为进行刑法角度的规制，就引起了是否会违背罪刑法定原则，或有损刑法谦抑性的思考。对此，可以从以下几个角度进行考察。

1.是否存在理论正当性

首先是行为是否具备社会危害性。社会危害性这个概念在近年来的刑法学界中饱受批判。如有学者指出，如果社会危害性是犯罪的本质属性，而显然具有社会危害性的行为并不全都会收到刑法的规制，那么社会危害性就需要依赖刑事违法性，就变成了一种形式上的属性，产生了循环论证的困境。但笔者赞同社会危害性的判断也是有标准的，社会危害性解释了违法行为的本质，是主观恶性和客观危害的统一。有学者认为是客观实害或现实威胁，也是类似的观点。就上述大数据爬虫行为而言，考察主观恶性，就是要考察行为人是否明知自己所抓取的数据是否具有“质变”的可用性、是否明知这些信息有可能被他人所利用、是否明知他人的后续犯罪行为会造成法不容许的损害。如果行为人在 “明知”的情况下进行数据的抓取，即使不存在前文所述的形式违法性，合法的爬虫行为也会因为他人的犯罪结果而变得“无价值”，作为后续犯罪原材料的信息也是如此，主观恶性也得以证明。而入罪标准的客观危害性判断，应当从两个方面展开：一是行为现有或可能产生的规模。根据历次刑法修正案来看，许多在现实生活中极少数发生的犯罪行为都被予以了除罪化或轻罪化，就说明一种行为在社会上具有一定规模才会进入刑法的视野。笔者认为，大数据爬虫行为是符合这个标准的，前文中已经给出了目前民法、刑法领域对获取公民个人信息的案例，并不是个案。而作为后续犯罪的套路贷、校园贷、电话诈骗也已对许多公民造成了损害，刑法也已经介入。那么相比于在后续犯罪发生之后再进行规制，在信息传播的源头为何不可以进行规制呢？笔者是持肯定态度的，由于公民个人信息的特殊性，爬虫获取的公民个人信息经过大数据处理后，如果进入互联网流通，会造成非常严重的抽象危险。所以大数据爬虫行为满足社会危害性的标准。其次是刑罚的不可避免性。刑法作为最为严苛的法律，具有补充性、辅助性的特征。如果民法或其他部门法可以对某类行为进行规制的情况下，刑法不应当介入，非则会造成犯罪圈的不当扩大，侵犯公民权利。而目前从民法角度来看，目前只能够规制有限主体之间的权利义务，而大数据爬虫行为的特点就是全面，获取的公民个人信息动辄以百万、千万记，涉及的对象和客体众多，在行为的规制上民法实在无能为力。网络安全法、个人信息保护法等也只能作为前置法，为行政法和刑法提供支撑，而上文已经论证了大数据爬虫行为的社会危害性，行政法的处罚力度并不足以治理该类犯罪，所以刑法有必要对大数据爬虫行为进行规制。

2.是否存在现实可能性

首先是技术可能性，即有没有可能在大数据爬虫行为入罪后对其进行惩罚。在技术上包括犯罪人有没有被抓捕的可能。目前来看，随着互联网技术的发展，在网络上进行数据的交易在侦查阶段是具有难度的，但这并不代表不可能进行抓捕。从计算机技术的角度看，公民个人信息作为一个数据包，往往是通过文件或者链接的形式转移的，载体包括论坛、社交媒体、网盘等等，这和淫秽电子信息的存在和转移方式并无不同，而对后者的打击治理早已成为常态。并且，随着区块链理论逐渐普及，如果公民个人信息的流通能够在互联网上留下痕迹，网警自然可以追溯到源头进行抓捕。而就成本而言，比照跨国电信诈骗等需要耗费大量人力财力的犯罪，公民个人信息因为其受到国家的管制，大数据爬虫犯罪也应如此。再者，就是司法上的可能性，目前计算机相关犯罪已在司法实践上提供了大量经验，信息和数据在司法活动中也有其独特地位，综上，运用刑法来规制大数据爬虫行为是具有技术可能性的。

其次是社会的接受可能性。将原本并非刑法规制对象的行为纳入，需要考虑到社会各界的接受能力。对于民众而言，犯罪圈的扩大不能损害到他们朴素的法意识，要基于社会风俗、文化基础来判断民众是否能够接受，如果绝大多数民众都对此类行为持积极态度，刑法的介入就存在原则性问题，不过上文已经论述了大数据爬虫行为导致的后续犯罪的危害性，所以进行有限度的入罪是符合一般民众利益的。对于市场经济而言，大数据爬虫行为首先是一个技术，并不只针对公民个人信息，而一些对民众、社会有利的互联网功能依赖于这项技术，所以在犯罪行为的认定上不能与整个市场经济的利益冲突。不过，目前看来，绝大多数大数据爬虫行为是同时侵害了公民权利和商业利益的，并不是市场经济所认可的，所以在社会对于该行为的入罪化是有接受可能性的。

综上，在同时具备理论正当性和现实可能性的情况下，大数据爬虫行为应当予以犯罪化，但必须要符合罪刑法定等原则，在程序正当性上不能存在纰漏。

三、大数据背景下爬虫行为侵犯公民个人信息的规制路径

立法层面

前文已述，刑法对于公民个人信息的保护主要依赖于网络安全法和相关行政法规、规章，个人信息保护法、《数据安全管理办法》也将成为其规范的支撑。所以，就刑法分则而言，笔者认为无须进行改动。大数据爬虫行为的规制，即对遵守协议的多次爬虫的规制，笔者认为可以通过多种路径开展。

一是在行政法规中明确规定公民个人信息的收集必须得到一手授权，也就是否定爬虫协议对公民个人信息抓取所赋予的合法性。关于包括网络爬虫方式在内的数据收集行为的规制文件，根据笔者的检索，目前最新是国家互联网信息办公室发布的《数据安全管理办法》。该办法在第9条规定：“另仅当用户知悉收集使用规则并明确同意后，网络运营者方可收集个人信息。”概括的来说，该条规定即一手授权规定，要求网络运营商在收集用户一手信息前必须得到明确的授权，是十分有必要的。但该条规定仍然存在模糊之处，这一点可以结合第30条来思考，第30条规定：“网络运营者对接入其平台的第三方应用，应明确数据安全要求和责任，督促监督第三方应用运营者加强数据安全管理。”在典型情况下，接入第三方应用，指的就是没有一手授权的运营商使用有一手授权运营商收集的数据，但从该条字面意思来看，“接入”这一行为是在多方网络运营商合作运营下发生的，而根据前文的论述，这种情况只是公民个人信息在一手授权方收集后转移可能情况的一小部分。第三方应用与网络运营商之间的桥梁是二者的商业协议，而非爬虫协议或者说是爬虫行为。从这一点上看，《数据安全管理办法》并未在条文上对本文所指出的大数据爬虫行为，也就是符合爬虫协议的多次涉公民个人信息收集行为进行规制，是存在一定缺陷的。不过从第14条：“网络运营者从其他途径获得个人信息，与直接收集个人信息负有同等的保护责任和义务。”可以看出，无论从何处、以何种方式获取公民个人信息，数据的保护义务都是必须遵守的。而结合前文对公民个人信息特殊性的论述，笔者建议该办法原则上禁止第三方或其他网络运营商通过任何方式抓取涉及公民个人信息的数据。若第三方需要公民个人信息以供运转，那么在用户使用第三方功能，或第三方应用接入时必须重新以符合《数据安全管理办法》规定的用户协议或者同意书的方式来获取合法性。若有其他的运营商需要使用第三方获取的信息，同理也必须重新申请公民授权。当然，在涉及公共利益、国家安全等情况下原则上不需要一手授权，法律明文规定或国家机关发布的信息也不需要一手授权。

二是设定保密义务，要求经过法律授权或公民授权抓取一手信息的主体必须严格履行保密义务。按照前文的论述，需要法律法规严格监管的公民个人信息，应当是识别态和可信态的信息。可信态的信息往往需要处理，并非一手数据，而识别态信息则不然。识别态信息作为可信态信息的原材料，不应当以任何方式在网络上流通，所以网络运营商必须设置严格的防爬程序、信息加密手段，防止其他的互联网主体获取这些信息，这是由公民个人信息的特殊性决定的。如果负有保密义务的主体在具备期待可能性的情况下故意或过失的违反了保密义务，同样有承担刑事责任的风险。

三是法律法规应当以明文的方式否定爬虫协议对公民个人信息收集行为的效力。公民个人信息对于互联网正常运转来说是必不可少的，不应当过度限制网络运营商对其的收集和使用，但一手授权的申请已足以满足这种需要。从计算机技术的角度看，爬虫技术是为了大批量、自动的获取数据，这种技术如果用于公民个人信息的抓取，会导致大规模的公民个人信息暴露在网络之上。以如家、汉庭等酒店开房记录泄露为例，规模达到2000万的公民个人信息，如果落入不法之徒的手中是极其危险的。数据的收集就是为了使用，而互联网本身并不能保证数据的安全性，所以有必要在数据的收集阶段就进行规制。在笔者看来，公民个人信息如果以一定规模出现，其可能给公共利益带来的危险不小于放火、投毒等犯罪，应当以抽象危险犯的角度来看待大数据爬虫行为，将其严格的限制在国家治理或者科学研究领域。四是严格限制大数据处理技术与爬虫技术的结合，如前文所述，爬虫抓取公民个人信息的行为原本并不会带来多大的损害，但随着大数据处理技术和计算机硬件的突飞猛进，上亿的数据在短时间内也能完成匹配。如果某一主体对多个网络运营商公开的公民个人信息进行抓取，并通过大数据进行处理，很容易就可以将公民个人信息转化至可信态。比如，在购物网站中抓取某公民住址、喜好、财力、购物频率，在外卖平台上抓取其作息、饮食习惯、三餐规律，在微博等互动媒体上抓取其观点表达、联系人、行动轨迹，这些信息经过大数据处理比对后，可以轻易地掌握一个公民的生活、工作状况，从而针对性地开展犯罪计划，下至入户盗窃上至电信诈骗。所以，法律法规应当明文禁止使用大数据技术对通过爬虫批量获取的公民个人信息进行处理，在符合其他规定的情况下，原则上仅允许爬虫爬取单个平台的数据，或者允许用大数据技术处理非批量获取的数据。法律法规的明文规定并不能阻止大数据爬虫行为的发生，就像设置故意杀人罪并不能阻止犯罪分子杀人一样。但通过技术和法律的双重角度考察，对大数据爬虫行为进行细致的规定，可以引导社会公众，警示潜在的犯罪人，这种行为并不被法律所允许，一意孤行必将得到法律的制裁，同时也为后续的司法活动提供了支撑。

司法层面

司法层面的规制，主要就是讨论前文所述的靶子行为，即符合多次爬虫协议的数据抓取、对公民个人信息的大数据处理行为等。

在靶子行为中，行为主体通过符合爬虫协议的方式抓取其他网络运营商的数据，或者抓取了网络运营商公开在互联网上的数据，如淘宝网的商品评价相关信息。此时这种行为在表面上并不具有违法性，但如果该信息可以作为原材料，经过大数据处理而使可用性上升，则根据立法层面第三点，应当否定其合法性。根据刑法修正案（九）修改后的刑法第253条，以及2017年《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》关于情节严重和情节特别严重规定的，应当依法判处刑罚。如果行为人不仅获取、出售上述信息，并且使用该信息取得作为数据源头的网络运营商的市场优势，则已超出牵连犯的概念，在符合其他要件的情况下，应当同时构成侵犯公民个人信息罪和侵犯商业秘密罪，数罪并罚。其次，需要讨论的是利用大数据对公民个人信息的处理行为。根据《数据安全管理办法》第27条第1款规定：“从合法公开渠道收集且不明显违背个人信息主体意愿”，可见收集、处理、使用公民个人信息是否具有合法性，一定程度上依赖于信息主体的意愿如何。笔者认为，这种意愿一方面是通过用户协议或者同意书来判断的，另一方面则是需要通过法律来推定的。在繁忙快速的社会生活中，绝大多数互联网用户为了节省时间和精力，并不会对用户协议进行阅读，这是非常常见的现象，也是通过法律法规无法解决的，此时就需要法律法规来承担保护公民个人信息安全的功能，替互联网使用者作出判断。即法律法规可以推定他们并不愿意自己的个人信息被大量的收集，不愿意自己的信息被大数据技术比对处理从而获得识别性。从这种角度看，笔者认为，哪怕是在获取来源上合法的数据，如果经过了大数据技术处理，也会造成公民个人权利的损害。那么，当行为人对一定规模的数据进行处理，使得识别态数据朝着可信态数据转化的话，即使其没有主动出售、使用处理后的数据，也应当认为其行为具有危害性，因为一旦其进入互联网则无法被消除，所以亦应当以侵犯公民个人信息罪论处。

结语

随着科技的不断发展，公民个人信息也愈发得到重视，也正是因为如此，本文在许多论述、观点表达上采取了比较激进的态度。公民个人信息的特殊性，使得其在互联网环境下非常容易造成危害。传统观念下，公民个人信息是否具有危害性取决于其是否具有识别力，而爬虫技术和大数据处理技术的发展，使得这种表面的识别力不再可靠。公民个人信息在量上的不断增加，最终会在大数据技术的催化下质变，不仅会对公民的隐私权造成损害，当这些信息成为其他犯罪的原料或工具时会造成更大的损害。公民个人信息应当牢牢地把握在公民自身和国家政权的手中。互联网是有记忆的，数据是可以被无限复制、永久保存的，本文观点或许存在偏颇，但是对于这种关乎民生、社会安定的事项，采取激进一点的态度利大于弊。既然数据无法从互联网上被消除，那么就从数据的创建和获取入手，通过刑法、行政法、民法多重角度的规制，不断寻找新兴技术和公民权益之间的平衡点，进行更加细致和全面的研究，最终能够让科技造福于人民。

往期精彩回顾

余筱兰｜论法学上的个人信息与个人数据

赫思瑶｜中国特色国际经济法学基本原则下的数据本地化探究

葛彩慧｜个人信息处理原则的历史考察与比较研究

郭艳东马宗亮｜我国网络犯罪的犯罪化背景、变迁、思路与界限

何孟圆｜电商平台知识产权侵权下的注意义务初探

王乐怡｜应用个性化推荐算法的网络平台在著作权侵权中的注意义务研究

上海市法学会官网

http://www.sls.org.cn