网络爬虫行为的刑事规制
作者:刘艳红,东南大学法学院教授
来源:《政治与法律》2019年第11期
本文是站在法律人员的角度来谈爬虫,也许对从事爬虫开发业务的程序员有所帮助,原文内容如下:
网络爬虫行为的刑事规制研究
摘要:
网络爬虫在其被使用以来的二十余年时间里,之前被人们视为没有问题的中立技术,如今被人们视为“道德上可疑的并可被视为违法”的技术。结合侵犯公民个人信息的具体领域和行为,情境化地探讨网络爬虫行为违法性及其刑事规制问题,具有重要意义。
网络安全法与公民个人信息保护法等确立的公民个人信息保护合法性原则,以及网络爬虫领域规范爬虫行为的行业规则即爬虫协议(Robots协议),是判断爬虫行为形式上非法的重要标准。对爬虫行为侵犯公民个人信息是否构成犯罪还应从实质上加以判断。行为人在权限许可范围内使用爬虫行为获取公民个人信息,或采取爬虫行为非法收集的公民个人信息无法识别特定自然人身份等行为,不构成犯罪。通过形式判断与实质判断、形式入罪与实质出罪双重机制,可以合理实现对网络爬虫行为的刑事规制。
关键词:
网络爬虫;合法性原则;爬虫协议;侵犯公民个人信息;形式判断;实质判断
正文:
技术与法律的发展可相互促进,也彼此制衡。如何对原本中立的技术在法律上予以规制,这在网络技术、信息技术高速发展的时代具有重要价值。本文拟以网络爬虫技术的违法判断为例,对此予以探讨。网络爬虫行为是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
网络爬虫技术的应用场景广泛,在搜索引擎、网络舆情、大数据挖掘等方面的应用快速发展。现阶段在国内从事“海量数据采集”的企业很多它们大多是利用垂直搜索引擎技术来实现的。还有一些企业实现了多种技术的综合运用。 国外有研究基于语义爬虫框架支持网络犯罪挖掘使用的案例,通过爬取欺诈、网络色情、非法贸易、侵犯隐私、教唆、煽动各种犯罪等信息,从而预测犯罪趋势和模式并找出可疑犯罪热点。
此外基于an网不能通过常规搜索引擎和浏览器访问,国外有学者利用an网网络爬虫程序,使执法当局能够搜索当前TOR数据库和以前版本数据库,以检测可疑和恶意网站。随着网络爬虫行为被广泛应用,其犯罪边界慢慢成为互联网争议的热点,尤其是在大数据时代,随着数据价值的日益凸显这类案件也越来越多。然而,网络爬虫行为的刑事法律规制相关研究尚不够深入,同时,在网络爬虫案件中,随着当下时代从“技术就是生产力”到“知识就是生产力”再到“信息就是生产力”的转化,以及云计算、物联网和大数据的应用与发展,个人信息成为大数据时代的重要财富 使用网络爬虫等高科技手段获取公民个人信息的行为愈演愈烈。
因此,结合公民个人信息保护的具体领域,探讨网络爬虫行为的刑事法律规制问题,有利于对网络爬虫行为刑事规制问题的研究更具有场景化的效应,而且有利于对公民个人信息保护更具有针对 性。
离开爬虫行为,当下很多商业和公益性平台所需的准确数据难以获得,掌握爬虫技术已经成为各大网站以及专业人士的必备技能。爬虫行为的技术中立具有相对性,随着科技与社会秩序的持续发展,今天被认为不合法的行为,明天可能被认定为合法,“而且也可能出现逆转的发展:长期以来被视为没有任何问题的做法和技术,现在可能会被认为是道德上可疑的并可被视为是违法的”。
自1993年12月首个基于爬虫的网络搜索引擎——JumpStation诞生之后, 网络爬虫已被使用了二十余年,之前一直被视为没有问题的中立技术,今天已被人们认为“道德上可疑的并可被视为违法”的技术,并从涉嫌民事违法的技术发展为涉嫌构成刑事犯罪的技术。在此情形下,探讨网络爬虫行为的刑事违法性,以划清爬虫行为民事违法与刑事犯罪的界限,并恰当实现对网络爬虫行为的法律规制,无疑是一个亟需解决的理论和实践问题。
元光公司爬虫行为构成民事违法的案例充分说明了爬虫行为是如何从技术中立发展到民事违法的。2015年11月至2016年5月,元光公司为提高本公司的APP软件“车来了”在市场上的用户量和信息查询的准确度,指使员工利用网络爬虫技术获取谷米公司“酷米客”APP的实时公交信息数据,将之用于“车来了”并对外提供给公众查询。
法院认为,“元光公司利用网络爬虫技术大量获取并无偿使用‘酷米客’APP实时公交信息数据的行为,是一种不劳而获的行为,破坏他人的市场竞争优势,具有主观过错,违反了诚实信用原则,扰乱了竞争秩序,构成不正当竞争”,并判处元光公司赔偿谷米公司经济损失及维权合理费用50万元。
该判决的意义在于,“当大数据开发形成的智力成果具有独创性成为著作权法保护的作品时,持有者可以大数据形成的作品成为一项法定权利来对之加以保护”,“当大数据不构成作品时,持有者通常会选择不正当竞争来制止他人的未经许可使用行为。” 换言之,它确认了未经允许的爬虫行为的民事违法性,从而开启了对大数据权益的法律保护之旅。
在此案之后,全国陆续出现了很多不当使用爬虫软件而被判处不正当竞争的案件。诸如,北京淘友天下技术公司采用爬虫行为大量抓取、使用新浪微博用户职业信息、教育信息不正当竞争案, 国家图书馆出版社与北京百度网讯科技有限公司侵害作品信息网络传播权纠纷案, 浙江泛亚电子商务有限公司诉北京雅虎网咨询服务有限公司等侵犯著作权纠纷案, 等等。这些案件对于规范爬虫行为起到了很好的作用。
全国首例爬虫行为入罪案(上海晟品公司爬虫行为入罪案)则清晰展示了爬虫行为从民事违法转化到刑事入罪的变化。上海晟品网络科技有限公司的主管人员,成功破解北京字节跳动公司的防范措施,采用爬虫技术抓取北京字节跳动公司服务器中存储的视频数据,造成北京字节跳动公司损失技术服务费人民币2万元。法院以非法获取计算机信息系统数据罪对被告人予以定罪判刑。
法院判决指出,爬虫软件在数据抓取的过程中,“使用了伪造device_id绕过服务器的身份校验,伪造UA及IP绕过服务器的访问频率限制等规避或突破计算机系统保护措施的手段获取数据,构成非法获取计算机信息系统罪”。 笔者认为,该案中的被告公司及主管人员未经许可,强行突破反爬技术,侵入“国家事务、国防建设、极端科学技术领域”之外的计算机信息系统,并采用爬虫技术获取该系统内的数据,其行为根据我国《刑法》第285条第2款的规定,构成非法获取计算机信息系统数据罪。
值得注意的是,该案判决特别指出:“在信息时代,‘爬虫’技术是一种常见的数据抓取技术,最常用的领域是搜索引擎,该技术的有效使用有利于数据的共享和分析、造就了互联网生态的繁荣,但并不意味该技术的使用没有边界。法官在此提醒互联网行业的从业人员,必须在法律的框架之内合理使用该技术,违反法律规定利用该技术非法获取数据可能构成犯罪。”
该案是确认爬虫行为刑事违法性的第一案,具有标志性意义。从爬虫行为构成反不正当竞争案到爬虫行为入罪案,体现了爬虫行为的法律规制从民法到刑法的递进。在前述元光公司使用爬虫行为损害谷米公司合法权益案中,法院判决将这种使用爬虫的行为认定为反不正当竞争的行为;根据我国《反不正当竞争法》第2条的规定,反不正当竞争的行为是不“遵守法律和商业道德”的行为。
可以说,从内在实质违法性的角度,这一判决为首例爬虫行为入罪案奠定了基础。因为,刑法中违法性的评价是“以了解作为价值标准和作为规章的适合人类行为的生活准则的道德准则为前提的”, 正是有了元光公司爬虫行为系违反民事行为生活准则和道德即构成不正当竞争的判决,才有了不久之后全国首例使用爬虫技术构成刑事犯罪的案件。从爬虫行为反不正当竞争案到全国首例爬虫行为入罪案,展现了爬虫行为从民事违法到刑事违法的司法认定过程,它充分体现了我国司法实践对爬虫行为的态度。
这一过程充满司法理性,因为随着爬虫行为对各大网站数据的暴力爬取、强行爬取等行为的增多,已给网络信息安全以及营运环境造成了极大的破坏。司法的判决就是一个判断的过程,无论是民事判决还是刑事判决,都是对不当使用爬虫行为在法律上的否定,“通过有罪与无罪的判断、对义务与权利分配的判断,使人民在精神上相信自己生活在正义的环境里,从而获得对社会的信赖”, 没有对网络健康有序环境的基本信赖,用户的网络失范行为将日益增多。因此这两个判决奠定了司法对不当使用爬虫软件的态度和立场,并为后续类似案件提供了可借鉴的样本。
与此同时,它们也表明,虽然爬虫行为在精准搜索、大数据分析与预测等领域作出了重要贡献,但是,如果“对数据抓取行为不加以限制约束,收集、处理、经营数据的相关平台以及提供优质内容的用户的权益便都无法得到保障,从长远来看必将对互联网内容产业产生负面影响”。 总之,爬虫行为既可能涉及民事、行政违法,也可能构成犯罪;基于维护法秩序与互联网产业健康发展的需要,对爬虫行为的合理刑事规制极为必要。
对网络爬虫行为定性的关键是对运用爬虫技术的行为的性质如何认定,即爬虫行为是违法行为还是合法行为。因此,探讨对爬虫行为是否应当以及如何进行刑事规制,其核心是解决如何判断爬虫行为是否违法。然而,网络爬虫行为违法判断不能泛化,结合当下web3.0时代网络犯罪其实就是信息犯罪的特质,以侵犯公民个人信息罪为视角,场景化地讨论爬虫行为的违法性问题无疑更具有针对性。
Web之父Tim Berners—Lee对web3.0进行了定义:“web3.0是这样一种互联网:由数据定义内容,它能阅读和理解内容。” 数据只是信息的代名词而已,因此,3.0时代的犯罪其实就是数据犯罪或信息犯罪。信息泛滥的时代使得如何防止爬虫行为对公民个人信息的侵犯成为一个急迫的问题。
我国《刑法》第253条之一第1款规定:“违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。”该条之一第2款规定:“违反国家有关规定,将在履行职责或者提供服务过程中获得的公民个人信息,出售或者提供给他人的,依照前款的规定从重处罚。”该条之一第3款规定:“窃取或者以其他方法非法获取公民个人信息的,依照第一款的规定处罚。”毫无疑问,网络爬虫行为是否构成侵犯公民个人信息罪,主要取决于爬虫行为是否为第253条之一第3款规定的“以其他方法非法获取公民个人信息”行为。
“以其他方法非法获取公民个人信息”是该罪的违法构成要件。根据罪刑法定原则———“法无明文规定不为罪不为刑”基本的形式法治之要求,对这一要件的判断,重点不在于“其他方法”,因为这一要素的规定本身为兜底性表述,而且,爬虫行为可否认定为“其他方法”,其实依赖于是否“非法”获取公民个人信息。
因此,“以其他方法非法获取公民个人信息”的判断,重点应针对其中的“非法”要素进行。其具体可分两个层面进行:第一个层面是合法性原则,我国《刑法》第253条之一的“违反国家规定”也属于其中的内容;第二层面是行业规则,即爬虫协议。
首先,违反合法性原则的网络爬虫行为获取公民个人信息的,可以认定为“以其他方法非法获取公民个人信息”之“非法”。
所谓合法性原则,是指爬虫行为应该符合国家法律、行政法规、部门规章等有关收集、处理、利用数据信息的规定,否则就可能被认定为非法爬取而入罪。我国《刑法》第253条之一规定,构成侵犯公民个人信息罪的行为,必须首先是“违反国家规定”的行为,这里的“国家规定”,根据2017年6月1日施行的《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》(以下简称:《信息犯罪司法解释》)第2条的规定,是指“违反法律、行政法规、部门规章有关公民个人信息保护的规定”。
作为该罪前置法的国家规定,主要包括2016年11月7日全国人大常委会通过的《网络安全法》、2017年12月29日全国信息安全标准化技术委员会制定的《信息安全技术个人信息安全规范》、2013年7月16日工业和信息化部制定的《电信和互联网用户个人信息保护规定》、2012年12月28日全国人大常委会通过的《关于加强网络信息保护的决定》等。
这些法律法规基本都确立了个人信息数据的取得使用等要遵循合法性原则。比如,《电信和互联网用户个人信息保护规定》第5条规定:“电信业务经营者、互联网信息服务提供者在提供服务的过程中收集、使用用户个人信息,应当遵循合法、正当、必要的原则。”《关于加强网络信息保护的决定》第1条规定:“任何组织和个人不得窃取或者以其他非法方式获取公民个人电子信息,不得出售或者非法向他人提供公民个人电子信息。”这些规定表明,技术中立的网络爬虫行为只要不当使用,也有认定其违法性的法律根据。
不过,这些法律法规虽然都涉及公民个人信息保护,但毕竟不是专门且全方位针对公民个人信息保护的立法,因此,它们属于侵犯公民个人信息罪的前置法,但不是其中最重要的前置法。最重要的前置法,当属个人信息保护法。
2017年3月,在第十二届全国人民代表大会第五次会议上,45位全国人大代表提交了《关于制定<中华人民共和国个人信息保护法>的议案》,并将《中华人民共和国个人信息保护法(草案)》(以下简称:《个人信息保护法(草案)》)提交讨论。《个人信息保护法(草案)》明确规定了个人信息收集处理和利用的合法性原则,其中第4条规定:“个人信息的收集、处理和利用应当遵循合法、正当、必要的原则,不得违反法律、法规的规定和双方的约定收集、处理和利用个人信息。”其第5条规定了“知情同意原则”,即“不符合本法或其他法律、法规规定,或未经信息主体知情同意,不得收集个人信息。收集不需识别信息主体的个人信息,应当消除该信息的识别力,并不得恢复。”
可见,该第4条和第5条之间是抽象和具体的关系,前者规范个人信息收集处理和利用的全过程,后者则重在规范个人信息的收集行为。“如果爬虫控制者在未经用户同意的情况下大量抓取用户的个人信息,则有可能构成非法收集个人信息的违法行为”,同时,这种行为自然也是不合法的。因此,如果行为人知情并同意他人收集自己的信息,则该种收集行为自然是合法的。
换言之,知情同意原则作为一项独立的个人信息保护原则,其同时具有具体化说明何为合法性原则的作用。因此,爬虫行为如果违反合法性规则,就将不再是技术中立,而可能构成违法犯罪。与此同时,专门规制爬虫行为的法律则为我国《网络安全法》。该法第27条规定,任何个人和组织不得从事非法侵入他人网络、干扰他人网络正常功能、窃取网络数据等危害网络安全的活动;不得提供专门用于从事侵入网络、干扰网络正常功能及防护措施、窃取网络数据等危害网络安全活动的程序、工具。
可见,爬虫行为的违法性根据,可以从我国《网络安全法》第27条中找到,该条所规定的不得“非法”侵入或干扰或窃取等危害网络安全的规定,实际就是要求爬虫行为必须遵循合法性原则。总之,以上《网络安全法》《个人信息保护法(草案)》以及其他法律法规等相关内容,均确立了个人信息等数据的取得使用行为必须遵循合法性原则。这些内容概括起来,可以总称为爬虫行为必须遵循的合法性原则。违反这一原则爬取公民个人信息的爬虫行为,无疑是非法的,将会构成犯罪。
司法实务也采取了这样的立场。例如,2018年2月至4月间,被告人马某为牟利,使用自己编写的爬虫程序窃取APP及网站的用户信息,后使用微信(微信号sky53789,昵称mm)聊天的方式出售给苏某某(微信号mrsu8124,昵称苏某)(另案处理)包括姓名、联系方式等内容的公民个人信息约20万条,非法获利共计2.4万元。
法院判决认为:“被告人马某违反国家相关规定,窃取公民个人信息后向他人出售,情节特别严重,其行为已构成侵犯公民个人信息罪。” 被告人魏江蒙通过网络爬虫程序下载含有公民姓名和电话号码的工商个体户和单位资料进行贩卖,非法获利55822元。法院判决认为:“被告人魏江蒙违反国家规定获取公民个人信息后向他人出售,情节特别严重,其行为已构成侵犯公民个人信息罪。” 分析这两个案件,被告人均是采用自己编写的爬虫软件,未获他人许可,窃取他人APP或网站中的个人信息并出售,其行为符合侵犯公民个人信息罪的构成要件,从而成立该罪。
然而,由于这两个案件的案情过于简单,难以判断爬虫行为的实际过程和性质。以其判断爬虫行为是否为“其他方法”有些许意义,但若用来判断爬虫行为是否“非法”,似有不足。被告人余钢涛违反与单位约定爬取员工信息数据一案,则充分说明了何为违反合法性原则构成犯罪的爬虫行为。案例8.余钢涛使用爬虫技术侵犯公民个人信息案。
2014年4月至6月,被告人余钢涛在淘宝(中国)软件有限公司北京朝阳分公司工作,《某某集团数据安全规范(总纲)》规定,员工个人数据属于敏感数据,敏感数据的提取等使用行为必须经过授权;根据该公司与余钢涛订立的《劳动合同》约定,员工离职,需归还该公司的所有财产。
在该公司工作期间,被告人余钢涛违反上述规定,为达个人目的,私自使用爬虫技术窃取某某集团员工的个人信息共计2万余条;2014年6月,被告人余钢涛离职时,将上述信息存储于电脑硬盘秘密带走。对于该案,法院一审判决认为:“被告人余钢涛犯非法获取公民个人信息罪,判处拘役六个月,缓刑六个月,并处罚金人民币二千元(缓刑考验期限从判决确定之日起计算。罚金限判决生效后十日内缴纳)。” 余钢涛上诉称,其对原判认定的基本事实无异议,但原判不能将违反公司内部规章制度等同于我国《刑法》第253条之一规定的违反国家规定,也不能将公司与员工之间的劳动争议纠纷认定成刑事案件;其收集的信息是在某某集团公共领域、正当公开的信息,其收集员工信息的行为是公开的合法行为并非窃取。
该案中,虽然余钢涛窃取的也是单位员工个人信息,但这些信息在该集团内部属敏感数据,并且根据该集团内部的规定,敏感数据的提取等使用行为必须经过授权。行为人未经授权私自提取,违反了《阿某集团数据安全规范(总纲)》的规定,同时,既然余钢涛和其他员工一样进入某某集团工作时即已知道,该集团的单位员工个人信息属敏感数据、不得随意提取等规定,那就意味着,余钢涛私自提取员工个人信息共计2万余条的行为,违反了集团员工与集团之间的“约定”,具体而言是违反了前述《个人信息保护法(草案)》第4条的合法性原则,即“个人信息的收集、处理和利用应当遵循合法、正当、必要的原则,不得违反法律、法规的规定和双方的约定收集、处理和利用个人信息”。
另外,根据我国《网络安全法》第20条的规定:“国家实行网络安全等级保护制度。网络运营者应当按照网络安全等级保护制度的要求,履行下列安全保护义务,保障网络免受干扰、破坏或者未经授权的访问,防止网络数据泄露或者被窃取、篡改:(一)制定内部安全管理制度和操作规程,确定网络安全负责人,落实网络安全保护责任;……”据此,某某集团是负有义务维护本集团内部员工信息安全的,其制定的集团数据安全规范,是按照国家相关法律所制定的内部安全管理制度和操作规程。因此,余钢涛违反该规定窃取他人信息的行为,其实是违反我国《网络安全法》的行为,而不仅仅是违反集团内部规定而已。
更何况,我国《网络安全法》第44条还规定:“任何个人和组织不得窃取或者以其他非法方式获取个人信息,不得非法出售或者非法向他人提供个人信息。”可见,余钢涛的行为根据我国《网络安全法》的规定,也是违反信息收集提取应遵循的合法性原则的。
其次,违反行业规则即爬虫协议获取公民个人信息的行为,可以认定为“以其他方法非法获取公民个人信息”之“非法”。
使用爬虫行为应遵守行业规则。规范网络爬虫行为的行业规则是爬虫协议,它又名Robots协议,“是网站所有者通过位于置于网站根目录下的文本文件Robots.txt,提示网络机器人哪些网页不应被抓取,哪些网页可以抓取”,凡是没有被该协议排除的数据则属于网络上公开的可以爬取的数据,因此,“在遵循Robots协议的前提下,公开爬取数据的行为既不会侵犯信息提供者的权利,也不会构成不正当竞争。反之,如果违反Robots协议,强行爬取他人的数据,则可能被认定为违反诚实信用和商业道德,构成不正当竞争”。
例如,在百度公司诉北京奇虎公司违反爬虫协议构成不正当竞争一案的诉讼中,百度公司诉称,百度网站依据robots协议设置robots.txt文件,奇虎公司违反该规则,其推出的360搜索服务违规抓取百度公司多个栏目的内容,生成网页快照复制件存储于其自身服务器中,当用户点击相应搜索结果的链接时,直接向网民提供该“网页快照”以替代百度公司向网民提供相应服务。
奇虎公司则表示,robots.txt仅指导和提示搜索引擎蜘蛛程序提示性TXT文件,它既不是法规或标准也不是合约,不存在违反与不违反的问题,奇虎公司的搜索行为合法。该案中,奇虎公司之所以提出此番辩词,原因在于,Robots协议属于典型的“君子协议”,它的目的是告知网络爬虫的编写者,哪些数据是可以被收集的,哪些数据是不能被收集的,但是如果网络爬虫程序的编写者不遵守Robots协议,想要强行爬取网站的数据时,Robots协议从技术上是无法阻止的。正因如此,很多爬虫案件中被告人都是以Robots协议的法律地位和法律性质来抗辩的。然而,“Robots协议由于简单高效,成为国内外互联网行业内普遍通行、普遍遵守的技术规范”。
该协议为世界各国互联网参与者所遵守,它对于维护正常的网络开放性秩序和信息提供者的权益,具有重要的伦理秩序与准行业规范作用。“在法律滞后或者缺失的情况下,如果不遵守这种商业伦理和行业习惯,必将破坏整个行业的平衡。” 因此,对百度诉360案,法院判决表示,“Robots协议”被认定为搜索引擎行业内公认的、应当被遵守的商业道德,360在推出搜索引擎的伊始没有遵守百度网站的Robots协议,其行为明显不当,应当承担相应的不利后果”,并最终判决奇虎公司赔偿百度公司70万元。该案判决对Robots协议出现纠纷如何处理进行了司法意义上的规范,因此,当使用爬虫技术违背Robots协议非法获取公民个人信息时,即可认定为“以其他方法非法获取公民个人信息”的行为。
由于Robots协议无法阻止爬虫行为,因此,判断爬虫行为是否违反Robots协议还有一个简单易行的办法,即行为人是否采取了突破反爬程序的行为,强行爬取或者暴力爬取相关数据。
遵守Robots协议的爬虫行为,“它的存在能够增加网站的曝光度,给网站带来流量”, 它们被称为善意爬虫。与之相对的是恶意爬虫。恶意爬虫无视Robots协议,“对网站中某些深层次的、不愿意公开的数据肆意爬取,其中不乏个人隐私或者商业秘密等重要信息。并且恶意爬虫的使用方希望从网站多次、大量的获取信息,所以其通常会向目标网站投放大量的爬虫。
如果大量的爬虫在同一时间对网站进行访问,很容易导致网站服务器过载或崩溃,造成网站经营者的损失”。善意爬虫和恶意爬虫在爬取行为表现上差异很大。善意爬虫遵守爬取规则,恶意爬虫往往采取措施突破规则,也就是突破反爬措施。常见的反爬措施有IP限制、验证码、登陆限制、数据伪装、参数签名、隐藏验证和阻止调试等, 而非法爬虫行为为了顺利达到爬取海量数据的目的,往往会针对这些反爬措施进行破解,然后进行强行或者暴力爬取。
这种行为即可证明爬取行为是违反了被爬网站的意愿,即违反了Ro-bots协议。这样的标准,也在实务中逐渐得到认可,比如在中国裁判文书网数据被违法爬取事例中,有观点即认为:“虽然我们不知道文书网是否通过‘爬虫协议’宣示禁止爬虫,但该网采用了验证码方式限制爬虫,可以推断被爬取并非网站所愿。” 可见,将是否采取了突破反爬程序而强行或暴力爬取公民个人信息等相关数据,作为认定是否违反Robots协议,进而是否属于“以其他方法非法获取公民个人信息”之“非法”,是非常重要的判断标准。
例如,2014年5月初,被告人翁某某利用淘宝网站存在的漏洞,在店铺源码中植入url,执行该url指向的javascript,以获取访问被植入url的淘宝店铺的所有淘宝用户的cookie(淘宝用户登录时产生的一组认证信息,利用cookie可以执行对应账号权限内的所有操作,无需帐号、密码),并利用其中的卖家cookie将url再次植入卖家淘宝店铺源码,实现自动循环,获取更多的淘宝用户cookie。网络爬虫的工作原理是,“初始的URL地址可以由用户人为地指定,也可以由用户指定的某个或某几个初始爬取网页决定。
以初始URL开始,即种子URL,当爬虫访问整个网页时,它会自动识别网页中所有URL,并将其添加到待爬取URL,按照一定的搜索策略访问待爬取URL,采集对应URL的网页后将网页存储到数据库中,根据新的URL爬取网页,同时从新网页中获取URL”。整个爬虫过程就是不断重复上述的爬取过程。该案中,被告人翁某某植入url正是其爬虫行为的常用技术手段,同时,翁某某通过植入url获取所有淘宝用户的cookie,并利用cookie可以执行对应账号权限内的所有操作,从而无须用户的账号密码就可以登录获取用户信息了。
这种行为,就是对网站通过账号密码等登录限制这一反爬措施的突破,因此,翁某的行为违反了爬虫协议,具备违法性。有的时候,对爬虫协议的违反并不仅仅是采取了常见的反反爬虫措施,而可能是采取了类似于反爬虫措施的技术,使得其爬虫行为也具有了反反爬虫措施的性质,这同样可以判断爬虫行为违反了爬虫协议,具有违法性。
又如,被告人段某某于2013年在互联网上设立名为“窝窝电影网”的视频网站,利用视频“搜索爬虫”技术,针对乐视、土豆等各大知名视频网站的影视作品设置加框链接,为提高网站的知名度和被链接影视作品的点击量,在网页内设置目录、索引、内容简介、排行榜等方式推荐影视作品,吸引用户点击播放,并为提高用户粘度,利用技术措施屏蔽权利人设置在部分影视作品上的片头广告。
该案判决中,虽然并未指出段某某使用的“搜索爬虫”是否违背了爬虫协议,但是,从其采取的爬虫技术针对乐视、土豆等网站的影视作品设置加框链接的做法即可得知,段某某的这种行为实际就是针对乐视等网站的类似反反爬虫措施的行为。因为,加框链接是深度链接的一种,它不链接到网页,而是直接链接目标文章、图片、网页,是一种超链接方式;设链者往往“将他人网站中自己需要的内容呈现在自己的网页中,而不需要的部分如他人网站名称、广告等则可以被自己网页的内容遮挡住,容易造成用户误以为作品内容系设链网站提供的”, 或者点击加框链接后,可在不脱离涉链网站的情况下,从被链的网站下载或在线打开文件的超链接方式,这种链接方式相当于替代了原网站的链接。
采用这种加框链接技术的爬虫行为,其本身就带有鲜明的反反爬虫措施的特点。虽然加框链接行为是否构成侵犯著作权罪在刑法理论和司法实务中有不同观点,但是,加框链接行为本身即有恶意,它是在未经授权的情况下对他人网站信息的一种侵权行为,这是显而易见的。
恶意爬虫行为的主观故意以意志自由为前提,当被告人段某某采用搜索爬虫技术并对他人网站采用加框链接等方式以获得有关信息或者其相关权利时,表明行为人已经充分认识到其爬虫行为是在突破其他网站权利人的权利基础之上进行的,但仍然基于自由意志选择继续爬取,这与主动采取的反反爬虫措施无异。因此,段某某使用“搜索爬虫”技术的行为无疑违反了爬虫协议。换言之,如果是合法爬虫,没有违反爬虫协议,则肯定不会使用与反反爬虫措施具有同样违法效果的加框链接技术。
再如,在前述全国首例爬虫行为入罪案中,被告人上海晟品公司及其有关人员,就是在用爬虫软件抓取数据的过程中,采用技术手段破解被害单位的反爬措施,使用“tt_spider”文件实施视频数据抓取行为,在数据抓取的过程中使用伪造device_id绕过服务器的身份校验,使用伪造UA及IP绕过服务器的访问频率限制,其行为造成被害单位损失技术服务费2万元,从而构成非法获取计算机信息系统数据罪。当破解了反爬措施,强行爬取相关数据时,爬虫行为则为显性的恶意爬取,并且,任何破解反爬措施的行为在技术上总是会留下痕迹证据,极易被识别,因此笔者认为它是判断爬虫行为是否违反Robots协议的简单易行的办法。总之,“违反被爬取方的意愿,例如规避网站设置的反爬虫措施、强行突破其反爬措施”, 或者刻意爬取受到法律保护的特定类型的信息,或者在极短时间内不停歇地发起爬取等,都有可能是“非法”的爬取行为。
在爬虫行为非法获取公民个人信息的违法构成要件的形式判断层面,还涉及此罪与彼罪、一罪与数罪的区分。刑法中可规制网络爬虫行为的罪名有侵犯公民个人信息罪,非法侵入计算机信息系统罪,非法获取计算机信息系统数据、非法控制计算机信息系统罪,提供侵入、非法控制计算机信息系统程序、工具罪等几个罪名,如何准确区分这些罪名以精准定罪,也涉及侵犯公民个人信息罪形式入罪的问题。
例如,2016年3月,被告人朱某与QQ“黑产交易群”内自称“二哥”(身份不明)的人取得联系,“二哥”称需要一些自考网的数据信息。被告人朱某便同高某等四人共同商议盗取自考网内个人数据信息,其他人表示同意。
之后,该四人反复使用黑客软件扫描网站漏洞并窃取到新疆自学考试网的账号和密码,并登陆该网站盗取公民信息30621组。对该案被告人是定非法获取计算机信息系统数据罪,还是侵犯公民个人信息罪呢?我国《刑法》第285条第2款规定,将入侵国家事务、国防建设、极端科学技术领域以外的其他计算机信息系统或采取其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据的,构成非法获取计算机信息系统数据罪。
采用爬虫行为侵入他人计算机信息系统并窃取其中的数据的,比如该案中朱某、高某等人的行为,是否一律可以构成非法获取计算机信息系统数据罪,要看行为人所获得的信息的性质。《刑法》第253条之一的侵犯公民个人信息罪和第285条第2款的非法获取计算机信息系统数据罪是法条竞合的关系,公民个人信息也是数据的一种,只不过我国《刑法》第253条之一对个人信息数据予以特别保护。
因此,侵犯公民个人信息罪是特别法,非法获取计算机信息系统数据罪是普通法,根据特别法优于普通法的法条竞合处理原则,非法获取的信息是公民个人信息的,应构成我国《刑法》第253条之一的侵犯公民个人信息罪;如果非法获取的信息是公民个人信息之外的其他信息的,则构成我国《刑法》第285条第2款的非法获取计算机信息系统数据罪。该案中,朱、高两人获得的数据,主要是姓名、身份证号、生日、班级、手机号、成绩、家庭住址、班位次、级位次等非法获取的公民个人信息,共计414768组,因此朱、高两人采用爬虫手段非法获取自考网站内公民个人信息的行为,构成侵犯公民个人信息罪,而不是非法获取计算机信息系统数据罪。
综上所述,网络爬虫行为作为物联网时代普遍运用的网络信息搜集技术,本身是技术中立的而不涉及违规违法和犯罪的问题,但是,如果爬虫行为不合规、不正当,则可能涉嫌非法。判断非法与合法,重点是从形式层面进行的。
对爬虫行为而言,既要遵循《网络安全法》《个人信息保护法(草案)》等有关信息保护的国家规定所确立的合法性原则,也要结合爬虫技术的Robots协议,将遵循该协议的爬虫行为定性为善意爬取,将违反此协议的诸如破解反爬措施的行为定性为恶意爬取,从而综合判断爬虫行为是否“以其他方法非法获取公民个人信息”。合法性原则与爬虫协议这一行业规则,即为判断爬虫行为是否非法的形式标准。
对网络爬虫行为是否为“以其他方法非法获取公民个人信息”,尤其是其中“非法性”的判断,不能仅从形式构成要件入手,还须从实质层面来进一步解释和判断。“在刑事立法中,不可能根据形式的违法性标准,判断刑法应当禁止哪些行为;只能以实质的违法性即犯罪的本质为标准,判断哪些行为值得科处刑罚。”
为此,以下将基于实质刑法基本立场,结合侵犯公民个人信息罪“以其他方法非法获取公民个人信息”这一违法构成要件,对爬虫行为如何进行刑事规制和判断进一步实质化、场景化的分析。有的爬虫行为虽然表面上符合侵犯公民个人信息罪的构成要件,但是,对于形式上符合侵犯公民个人信息罪构成要件的爬虫行为,还要看其实质上是否达到了应受处罚的法益侵害性。
如前所述,司法实践中对不当爬虫行为法律规制的“先民后刑”做法值得赞许,尤其是,在当下打击侵犯公民个人信息犯罪呈扩大化趋势的背景下更具价值。在立法方面,2015年11月1日施行的《中华人民共和国刑法修正案(九)》将“出售、非法提供公民个人信息罪”和“非法获取公民个人信息罪”整合为目前我国《刑法》第253条之一的侵犯公民个人信息罪,同时扩大了犯罪主体和侵犯个人信息行为的范围。
很显然,立法对侵犯公民个人信息犯罪的打击体现的是扩大化、入罪化趋势。这一立法导向,也在一定程度上影响了司法实践。如前所述,我国专门的个人信息保护法尚未出台,草案也还在讨论之中。如果要充分发挥前置法的作用,发挥法定犯前置法对犯罪的过滤作用,就应该先制定个人信息保护法,再规定刑法侵犯个人信息罪的罪名。
“在司法流水线上,违法行为率先与前置法照面,经过前置法的评价,行为可能会被评为合法或违法,如果前置法将行为评估为合法,则其没有必要再进入下一评判环节。如果行为违法,但其违法性程度尚可被前置法截获,则行为会被标记成违法,并将接受前置法的制裁。” 在我国个人信息保护法还没有出台的背景下,充分发挥刑法实质解释的价值评判功能,以实现形式入罪、实质出罪这一实质刑法的基本主张,以弥补侵犯公民个人信息罪前置法违法性上拦截之不足,无疑具有重要意义。
形式上的违法构成要件体现为对刑法规范的违反,实质的违法构成要件体现为对“通过刑法的目的或是任务的理解而推导出来的”,“基于实质根据来展开”的行为“非法”性的分析和判断,仅仅根据前述合法性原则以及Robots协议,只能起到形式判断的作用;于此之外,还要对其进行实质的判断,看行为人“以其他方法非法获取公民个人信息”的行为对法益的侵害或威胁是否达到实质可罚的程度。
实质判断路径之一是,行为人在权限许可范围内使用爬虫行为获取公民个人信息的,不属于“非法”,不应认定为犯罪。例如,犯罪嫌疑人某甲原系某互联网公司网络工程师,该公司内部使用一款企业即时聊天APP作为办公软件,员工通过其个人账号、密码使用手机登录后,如有工作需要,可点击查看公司员工备注的个人信息。
某甲采用专门的爬虫程序,向该接口循环发送访问请求,爬取到员工的姓名、员工号、手机号码、职位职级以及公司组织架构等个人信息。在该案中,某甲通过爬虫软件获取的公民个人信息数量无论多少条,都不能入罪。爬虫获取数据入罪只能是在没有得到用户知情同意的情况下才有可能。
某甲作为单位的工程师,与该单位其他任何员工一样,只要登录即可看到本单位所有员工姓名、手机号等个人信息,此乃公司赋予员工的数据权利,利用爬虫软件批量下载这些数据和单个下载或查看这些数据在行为性质上没有差别,即都是遵循了单位与员工的协议规定的合法行为,同时,所有员工对于单位赋予员工的此项权利也是知情的,这也意味着,在单位内部,员工获取其他人的信息是符合知情同意原则的。
“如果爬虫控制者在未经用户同意的情况下大量抓取用户的个人信息,则有可能构成非法收集个人信息的违法行为。” 因此某甲的爬虫行为虽然利用了反向编译的方法破解源代码等反爬虫的方法,但是,甲实施的爬虫行为是在单位许可的权限内的,因而不构成侵犯公民个人信息罪。
然而,如果行为人超出许可范围,采用爬虫行为爬取了不允许爬取的数据,则不能予以出罪。例如,被告人龚旭因工作需要,拥有登录某网络公司内部管理开发系统的账号、密码、Token令牌(计算机身份认证令牌),以及查看工作范围内相关数据信息的权限。
龚旭、卫梦龙经事先合谋,由前者向后者提供自己所掌握登录信息,后者则使用这些信息违规在异地登录该公司内部管理开发系统,查询、下载该计算机信息系统中储存的电子数据。该案被告人最终被以非法获取计算机信息系统数据罪定罪处罚。虽然在该案中被告人并不是采取爬虫行为取得数据,但是它表明,行为人超出授权范围使用账号、密码、Token令牌登录系统获取无权下载的数据,同样构成犯罪。
这样的判决对于爬虫行为具有重要的指引意义。它意味着,虽然有授权可以合法获得网络数据,但是,如果超越授权范围而恶意取得网络数据的,则应构成犯罪。
以上论述表明,行为人在权限许可范围内获取数据,由于没有突破许可权限,即便采用网络爬虫的方式获取数据,也不构成非法获取计算机信息系统数据罪。因为取得权限的情况下,网络爬虫模拟人工点击,不断向访问接口发出访问请求,批量获取数据,只是提高了人工获取数据的效率,并没有突破权限许可。被许可而为的行为可以阻却违法性,此种情形下,不应认定其爬虫行为的“非法”而须出罪;反之,如果行为并未获许可,或者爬虫行为超出许可范围,则属于违反国家规定而为的爬取行为,可以认定其“非法性”并构成犯罪。
后来被告人将信息通过与张某、游某等合办的公司出售牟利。被告人辩称,他提供给某公司和他人的手机号码,系用“号码生成某”生成的,与北京恒安嘉新公司的数据无关。该案缺少两者的数据进行一致性对比的证据,不能证明他利用了北京恒安嘉新公司的数据进行牟利。 该案的关键在于马适之提供给某公司以及他人的手机号码,是否为公民个人信息。
何为公民个人信息,相关法律和司法解释已有规定,其要点在于,要具有可识别性。根据我国《网络安全法》第76条第5项的规定,公民个人信息,是指以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息,包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码等。
《信息犯罪司法解释》第1条规定,我国《刑法》第253条之一规定的“公民个人信息”,是指以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息,包括姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等。该司法解释第3条规定,“未经被收集者同意,将合法收集的公民个人信息向他人提供的”,属于我国《刑法》第264条之一规定的“提供公民个人信息”, “但是经过处理无法识别特定个人且不能复原的除外”。
在此,我国《网络安全法》规定的是只要能够“识别自然人”个人身份的各种信息,但是,《信息犯罪司法解释》规定的是“识别特定自然人身份”的各种信息,如何理解或界定这里的“特定自然人”?事实上,这两个规定并不矛盾。能够识别自然人的信息,自然是针对特定自然人而言的;识别,意味着辨别真伪,使不同自然人之间相区别,它其实内含了识别特定自然人之意。
在此意义上,《信息犯罪司法解释》只不过是对我国《网络安全法》中的“识别自然人”进行了细化表述,两者并无实质差别。因此,在法律适用上,直接判断相关信息是否可以识别特定自然人即可。
马适之等侵犯公民个人信息案的辩护人指出:“马适之卖给印力承的手机是其利用‘号码生成某’的编码原理随机生成的,但是这些手机号码,若不与其他信息结合,则不能识别特定自然人的身份或者活动情况,故单纯的手机号码不属于公民个人信息。
马适之提供印力承的手机号码,供客户用于电话销售和广告营销,虽打扰了接电话者,但不能识别特定的自然人,其社会危害性不大,不需要动用刑法处罚。” 如果马适之卖给他人的手机号码确系利用科技手段编码原理随机生成,那就意味着仅有这些号码本身,并不能识别特定自然人。
根据前述法律与司法解释的规定,不与特定自然人相关联的信息不能称之为公民个人信息,该案中马适之所出售的手机号码是随机生成的虚拟号码,不是真实的手机号码,因此难以识别特定自然人,因此这些手机号码不应被认定为个人信息,马适之的行为不应构成侵犯公民个人信息罪。法院的判决说理反而在一定程度上表明,法院并没有充分的证据证明马适之出售的是可以识别特定自然人的个人信息。
法院判决指出:“公民使用的电话号码已实名登记,每个电话号码都对应特定的自然人,经查询也可以单独识别特定自然人身份。况且,上述司法解释所列举的公民个人信息包括了‘通信通讯联系方式’即手机号码或电话号码。因此,手机号码是公民个人信息的内容之一,可以认定为公民个人信息。马适之和印力承共同贩卖他人的手机号码,应认定为侵犯公民个人信息罪。” 手机号码固然是公民个人信息,但不等于该案中的手机号码也是公民个人信息。
该案中的手机号码是“号码生成某”而生成的,“号码生成某”就是“号码生成器”的软件,比如“思华手机号码生成器V1.0免费版”、“特达手机号码生成器”、“海豚手机号码生成软件”等软件,其所生成的号码不会出现重复的现象,生成的号码可以有虚拟的号码,也可以生成现实存在的号码。这些号码与用户在电信或移动等营业厅入网时的手机号不同,后者手机号可以迅速识别特定自然人身份,但是前者通过“号码生成器”生成的手机号难以有这个作用。
并且,该案中,司法机关也的确缺乏相应的证据证明这些生成的号码可以识别特定自然人身份,刑事证据必须充分确实,否则,不能据以定罪。根据疑罪从无原则以及证据的证明标准,该案中的马适之不应构成侵犯公民个人信息罪,对其应作无罪处理。
又如,大型旅游网站“马蜂窝”使用爬虫软件技术,从携程、艺龙、美团等其他平台抓取或抄袭用户生成的点评数据,并直接发布在自己的网站上。合计抄袭572万条餐饮点评、1221万条酒店点评,占“马蜂窝”官网声称总点评数的85%。虽然“马蜂窝事件”涉及侵犯其他平台著作权等,但“马蜂窝”利用爬虫技术大量抓取并使用来自其他平台的用户点评信息的行为,是否构成侵犯公民个人信息罪呢?有观点认为:“用户的点评数据包含了大量的个人信息,甚至可以说正是点评中充满真情实感的个人体验才让点评本身具有价值。因此,对具有可识别性的点评信息的收集、处理必须满足个人信息保护的相关要求。
显然,马蜂窝在抓取其他平台用户的点评数据时并未做到知情同意,更未符合合法、正当、必要原则要求。毫无疑问,马蜂窝平台的行为侵犯了用户的个人信息权益。” 这种看法值得商榷。对侵犯公民个人信息罪中的公民个人信息不得扩大解释为公民个人发布的任何信息。网络消费平台用户点评数据,虽然的确包含了用户的个人情感体验与价值判断,但这样的信息并不具有识别特定自然人身份的功能,它们和自然人的姓名、手机号、出生日期、身份证号码等具有本质的差别,因此,假设该案侵权行为情节严重,也不应认定存在“以其他方法非法获取公民个人信息”而构成侵犯公民个人信息罪。
同样,虽然病人的住院床号等是与公民个人有关的信息,但也不属于《刑法》第253条之一的“公民个人信息”。比如,行为人系医药代表,其为了给医生准确发放用药回扣,从医院计算机主管处非法获取了有关病床使用其负责销售的药品情况。相关信息只涉及病床号(相应病床由特定医生负责)和使用特定药品情况,并无病人姓名、身份证号等其他个人信息。
如果要对其按侵犯公民个人信息罪定罪量刑,关键也在于如何认定公民个人信息的可识别性。根据前述法律和司法解释的规定,该案中涉及的病床号、用药情况等信息无法直接识别特定自然人,且“与权利人的人身安全、财产安全关联不大,敏感性程度较低”。此外,“从行为人的主观目的来看,其就是想获取特定病床号的用药情况,至于该病床所关联的具体自然人并非其主观所追求的”,同时,病床号等信息具有时效性和偶发性,也不同于固定和长期伴随公民个人的信息,如居民身份证号码、脸部生物信息等,即便泄露,也不会侵害公民信息权的法益,因此,该行为不应定为犯罪。
总之,爬虫行为即便违反了机器人协议,其性质系非法获取公民个人信息,但也不能据此认定成立侵犯公民个人信息罪。“法学家所面临的挑战不仅是对广泛存在的而且是计划中的技术进行法律评价,并且及早地说明可能存在的违法,以便于技术发展中进行修正。” 基于实质可罚性的立场,如果行为人的入侵或窃取行为手段非法但对行为对象无害,比如窃取的是公开发布的或者经对方同意或授权的个人信息,或者窃取的信息无法识别特定自然人身份,则应该予以出罪。
综上所述,使用爬虫行为获取公民个人信息的,不仅要从形式上判断行为是否合法、是否正当,还要从实质上判断违法行为是否有正当化阻却事由,比如是否经授权或者许可而为的爬虫行为,对“以其他方法非法获取公民个人信息”中的“非法”进行实质价值的评判,同时,即便形式上是“非法”,仍需要从实质可罚性角度对于不应处罚的爬虫行为进行出罪。通过形式判断与实质判断、形式入罪与实质出罪双重机制,合理地实现对网络爬虫行为的刑事规制。
在web3.0时代,“数据是网络的核心,而不是文档或者人,并且这些数据都是可以被机器识别处理的数据,因此,用户从网络上获取信息就像查询数据库一样容易,而不必掌握各网站的数据组织架构”。爬虫技术正是这样助推方便查询与获取数据的一项技术。网络爬虫作为常见的数据抓取技术,具有中立性。
虽然对于网络数据的共享、分析和相关行业的预判有着巨大作用,并在一定程度上实现了互联网的塑造融合开放共享的理念,造就了网络的繁荣和发展,但是,其使用不可超越法律的界限,否则中立就会转化为非法,此类爬虫行为就会面临刑事入罪的风险。网络爬虫技术的使用要充分尊重信息权益保护的固有要求,要兼容考量网络爬虫技术的使用与法律权益保护,使两者协调。
未来二十年,网络世界将面临着无所不在的信息安全隐患,“任何以数字格式编写并存储的内容,只要直接或间接连接到互联网,迟早都会被窃取,或者销毁”。 立足于中国网络国情,如何针对网络数据爬虫行为进行特别立法,如何在已有法律框架内规制网络爬虫行为,是各个法律领域所面临的共性问题。
“尊重人意味着对犯罪人的惩罚必须是他应得的惩罚,亦即,犯罪人基于自己的意志选择了犯罪行为,刑罚作为对其责任的清算具有正当性”, 因此,如何使对爬虫行为的刑事规制具有正当性,如何针对这些新型科技行为进行违法性方面的形式与实质的双重判断,如何进行合理的入罪与出罪,预防其所带来的社会危害风险,是刑事法律领域所面临的个性化问题。只有从法律共性和刑事法个性领域,双管齐下规制网络爬虫行为,才能营造健康的网络发展环境,保障网络信息尤其是公民个人信息的安全。
面试题:Java中java.lang.Void和void有什么区别?
百度校园招聘回忆录(已成功拿到offer)
惊恐,还真有大神把地府后台管理系统做出来了,“阎王爷”疯狂点赞!附地址
觉得不错,请给个「在看」
分享给你的朋友!
- End