查看原文
其他

游涛、计莉卉:使用网络爬虫获取数据行为的刑事责任认定—以“晟品公司”非法获取计算机信息系统数据罪为视角

游涛、计莉卉 法律适用 2023-01-13

游涛   计莉卉


摘要

于使用爬虫技术未经授权获取一定范围内公开信息的数据的行为,应该区分信息和数据的不同保护价值,根据数据和信息的具体保护措施,围绕数据安全性是否有保护的必要性,评价是否构成非法获取计算机信息系统数据罪。


关键词

网络爬虫侵入获取信息数据



一、问题的提出


(一)基本案情

北京市海淀区人民检察院指控,2016年至2017年间,被告人张某某、宋某、侯某某作为被告单位上海晟品网络科技有限公司主管人员,在上海市共谋采用技术手段抓取被害单位北京字节跳动网络技术有限公司(办公地点位于本市海淀区北三环西路43号中航广场)服务器中存储的视频数据,并由侯某某指使被告人郭某破解北京字节跳动网络技术有限公司的防抓取措施、实施视频数据抓取行为,造成被害单位北京字节跳动网络技术有限公司损失技术服务费人民币2万元。2017年2月27日,被告人宋某、侯某某被公安机关抓获;3月4日,被告人张某某、郭某被公安机关抓获。


北京市海淀区人民检察院以被告人上海晟品网络科技有限公司、张某某、宋某、侯某某、郭某犯非法获取计算机信息系统数据罪,于2017年9月15日向北京市海淀区人民法院提起公诉。


北京市海淀区人民法院经公开审理查明:被告单位上海晟品网络科技有限公司系有限责任公司,经营计算机网络科技领域内的技术开发、技术服务、电子商务、电子产品等业务。被告人张某某系上海晟品网络科技有限公司法定代表人兼CEO,负责公司整体运行;被告人宋某于2016年8月至2017年2月任职上海晟品网络科技有限公司,担任联席CEO,系产品负责人;被告人侯某某于2016年8月至2017年2月任上海晟品网络科技有限公司CTO,系技术负责人;被告人郭某系上海晟品网络科技有限公司职员。被告人张某某、宋某、侯某某经共谋,于2016年至2017年间采用技术手段抓取被害单位北京字节跳动网络技术有限公司服务器中存储的视频数据,并由侯某某指使被告人郭某破解北京字节跳动网络技术有限公司的防抓取措施,使用“tt_spider”文件实施视频数据抓取行为,造成被害单位北京字节跳动网络技术有限公司损失技术服务费人民币2万元。经鉴定,“tt_spider”文件中包含通过头条号视频列表、分类视频列表、相关视频及评论3个接口对今日头条服务器进行数据抓取,并将结果存入到数据库中的逻辑。在数据抓取的过程中使用伪造device_id绕过服务器的身份校验,使用伪造UA及IP绕过服务器的访问频率限制。2017年2月27日,被告人宋某、侯某某被公安机关抓获;3月4日,被告人张某某、郭某被公安机关抓获。后四人均如实供述了上述事实。本案审理期间,鉴于被告人张某某、宋某、侯某某、郭某真诚悔罪、认罪,坦白相关犯罪事实,被害单位北京字节跳动网络技术有限公司出具刑事谅解书,对被告人张某、宋某、侯某某、郭某的行为表示谅解。


北京市海淀区人民法院于2017年11月24日作出(2017)京0108刑初2384号刑事判决,认为被告单位上海晟品网络科技有限公司违反国家规定,采用技术手段获取计算机信息系统中存储的数据,情节严重,其行为已构成非法获取计算机信息系统数据罪,应予惩处;被告人张某某、宋某、侯某某作为直接负责的主管人员,被告人郭.某作为其他直接责任人员,亦应惩处。北京市海淀区人民检察院指控被告单位上海晟品网络科技有限公司及被告人张某某、宋某、侯某某、郭某犯有非法获取计算机信息系统数据罪的事实清楚,证据确实充分,指控罪名成立,量刑建议适当。在单位犯罪中,被告人宋某、侯某某作用相当,但相对被告人张某某较小,被告人郭某较之宋某、侯某作用次之,在量刑时酌情考虑。鉴于被告单位上海晟品网络科技有限公司及被告人张某某、宋某、侯某某、郭某能够如实供述自己的犯罪事实,违法性认识不足,认罪态度较好;被告人张某某、宋某、侯某某、郭某获得被害单位谅解,加之本案适用认罪认罚从宽制度,故依法对其均从轻处罚,并对张某某适用缓刑。依照《中华人民共和国刑法》以非法获取计算机信息系统数据罪,判处被告单位上海晟品网络科技有限公司罚金人民币二十万元,判处被告人张某某有期徒刑一年,缓刑一年,罚金人民币五万元,判处被告人宋某有期徒刑十个月,罚金人民币四万元,判处被告人侯某某有期徒刑十个月,罚金人民币四万元,判处被告人郭某有期徒刑九个月,罚金人民币三万元。一审宣判后,被告人没有提出上诉,公诉机关也未提出抗诉,判决已生效。


(二)理论问题

本案被“互联网法律大会”列为全国首例利用“爬虫技术”侵入计算机系统抓取数据案, 由于案件涉及网络爬虫技术获取网络“公开信息”受到刑法规制而倍受IT界和互联网法学界关注和广泛讨论。讨论的争议核心涉及三个问题,一是网络爬虫技术的使用边界;二是网络爬虫获取数据是否属于“侵入”计算机信息系统的手段行为;三是“公开信息”是否属于非法获取计算机信息系统数据罪的犯罪对象。笔者认为,本案网络爬取行为已经超过了合法边界,属于侵入计算机信息系统的手段行为,并且本案“公开信息”并非“共享数据”,被告单位的行为已经侵犯了被害单位计算机信息系统和数据的安全性中的“保密性”这一法益,其行为完全符合非法获取计算机信息系统数据罪的构成要件,应该追究刑事责任。




二、使用网络爬虫获取数据行为的刑法规制路径


(一)网络爬虫程序的爬取行为是否获得合法授权

网络爬虫(web crawler,又被称为网页蜘蛛、网络机器人、网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL 开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。 不管是传统爬虫还是聚焦爬虫,抓取的都应是网页。


网络爬虫技术显然有利于信息的交流和共享,一些网站出于信息公开或经营所需等目的,并不拒绝甚至还欢迎网络爬虫提取网页信息。但是,从尊重信息提供者的意愿,并维护其隐私权以及数据资源保护等目的出发,网站有义务也有权利保护其数据资源以及使用者的个人信息和隐私不被侵犯。因此,并不是所有的网站都希望自己的网页被爬虫提取,或者并不希望自己所有的网页信息被爬虫提取。网页信息公开或共享的范围和程度如何设定,这显然是网站的权利,除非出于公共利益或其他强制性要求。为此,网站会采取一些反爬虫措施来防止网页信息和数据被爬取。比如有些网站通过对端口、接口等禁止访问限制或通过网页访问口令、JS脚本(如设置验证码、滑动解锁等)、User-Agent 、robots协议等来阻止爬虫。本案中,被害单位就设置了参数验证即用户身份认证机制来防止爬虫程序抓取网页信息和视频数据。被告单位通过分析被害单位计算机信息系统的数据接口,然后使用脚本程序模拟被害单位计算机信息系统的软件接口的方式访问被害单位计算机信息系统的数据库,从而将被害单位的视频下载到自己的服务器。经过鉴定,“tt_spider”文件中包含通过头条号视频列表、分类视频列表、相关视频及评论3个接口对今日头条服务器进行数据抓取,并将结果存入到数据库中的逻辑。在数据抓取的过程中使用了伪造的device_id绕过了服务器的身份校验,使用了伪造的UA及IP绕过了服务器的访问频率限制。因此,现有证据足以认定被告单位破解了被害单位的反爬虫措施,属于没有取得被害单位的授权非法获取网页信息和数据。同时,被告单位的爬虫程序不仅提取了网页信息,而且还下载了网页信息背后计算机信息系统的数据,这也显然超越了爬虫技术爬取网页信息的通识边界,恶意明显。


当然,本案在取证方面还有一个遗憾,即虽然从被害单位公示的用户协议可以证明,被害单位明确禁止网络爬虫程序爬取涉案视频网页,但公安机关没有查明被害单位是否在计算机信息系统中设置了robots.txt以及robots.txt对于爬虫程序的授权范围。robtes.txt,也称为爬虫协议、机器人协议等,全称是“网络爬虫排除标准”(Robots Exclusion Protocol),是国际互联网界为了兼顾保障搜索技术服务于人类,逐步确立起的通行的道德规范。主要内容为:当一个爬虫程序访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,爬虫程序就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的爬虫程序将能够访问网站上所有没有被口令保护的页面。 虽然robots.txt不是命令,也不是防火墙,但是robots.txt代表了网站的授权意志。正是基于这一点,司法实务界也均认为可以通过robots.txt来判断爬虫程序是否获得了网站的授权。比如百度公司诉360案 认为,“robots协议已经成为一种国内外互联网行业内普遍推行、普遍遵守的技术规范……其反映和体现了行业内的公认商业道德和行为标准,法院对其所体现的精神予以充分考虑……robots协议应当被认定为行业内的通行规则,应当被认定为搜索引擎行业内公认的、应当被遵守的商业道德……被告没有遵守原告网站的robots协议,其行为明显不当,应当承担相应的不利后果。”也因此,目前网站一般也都设置了robots.txt。查明被害单位是否在网站根目录下设置了robots.txt以及文本内容,这显然有利于帮助司法查明受害网站的授权范围。建议所有网站都在根目录下设置robots.txt,并且最好在爬虫协议中放入自然语言以及相关的法律条文,并将爬虫协议与其网站的使用协议进行关联,从而将原本由计算机语言表达的涵义通过法律语言及法律协议的形式进行表达,让爬虫协议通过合同的形式具有法律涵义。 


(二)网络爬取行为是否属于非法获取计算机信息系统数据罪的侵入行为

有观点认为“绕过反爬措施抓取数据不构成不法侵入计算机信息系统”。主要理由为,“数据爬取纠纷中,行为人抓取的是处于公开可访问状态的数据,换言之,存储这些数据的计算机信息系统的访问权限是默认开放的,包括数据抓取方在内的不特定网络用户均可对其进行访问并从中获取数据。”  对此,笔者不能赞同。非法获取计算机信息系统数据罪的手段行为有两种,一种是“侵入”行为,一种是“其他技术手段”。基于刑法法条语言的理解,一般认为“侵入”也应该为技术手段,否则法条表述上不会出现“其他”二字。这一理解看似合理,否则他人的计算机信息系统数据谈何容易被非法获取呢?而且本罪是计算机网络犯罪,势必对于手段行为要强调一定的技术性。著名刑法学家郎胜主编的《中华人民共和国刑法释义》也认为“侵入,是指未经授权或者他人同意,通过技术手段进入计算机信息系统。” 似乎侵入行为必须要求是“技术手段”。但是司法实践中确实出现了单位内部人员将计算机信息系统的用户名和密码告知外部人员,由外部人员多次通过互联网登录单位计算机信息系统而获取数据的案件。此案行为人显然无权进入计算机信息系统,但是确实也没有任何技术含量地进入了计算机信息系统,并且获取了大量数据,所造成的对数据安全的侵害结果,与通过暴力破解计算机信息系统获取数据的行为后果没有任何区别。如果这种行为不依据非法获取计算机信息系统数据罪认定,显然过于机械地理解了法条。如果能够认识到非法侵入的实质内涵是违背他人意愿进入他人计算机信息系统,既包括采取技术手段进入,也包括未征得他人同意或者授权进入,就能够实质性地理解法条并正确适用法条。最高人民检察院第36号案例(卫某某非法获取计算机信息系统数据案)便肯定了这一实质性理解思路。


那么爬虫程序是否进入了被害单位的计算机信息系统?在案证据显示,被告单位是通过分析被害单位计算机信息系统的数据接口,然后使用脚本程序模拟被害单位计算机信息系统的软件接口的方式访问被害单位计算机信息系统的数据库,从而将被害单位的视频数据下载到自己的服务器。很显然,爬虫程序已经接入了被害单位的计算机信息系统,否则也不可能从被害单位计算机信息系统数据库下载数据。涉案数据库只允许被害单位APP用户或被害单位视频APP用户访问。被告单位正是伪造了device_id绕过了服务器的身份校验,并使用伪造UA及IP绕过服务器的访问频率限制才实行了对被害单位服务器数据库的访问。不是通过被允许的身份验证机制获得的权限访问,不是通过真实的UA和IP进行的访问,均是无权限的非法访问。应该强调的是,所谓计算机信息系统,是指由计算机及其相关的和配套的设备、设施(含网络)构成的,按照一定的应用目标和规则对信息进行采集、加工、存储、传输、检索等处理的人机系统。按照最高人民法院、最高人民检察院《关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》规定,计算机信息系统“是指具备自动处理数据功能的系统,包括计算机、网络设备、通信设备、自动化控制设备等。”APP客户端与被害单位网站服务器端通过网络链接一起进行信息和数据采集、加工、存储、传输、检索,这当然属于计算机信息系统的一个组成部分。被告单位绕过APP客户端与被害单位网站服务器端的身份验证系统,行为性质实际就已经属于非法侵入被害单位的计算机信息系统了。当然,退一步讲,即使被告单位的行为不属于非法侵入行为,也属于其他技术手段的非法获取行为,同样符合非法获取计算机信息系统数据罪的手段要件。


(三)“公开信息”是否属于“共享数据”

有观点认为“一旦信息进入公开领域,原则上就将属于公共产品,除非存在十分充分的理由,否则不宜在法律规范层面赋予私人主体对于信息支配力,使其有权控制信息的传播范围并独占其蕴含的各项价值。”  这一观点“从保障数据顺畅流通,提高数据资源利用效率的角度”看似有一定的合理性,但其实并没有充分理清信息与数据概念区分,没有充分认识到信息与数据的不同价值,没有充分理解数据安全性的内涵。


非法获取计算机信息系统数据罪的保护法益是计算机信息系统安全和数据安全。国际标准化组织(ISO)对计算机信息系统安全的定义是,为数据处理系统建立和采用的技术和管理的安全保护,保护计算机硬件、软件和数据不因偶然和恶意的原因找到破坏、更改和泄漏。由此计算机信息系统安全可以理解为:通过采用各种技术和管理措施,使网络系统正常运行,从而确保网络数据的可用性、完整性和保密性。其中数据的机密性(保密性),是指个人或团体的信息不为其他不应获得者获得。数据安全有两方面的含义,一是数据本身的安全,主要指采用现代密码算法对数据进行主动保护,如数据保密、数据完整性、双向强身份认证等,二是数据防护的安全,主要是采用现代信息存储手段对数据进行主动防护,如通过磁盘列阵、数据备份、异地容灾等手段保证数据的安全。 


那么本案中被害单位APP用户或视频APP用户可以观看被害单位网站上的视频信息,是否就意味着这些视频数据是公开的,失去了保密性,因此就失去了非法获取计算机信息罪保护的必要性?这涉及到对数据与信息概念本身的理解。


刑法规定,非法获取计算机信息系统数据罪的犯罪对象是计算机信息系统中存储、处理和传输的数据。而数据和信息是有区别的。从信息论的观点来看,描述信源的数据是信息和数据冗余之和,即“数据=信息+数据冗余”。数据和信息之间是相互联系的。数据是反映客观事物属性的记录,是信息的具体表现形式。数据经过加工处理之后,就成为信息;而信息需要经过数字化转变成数据才能存储和传输。一般而言,数据是信息的载体。 具体而言,例如视频数据,指的是数字化的视频信息以及处理、加工视频信息过程中冗余的计算机语言、文字、代码、字符等;而视频信息,则指的是可视化内容。非法获取计算机信息系统数据罪的犯罪客体是计算机信息系统安全和数据安全,而不仅仅是针对信息安全。我国刑法,是从信息所涉及的个人隐私、知识产权等角度独立予以保护。从这个层面来理解,非法获取计算机信息系统数据罪中的数据,显然与信息论的观点一致,是信息的数据化存储、处理和传输的客观表现形式,包含信息数据化后的数据和冗余数据,而非信息本身。


那么信息公开了,是否就意味着数据公开了?答案是否定的。信息公开,只是数据中原本数据化了的信息经过处理后内容公开了,数据依然存储在数据的硬件载体之中,在信息内容被展现的过程中,数据在被传输、处理但没有公开。即使认为信息是数据的一部分,也不能说信息公开了就代表着数据公开了,至多可以认为数据中的数字化信息被展现出来而让数据部分内容被实质性公开了。有观点认为,信息都公开了,信息的数字化形式就没有保护的价值了。其实不然,例如,相同的信息可以用不同程序编辑,也就是说相同的信息,可以有不同的数据表现形式。信息的数据化技术水平越高,数据的存储、传输和处理可能越快捷、数量越少、质量越高、效果越好。数据化技术水平的提高实质上代表着计算机技术的创新。至少从这个层面来讲,数据具有区别于信息的独立价值。数据与信息也可以分别采取不同的技术措施予以保护,比如通过网页口令可以禁止无权用户获得信息;而通过现代密码算法可以让数据从明文变为密文而不被获取或识别。而且即使有权用户可以获取信息,但是也不一定有权直接复制下载数据,不一定有权通过开发者程序获得数据,更不一定有权通过爬虫程序获得数据。是否能够获取数据,这取决于数据权利人或者控制者的意志和授权。从这个层面来讲,数据的公开、共享或获取权限、方式等,均区别于信息。当前,人们已经认识到,对于信息可以通过个人信息权、隐私权、知识产权、国家秘密等方面予以保护,而对于数据则还可以通过可携带权、删除权、更正权、知情权、数据主权等予以保护,并可以通过收集、加工数据获得和增加价值,通过交换实现价值。特别是在大数据时代,数据的独立价值和权利属性已经越来越得到广泛重视。正是从数据独立于信息的视角分析,笔者认为,获取了信息,或者信息公开了,绝不意味着数据也被获取了或者失去了保密性,更不意味着数据也失去了保护的价值。前文所述数据的机密性(保密性)是个人或团体的信息不为其他不应获得者获得。其实这一观点,依然忽视了数据与信息的独立价值区分。数据与信息的机密性,应该分别定义:数据的机密性,应该是指个人或团体的数据不为其他不应获得者获得;而信息的机密性,应该是指个人或团体的信息不为其他不应获得者获得。因此,本案中,即使认为视频信息公开了,也不能认为视频数据公开了,不能认为被告单位没有侵害到被害单位计算机信息系统的安全性和数据的保密性,不能据此否定被告单位获取视频数据行为的非法性。同时,依据前述定义,无论是信息还是数据,一定范围内的有权获得也并不一定意味着数据失去了保密性。只有在数据权利人或者控制者允许公众获得数据或者允许他人获取数据并且不限制他人再提供给公众,数据才失去法益保护的必要性,也即允许公众共享才存在。比如,公众可以不受限地访问网页并可以随意下载复制视频数据。又如,网站允许APP用户下载视频,同时不禁止用户将视频复制给他人。


那么何谓非法获取计算机信息系统数据罪中的“获取”?对此刑法和相关司法解释没有给出明确的定义。但ISO/IEC 27037:2012《信息技术安全技术电子证据识别、收集、获取和保存指南》对“获取”定义为,“在定义的集合中创建数据副本的过程(process of creating a copy of data within a defined set)”。可见,“获取”是主体在主观意志支配下复制和创建数据的行为,与数据相对而言,主体得到了信息但没有复制数据,不代表获取。比如视频,观看了视频,意味着获取了视频信息,但并不一定意味着获得了视频数据,只有将视频数据下载存储到自己可以控制的介质上,才意味着获得了视频数据;如果以拍照的方式截取了视频而没有完整地观看视频,则意味着只获取了被拍照图像的信息,没有获取视频的完整信息,更没有获取视频数据。又比如一篇文章,阅读了文章内容,意味着获得了文章信息,而将文章均拍照存储下来也意味获取了文章信息,但这并不意味着获取了文章数据,只有将文章下载存储下来或者通过转化工具将拍照的文章转化为自己可识别的数据,才意味着获取了文章数据。视频和文章在网页上的展示方式也是有不同的,一些视频只能观看不能下载,或者既可以观看也可以下载;而一些文章则可以观看不能下载,或者不可以通过“另存”的方式下载但可以通过复制文字的方式“粘贴”下载。不管是什么方式,对于文章或者视频,或者直接下载存储信息对应的数据,或者将信息以数字化方式另行存储在自己可以控制的载体上,才意味着获取了数据。


具体到本案,被害单位允许APP用户观看视频获取视频信息,当然不意味着APP用户获取了视频数据。被害单位的视频是采取流媒体技术播放,用户边缓存部分数据边观看视频,看完后,缓存的数据文本也随之消失。也就是一般用户在观看视频时并不能永久性下载复制视频,除非掌握一定计算机专业知识的人才有能力运用技术手段对视频数据副本进行复制和创建。缓存技术在知识产权领域得到世界公认的许可,是基于对计算机技术发展的需求作出的安排。但是缓存与下载复制是有区别的,缓存意味着断电既无,而下载复制则意味着可以永久保存。也因此,被害单位采取流媒体播放技术并结合APP身份认证技术,是对视频数据免于下载复制的技术保护。而本案被告单位绕过了APP身份认证机制,下载复制视频数据,破坏了被害单位对视频数据的技术保护措施,是非法获取视频数据的行为。


申论之,如果本案视频数据可以由APP用户复制下载,则意味着视频信息的公开,即使不允许用户使用开发者程序分析获取数据,也意味着视频数据的公开;如果视频数据禁止APP用户复制下载,但没有对数据本身采取保护措施,而允许用户使用开发者程序或不禁止其他方式获取数据,也意味着视频数据的公开;而在视频数据不可以由APP用户复制下载,不允许用户使用开发者程序或禁止其他方式获取数据,但允许用户使用录播工具复制视频时,也意味着视频数据的公开,当然在不允许用户使用录播工具复制视频时,如果录播获取了视频信息,则意味着实质性复制了视频数据,也属于非法获取。


综上所述,本案视频信息在APP用户范围内的有限公开,并不代表视频数据可以为公众所共享而进一步认为数据失去了安全保护的必要性。本案被告单位未经被害单位授权,使用网络爬虫程序绕过APP用户认证系统获取被害单位网站服务器内的视频数据的行为,侵害了计算机信息系统和数据安全的法益,完全符合使用侵入手段非法获取计算机信息系统数据罪的构成要件,理应受到刑法规制。当然,在此类案件中,如果行为人的行为同时触犯了破坏计算机信息系统罪、侵犯公民个人信息罪、侵犯商业秘密罪、侵犯著作权罪等等,应该依据想象竞合原则,酌一重罪从重处罚。在具体量刑时,还应考虑信息的公开程度和数据的技术保护措施严密程度来综合裁量。



责任编辑:徐文文

文章来源:《法律适用》2019年第10期

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存