网络爬虫要有所不能为
近年来,大数据凭借其强大的算法与算力正在悄然改变我们的世界,与此同时,数字化转型背景下所衍生出的数据侵权、网络犯罪问题也日益显见。
2022年5月10日, 江苏省无锡市梁溪区人民法院公开审理国内首例短视频平台“爬虫案”。被告人基于“爬虫”软件通过入侵短视频服务器非法获取用户昵称、UID等数据并对外销售,被认定构成侵入计算机信息系统程序罪,判处有期徒刑1年6个月,缓刑2年,并处罚金3万元,没收违法所并禁止在缓刑考验期内从事互联网相关经营活动。事实上,除了该案,近年来,有不少“爬虫”案涉诉,有民事诉讼也有刑事诉讼。
图为庭审现场 | 图源:无锡市梁溪区人民法院
“‘网络爬虫’作为一项技术手段本身并不违法,但由于本案的软件采取了避开或突破计算机信息系统的安全保护措施,未经许可进入被害单位的计算机系统,即属于非法获取计算机信息系统数据罪中的‘侵入’行为。”无锡市梁溪区人民检察院检察官林虹介绍。
网络爬虫
网络爬虫(Web Crawler),又称“网络蜘蛛(Web Spider)”或“网络机器人(Web Robot)”,是一项在互联网时代普遍运用的网络信息搜索技术。
图源:法治网舆情中心
它的基本原理是:根据搜索目的建立待爬取的URL队列,并将其取出,对该URL所对应的网页进行解析。当爬虫访问整个网页时,会自动识别网页中所有的URL并将其添加为待爬取URL,如此循环往复,直到URL队列中所有URL全部爬取完毕或满足一定要求为止。
网络爬虫的运行模式是:获取网页——解析网页——存储数据,即按照一定的规则自动抓取互联网信息的程序或者脚本。
自从1993年第一个网络爬虫程序——“互联网漫游者”被开发出来,网络爬虫这种便捷高效的搜索技术便得到了业界关注。特别是随着数据资源的爆炸式增长,网络爬虫的应用场景也变得越发广泛与多元,长期活跃于市场调查、产品研发、金融分析、舆情监控、风险预测等领域。
近年来,一些运用爬虫技术为客户提供数据服务的互联网企业,也获得了快速发展。对个人而言,我们可以利用爬虫软件等计算机编程语言,让网络爬虫为自己服务。例如想买到理想的房子,就可爬取房产中介的公开信息,分析房源数据与趋势以辅助决策。
网络的本质与价值在于连接,核心是实现数据的流动与分享。网络爬虫作为数据抓取的技术工具,通过爬行增强了网络节点间的联络,提升了网络的整体价值,是构建互联网开放与共享理念的重要技术基石。
但网络爬虫所行之处,并非总是鲜花和掌声,特别是涉及隐私领地和网络安全之时。因此,为了规范爬虫,维护网络秩序,1994年诞生了“robots.txt协议”,该协议虽然只是一个“君子协议”,但它逐渐被视为网络空间爬虫技术应用公认的行业准则,也成为判定爬取行为是否获得网站许可的主要依据。
原本通过robots协议,一方获得了数据与信息,一方增加了流量与关注,皆大欢喜。但robots协议能防“君子”却难防“小人”,有些爬虫程序不遵守规则,随心所欲地爬取别人不愿意分享的数据信息,并大量挤占服务器资源,变成了“网络害虫”。例如近年来一些大数据风控公司利用爬虫技术,在网络上非法收集用户个人信息并转卖给第三方,借以谋取经济利益。
一些不法分子利用网络爬虫来大量下载文字作品、音频视频等转售牟利;用来窃取竞争对手的商业数据进行不正当竞争;更有甚者,用网络爬虫爬取各类公民个人信息,成为网络赌博、电信诈骗等犯罪的黑产。
网络爬虫设计的初衷是通过计算机技术,自动为网站编纂索引,更新信息,为用户提供高效的检索服务。具有访问、下载和解析(对数据进行分析与筛选)三种基本功能。
目前,爬虫作恶主要是对前两种功能的异化,体现为三类作恶方式。
一是恶意抓取非授权数据
访问数据是“网络爬虫”的行为起点,也是其价值本源,一些企业或个人为了经济利益或其他特殊目的,想方设法让网络爬虫突破道德规则与技术障碍(网站“反爬虫”措施),爬取未经授权或超过授权范围的数据。例如2018年2月至4月间,马某通过编写“爬虫”程序,窃取手机应用及网站的用户信息约20万条,然后通过微信出售给他人,非法获利共计2.4万元,这种行为就构成了侵犯公民个人信息罪。
二是恶意侵犯知识产权
一些网络爬虫在数据爬取过程中,未经版权方的许可,就下载、复制或传播文字、图片和视频等内容,并以此获利。通常形式是,爬虫对具有版权归属的文学或影视作品等设置加框链接,吸引用户点击,然后通过售卖广告等形式牟利。例如段某建立的“窝窝电影”网站,利用爬虫技术对多家视频网站的500余部影视作品设置了加框链接,吸引用户点击播放,并赚取广告费100余万元,这种行为就触犯了著作权法。
三是恶意扰乱系统运行
网络爬虫访问系统时,跟人工点击原理一样,因此当巨量爬虫同时访问某一网站时,就会占用大量的带宽资源,造成服务器不堪重负甚至崩溃。
业内专家表示,2019年有近40%的网络流量来自爬虫,其中20%来自恶意爬虫,而且比例还将不断上升。
图源:法治网舆情中心
出行行业即是重灾区。以中国铁路“12306网站”为例,自2011年上线运营以来,春运期间多次出现因爬虫(主要是抢票软件)攻击而无法访问的情况。据统计,2018年春运期间,网站最高峰时1天内页面浏览量达813.4亿次,其中近90%是“爬虫”所为。
图源:法治网舆情中心
爬虫与反爬机制攻防对抗的实质是数据之争。在竞争法视野下,司法裁判既要考虑保障Robots协议契约精神,引导市场主体在竞争过程中遵守竞争规范,确保有序的市场秩序;又要考虑避免因Robots协议对爬虫的限制而形成数据孤岛,从而构成数据垄断。数据垄断对握有数据的经营者而言会产生竞争优势,但是长远来说,对社会经济可能带来负面影响。
数据爬虫的不断发展变异还引发了刑事风险。在刑法视野下,司法裁判主要考虑数据是否公开、手段是否具备“侵入性”、行为是否具有社会危害性。
从当前的刑事判例来看,数据爬虫涉刑的主要罪名有:
破坏计算机信息系统罪
非法侵入计算机信息系统罪
非法获取计算机信息系统数据罪
提供侵入与非法控制计算机程序、工具罪
侵犯著作权罪
侵犯公民个人信息罪
传播淫秽物品牟利罪
开设赌场罪,盗窃罪,诈骗罪等
在这些刑事案件中,网络爬虫突破了其原有的中立技术的内涵,目的也从高效的搜索、下载,延伸至窃取他人信息进而非法牟利。
那么,合法使用网络爬虫技术的边界又在哪里?网络爬虫要体现并保持技术的中立性,可以从以下三个方面进行合法性限定:其一,就爬取对象来说,应当限定为公开数据。其二,就技术手段来说,网络爬虫不应具有侵入性。是否具有侵入性应当从技术本身是否具有侵入性和数据爬取行为是否遵守爬虫协议与合同约定两个方面来判定。其三,从爬取的目的来说,要具有正当性、合理性、公平性。
法律要规范的并非技术本身,除非该技术本身就有伦理问题。法律要调整的是由于技术运用而带来的当事人之间的利益分配问题,要传递的是公平合理的价值追求。没有法律规制的数据爬虫,很可能变异为“害虫”。高悬达摩克利斯之剑,才能确保数据爬虫在推动数字经济发展中发挥正向价值。
自我国正式提出将“数据”与土地、劳动力、资本、技术并称为五种要素,提出要“加快培育数据要素市场”,数据作为生产要素之一已然上升为国家级战略布局,由此,与之对应的立法建设也逐步完善。
《个人信息安全规范》《数据安全法》《网络安全法》《征信业务管理条例》等各类国内法律法规不断出台的同时,对企业,尤其是直接面向终端市场的企业,产生不小的合规挑战。
在生产经营过程中,该类企业的线上运营几乎无法回避个人信息的收集、存储、处理、整合等环节,为了实现精准营销,有些企业还会形成客户画像,实现部门间的数据共享,只要其中任何一个环节发生数据泄露,就会不可避免地侵害个人隐私。这就要求企业根据线上业务,针对每一个数据处理节点进行合规审查。
相比个人信息权益,立法对数据有关的权益则尚在学理讨论层面,但与数据有关的权益保护司法诉讼在实践中不乏典型案例,通过这些典型司法案例,司法机关通常将与数据有关的权益按著作权,公平竞争权益予以保护,以及在一些公益诉讼中出现的指向国家或不特定主体的公共利益予以保护。
以数据为基础的数字经济已经渗透到我们生活各方面,传统企业数字化转型,数字产业化进程中,企业数据合规越来越成为企业发展不可忽视的一环,尤其在总体国家安全观和加强个人信息保护的背景下,企业更应该慎重对待数据处理和个人信息保护,加强合规建设。
加强与数据有关的权益保护意识,对于企业而言,重点关注以下几个方面:
一、判断经营活动是否涉及数据(或个人信息)处理,主动合规;
二、按“场景+行为+效果”模式,制定企业内部的数据安全管理制度;
三、充分重视“与数据或个人信息有关的权益”保护。
这也再次提醒任何企业和个人(无论传统企业还是数字经济领域相关企业或个人)都应注意企业数据合规、个人信息保护合规工作,加强与数据有关的权益保护意识。
最后,社会的发展,离不开技术的进步。技术的进步会带来人们生活方式的直接变化。但技术的发展具有双面性,我们在享有技术进步带来便利的同时,更要时时追问和警惕技术被非法使用带来的恶果。否则,技术的进步也就成为了违法犯罪的推手,各种区别于以往的违法犯罪的案件会不断出现,各种新类型的首例案件也会随之而来。
监制:李红梅
参考来源:
1.《加强规范,不让网络爬虫变“害虫”》光明网
2.《奋远 · 法眼新观察 | 法律规制:数据爬虫的悬顶之剑》上海市检察二分院
3.《网络爬虫无处不在,侵权边界在哪?》中国青年网
4.《评论丨全国首例短视频平台网络“爬虫”案:技术合规应不断被拷问》红星新闻