查看原文
其他

律谈 | 数据爬虫有何问题

苏耀云 曾恺 广州律协 2022-03-31

最近,现金贷、“套路贷”滋生的暴力催收等违法行为严重扰乱社会秩序,监管层重拳打击源头“贩卖”数据的大数据征信公司。9 月初,魔蝎科技、新颜科技两家大数据风控服务商相关人员被警方带走,9月12日,媒体报道天翼征信有限公司的多位高管及员工被警方带走,10月21日,51信用卡爬虫部门被公安机关“一锅端”,大数据行业一时风声鹤唳,大数据风控服务商纷纷停止爬虫业务,观望,不少计算机行业的朋友也咨询我们与爬虫相关法律问题。为此,我们特地对不同场景对不同情形爬取数据行为结合目前法律法规进行了分析,希望对从业者有所帮助。


网络爬虫(Web Crawler),简单理解,就是通过编写一个程序抓取别人网站或App内的数据到自己的网站(App)或数据库供自己或自己用户使用。作为一种“技术”手段,爬虫技术本身没有违法性,问题在于将技术用于什么方面,什么场景。另外,爬虫主要目的是为了获取数据,而获取数据的类型关系到爬取行为合法与否。


爬虫可能涉及

的刑事责任

根据实际中不同情形,我们归纳了数据爬取可能直接涉及的刑事责任,见下图:

根据上图,我国《刑法》有个罪名非法侵入计算机信息系统罪,若编写爬虫程序侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的,无论情节严重与否,直接构成该罪。


大家最疑惑的是,若爬取不涉及国家事务、国防建设、尖端科学技术领域的计算机信息系统的数据,是否涉刑责?我国《刑法》还规定了非法获取计算机信息系统数据罪,“违反国家规定,侵入前款规定以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据”,从文字上看,是否意味着任何爬取行为都要被这条罪名所“禁止”?


显然也不能这么说,这条规制的是非法获取数据行为,合法获取就没问题,关键在于什么为合法?简单来说,爬取公开信息,如政府机关公布的公开信息,企业的公开信息,天气数据、媒体公开报道等信息,就没问题。若爬取非公开信息,要获得被爬取网站或企业的授权或同意,若爬取的涉及公民个人信息,则还要获得公民本人授权或同意,否则,同时构成侵犯公民个人信息罪。


还有很多技术人员认为仅开发或设计爬虫程序,不参与具体爬取数据的行为,就没事了?实际上不然,若提供爬虫程序,具有避开或者突破计算机信息系统安全保护措施,未经授权或者超越授权获取计算机信息系统数据的功能的程序,开发目的是专门为了提供侵入、非法控制计算机信息系统程序、工具的,则可能构成提供侵入、非法控制计算机信息系统程序、工具罪。实践中,这种行为都是为了从中获利。另外,若爬取数据过量或爬取行为造成被爬取网站不能正常运行的时候,情节严重的,可能构成破坏计算机信息系统罪。


若爬取数据为他人具有独创性成果的数据,可能构成侵犯著作权罪。


为了让大家更好理解上述不同场景下数据爬虫可能涉及刑事责任风险,我们搜集了一些典型案例,供参考。

罪名

案例

犯罪事实

非法侵入计算机信息系统罪

李文环、王硕、卢晓燕等非法侵入计算机信息系统罪案

案号:(2018)川3424刑初169号

裁判日期:2019.06.21

2014年至今,被告人李文环使用“爬虫”软件,大量爬取全国各地及凉山州公安局交警支队车管所公告的车牌放号信息,之后使用软件采用多线程提交、批量刷单、验证码自动识别等方式,突破系统安全保护措施,将爬取的车牌号提交至“交通安全服务管理平台”车辆报废查询系统,进行对比,并根据反馈情况自动记录未注册车牌号,建立全国未注册车牌号数据库。

提供侵入、非法控制计算机信息系统程序、工具罪

艾勇、康正江、曹书铭提供侵入、非法控制计算机信息系统程序、工具罪案

案号:(2019)川0191刑初567号

裁判日期:2019.07.23

2015年8月起,艾勇、康正江、曹书铭经预谋后,对外出售由艾勇、康正江研发的翻墙软件,其中艾勇研发了电脑端翻墙软件,康正江研发了手机端翻墙软件。曹书铭则负责客户服务工作。客户购买翻墙软件后,可以通过该软件访问国内禁止访问的外国网站,非法获取信息数据。艾勇、康正江、曹书铭出售翻墙软件的违法所得共计60余万元。2017年11月28日,艾勇、康正江、曹书铭接警察电话通知后,主动到成都市公安局高新技术产业开发区接受调查。后经四川公安厅网络安全保卫总队检验,涉案的翻墙软件属于“其他专门设计用于侵入、非法控制计算机信息系统、非法获取计算机信息系统数据的程序、工具”。

非法获取计算机信息系统数据罪

邵凌霜、陈昴、刘江红、刘坤朋、张翔犯非法获取计算机信息系统数据罪案

案号:(2017)粤0305刑初153号

2015年11月左右,邵凌霜、陈昴为了提高元光公司开发的智能公交APP“车来了”在中国市场的用户量及信息查询的准确度,保证公司更好的经营,邵凌霜授意陈昴,指使公司员工刘江红、刘坤朋、张翔等人利用网络爬虫软件获取包括谷米公司在内的竞争对手公司服务器里的公交车行驶信息、到站时间等实时数据。张翔负责编写爬虫软件程序;刘坤朋负责不断更换爬虫程序内的IP地址,使用变化的IP地址获取数据,以防元光公司察觉;刘江红负责编写程序,利用刘坤朋设置的不同IP地址及张翔编写的爬虫程序向谷米公司发出数据请求,大量爬取谷米公司开发的智能公交APP“酷米客”的实时数据,日均300万至400万条。爬取的数据直接为元光公司所用,使该公司的智能公交APP“车来了”准确度提高。

破坏计算机信息系统罪

柯炎鹏破坏计算机信息系统罪案

案号:(2019)浙0122刑初143号

裁判日期:2019.09.03

2018年9月29日下午,被告人柯炎鹏利用技术手段侵入桐庐达曼酒店计算机信息系统,将服务器内存有数十万条客户信息的数据库文件下载至其借用的电脑中,并修改达曼酒店服务器中数据存储路径,导致酒店信息系统无法正常运作。

侵犯著作权罪

何超侵犯著作权罪案

案号:(2016)沪03刑终1号

裁判日期:2016.03.04

被告人何超设立“车城小说”网站(域名:checheng123.com),其通过租赁海外服务器并运行其从互联网上下载的“关关采集”抓取软件,在未获被害单位上海玄霆娱乐信息科技有限公司(下称“玄霆公司”)许可的情况下,擅自抓取复制玄霆公司具有独家信息网络传播权并发行于互联网站上的文字作品,存储于自己的服务器上,供“车城小说”网站用户免费阅读。

侵犯公民个人信息罪

秦帅等侵犯公民个人信息罪案

案号:(2018)京0108刑初770号

裁判日期:2018.12.25

2017年4月10日至5月15日,被告单位北京宁芙信息科技有限公司(以下简称宁芙公司;注册地为北京市海淀区知春路甲48号4号楼3层3002室)出于企业经营发展需要,经公司决策,由被告人黄磊、宋辉通过技术手段,侵入北京嘀嘀无限科技发展有限公司(以下简称嘀嘀公司)相关计算机信息系统,非法获取公民个人信息一千一百余万条,用于制作数据分析报告。其中,被告人黄磊为爬取数据负责编程;被告人宋辉负责运维和VPN搭建;被告人魏勇负责持他人制作的数据分析报告谈判。


爬虫可能涉及

的民事责任

数据爬取行为,除了可能承担前述刑事责任外,相关主体可能还要承担相应民事责任,比较典型的是侵犯著作权民事责任和反不正当竞争法项下的民事责任。

著作权侵权责任

数据爬虫侵犯他人著作权,首先要判断爬取的数据是否直接构成他人具有《著作权法》保护的独创性作品,退而求其次,被爬取的数据是否构成汇编作品,这两个请求权基础是被爬取数据的企业主张的依据。例如:首先,在是否直接侵犯著作权方面:


美亚长城影视文化(北京)有限公司与精伦电子股份有限公司侵犯影视作品信息网络传播权纠纷(2014)鄂民三终字第00107号,裁判日期:2014.04.16


精伦电子股份有限公司主要通过相关主体和技术从互联网上抓取影视链接地址,并由其提供的播放器进行播放。法院认为,精伦电子向其产品用户提供搜索、链接服务,让其用户获取涉案影视作品的行为是否构成侵权是本案双方当事人争议的主要焦点。精伦电子开发销售的涉案精伦H3播放器主要是以让用户免费获取海量影视内容为卖点,其产品盈利点也是基于互联网第三方网站提供的影视内容,从尊重著作权人权利和基本的商业伦理分析,精伦电子链接他人版权作品提供给自己的产品用户,应该取得著作权人及相关权利人的许可并支付相应的对价。本案中,精伦电子并未取得著作权人及相关权利人的许可,也未支付相应的对价。

法院认为,精伦电子向其产品用户提供搜索、链接服务,让其用户获取涉案影视作品的行为主观上具有过错,构成侵权。


在主张构成汇编作品权方面,在我国司法实践中,数据汇编能否享有著作权要看是否具备著作权法上的独创性,即“将作品或者作品的片段通过选择或者编排,汇集成新作品的权利”,在大众点评诉爱帮网一案中,【上海汉涛信息咨询有限公司与爱帮聚信(北京)科技有限公司著作权侵权纠纷案,(2010)海民初字第4253号】一审北京海淀法院认为,大众点评网中针对餐馆的介绍和点评内容整体构成汇编作品,原告作为网站的经营者,对上述内容享有著作权。但二审被法院驳回,二审法院认为,“大众点评网对于网友点评信息系按照时间顺序排列,排列方式是常见的排列方式,并不具有独创性。同时,本案现有证据亦无法看出被上诉人对于用户点评的内容进行了选择。”,故二审法院最终未支持数据抓取方式侵犯汇编作品著作权的主张,后来,大众点评另行提起了不正当竞争诉讼,获得法院支持。

构成不正当竞争

数据是互联网行业的核心竞争力,谁能获取更多、更优质的数据意味着谁能脱颖而出,抢占竞争优势,同时,数据合理、使用、流转也应获得保护,但由于目前我国法律没有明确数据权益法律性质,导致实践中爬取数据及使用问题常常引发互联网行业之间的不正当竞争纠纷,例如:


深圳市谷米科技有限公司与武汉元光科技有限公司等不正当竞争纠纷案。(2017)粤03民初822号 。裁判日期:2018.05.23


深圳中院认为:本案中,被告元光公司利用网络爬虫技术大量获取并且无偿使用原告谷米公司“酷米客”软件的实时公交信息数据的行为,实为一种“不劳而获”、“食人而肥”的行为,具有非法占用他人无形财产权益,破坏他人市场竞争优势,并为自己谋取竞争优势的主观故意,违反了诚实信用原则,扰乱了竞争秩序,构成不正当竞争行为。


疑问:公交停靠地点、时间表、路线这些数据具有“公共性”,本身也是客观存在的,但为何深圳中院认为谷米公司对这些数据享有一定独占性权益?


深圳中院认为:公交车作为公共交通工具,其实时运行路线、运行时间等信息仅系客观事实,但当此类信息经过人工收集、分析、编辑、整合并配合GPS精确定位,作为公交信息查询软件的后台数据后,其凭借预报的准确度和精确性就可以使“酷米客”APP软件相较于其他提供实时公交信息查询服务同类软件取得竞争上的优势。而且,随着查询数据越准确及时,使用该款查询软件的用户也就越多,软件的市场占有份额也就越大,这也正是元光公司爬取谷米公司数据的动机所在。


鉴于“酷米客”APP后台服务器存储的公交实时类信息数据具有实用性并能够为权利人带来现实或潜在、当下或将来的经济利益,其已经具备无形财产的属性。谷米公司系“酷米客”软件著作权人,相应的,也就对该软件所包含的信息数据的占有、使用、收益及处分享有合法权益。未经谷米公司许可,任何人不得非法获取该软件的后台数据并用于经营行为。


最后,深圳中院依据《反不正当竞争法》第二条认定元光公司爬取数据行为构成不正当竞争行为。


案例评析:法院裁判思路很清晰,虽已有刑事判决确定元光公司爬取谷米公司数据的行为构成刑事犯罪,但《反不正当竞争法》视野下,该案有个特别之处在于公交数据本身具有客观性,本案不正当竞争纠纷围绕焦点在于数据的“流转”和“使用”,及谁对数据享有在先权益,所以,在该案中,深圳中院首先要从民事权利方面评价谷米公司对其付出劳动所得的公交数据享有权益,“车来了”爬取这一数据未经授权,存在不正当性,且元光公司使用行为是为了谋求“车来了”的竞争优势,违反了诚实信用原则和商业道德,扰乱了竞争秩序,故认定元光公司数据爬取行为构成不正当竞争。


由此可知,除了竞争关系和行为违反商业道德,损害他人权益,扰乱市场竞争秩序的认定外,此类涉及数据爬取及使用的不正当竞争纠纷审理首先要认定的是:数据权益归属+获取数据行为合法性+数据使用行为合法性


例如:2016年北京知识产权法院审理的新浪微博与脉脉软件不正当竞争纠纷案((2016)京73民终588号),也涉及未经授权抓取和使用数据行为,法院根据该案证据及双方陈述认定淘友技术公司、淘友科技公司(运营脉脉软件)在双方合作期间实施了非法抓取、使用涉案新浪微博用户职业信息、教育信息的行为;在双方合作结束之后,淘友技术公司、淘友科技公司非法使用涉案新浪微博的用户信息。在数据权益方面,法院认为,用户信息是互联网经营者重要的经营资源,如何展现这些用户信息也是经营活动的重要内容。这些用户信息不仅是支撑微梦公司作为庞大社交媒体平台开展经营活动的基础,也是其向不同第三方应用软件提供平台资源的重要内容。

另一典型案例

2017年上海知识产权法院审理的大众点评与百度地图不正当纠纷案,涉及百度地图大量使用大众点评的用户点评数据,法院认为在靠自身用户无法获取足够点评信息的情况下,百度公司通过技术手段,从大众点评网等网站获取点评信息,用于充实自己的百度地图和百度知道。同时,法院肯定了大众点评耗费大量资源获取用户点评数据,并对数据具有整理和聚合效应,这些数据能给大众点评带来竞争优势,具有商业价值,形成了大众点评的商业模式,百度公司爬取这部分数据和其对数据的使用方式,实质替代大众点评网向用户提供信息,对汉涛公司造成损害。百度公司并未对于大众点评网中的点评信息作出贡献,却在百度地图和百度知道中大量使用了这些点评信息,其行为具有明显的“搭便车”、“不劳而获”的特点,故认定百度地图构成不正当竞争。


2017年11月,《反不正当竞争法》作了修订,增加了利用网络技术实施不正当行为情形,规定经营者不得利用技术手段,通过影响用户选择或者其他方式,实施妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为,因此,不同的数据爬取行为情形,可能直接构成《反不正当竞争法》规定的不当行为。

启发

数据可以爬,但要爬之有道。由上文可知,不同数据爬取行为可能涉及不同类型的刑事风险、行政责任和民事责任,在爬取数据之前要对相关风险有一定的了解,根据上文,我们提出以下小建议:


第一,涉及国家事务、政府机关和公共事业单位运营和管理的数据库尽量别碰,除非是对全体社会公开的数据,如政府公布的企业工商信息、天气数据、人口数据等,也千万不要帮别人或为了赚钱专门写爬虫代码,特别注意不要爬有验证码等反爬措施网站的数据库。


第二,对于他人网站数据(如小说、新闻、影音视频等)或者链接,最好不要爬,除非你能证明你仅提供网络服务,且无过错。


第三,爬取数据要遵守与被爬取网站的爬虫协议(robots 协议),同时与被爬取网站有合作关系要遵循协议约定,爬取或获取涉及个人信息的要获得用户的明确同意和授权。


第四,爬取数据要适量,不得妨碍网站正常运行,通常自动化访问收集流量不要超过网站日均流量三分之一,被爬网站要求停止自动化访问收集时,应当停止。


文 | 苏耀云 曾恺

广东广信君达律师事务所

荐阅读
实务 | 企业搬迁是否必须支付经济补偿

趣谈 | 从刑辩角度看水浒故事——宋江杀妾案

征文 | “与祖国共奋进·我们都是法治追梦人”征文大赛正式启动!

//

欢迎投稿律师原创文章

实务技能、法律时评、生活感悟、行业观察等

投稿邮箱:gzlx2016@qq.com

//

长按关注 广州律师行业最新资讯


了解了更多数据爬虫问题,“在看”一下


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存