查看原文
其他

新基建主题系列——大数据从何而来,涉足大数据业务需留意的网络爬虫技术合规风险

薛熠 杨壹凯等 中伦视界 2022-07-31

作者:薛熠 杨壹凯 程若锦

2020年4月20日,国家发改委首次明确了“新基建”的范围:以新发展理念为引领,以技术创新为驱动,以信息网络为基础,面向高质量发展需要,提供数字转型、智能升级、融合创新等服务的基础设施体系。“新基建”是指,以5G、物联网、工业互联网、大数据中心、人工智能等为代表的新型基础设施,是信息数字化发展的结果。实际上,“新基建”这一概念早在2018年12月19日的中央经济工作会议中既已提出。


在“新基建”的风口下,大数据分析和应用不可缺席:无论对于物联网、人工智能,还是智能交通,亦或是商业领域的分析点击流量、客户质量、智能定价等等,莫不如此。随着《网络安全法》及其配套法规、标准及规范性文件的陆续发布,大数据业务更加成为学界、法律工作者、媒体及大众关注的重点,尤其在2019年,不断传出某些大数据业务经营者,因“过度收集、非法窃取和贩卖个人数据信息”、“未经个人同意搜集个人数据信息”等被警方调查或被迫下架的消息。同时,大数据公司也在担忧:大数据分析的业务该如何开展?如何合法合规地收集数据?哪些技术可以使用?


本文将以搜集大数据的技术之一,网络爬虫技术为例,讨论网络爬虫技术在使用和应用中的重点法律合规问题,供从事大数据业务的企业参考。


网络爬虫织网,为大数据分析捕捉信息


1、什么是网络爬虫


网络爬虫/爬虫程序(Web Crawler),也称网络机器人(Web robots)、网络游客、蜘蛛爬虫,根据《互联网搜索引擎服务自律公约》,这是一种按照指定规则,可自动、批量从互联网爬行抓取数据信息的程序。网络爬虫技术作为采集大数据的主要方式之一,和重要的大数据信息来源,已经被广泛并成熟地应用于各种互联网商业模式和使用场景,例如:新零售、社交、新闻、地图、互联网金融等。


基于不同的使用场景,网络爬虫可以分为通用爬虫和专用爬虫:


  • 通用爬虫主要应用于搜索引擎服务,其主要工作是无特定目标随机地抓取海量网页内容并下载到本地,储存为镜像快照并识别网页文字关键词;


  • 专用爬虫为爬取特定范围的网页而设计,使用者可以设置一个爬取的主题或范围,通过图像识别、机器学习等技术的帮助,爬取互联网上的特定内容。


2、网络爬虫与大数据的联系


网络爬虫爬取的数据是大数据企业数据分析的重要源头之一,例如:一些大数据分析企业开发的“购物平台大数据分析软件”会借助爬虫技术大量收集购物平台的信息,如买家关键词搜索热度、某关键词引向的成交量、某关键词产品的定价分布等等,当收集到足够多的原始信息样本后,再借助大数据分析技术,向其客户提供商品流行趋势、定价策略的分析;一些信用调查公司也是运用网络爬虫技术,从渺如烟海的互联网信息中识别并抓取特定主体的信用相关信息,进而通过对大数据的分析,相应得出信用结论。


网络爬虫合规风险分析


通过网络爬虫技术爬取到的数据信息有以下几种分类方式:(1)按照数据可得性,可以分为公开网络数据信息和非公开网络数据信息(如需付费观看的信息,或是内部数据库信息);(2)按照数据归属主体,可以分为个人信息数据、企业商业数据和社会公开数据。


目前,我国还没有已经生效的针对应用网络爬虫技术的规范性文件,从事大数据业务的企业在评估和分析其网络爬虫技术手段是否合规,可以从以下几个方向考虑:




1. 爬取数据的行为是否合规;



2. 爬取的数据本身是否存在合规问题;以及,



3. 爬取数据之后对数据的使用及存储等是否合规。


1、爬取数据的行为是否合规


网络爬虫技术采取的是“广撒网”模式,爬虫脚本自动运行后,在确定的爬取网站范围内对各网站上载的信息进行遍历。但基于商业利益等因素的考量,部分网站的部分/全部数据信息是不允许其他主体爬取的,因而会选择通过制定和公布机器人协议(robots协议)或通过设置技术性障碍或通过平台服务协议等方式来限制或禁止外部爬虫访问特定的数据信息。该等措施通常被称为“反爬虫安排”[1]。尽管存在反爬虫安排,但有些企业还是会绕过或无视这些反爬虫的规制,进而给其自身带来合规风险,主要包括被认定为未经授权(包括网站授权和个人授权)收集数据、导致网站无法正常运营,构成犯罪的,还可能需要承担刑事责任(如非法侵入计算机信息系统罪、破坏计算机信息系统罪、非法获取计算机信息系统数据罪等)。


为方便阅读,我们将上述爬取数据的行为可能导致的企业合规风险以下表展示:

序号

合规风险

法律责任

1

未经网站授权收集数据:若被爬取数据的网站并未开放或授权数据采集,以爬虫方式收集数据信息的行为可能会违反机器人协议或侵犯网站其他相关权益

民事责任:

(1) 侵犯著作权或其他民事侵权责任

(2)构成不正当竞争

司法实践中,法院认为,机器人协议应当被认定为搜索引擎行业内公认的、应当被遵守的商业道德,是数据权利人针对爬虫方的一种维权途径,以明示禁止爬取行为;如果爬虫方不遵守机器人协议,未经网站授权,其收集数据行为明显不当,可能构成侵权或不正当竞争[2]。在无前述机器人协议的情况下,网站作为权利人,可以主张爬虫方侵犯著作权[3]或构成不正当竞争[4]。 

刑事责任

严重的未经网站授权爬取数据行为可能会构成犯罪,比如侵犯著作权罪[5]、非法获取计算机信息系统数据罪[6]、非法侵入计算机信息系统罪。 

2

未经个人授权收集数据:在爬虫方通过网络爬虫技术收集个人信息时,可能被界定为《网络安全法》项下的网络运营者,进而需根据《网络安全法》和《信息技术个人信息安全规范》(GB/T 35273-2017)[7]等规定,在收集个人信息前,获得个人信息主体的授权同意;间接获取个人信息时,应向个人信息提供方了解个人信息主体是否授权同意转让、共享、公开披露等

民事责任

爬虫方未经个人授权收集自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码等以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息,或超范围过度收集个人信息的,可能因违反《网络安全法》、《信息技术个人信息安全规范》和/或《互联网个人信息安全保护指南》,而被要求承担侵权责任。

行政处罚

爬虫方未经个人授权收集个人信息的,或超范围过度收集个人信息的,可能违反《网络安全法》第四十一条,企业和直接负责的主管人员和其他直接责任人员分别被处以责令改正、警告、没收违法所得、罚款,甚至责令暂停相关业务、停业整顿、关闭网站、吊销相关业务许可证或者吊销营业执照。


若爬虫方取得的信息为非公开渠道的信息,涉及窃取或者以其他非法方式获取个人信息,将可能面临被没收违法所得,并处罚款。


_


_

刑事责任

爬虫方未经个人授权收集能够识别公民个人身份或者涉及公民个人隐私的个人信息的,可能被认定为是“窃取或者以其他方法非法获取公民个人信息”,构成侵犯公民个人信息罪[8]。 

3

导致网站无法正常运营[9]:因爬虫导致网站负荷过大,大量正常用户请求堵塞,访问出现速度慢或部分页面无法显示等现象。 

民事责任

如果使用爬虫技术导致网站无法被正常访问,可能构成侵权并承担对网站经营者所遭受损失的侵权赔偿责任。

刑事责任

如果使用爬虫技术获取信息被认定为对计算机信息系统功能进行干扰,造成其不能正常运行,则可能触犯破坏计算机信息系统罪。


2、爬取数据的合规性


爬虫方除应当评估其数据爬取行为是否合规外,还应当评估和分析其爬取所得的数据本身是否可能侵犯他人的权利,例如:涉及个人信息保护、侵犯著作权或商业秘密。

侵犯个人信息与隐私权

  • 爬虫方在某网站(以下称“信息提供方”)爬取到他人的个人信息时,可能需要进一步确认信息提供方是否取得相应的授权,转让、共享、公开披露该等个人信息。若否,信息提供方可能涉及超授权范围使用个人信息,而间接获取个人信息的爬虫方也因存在过失而涉及未经授权收集个人信息

  • 所爬取的个人信息涉及隐私的,还可能侵犯其隐私权

侵犯著作权/构成侵犯著作权罪

  • 爬虫方在进行抓取网页信息时,若将他人作品复制保存,可能会侵犯他人的复制权

  • 若爬虫方在保存爬取到的数据时,抹去了他人署名或进行删改,可能侵犯他人的署名权、修改权

  • 在爬虫方以营利为目的,未经著作权人许可,复制发行其文字作品、音乐、电影、电视、录像作品、计算机软件及其他作品的,根据违法所得数额和是否具有严重情节的,还可能被认定为侵犯著作权罪

侵犯商业秘密

若爬虫方获取的数据信息符合我国《反不正当竞争法》项下对商业秘密的定义,即不为公众知悉、具有商业价值并经权利人采取相应保密措施的商业信息,且这类爬虫行为可能被认定为是电子侵入或以其他不正当手段获取,则可能会被认定为侵犯他人的商业秘密[10]


3、爬取数据之后对数据的使用及存储等是否合规


在爬虫方已合规取得数据信息的情况下,企业还应当留意其后续使用、存储该等数据信息是否合规,例如:是否存在超范围使用、侵犯著作权、不正当竞争、信息泄露等问题。

超范围使用爬虫数据

  • 有些网站可能会在网页中添加法律声明、权利归属或版权保护条款,对数据的权利归属和使用限制进行声明,爬虫方应当在后续使用所爬取的数据时,在前述类似声明的允许框架内合理使用数据

  • 若爬取的数据中包含个人信息,爬虫方对该等个人信息的使用应当取得明确授权同意使用的范围和使用目的

  • 对爬取的数据的使用应当恰当,避免出现以下情况:因某些大数据信用调查公司利用爬虫技术搜集个人信息并用于暴力催收,而导致该等企业被警方调查或应金融主管部门的要求进行自查整改[11]

不正当竞争

企业在使用通过爬虫技术取得的同类网站相关信息且直接不加修改地使用数据时,可能被认定为搭便车、构成混淆等不正当竞争行为。在司法实践中,法院认为,通过爬虫技术手段获取其他同类网站付出人力、物力、财力和时间等经营成本搜集整理的信息数据后,直接在自己的网站上展示并以此获取商业利益的行为,因未付出劳动、未支出成本、未做出贡献,属于反不正当竞争法理论中典型的“不劳而获”和“搭便车”的行为;同时,由于使用内容完全一致,使用爬虫数据的一方可能会对同类网站构成实质性替代,这种经营模式违反公平原则和诚实信用原则,违反公认的商业道德,构成不正当竞争[12]

侵犯著作权

爬虫方在使用所收集的涉及他人著作权的数据内容时,应注意不得实施抹去权利人的信息、对作品进行不当剪裁等行为[13],否则可能侵犯权利人的复制权、署名权、修改权、信息网络传播权等著作权

未能保证爬虫数据信息安全

企业在保存获取的数据信息时,爬虫方应当严格遵循《网络安全法》对网络安全等级保护制度的要求、防止网络数据泄露或被窃取、篡改,也应当符合存储大数据的互联网数据中心的建设标准,采取技术措施和其他必要措施,保证其收集及保管的数据信息的安全


企业合规建议


1、作为爬虫方




(1) 注意其他网站的机器人协议的具体内容和限制;



(2) 严格管控数据采集的范围,不超范围采集,当涉及个人信息的需格外慎重;



(3) 使用过程中需要甄别爬虫收集的信息的权属,确保对信息权利人著作权、个人信息等的保护,并确保不超范围使用;



(4) 不得将爬虫技术及采集到的数据信息用于不正当竞争或其他缺乏合理性、合法性的用途;



(5) 当抓取的信息侵犯其他方权益时,应及时通知相关方删除、断开或自行删除、断开使用该等侵权数据的链接;



(6) 在存储爬虫所收集的数据时,应当注意信息安全。


2、作为反爬虫方




(1) 组建专业的信息安全团队;



(2) 编制合理的机器人协议,将其内容合同化,同时注意不得利用机器人协议进行不正当竞争行为;



(3) 合理利用爬虫技术监控互联网中的其他主体是否有不合理使用自己的数据信息的情况。


[注] 

[1] 通常而言,“反爬虫安排”包括以下三类:

(1) 在IT支持团队中设置专门的反爬虫团队并开发阻止爬虫脚本自动运行的“墙”,比如设置需要滑动进行验证或需要按次序点击的验证码等;在内容格式加密上做文章,比如采取将关键数据转为图片,或采用JavaScript混淆技术等。

(2) 爬虫的“潜规则”,例如,爬虫使用方主动约束爬虫的爬取吞吐量,避免因爬虫造成的访问量过载导致网站瘫痪 。

(3) 在网站中挂出机器人协议文件(robots.txt),该协议是网站的所有者通过明示的方式,对不同主体派出的爬虫进行授权,写明可访问和不可访问的文件信息而制定的爬虫行为准则。机器人协议并非也不能直接用技术手段阻止爬虫进行数据搜集,缺乏强制性,但业内普遍认为,制定机器人协议应当是行业内的通行规则,没有遵守协议的行为明显不当,应当在发生争议时承担相应的不利后果。

[2] 见“浙江泛亚电子商务有限公司诉百度在线网络技术(北京)有限公司等侵犯著作权纠纷案”一审民事判决书,案号:(2006)一中民初字第6273号;“百度与奇虎公司不正当竞争纠纷案”一审民事判决书,案号:(2013)一中民初字第2668号。

[3] 见“亚长城影视文化(北京) 有限公司与精伦电子股份有限公司侵犯影视作品信息网络传播权案”,案号:(2014)鄂民三终字第00107号。

[4] 见“深圳市谷米科技有限公司与被告武汉元光科技有限公司、邵凌霜、陈昴、刘江红、刘坤朋、张翔不正当竞争”民事判决书,案号:(2017)粤03民初822号。

[5] 见“何超侵犯著作权案”,案号:(2016)沪03刑终1号。

[6] 见“邵凌霜、陈昴、刘江红、刘坤朋、张翔犯非法获取计算机信息系统数据罪案”,案号:(2017)粤0305刑初153号。

[7] 国家标准化管理委员会及国家市场监督管理总局已于2020年3月6日发布新版《信息安全技术 个人信息安全规范》(GB/T 35273—2020),但新版规范于2020年10月1日正式实施,目前仍需参考《信息技术个人信息安全规范》(GB/T 35273-2017)。

[8] 见“秦帅等侵犯公民个人信息罪案”,案号:(2018)京0108刑初770号。

[9] 我国目前正研究出台《数据安全管理办法》,在已公布的征求意见稿中提出,网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。

[10] 见“北京微梦创科网络技术有限公司与北京淘友天下技术有限公司等不正当竞争案”一审民事判决书,案号:(2015)海民(知)初字第12602号。

[11] 参见http://finance.caixin.com/2019-10-22/101474132.html,“北京金融局摸排区内大数据公司爬虫业务”。

[12] 见“上海汉涛信息咨询有限公司与爱帮聚信(北京)科技有限公司、爱帮聚信(北京)信息技术有限公司不正当竞争纠纷一案”民事判决书,案号:(2010)海民初字第24463号。

[13] 在实践中,有一种情形较为多见:视频网站爬取其他网站的视频信息,在自己的网站上提供播放服务,或小说网站“盗取”正版小说网站的收费作品,在自己的网站上免费供网友阅读,这些情形均可能涉及侵犯著作权人的信息网络传播权。


新基建主题系列阅读

点击下列文章标题可查看原文

1. 《新基建主题系列——关注特高压及新能源项目的用地法律风险》

2. 《新基建主题系列——IDC行业有关运营和架构的法律考量》

3. 《“新基建”风口下投资新能源汽车充电桩项目的法律问题》

4. 《新基建主题系列——智能家居出海的八个数据保护关键词》

5. 《“新基建”投资背景下PPP-ICT项目交易结构设计要点》

6. 《新基建主题系列——数字金融的应用、监管及合规思考

7.  《新基建主题系列——人工智能之间达成“垄断协议”?算法合谋的反垄断法律风险分析

8.  《新基建主题系列——人工智能技术开发中的知识产权法律风险



The End


 作者简介

薛熠  律师


北京办公室  合伙人

业务领域:反垄断与竞争法, 收购兼并, 合规/政府监管

杨壹凯   律师


北京办公室  公司部

程若锦   


北京办公室  公司部

作者往期文章推荐:

《新基建主题系列——人工智能之间达成“垄断协议”?算法合谋的反垄断法律风险分析》

《“说不清”的不公平高价:以中国反垄断执法实践为基础的观察与思考》

《解读“必需设施理论”在知识产权反垄断规制下的适用》

《简评“注射用葡萄糖酸钙原料药垄断案”——反垄断监管抽丝剥茧,抗拒执法代价高昂》

《“新基建”风口下投资新能源汽车充电桩项目的法律问题》

代理关系,纵向关系中《反垄断法》风险的“避风港”?

反垄断执法机构近五年执法情况浅析》

《免费数字产品市场上的竞争问题有加无已——欧盟谷歌安卓反垄断案件再追踪》

《未依法申报陷阱之通过合同或其他方式取得控制权》

《战“疫”|疫情期间企业如何避免踏入“哄抬物价”的违法雷区(下)》

《疫情期间企业如何避免踏入“哄抬物价”的违法雷区(上)》

《纵向合并竞争分析新框架——简评美国2020<纵向合并指南(草案)>》

《反垄断视角下并购交易中的不竞争条款》

《新兴行业法律观察 | 商业遥感卫星运营及遥感数据应用》

《企业登记申请文书的变革来了,内外资企业你准备好了吗?》

《未来已来?——价格算法合谋或成为反垄断执法焦点》

特别声明:

以上所刊登的文章仅代表作者本人观点,不代表北京市中伦律师事务所或其律师出具的任何形式之法律意见或建议。

如需转载或引用该等文章的任何内容,请私信沟通授权事宜,并于转载时在文章开头处注明来源于公众号“中伦视界”及作者姓名。未经本所书面授权,不得转载或使用该等文章中的任何内容,含图片、影像等视听资料。如您有意就相关议题进一步交流或探讨,欢迎与本所联系。

点击“阅读原文”,可查阅该专业文章官网版。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存