团队视点丨“大数据从何而来”,涉足大数据业务需留意的“网络爬虫”技术的合规风险
本文共计5724字,预计阅读时间为13分钟。
关键词:大数据;爬虫;合规
2020年4月20日,国家发改委首次明确了“新基建”的范围:以新发展理念为引领,以技术创新为驱动,以信息网络为基础,面向高质量发展需要,提供数字转型、智能升级、融合创新等服务的基础设施体系。“新基建”是指,以5G、物联网、工业互联网、大数据中心、人工智能等为代表的新型基础设施,是信息数字化发展的结果。实际上,“新基建”这一概念早在2018年12月19日的中央经济工作会议中既已提出。
在“新基建”的风口下,大数据分析和应用不可缺席:无论对于物联网、人工智能,还是智能交通,亦或是商业领域的分析点击流量、客户质量、智能定价等等,莫不如此。随着《网络安全法》及其配套法规、标准及规范性文件的陆续发布,大数据业务更加成为学界、法律工作者、媒体及大众关注的重点,尤其在2019年,不断传出某些大数据业务经营者,因“过度收集、非法窃取和贩卖个人数据信息”、“未经个人同意搜集个人数据信息”等被警方调查或被迫下架的消息。同时,大数据公司也在担忧:大数据分析的业务该如何开展?如何合法合规地收集数据?哪些技术可以使用?
本文将以搜集大数据的技术之一,网络爬虫技术为例,讨论网络爬虫技术在使用和应用中的重点法律合规问题,供从事大数据业务的企业参考。
一
网络爬虫织网,为大数据分析捕捉信息
1. 什么是网络爬虫
网络爬虫/爬虫程序(Web Crawler),也称网络机器人(Web robots)、网络游客、蜘蛛爬虫,根据《互联网搜索引擎服务自律公约》,这是一种按照指定规则,可自动、批量从互联网爬行抓取数据信息的程序。网络爬虫技术作为采集大数据的主要方式之一,和重要的大数据信息来源,已经被广泛并成熟地应用于各种互联网商业模式和使用场景,例如:新零售、社交、新闻、地图、互联网金融等。
基于不同的使用场景,网络爬虫可以分为通用爬虫和专用爬虫:
通用爬虫主要应用于搜索引擎服务,其主要工作是无特定目标随机地抓取海量网页内容并下载到本地,储存为镜像快照并识别网页文字关键词;
专用爬虫为爬取特定范围的网页而设计,使用者可以设置一个爬取的主题或范围,通过图像识别、机器学习等技术的帮助,爬取互联网上的特定内容。
2. 网络爬虫与大数据的联系
网络爬虫爬取的数据是大数据企业数据分析的重要源头之一,例如:一些大数据分析企业开发的“购物平台大数据分析软件”会借助爬虫技术大量收集购物平台的信息,如买家关键词搜索热度、某关键词引向的成交量、某关键词产品的定价分布等等,当收集到足够多的原始信息样本后,再借助大数据分析技术,向其客户提供商品流行趋势、定价策略的分析;一些信用调查公司也是运用网络爬虫技术,从渺如烟海的互联网信息中识别并抓取特定主体的信用相关信息,进而通过对大数据的分析,相应得出信用结论。
二
网络爬虫合规风险分析
通过网络爬虫技术爬取到的数据信息有以下几种分类方式:(1)按照数据可得性,可以分为公开网络数据信息和非公开网络数据信息(如需付费观看的信息,或是内部数据库信息);(2)按照数据归属主体,可以分为个人信息数据、企业商业数据和社会公开数据。
目前,我国还没有已经生效的针对应用网络爬虫技术的规范性文件,从事大数据业务的企业在评估和分析其网络爬虫技术手段是否合规,可以从以下几个方向考虑:
(1)爬取数据的行为是否合规;
(2)爬取的数据本身是否存在合规问题;以及
(3)爬取数据之后对数据的使用及存储等是否合规。
1. 爬取数据的行为是否合规
网络爬虫技术采取的是“广撒网”模式,爬虫脚本自动运行后,在确定的爬取网站范围内对各网站上载的信息进行遍历。但基于商业利益等因素的考量,部分网站的部分/全部数据信息是不允许其他主体爬取的,因而会选择通过制定和公布机器人协议(robots协议)或通过设置技术性障碍或通过平台服务协议等方式来限制或禁止外部爬虫访问特定的数据信息。该等措施通常被称为“反爬虫安排”[1]。尽管存在反爬虫安排,但有些企业还是会绕过或无视这些反爬虫的规制,进而给其自身带来合规风险,主要包括被认定为未经授权(包括网站授权和个人授权)收集数据、导致网站无法正常运营,构成犯罪的,还可能需要承担刑事责任(如非法侵入计算机信息系统罪、破坏计算机信息系统罪、非法获取计算机信息系统数据罪等)。
为方便阅读,我们将上述爬取数据的行为可能导致的企业合规风险以下表展示:
2. 爬取数据的合规性
爬虫方除应当评估其数据爬取行为是否合规外,还应当评估和分析其爬取所得的数据本身是否可能侵犯他人的权利,例如:涉及个人信息保护、侵犯著作权或商业秘密。
3. 爬取数据之后对数据的使用及存储等是否合规
在爬虫方已合规取得数据信息的情况下,企业还应当留意其后续使用、存储该等数据信息是否合规,例如:是否存在超范围使用、侵犯著作权、不正当竞争、信息泄露等问题。
三
企业合规建议
1. 作为爬虫方
注意其他网站的机器人协议的具体内容和限制;
严格管控数据采集的范围,不超范围采集,当涉及个人信息的需格外慎重;
使用过程中需要甄别爬虫收集的信息的权属,确保对信息权利人著作权、个人信息等的保护,并确保不超范围使用;
不得将爬虫技术及采集到的数据信息用于不正当竞争或其他缺乏合理性、合法性的用途;
当抓取的信息侵犯其他方权益时,应及时通知相关方删除、断开或自行删除、断开使用该等侵权数据的链接;
在存储爬虫所收集的数据时,应当注意信息安全。
2. 作为反爬虫方
组建专业的信息安全团队;
编制合理的机器人协议,将其内容合同化,同时注意不得利用机器人协议进行不正当竞争行为;
合理利用爬虫技术监控互联网中的其他主体是否有不合理使用自己的数据信息的情况。
[注]
[1] 通常而言,“反爬虫安排”包括以下三类:
(1) 在IT支持团队中设置专门的反爬虫团队并开发阻止爬虫脚本自动运行的“墙”,比如设置需要滑动进行验证或需要按次序点击的验证码等;在内容格式加密上做文章,比如采取将关键数据转为图片,或采用JavaScript混淆技术等。
(2) 爬虫的“潜规则”,例如,爬虫使用方主动约束爬虫的爬取吞吐量,避免因爬虫造成的访问量过载导致网站瘫痪 。
(3) 在网站中挂出机器人协议文件(robots.txt),该协议是网站的所有者通过明示的方式,对不同主体派出的爬虫进行授权,写明可访问和不可访问的文件信息而制定的爬虫行为准则。机器人协议并非也不能直接用技术手段阻止爬虫进行数据搜集,缺乏强制性,但业内普遍认为,制定机器人协议应当是行业内的通行规则,没有遵守协议的行为明显不当,应当在发生争议时承担相应的不利后果。
[2] 见“浙江泛亚电子商务有限公司诉百度在线网络技术(北京)有限公司等侵犯著作权纠纷案”一审民事判决书,案号:(2006)一中民初字第6273号;“百度与奇虎公司不正当竞争纠纷案”一审民事判决书,案号:(2013)一中民初字第2668号。
[3] 见“亚长城影视文化(北京) 有限公司与精伦电子股份有限公司侵犯影视作品信息网络传播权案”,案号:(2014)鄂民三终字第00107号。
[4] 见“深圳市谷米科技有限公司与被告武汉元光科技有限公司、邵凌霜、陈昴、刘江红、刘坤朋、张翔不正当竞争”民事判决书,案号:(2017)粤03民初822号。
[5] 见“何超侵犯著作权案”,案号:(2016)沪03刑终1号。
[6] 见“邵凌霜、陈昴、刘江红、刘坤朋、张翔犯非法获取计算机信息系统数据罪案”,案号:(2017)粤0305刑初153号。
[7] 国家标准化管理委员会及国家市场监督管理总局已于2020年3月6日发布新版《信息安全技术 个人信息安全规范》(GB/T 35273—2020),但新版规范于2020年10月1日正式实施,目前仍需参考《信息技术个人信息安全规范》(GB/T 35273-2017)。
[8] 见“秦帅等侵犯公民个人信息罪案”,案号:(2018)京0108刑初770号。
[9] 我国目前正研究出台《数据安全管理办法》,在已公布的征求意见稿中提出,网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。
[10] 见“北京微梦创科网络技术有限公司与北京淘友天下技术有限公司等不正当竞争案”一审民事判决书,案号:(2015)海民(知)初字第12602号。
[11] 参见http://finance.caixin.com/2019-10-22/101474132.html,“北京金融局摸排区内大数据公司爬虫业务”。
[12] 见“上海汉涛信息咨询有限公司与爱帮聚信(北京)科技有限公司、爱帮聚信(北京)信息技术有限公司不正当竞争纠纷一案”民事判决书,案号:(2010)海民初字第24463号。
[13] 在实践中,有一种情形较为多见:视频网站爬取其他网站的视频信息,在自己的网站上提供播放服务,或小说网站“盗取”正版小说网站的收费作品,在自己的网站上免费供网友阅读,这些情形均可能涉及侵犯著作权人的信息网络传播权。
The End
往期阅读
第27期:团队视点丨人工智能之间达成“垄断协议”?算法合谋的反垄断法律风险分析
第26期:团队视点丨“说不清”的不公平高价:以中国反垄断执法实践为基础的观察与思考
第24期:团队视点丨中国附加限制性条件的经营者集中案件情况概览
第23期:前沿播报丨简评“注射用葡萄糖酸钙原料药垄断案”——反垄断执法机构对于原料药行业特点稔熟于胸,抗拒执法代价高昂
第22期:团队视点丨“新基建”风口下投资新能源汽车充电桩项目的法律问题
作者简介
薛熠
合伙人
中伦律师事务所
识别二维码
查阅薛熠律师简历
杨壹凯
律师
中伦律师事务所
程若锦
律师
中伦律师事务所
锐熠微律由薛熠律师团队创建和运营,希望借此平台分享我们在法律理论和实务领域的研究、观察和感想。
免责声明: 以上文章仅为作者本人观点,不代表作者出具的任何形式之法律意见或建议。如需转载或引用,请私信沟通授权事宜,并注明文章出处。未经作者书面授权,不得转载或使用该等文章中的任何内容。