查看原文
其他

【研究综述】数据爬取法律问题文献综述

矫心怡 互联网法治研究 2024-01-09


数据爬取法律问题文献综述

(截至2019年底)





一、数据爬取的定义

1









网络机器人(也叫网络游客、爬虫程序、蜘蛛程序),是一种自动爬行网络的程序。(张平,2013)指的是一种按照一定的规则,自动抓取万维网信息的程序或者脚本的做法。(丁晓东、刘鹏,2019)李慧敏认为,爬虫技术的本质是一套实现高效下载的系统,通过遍历网络内容,按照指定规则提取所需的网页数据,并下载到本地形成互联网网页镜像备份的程序。(李慧敏,2018)





二、爬虫协议的

概念及特

2








(一)爬虫协议的概念

爬虫协议的概念,源自于英文的“robots.txt ”,即网络机器人协议,多应用于网络内容服务商(Internet Content Provider,ICP)的服务器,用于告知搜索引擎哪些页面与内容允许或禁止被其读取并作为搜索服务的结果提供给用户。(宁立志,2016;徐清霜,2019)当计算机所有者决定在其机器上设置Web服务器,使文件可以通过Web访问时,这就推定了大众都可以访问这些文件。(Orin S. Kerr,2016) 如果存在这个(robots.txt)文件,蜘蛛程序就会根据这个文件的内容,来确定它访问权限的范围;如果网站不存在该文件或者robots.txt为空的话,那么网站内容对所有搜索引擎蜘蛛程序开放,搜索引擎就可沿着网站链接抓取。(杨华权,2014)

(二)爬虫协议的特征

“爬虫协议”具有技术性(这对应的是技术规范与单方宣示等前述特征)、非强制性(这对应的是非技术措施与普遍适用等前述特征)与竞争性等三大特质。(曹阳,2019)爬虫协议本身并不是网站所有人与网站用户之间达成的协议,而是网站所有人单方面采取的一种排除爬虫访问的标准(即Robot Exclusion Standard),而且他对Robots.txt方案的更通俗的称呼是爬虫访问控制政策(Access Policy)。(张金平,2012)





三、爬虫协议的

法律性质

3









Robots协议(即爬虫协议)是国际公认的互联网领域内通行标准,但其性质在法律上并没有明确的规定。(刘鹏,2019)

(一)第一种观点:技术措施说

到目前为止,还没有哪个国家的法律规定爬虫协议必须得到遵守,或者规定爬虫协议构成网页所有者与爬虫使用者之间达成的有法律效力的合同。但都明示或者至少暗示爬虫协议构成网络环境下版权人可以采取的有效控制访问的技术措施,或者至少肯定了设置恰当的爬虫协议可以向搜索引擎服务提供商起到告知(是否允许复制)的作用。(张金平,2012)

(二)第二种观点:权利声明说/单方意思表示说

有学者认同权利声明或单方意思表示说,即作为一种权利声明,“爬虫协议”是ICP等数据控制方的单方意思表示,必须与某种具体的实体权利相结合并以之为依托方可充分发挥其作用,脱离该实体权利的“爬虫协议”将丧失其针对爬虫程序的效力。(曹阳,2019)

(三)第三种观点:格式条款说

也有学者认为,鉴于“爬虫协议”特定的存储位置与编写格式,以及由ICP单方面编写的特征,将其认定为格式条款更为妥当。(宁立志、王德夫,2016)

(四)第四种观点:商业道德说/行业规范说

将爬虫协议认定为商业道德或行业规范的观点较为普遍。张平认为,爬虫协议是互联网领域普遍认知和接受的行为标准,具有公认性和一般性,属于公认的商业道德,但是对这一行业基本准则的违反属于违反互联网行业的商业道德。还需要结合具体场景中的商业习惯与行业惯例来判断企业的合理预期。(张平,2013)国内外关于爬虫协议的案件在裁判结果上并不相同,但对于爬虫协议法律性质的认识却基本一致,即承认爬虫协议的行业规范地位。(徐清霜,2019)爬虫协议是一个行业内国际公认,并被世界绝大部分搜索引擎服务商行使和遵守的技术协议和行业习惯。(杨华权、曲三强,2013)杨华权同时指出,不遵守爬虫协议是一个概念,不遵守某一个具体的robots.txt又是另外一个概念,不能混同。在忽略robots.txt的禁止性规定而抓取相应内容时,需要首先明确robots.txt是否满足公平、合理和促进开放的原则,而不能泛泛地认为“robots.txt”构成商业惯例而要求搜索引擎一概无条件地遵守。(杨华权,2014)

目前全球对“爬虫协议”法律属性的界定主要有颇具东方特色和法教义学色彩的行业惯例/商业道德说、由美国Healthcare Advocates v. Harding案及DMCA(数字千禧年版权法案)相关规定确立的技术标准/保护措施说及由美国Field v. Google案及默示许可原则派生出来的权利声明/单方意思表示说等三大类。(曹阳,2019)



四、违反爬虫协议

是否构成不正当竞争:区分对待

4








违反爬虫协议的行为符合适用反不正当竞争法一般条款的三个要件,可能构成不正当竞争。(张平,2013)奇虎公司与百度公司不正当竞争纠纷案中,法院基本认可爬虫协议的行业规范地位,但对能否认为违反爬虫协议构成不正当竞争做出了区分对待。法院认为,如果竞争主体对爬虫协议的具体应用不合乎正当竞争的诚实信用原则,不符合反不正当竞争法保护目的,则违反该爬虫协议也不构成不正当竞争。(徐清霜,2019)

当个别访问者违反protocol规定、恣意抓取数据控制方网站上的数据等内容时,才构成数据控制方与数据非法抓取方间特定的法律关系,进而通过转致等方法适用反不正当竞争法加以规制。(曹阳,2019)当某个平台爬虫后将数据用于和被爬虫平台类似的商业场景中,此时应当倾向于认定数据爬虫的不正当竞争;而当数据爬虫的目的是为了对数据进行进一步处理或在其他场景下对数据进行利用,此时应当倾向于认定数据爬虫的合理使用。(丁晓东,2019)破解信息提供者所设技术措施,爬取数据可能构成非法获取计算机信息系统数据罪。(刘鹏,2019)

从垄断行为角度而言,具有市场支配地位的网站通过其设置的robots.txt,拒绝某一搜索引擎蜘蛛程序抓取其内容,可构成拒绝许可,最终破坏市场竞争的机制;它对条件相同的蜘蛛程序同意抓取其网站内容而拒绝某一搜索蜘蛛的抓取,实行差别待遇,可构成歧视交易。(杨华权,2014)


编者按:本文由互联网法治研究院(杭州)研究助理、华东政法大学矫心怡撰写、李群涛修订,由互联网法治研究院(杭州)研究员、华东政法大学王镭审校,互联网法治研究院(杭州)秘书处徐静赛编辑。



互联网法治研究院 原创发布


往期精选

【研究院动态】高富平 | 数据利用秩序比数据产权更需要解决

【征稿启事】“互联网法治研究”“数据法律资讯”公众号联合征稿

【课题招标】关于发布“2020年度互联网法治重点研究课题”的公告

专注“互联网法治”研究👉





继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存