【前沿思考】网络爬虫爬取公开信息的限度
网络爬虫爬取公开信息的限度
编者按:本文由华东政法大学互联网法治研究院兼职研究员、北京市天元律师事务所上海分所律师曹怀顺撰写,由互联网法治研究院(杭州)专职研究员、华东政法大学博士研究生王苑审校,互联网法治研究院(杭州)秘书处徐静赛编辑。
大数据时代,信息的获取更加便捷,无论是个人还是企业,都在以各种方式从网络空间获取着各类资讯,而网络爬虫因其收集数据效率之高得到了广泛的应用,网络爬虫又称网络蜘蛛、网络机器人,是一种按照一定的规则,自动地抓取网络信息的程序或者脚本。[1]近年来因网络爬虫引发的争议也层出不穷,在商业领域通过网络爬虫爬取其他网站中已公开信息的限度是一个较为复杂的问题,本文拟结合现有案例从不同维度对此进行梳理和讨论。[2]
一、遵循robots协议这一“君子协定”
一般网站会设置robots协议(即机器人协议),用以告知搜索引擎的网络爬虫本网站的内容哪些可以爬取,哪些不可以。根据《互联网搜索引擎服务自律公约》第七条的规定,robots协议是互联网站所有者使用robots.txt文件,向网络爬虫给出网站指令的协议。互联网搜索引擎行业应遵循国际通行的行业惯例与商业规则,遵守robots协议。此点已获得我国法院的确认,在“百度诉奇虎360违反robots协议案”中,法院认为“robots协议应当被认定为搜索引擎行业内公认的、应当被遵守的商业道德,被告奇虎公司在推出搜索引擎的伊始阶段没有遵守百度网站的robots协议,其行为明显不当,应当承担相应的不利后果”。[3]
关于robots协议,需要说明的有三点,其一,robots协议应不仅仅是搜索引擎行业内应当被遵守的商业道德,其在实质上体现了被爬虫爬取信息的网站(简称“被爬方”)对于网络爬虫的一种态度,而无论该网络爬虫是否来自搜索引擎行业,robots协议应当是所有使用网络爬虫爬取信息的一方(简称“爬取方”)所应遵循的“君子协定”;其二,若被爬方未设置robots协议的,也并不意味着其他人可以随意爬取其公开数据,就好比某公民的家门敞开时,即使未写“请勿入内”的字样,也不代表其他人可以在未经允许的情况下随意进门拿东西;其三,即使遵循了robots协议,也并不代表爬取方的行为完全合法,还需结合爬取方如何使用爬取的信息、爬取的目的、手段等因素来分析其正当性与合法性。比如在“大众点评诉百度案”中,法院认为“robots协议只涉及搜索引擎抓取网站信息的行为是否符合公认的行业准则的问题,不能解决搜索引擎抓取网站信息后的使用行为是否合法的问题。百度虽然没有违反robots协议,但这并不意味着它可以任意使用这些信息”。[4]
二、应避免“复制粘贴”式地使用爬取来的信息
在商业领域,抄袭、照搬、搭便车之类的行为无益于促进社会的发展和创新,往往会得到负面评价,从上述“大众点评诉百度案”中便可见一斑,即使遵守robots协议也不能阻却百度“复制粘贴”大众点评网上信息的行为之违法性。“复制粘贴”之类的行为会对被爬方的相关业务造成实质性的替代,影响被爬方网站的流量,实质上损害了被爬方的商业利益。比如在“新浪诉饭友案”中,法院认为饭友实施了抓取并展示新浪微博的已公开数据和后台数据的行为,直接将微博数据展示在饭友上,构成对新浪微博相关功能的替代,破坏了新浪微博的正常运营,构成不正当竞争。[5]又如在“酷米客诉车来了案”中,酷米客和车来了均系为用户提供公交路线查询、实时公交信息地理位置等服务的软件,二者用途相同,法院认为车来了利用网络爬虫技术大量获取并且无偿使用酷米客的实时公交信息数据的行为,实为一种“不劳而获”、“食人而肥”的行为,具有非法占用他人无形财产权益、破坏他人市场竞争优势的主观恶意,构成不正当竞争”。 [6]
因此,从对信息的使用方式这一维度来看,网络爬虫的使用必须建立在合理、合法的基础之上,若某人在日常学习生活中为写论文、做科研等研究之目的而爬取相关网页的少量信息的,法律不应当做过多的干预,但如果某企业以打造相同的应用程序为目的而大量“复制粘贴式”地爬取他人网页上公开信息的,本文认为被爬方并无义务为此买单,我国法院在前述案例中也基本对此保持了相同的否定立场。
三、将法域差异考虑在内
在不同的法域之下,法院对于商事主体以盈利为目的所实施的网络爬虫的态度可能存在差异。从现有案例来看,我国法院较为倾向于保护被爬方,而美国的判例似乎对爬取方更为有利。典型的判例便是美国的“hiQ诉领英”案,hiQ 所经营的服务依赖于对领英网站上数据的抓取,领英在其网站上设置了robots协议以及反爬虫程序等措施对此进行了限制与防范,而hiQ并未遵循领英的robots协议并采用了技术手段破解了领英的反爬虫措施继续爬取数据,后续领英向hiQ发函进行警告,要求hiQ停止爬取领英网站上的数据。后来hiQ竟先将领英诉至法院,并向法院申请诉中禁令,要求禁止领英限制其爬取数据的行为,法院支持了hiQ的这一诉中禁令的请求,领英不服提起上诉,上诉法院仍维持了这一禁令。该案虽然尚未就实体性问题作出判决,但美国加州法院支持了作为爬取方的hiQ所申请的诉中禁令,禁止被爬方领英所实施的反爬取行为,这一做法耐人寻味。
与此不同的是,我国法院在“腾讯诉快忆案”中支持了作为被爬方的腾讯所提出的行为保全申请,该案中的快忆公司提供用于爬取微信公众号平台数据的产品和服务,腾讯认为快忆该行为未经授权,给其增加了额外的平台运营成本,对数据权益造成侵害的可能性较大,法院在腾讯的申请下裁定要求作为爬取方的杭州快忆有限公司立即停止提供“微信公众号文章API”、“微信订阅号和最新文章API”、“腾讯滚动新闻API”、“辖区内按省市微信公众号及其企业认证信息数据”产品的行为。[7]
美国加州法院在“hiQ诉领英”案中的立场从一方面来看似乎促进了公开信息的利用,但此举从另一角度来看则损害了被爬方的利益,被爬方对其网站上公开信息的运营和维护倾注了大量的心血,爬取方未经其授权便采用技术手段爬取后从中渔利,对此种行为不加限制的话,其不利后果很可能会打消企业主动创造新产品、运营网站的积极性。完全禁止或者完全支持爬取行为皆不可取,较为合适的方式应该是爬取方的有偿爬取,爬取方应当向被爬方支付一定的费用,该等费用不得低于爬取方对被爬方网站所造成的运营成本费用。
四、爬取个人信息时应当慎重
从爬取的公开信息能否直接或间接识别到某自然人这一标准来看,爬取的信息可以分为个人信息与非个人信息。目前国内外对于个人信息保护问题的重视程度越来越高,关于个人信息保护的立法也日趋完善,因而在爬取个人信息时,爬取方应当更加注意合法性问题,稍不慎便可能触及对个人信息主体权益的侵害。我国将征得个人信息主体的同意作为判断收集、使用个人信息行为是否合法的基本要素,那么值得探讨的问题是个人信息主体将其信息公开在某网站的行为是否可以视为其同意了爬取方爬取并利用其个人信息?这应当具体结合被爬方与个人信息主体之间的用户协议进行分析,目前实务界较为认同的为“三重授权规则”,即开放平台方直接收集、利用用户个人信息须获得用户直接授权;第三方开发者通过平台间接获得用户数据,必须经过平台方和用户本人的双重确认授权。因此,被爬方为实现对其所控制的个人信息的独家使用,可以与用户约定,用户同意的范围仅限于在特定网站上的公开,而不包括被不特定第三方爬取和利用,此种情形下爬取方应避免爬取相关个人信息。比如在“新浪诉脉脉”案中法院便认为“新浪微博用户选择对公众公开个人信息,并不意味着上诉人淘友技术公司、淘友科技公司可以未经新浪微博用户的同意,获取用户头像信息、标签信息、职业信息、教育信息并展示在脉脉软件的人脉详情中。”[8]
在个人信息主体未以任何形式表示其所公开的个人信息不得被不特定主体爬取的情况下,国内仍有案例显示出爬取该类已公开个人信息的风险,比如在某侵犯公民个人信息刑事案件中,法院认为“信息持有人根据各自的用途在网络上公开个人信息,被告人未经信息持有人同意搜集信息后非法向他人提供,超出了信息持有人发布个人信息用途的预期,是侵犯公民个人信息的行为,具有社会危害性。[9]本文认为此种做法可能过于严苛,既然个人信息主体已自愿公开其个人信息,在一定程度上可以解释为对其个人信息被公开途径的不特定主体收集的一种同意。《信息安全技术 个人信息安全规范》(GB/T 35273-2020)第5.6条便将“所涉及的个人信息是个人信息主体自行向社会公众公开的”作为个人信息控制者收集、使用个人信息时征得个人信息主体授权同意的例外情形。此种做法更为合理,有利于维系信息的流通利用及个人信息保护之间的平衡。
相比个人信息,爬取非个人信息的风险相对较低,但信息的具体类别的不同直接影响到对不同法益的保护,需要结合具体的法律规定进行考量,比如爬取构成著作权的作品的,可能构成对著作权的侵犯等。
五、应避免对被爬方造成负面影响
网络爬虫的使用应当控制在一定的限度内。在法律界十分知名的“中国裁判文书网”每天被成千上万的网络爬虫光顾,给网站造成了极大的负担,导致自然人在使用“中国裁判文书网”查找案例时遇到诸多不便,卡顿、崩溃等问题屡见不鲜。除此之外,“中国铁路12306”网站也受到了网络爬虫的青睐,各种抢票软件无时无刻不在盯着网站上的车票信息,这给使用抢票软件的人带来了一定的便利,却给通过12306官方渠道购买车票的人的带来了不便,也给12306官网的运营增加了负担。
对于此类问题,《数据安全管理办法(征求意见稿)》第十六条规定,网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。此条款是为数不多的就网络爬虫的使用限度作出量化规定的条文,但其合理性有待商榷,比如将严重影响网站运行的行为量化为“超过网站日均流量三分之一”,那是否意味着被爬方要无偿贡献三分之一的流量供爬虫“享用”?众所周知商业领域网站运营是需要极大的维护成本的,日均三分之一的流量所对应的运营成本未免过高,对被爬方而言难谓公平,正如上文所述,解决此问题的一条路径是对爬取方设置有偿爬取的义务,尤其是在商业领域,爬取方所支付的对价不得低于其网络爬虫给被爬方所造成的维护成本。
六、结语
网络爬虫技术本身是中立的,分析使用限度时需要结合上述因素进行考量,此外还需考虑爬取方与被爬方之间的关系、爬取的具体手段、爬取的信息数量等。网络空间信息资源的利用应当是有序、开放、有偿的,也应当遵循意思自治原则,兼顾各方的权益。本文从现有相关案例对涉网络爬虫的问题进行了较为粗浅的讨论,相信随着研究的不断深入,关于网络爬虫合法、合理使用的限度将会更加清晰。
【注释】
[1]https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711?fr=aladdin
[2]为免异议,本文仅讨论商业领域网络爬虫爬取已公开信息的相关问题,而不涉及爬取商业秘密、非公开信息、国家秘密等。本文所称的“公开信息”,指不特定主体通过网上浏览、用户注册等方式便可直接阅读、获取的信息,该等信息向公众开放,不构成商业秘密、内部消息等。
[3]参见百度诉360不正当竞争案:http://bj1zy.chinacourt.org/article/detail/2014/09/id/1446252.shtml
[4]参见“(2016)沪73民终242号:北京百度网讯科技有限公司与上海汉涛信息咨询有限公司其他不正当竞争纠纷二审民事判决书”。
[5]参见“(2019)京73民终2799号:上海复娱文化传播股份有限公司与北京微梦创科网络技术有限公司不正当竞争纠纷二审民事判决书”。
[6]参见“(2017)粤03民初822号:深圳市谷米科技有限公司(以下简称谷米公司)与被告武汉元光科技有限公司(以下简称元光公司)、邵凌霜、陈昴、刘江红、刘坤朋、张翔不正当竞争纠纷民事判决书”。
[7]参见https://mp.weixin.qq.com/s/qmyCiGPm6wjO2TR8Z1emsQ
[8]参见“(2016)京73民终588号:北京淘友天下技术有限公司等与北京微梦创科网络技术有限公司不正当竞争纠纷二审民事判决书”。
[9]参见“(2018)苏0302刑初43号:莫永坚、朱自明等侵犯公民个人信息罪XX诈骗罪一审刑事判决书”。
互联网法治研究院 原创发布
往期精选
专注“互联网法治”研究👉