首页 热点正文

靠挖掘别人家的资料数据来赚钱,「网路爬虫」这个行为合法吗?

admin 热点 2020-01-04 195 0

「爬」这个动词已经逐渐成为了人们的日常用语,说起「爬内容」、「爬数据」,大家或多或少都能明白这个动作的意义。一个平台运用「爬虫工具」浏览另一个平台的网页内容,并且从中抓取它所查找的信息,满足这些特征的行为被定义为「网路爬虫」。虽然这已经是很多人在赖以维生的技术了,但是你实际上「爬」的是别人的内容,你是不是有过这个问题:网路爬虫这个行为,合法吗?



 最近几年,「网路爬虫」引发的法律层面的争议越来越多。



必须先回答这样一个问题:被爬取的数据到底属于谁。只有讨论清楚「归属权」,才能在此基础上讨论「授权问题」。



数据归属权的确认困难重重。



企业的平台数据中常常包含大量的个人数据,因此平台数据可以被认为是个人所有、平台所有、个人与平台共有,也可以被认为是 Internet 空间的公共数据。



在法律界,各国对数据权属领域都没有直接、明确的立法,学界也没有达成广泛的共识。但在实务层面,当事人常常会选择直接绕开这一争议,从实际情境出发,在已有法律明确规定和保护的范畴内解决问题。——这是一种寻求司法救济的有效方式。



在美国,法院规制数据爬虫的法律途径主要有四种:



  • 非法入侵私人财产(trespass to chattels);



  • 合约违约(breach of contract);



  • 违反著作权(copyright violations);



  • 违反《电脑欺诈和滥用法》(CFAA violations)。



其中,CFAA 在实务中被广泛援用是近年来的一大趋势。



这一法案对「故意未经授权或超越授权存取电脑讯息系统并因此从任何受保护的电脑获取讯息」的行为创设了民事和刑事责任。



美国最高法院则进一步解释,CFAA 规定了两类非法存取受保护的电脑讯息系统进而构成犯罪的行为:



  • 未经授权存取;



  • 虽获得授权存取但不当使用。



 



01、影响合法性的因素之一:数据属性

问题1:是「公开数据」吗?

数据是否公开、可存取是影响爬取行为正当性的重要因素。



怎么定义数据的公开与否?



一般来说,数据控制者采取了技术保护手段的数据属于不公开数据。举个例子,在 Facebook v. Power Ventures 案中,以帐号密码方式保护的使用者数据被明确认定为不属于公开数据。



对于非公开数据,美国的司法主张:相应的数据爬取行为需要得到数据控制者的授权。



有趣的是,对于那些使用者主动选择公开,但数据控制者未授权爬取的数据,美国法院的态度经历了一个「由严格至宽松」的转变。2000年,美国 Bidder's Edge 公司对 Ebay 网站进行了数据爬虫,Ebay 因此向加州北区法院提起诉讼,理由包括:该爬虫行为违反了 robot 协议,具有非法侵入(trespass)、电脑欺诈和滥用、不公平竞争等违法行为。





法院基于以下几点,认同了非法入侵的控告



  • Ebay 公司的伺服器是私人财产;



  • 其给予的公众存取权限是授予的,Ebay 一般不允许爬虫机器人进行存取;



  • Ebay 已经明确告知 Bidder's Edge 公司不许对其网路进行爬虫,认同了非法入侵这一控告,认为被告未经授权干扰原告在电脑系统中的占有权益,直接导致原告受到损害。



在这一案件中,法院回避了数据权属的问题。法院主要以伺服器私有这一理由认定了 Bidder's Edge 公司的行为属于非法入侵动产,这等于间接承认了爬取公开数据需要平台的授权。



但在2017年的 hiQ Labs Inc v. LinkedIn Corporation(以下简称领英案)案中,情况发生了重大改变。





让我们先来看一下这一案件的基本案情。



hiQ Labs(以下简称「 hiQ 」)是一家为雇主提供雇员评估服务的数据分析公司。它使用自动化机器人,从拥有超过5亿使用者的职业社群网站 LinkedIn 上抓取使用者公开的个人资料,包括姓名,职务,工作经历和技能等,然后透过演算法处理这些数据,将分析结果出售给客户。这种行为持续了五年。



  • 2017年5月



LinkedIn 向 hiQ 发警告函,要求其停止未经授权的存取和数据爬取行为,并针对 hiQ 设置了相应的技术手段,防止 hiQ 继续爬取数据。LinkedIn 在警告函里表明,如果 hiQ 不停止抓取行为,将违反一系列联邦法和州法,尤其是 CFAA。



  • 2017年6月



hiQ 向美国加州北部地区法院提出诉讼,主张 LinkedIn 的行为违反了加州宪法中有关言论自由的规定,违背了「允诺禁反言(promissory estoppel)」原则,违反加州的《反不正当竞争法》,构成《加州商业及专业法》第17200条项下的不公平商业行为等。



随后,hiQ 对 LinkedIn 的行为发起了初步禁令的动议。



  • 2017年8月



美国加州北区地方法院支持了 hiQ 的禁令动议,裁定:LinkedIn 不得阻止 hiQ 进入、复制并使用其网站的公开讯息;在临时禁令期间,LinkedIn 须撤回并禁止再向 hiQ 发送禁止其使用数据的法律声明。



LinkedIn 不服,提起了上诉,但上诉法院依然支持了禁令。



领英案的判决具有里程碑意义。



针对 LinkedIn 主张的,hiQ 继续爬取其数据违反 CFAA 的规定,属于未经授权侵入了受保护的电脑系统。美国加州北区地方法院的法官认为,关键问题是:在LinkedIn 发警告函明确禁止 hiQ 存取数据后,hiQ 继续抓取 LinkedIn 的公共数据是否构成 CFAA 规定的「未经授权存取电脑」。



首先,法官驳斥了 LinkedIn 提出的用以支持己方观点的两个案例:Power Ventures 案和 Nosal II 案。法官认为,这两个案例并不同于本案,其数据不是公开的,而是受密码验证系统保护的,所以不能未经对方企业授权就爬取。



其次,法官在判决中写到:「CFAA 必须在其历史背景下进行解释,并牢记国会的宗旨。」意思是,CFAA 的出台早于 Internet 的出现,它无法直接应对现代科技在一定层面的问题。



判决援引美国第九巡回上诉法庭在 United States v. Nosal(Nosal I)案中的相关阐述:



「国会在1984年颁布 CFAA 的主要目的是解决日益严重的骇客攻击问题」,主张不要对 CFAA 进行过度的扩张解释,导致「其适用范围扩大到电脑骇客行为之外,而将任何未经授权使用电脑讯息系统数据的行为认定为犯罪」。



换言之,如果网站随时可以用任何理由撤销对任何人的授权,并援引 CFAA 强制执行,那将会使广泛的 Internet 使用者承担刑事和民事责任。





接着,该判决了援引美国联邦最高法院对 Packingham v. North Carolina案的判决:



在当前社会中,社群媒体网站已经成为大多数人「获取实时资讯,寻求就业岗位,在网路空间中表达和聆听意见,以及在其他方面探索人类思想和知识疆域」的主要来源。



法院从整体上将 Internet 和社群媒体网站与「现代公共广场」的概念进行类比,法院认为,两者的规范共识中都包含了「对所有来访者的开放性和可存取性」。



另外,这一案件从言论自由角度出发的辩护意见也具有代表性。



hiQ 公司聘请了哈佛大学法学院的劳伦斯‧却伯教授作为顾问。这位教授提出,数据与讯息的存取权属于一种言论自由的权利;数据的本质是一种言论,而言论的本质是流通与共享,具有公共属性,因此对公开数据进行网路爬虫不需要网路平台或个人的授权。



当然,这一案件的判决还考虑到了其他因素,并不仅仅限于数据问题。比如,hiQ 完全依赖二次利用 LinkedIn 的公开数据以经营业务,这未给领英造成损害,但一旦停止会给 hiQ 造成毁灭性打击。



本案的判决说理主要是围绕临时禁制令展开,主要考虑四点因素:胜诉的可能性、是否具有难以弥补的损害、对双方利益的权衡和公共利益。从难以弥补的损害和对双方利益的权衡角度来看,法院倾向于支持 hiQ 是情理之中的。



再者,一个不容忽视的事实是:五年来,LinkedIn 对 hiQ 的网路爬虫行为一直是允许的,在阻止这一数据爬取行为时 LinkedIn 却正好宣布要提供与 hiQ 类似的服务,这使得LinkedIn 拒绝 hiQ 抓取数据,涉嫌滥用市场支配地位,排除竞争对手。



如今,美国对使用者隐私的研究已经发展到「情境隐私」理论( contextual privacy) 。

終於來了!AirPods Pro 與 16 吋 MacBook Pro 官網上架,最快農曆年前到貨



海伦‧尼森鲍姆教授提出的数据的情境性公正理论(Theory of Contextual Integrity )主张,保护隐私与个人讯息的关键并不在于隔绝讯息,而在于确保讯息流通的「语境性公正(contextual integrity)」。



即在特定的语境中,讯息流动应符合人们预期(不过,领英案的法官判决提醒我们,使用者将自己的资料公开并不意味着其允许第三方以任何目的收集和使用其数据);特定的讯息流动与特定的情境化的讯息模式相匹配,在特定语境中分享的讯息,不应在有违这种语境的环境中分享。



因此,隐私与个人讯息保护法一定要尊重语境(respect for context),应当根据语境制定数据使用方式的规则。



简言之,线上环境下使用者的隐私预期是依据情境的,就像医生将病人的个人讯息告诉一些商业机构时病人会惊讶,但如果告诉的对象是保险公司或药剂师则不会有微词。



由此转变可见,美国越来越从宏观的公共利益角度审视使用者数据的流通和共享行为,态度逐步开放。



 



问题2:原始数据还是衍生数据?

数据属于原始数据还是衍生数据,也是影响数据爬虫行为合法性的重要因素。



熊钱富提出区分原始数据与衍生数据,并根据不同的数据法律关系配置相应的数据权利制度。



原始数据的所有权归属于使用者个人,由使用者本人享有占有、使用、收益、处分的权利;而衍生数据的所有权因是基于数据价值的「第二次」创造,则归属于衍生数据的「创造者」,并由该衍生数据的「创造者」享有占有、使用、收益、处分等权利。



照此逻辑推论,平台上由使用者直接创造或由使用者行为留下的数据属于使用者,由企业加工、创造而得的数据属于企业。



在美国,单纯地爬取其他企业平台上公开的原始数据并不违法。



领英案的判决,基本承认了第三方企业可以在获得使用者授权的情况下爬取企业平台上公开的、原始的个人数据。



Facebook v.Power Ventures案同样表明了这一点。



该案的基本情况是:Power Ventures 专注于社群聚合服务,使用者可在该软体上同时登陆 Facebook 、LinkedIn 等社群软体,并提供 Facebook 的登陆密码供 Power Ventures 抓取其 Facebook 帐号内的使用者数据。随后,Facebook 知晓并向 Power Ventures 发送了禁止函,Power Ventures 则更换 IP 地址继续进行存取。



该案是典型的使用他人内网帐号抓取数据的情况,但是,只要使用他人的内网帐号爬取数据就构成违规使用吗?



2016年第九巡回法院的判决并没有支持原告的这一理由,而是认为被告在原告明确撤回授权后继续爬取原告网页的行为才违反了 CFAA。



简言之,未经对方企业授权而爬取使用者数据这一事实并不充分地构成违规。据此,至少可以得出结论,从数据的属性而言,爬取企业平台上的原始数据在美国并不违法。



 



 



 



02、影响合法性的因素之二:授权模式

一般性禁止

数据被抓取方对第三方网路平台改采取的一般性禁止措施主要包括:Robots 协议和 ToS 禁止。前者没有法律强制力;后者则具有,即违反 ToS 禁止爬取对方企业的数据,有可能构成违约行为,需承担一定的法律责任。



Robots 协议(或称机器人协议或拒绝机器人协议)指由网站所有者产生一个指定的文件robot.txt,用以指明网站中哪些目录下的网页是不允许爬虫抓取的,并将这个文件放在网站伺服器的根目录下。友好的爬虫者在抓取一个网站的网页前,往往会先读取 robot.txt 文件,对于禁止抓取的网页和数据不进行下载。



一般情况下,被爬取数据的网站都会所说 Robots 协议,而非直接采取技术手段禁止来自某IP地址的存取。不过 Robots 协议只是一个君子协定,并没有法律上的强制约束力。



具有法律强制力 ToS 禁止,即 Terms Of Service,服务条款协议。它类似于许可软体的最终使用者许可协议(EULA)。二者的不同之处在于,适用前者的使用者不是使用开箱即用的软体产品,而是使用服务。



从文字处理器和图形设计程式到高级行业软体或统计软体服务,使用者可以在各种软体上遇到服务条款。以 ToS 禁止的方式作出禁止数据爬取警示的网路平台不在少数。



例如,线上大型免费分类广告网站 Craigslist,就在其 ToS,即《Craigslist使用条款》中写道:「您同意不透过机器人、蜘蛛、脚本、数据提取、爬虫或任何自动或手动等工具复制或收集本网站内容」。



若平台采用 ToS 禁止,拒绝第三方网路平台对其数据进行爬取,那么后者即无权对其数据进行爬取下载,否则就可能构成违约行为,需要承担一定的法律责任。



制止函及IP壁垒

被抓取数据的网站一旦发现有 IP 违反一般性禁止进行存取,便会发送制止函,同时设置 IP 壁垒禁止相关IP存取。这一行为在美国被认定为撤销对方继续存取己方网站的授权。若爬取方继续数据爬取行为,则会违法。不过,若爬取的是具有公共属性的数据,被爬取平台的撤销授权措施则毫无意义。



Craigslist v. 3Taps 案是典型案例。





本案中,原告 Craigslist 在发现被告3Taps对其网站的存取存在异常情况后,便向其发送了制止函,禁止其相关IP存取。但在收到制止函后,被告3Taps 仍使用不同的IP地址和代理伺服器来隐藏其身份绕过 Craigslist 设置的IP壁垒,继续爬取数据。



对此,法院在判决中认为,原告 Craigslist 发送制止函并禁止相关 IP 存取的行为实质上已经构成了对被告3Taps存取其网站的授权的撤销,被告无视制止函继续抓取数据的行为违反法律。



此外,发生在 Craigslist v. 3Taps 案之后的 hiQ Labs v. LinkedIn 案提醒我们还需注意被抓取数据的性质。若被抓取的数据具有公共开放性,属于网路空间的公共产品,那就无需数据控制者的授权,其撤销授权自然也不会对爬去行为的合法性产生影响。



在 Craigslist v. 3Taps案件中,法院关注的重点在于数据的抓取是否违反了数据被抓取方的警示措施,判决认为 Craigslist 发送的制止函以及设置的 IP 壁垒可被视为撤销了对被告继续存取该网站的授权;而在领英案中,法院则考虑到了被抓取数据的性质。



虽然LinkedIn 同样向 hiQ 发送了制止函并且采取了相应的禁止 IP 存取的技术措施,但由于 hiQ 所抓取的数据具有公共开放性,导致 LinkedIn 撤销 hiQ 接入自己公共部分的授权,并不会使 hiQ 的行为变成 CFAA 意义上的「未经授权」。



并且,正是因为担心如果绕开LinkedIn 的技术措施会导致其承担法律责任,hiQ 才向法院申请禁令,这强调了在明确数据属性后,对方企业授权的重要性。 



特殊性授权

签订《开发者协议》,利用 Open API (开放应用程式介面)授权是允许第三方网路平台对其数据进行抓取下载的最常用方式。



API(Application Programming Interface),又称为应用程式介面,是软体系统不同组成部分衔接的约定。例如,在浏览器中输入www. Facebook .com,一则请求会出现在 Facebook 的远端伺服器上。一旦浏览器收到了响应,它就会解析程式码,呈现出网页。



对于浏览器来说(即所谓的客户端), Facebook 的伺服器就是一个应用程式编程介面。这也意味着,每当使用者在 Internet 上存取一个页面的时候,事实上都在与某个远端伺服器的 API 发生互动。



在数位经济时代,很多企业都会将 API 包装成产品出售或透过 Open API 等类似方式开展合作。



Weather Underground 将其天气数据 API 的存取权限出售给其他第三方网路平台以赚取经济效益;Facebook v. Power 案中,双方最初的合作方式也是如此。



近年来,专业人士对 API 的讨论也越来越多,free Code Camp 亦有不不少文章对其加以点评论述。Petr Gazarov 在情境示例之下阐释的 API 似乎更易理解:你是一家小企业,公司网站上有一个表格是用来给客户注册预约的。你想要凭借这些预约细节讯息,让客户能够自动在 Google 日程上创建活动。



这就意味着,你的网站伺服器需要透过 API 直接与 Google 伺服器进行对话,在掌握既定细节讯息的情况下,申请创建活动。之后,你的伺服器会接收到 Google 的响应并进行处理,然后将相关讯息发送回浏览器,例如向使用者发送一个确认讯息。



一般而言,若双方透过 Open API 进行合作,合作结束即相当于撤销授权,被撤销授权方应当按照协议清理非授权使用者的讯息数据。



 



特殊的默示授权 

除了上述授权方式外,还可能存在着特殊的默示授权。



例如,LinkedIn 在长达五年,且没有任何协议的情况下,一直允许 hiQ 的数据抓取行为,是否属于默示授权?美国法院对该案的判决倾向于将其认定为默示授权。



在领英案中,hiQ 公司对 LinkedIn 的网站实施了网路爬虫,但加州北区地区法院的法官认为,这种爬虫行为并不违反法律,因为领英网站上的数据是公开数据,对于公开数据,即使爬虫方违反了对方设置的robot协议,也应当被法律允许。这就像在白天推开一家未锁门的商店进去看看,并不能将其认定为非法侵入。



因此,法院最后不仅没有认定 hiQ 公司的爬虫行为违法,甚至反过来认定 LinkedIn 的反爬虫技术违法,要求 LinkedIn 移除针对 hiQ 的接入壁垒。



这意味着,该法官认为第三方网路平台对公开数据的抓取下载可以被视为经过了默示授权,进而不属于 CAFF 规定的两类非法存取受保护电脑讯息系统的行为。不过,此判例能否在后续实践中被广泛认同尚有待观察。



03、结论

数据爬虫行为引起了理论界、实务界的高度关注。其中原因在于:一方面,大数据时代中数据对个人和企业乃至整个社会都有着重要意义;另一方面,实务的立法都在不同程度上与实践脱节,探索空间广阔。



截至目前,学界对爬虫行为的规制尚未提出令人信服的方案,上述所提及的美国CFAA 法案,对当下法律问题的针对性还差强人意。



透过分析已有案例可知,数据属性和授权模式都会明显地影响数据爬虫的合法性。美国基于对公共利益的考虑,认为爬取公开的原始数据无需获得授权即可进行,而对其他类型的数据会有不同程度的保护。



另外,还有其他因素,如企业对其数据的投入,也可能进入法院衡量数据爬取行为合法性的考虑范畴。至于授权模式,广泛使用的 Robots 协议并不具有法律强制力,Tos 禁止才具有。



当数据爬取方违反了这些一般性禁止时,对方企业往往会发送制止函,设置 IP 壁垒,如果被爬取的数据属于需要企业授权的类型,爬取方在接受到此类表示后必须停止爬取行为,否则将承担法律责任。



再者,如果透过 Open API 等类似方式开展合作,合作终止时便是撤回授权时。最后,在美国,被爬取企业知晓而不阻止爬取的行为可能成立默示许可,给予爬取行为正当性。



整体而言,美国对个人数据讯息的保护经历了一个相对漫长的发展过程,其态度逐渐向公共利益倾斜。未来,我们还需综合考量数据属性、授权模式、爬取方式、被爬取数据的利用方式等众多因素,建构一个平衡各方利益的法律制度。



  • 本文授权转载自:36kr(36氪) 

Shares



Facebook LINE Twitter
版权声明

本文仅代表作者观点,
不代表本站保险网的立场。
本文系作者授权发表,未经许可,不得转载。

评论

好文推荐

站点信息

  • 文章总数:1583
  • 页面总数:0
  • 分类总数:16
  • 标签总数:3937
  • 评论总数:277
  • 浏览总数:242751