隆安法言 | 从微博不正当竞争案看数据抓取行为的司法认定规则

发布日期：2024/10/8

阅读量：142 来源于: http://www.mylsfw.com/

【裁判要旨】

数据抓取行为是否违反《反不正当竞争法》，关键在于抓取数据的性质和抓取数据的方法是否正当。在没有获得许可的情况下，通过技术手段抓取和存储已经设置访问权限的非公开数据的行为本质上利用了技术手段破坏或者绕开平台所设置的访问权限，此种行为不具有正当性。

【案情概要】

湖南某软件股份有限公司与北京微梦创科网络技术有限公司不正当竞争纠纷案【案号：（2018）京0108民初28643号、（2019）京73民终3789号】，被上诉人（原审原告）某网络技术公司系新浪微博的运营方，既是为网络用户提供基于用户关系的社交媒体平台，也是向第三方应用软件提供接口的开放平台。上诉人（原审被告）某软件公司通过运营的网页版鹰击系统和安卓手机端鹰击应用为其用户提供微博数据服务，具体包括获取、存储、展示和分析微博平台数据，并形成数据分析报告。被上诉人认为上诉人通过非法手段擅自获取、存储、展示和使用微博平台数据的行为构成不正当竞争，故诉至法院，要求上诉人立即停止涉案不正当竞争行为，消除影响并赔偿经济损失。上诉人辩称，鹰击系统系工具而未主动抓取微博平台数据，所抓取的数据系微博平台前端数据，且系通过网络爬虫技术实现抓取而未破坏微博平台技术保护措施等。北京市海淀区人民法院审理后在（2018）京0108民初28643号民事判决中认定，在不通过技术手段破坏或者绕开新浪微博所作的技术限制的情况下，无法实现上诉人所宣称的鹰击系统所具有的功能。上诉人主张的网络爬虫技术不足以支撑鹰击系统所需数据、上诉人系通过不正当手段获取新浪微博数据。上诉人不服一审判决上诉至北京知识产权法院。

【法院裁判】

法院经审理认为，微博平台数据可以分为公开和非公开数据，对于公开数据，可以通过网络爬虫等自动化程序获取并进行二次利用，对于非公开数据，只有在采取合法正当手段的情况下方可获取。本案中，在双方当事人不存在合作关系，且不能证明采用的技术手段具备合法正当性的情况下，能够合理推定上诉人利用了技术手段破坏或绕开了被上诉人所设定的访问权限，从而获取微博平台非公开数据。上诉人获取、存储、展示和使用微博平台数据的行为，干扰了微博平台的正常运行，给被上诉人增加了经营成本，并影响被上诉人对外授权并获得相关收益，构成《反不正当竞争法》第十二条规定的不正当竞争行为。据此，法院判决上诉人承担停止不正当竞争行为、消除影响并赔偿被上诉人经济损失及合理费用共计528万元。

【律师评析】

本案中，某技术公司主张某软件公司通过技术手段抓取已设置访问权限的非公开数据，具有明显的不正当性；抓取平台数据后进行存储，可能导致用户个人信息的泄露和被侵害，损害平台对相关数据的权利，构成不正当竞争；因抓取、存储平台数据的行为存在不正当性，故将这部分数据用于展示和分析的后续使用行为，因数据来源不合法而不具有正当性之基础。

数据的“抓取”主要通过网络爬虫技术实现，也就是爬虫抓取，简称“爬取”。爬虫技术的应用性极强，能够打破信息交流壁垒，为用户提供海量的目标信息资源。例如，搜索引擎获取信息的关键性技术之一就是网络爬虫。[1]

互联网行业的竞争是数据的竞争，利用网络爬虫采集公开信息是企业数据的重要来源。相关数据显示，50%以上的互联网流量其实都是爬虫贡献的；对于某些热门网页，爬虫的访问量甚至占据了总访问量的90%以上[2]。爬虫技术能够实现高效的数据汇集与收取，虽然网络爬虫已广泛应用，但绝不能无限制使用，在以数据为核心竞争资源的互联网时代，海量数据意味着竞争优势，于是大量的反爬虫技术和措施开始被应用，最常见的反爬虫手段之一是robots协议。

1.认识Robots协议

为了规范网络爬虫行为，荷兰软件工程师马蒂恩·科斯特（Martijn Koster）于1994年2月起草了网络爬虫的规范——Robots协议。Robots协议全称网络爬虫排除标准（Robots Exclusion Protocol），又称爬虫协议、机器人协议，实质上是为了解决爬取方和被爬取方之间通过计算机程序完成关于爬取的意愿沟通而产生的一种机制。[3]我国《互联网搜索引擎服务自律公约》[4]第七条第二款规定，机器人协议（robots协议）是指互联网站所有者使用robots.txt文件，向网络机器人[5]（Web robots）给出网站指令的协议。

2.Robots协议的法律界定

Robots协议即网站所有者在网站根目录下设置的robots.txt文件，目的在于告诉网络爬虫哪些页面可以抓取哪些页面不能抓取。Robots协议是一个未经标准组织备案的非官方标准，虽然名为“协议”，但并非真正意义上的协议，不受任何官方机构保护，不具有强制性，相当于一个“君子约定”。但Robots协议并非不受法律保护，因为Robots协议是国际互联网界通行和公认的道德规范。[6]

在我国，互联网协会发布的《互联网搜索引擎服务自律公约》将Robots协议被界定为“国际通行的行业惯例与商业规则”。而作为同行业之间的约定，《互联网搜索引擎服务自律公约》已经成为行业规范被纳入法官的视野，在与Robots协议有关的纠纷中成为判定是否构成侵权或者不正当竞争的依据。我国《反不正当竞争法》第二条第二款规定：“经营者在生产经营活动中，应当遵循自愿、平等、公平、诚信的原则，遵守法律和商业道德。”《北京市高级人民法院关于涉及网络知识产权案件的审理指南》第三十四条也有相应的规定：“对公认的商业道德进行认定时，可以综合参考下列内容：（2）行业协会或者自律组织根据行业特点、竞争需求所制定的从业规范或者自律公约。”

故，违反robots协议行为可能被认定为不正当竞争行为，将受到我国《反不正当竞争法》的规制。需要说明的是，并非所有违反robots协议的行为均可被认定为是不正当竞争行为，如联合抵制、区别对待等垄断行为等。

3.爬取数据行为的不正当性司法判定规则

《反不正当竞争法》第十二条规定，经营者利用网络从事生产经营活动，应当遵守本法的各项规定。经营者不得利用技术手段，通过影响用户选择或者其他方式，实施妨碍、破坏其他经营者合法提供的网络产品或服务正常运行的行为。数据抓取行为并不天然具有违法性，对其合法与否的价值评价通常来源于该行为所触及权益的保护或损害。被抓取数据的公开性、原始性、授权情况、来源合法性等是在进行行为正当性评价时常产生争议的因素。

（1）利用技术手段破坏或绕开访问权限爬取非公开数据具有不正当性。

从平衡经营者利益与公共利益的角度出发，互联网数据分为“公开数据”和“非公开数据”。未设定访问权限的数据，一般属于向公众公开的数据；通过登录规则或其他措施设置了访问权限的数据，则应属于非公开数据。当获取“非公开数据”时，只能利用技术手段破坏或者绕开访问权限，而此种行为显然具有不正当性。而判断抓取“公开数据”的行为是否具有正当性，关键是要看其抓取数据的手段是否合法正当。是否为公开数据在一定程度上直接决定了抓取行为的正当与否。非公开信息数据通常涉及个人隐私、商业机密、国家安全机密等，其“非公开”的本质意味着数据持有者对该数据的“不开放”态度，非经数据持有者同意或授权的抓取行为具有当然的不正当性。[7]例如，在本案中，法院认为在对被诉行为性质进行判断之前，有必要对微博平台数据的类型进行一定区分和界定。虽双方均使用“前端数据”和“后端数据”之概念区分微博平台数据，但基于双方对该两类数据的理解和定义存在较大差异，且从技术角度看，使用前述概念区分微博平台数据或可能存在范围重叠之情形，或可能出现分类不严谨之问题。本院认为，从规范层面看，将微博平台数据做公开和非公开数据之区分更能体现法律意义。对于某技术公司未设定访问权限的数据，应属某技术公司已经在微博平台中向公众公开的数据；对于某技术公司通过登录规则或其他措施设置了访问权限的数据，则应属微博平台中的非公开数据。某软件公司擅自抓取的行为是否构成不正当竞争，关键在于判断其所抓取的数据是微博平台公开数据或非公开数据。

法院认定某软件公司在未经允许的情况下抓取的微博平台数据包括某技术公司已设置了访问权限的非公开数据，显然只能利用技术手段破坏或绕开某技术公司所设定的访问权限，而此种行为显然具有不当性。[8]

（2）爬取公开数据并非一定具有正当性。

对于公开数据，某技术公司并不会阻止用户浏览、接收甚至采取合法正当的途径进行二次利用。网络爬虫等技术手段虽系自动抓取网络数据的程序或脚本，但如其遵守通用的技术规则，亦无需访问权限即可访问公开数据。因此，无论是通过用户浏览或网络爬虫获取前述微博平台的公开数据其行为本质均相同，某技术公司在无合理理由的情形下，不应对通过用户浏览和网络爬虫等自动化程序获取数据的行为进行区别性对待。但笔者认为，不能一刀切认为公开数据可被任意获取。例如，在新浪诉超级星饭团一案中【(2017)京0108民初24512号】，北京市海淀区人民法院认为，如果他人抓取网络平台中的公开数据之行为手段并非正当，则其抓取行为本身及后续使用行为亦难谓正当；如果他人抓取网络平台中的公开数据之行为手段系正当，则需要结合涉案数据数量是否足够多、规模是否足够大进而具有数据价值，以及被控侵权人后续使用行为是否造成对被抓取数据的平台的实质性替代等其他因素，对抓取公开数据的行为正当性做进一步判断。

（3）破解加密算法的爬取行为具有不正当性。

在“酷米客”和“车来了”不正当竞争纠纷一案【(2017)粤03民初822号】中，被告承认通过破解加密算法抓取原告涉案数据，深圳市中级人民法院认为，获取数据的方式须以不违背该软件著作权人意志的合法方式获取，即应当通过下载“酷米客”手机APP或者登录谷米公司网站等方式来查询，而非未经许可，利用网络爬虫技术进入谷米公司的服务器后台的方式非法获取，故被告以原告谷米公司的数据可自由访问来证明其获取方式合法性的主张不能成立。[9]可见，被告通过破解加密算法的数据爬取行为具有不正当性。

（4）未经授权的爬取行为具有不正当性。

一方面，“授权”包括签订数据获取协议等明示授权，还包括默示授权。例如，数据抓取者在写有Robots协议的网站爬取数据的过程中没有收到禁止访问提示，则视为获得了抓取授权。另一方面，“授权”不仅包括数据平台授权，还包括用户授权，尤其是在爬取涉及用户个人信息的数据时，是否获得用户授权是抓取行为正当性评价的重要依据之一[10]。在新浪诉脉脉案中，脉脉在没有获得微博平台授权、也未经脉脉未注册用户许可的情况下抓取新浪微博用户的职业信息、教育信息。法院最终判定抓取非脉脉用户信息的行为具有不正当性，同时确立了针对公开用户数据的抓取需依照“用户授权+平台授权+用户授权”的三重授权原则。三重授权原则实质是对现行法的基本原则“非经同意不得使用”的解读，即如《网络安全法》第四十一条所规定的：网络运营者收集、使用个人信息，应当遵循合法、正当、必要的原则，公开收集、使用规则，明示收集、使用信息的目的、方式和范围，并经被收集者同意。网络运营者不得收集与其提供的服务无关的个人信息，不得违反法律、行政法规的规定和双方的约定收集、使用个人信息,并应当依照法律、行政法规的规定和与用户的约定，处理其保存的个人信息。

【裁判的意义】

本案的判决明确了数据抓取行为的正当性边界，对未来数据保护以及如何兼顾信息获取者、信息使用者和社会公众三方的利益，具有重要的借鉴价值和指导意义。

湖南刑法刑事律师事务所 (http://www.mylsfw.com/xingfaxingshi)提供邵阳市刑法刑事24小时律师电话微信，提供免费在线咨询。

标签：

部分文章来源于网络，无法查证出处，我们只做学习使用，如不同意收录请联系网站马上删除。

上一篇：侵犯商业秘密罪

下一篇：·【律师点评】童之伟：重庆打黑型社会管理方式研究报告（三十二）

更多>>