百晓无声知识库 2025-11-26

王文君：论数据抓取行为的正当性判断

作者：王文君（上海交通大学凯原法学院博士后，法学博士）

出处：《比较法研究》2025年第5期

一、问题的提出

二、数据抓取的技术原理与正当性判断标准

三、数据确权背景下抓取数据的正当性考量

四、利益衡量理论下抓取数据的合理限度

五、结语

摘要：数据抓取行为的正当性判断标准模糊，三重利益评估模式考察的因素过于情景化，数据价值动态变化导致难以甚至无法评估竞争损害，不符合实质性替代规则以结果为导向的逻辑，实质性替代规制本身也存在悖论。数据确权说与否定说均认为数据产权仅具有有限排他性，并不等同于传统财产所有权。从数据利用的非排他性和数据效用的不确定性分析，数据抓取正当性评价应考虑保护意愿、技术措施是否被突破、数据集合的价值（竞争性权益）、抓取数据集合的合理限度四个方面的因素。从利益衡量理论入手，数据抓取的合理限度得以明确。对不涉及个人信息的数据抓取，利益衡量实际上是在保障数据自由流通的前提下，根据数据控制者是否采取以及采取何种技术性措施，识别值得通过禁止数据抓取的方式予以规制的数据竞争优势。对涉及个人信息的数据抓取，还应结合个人信息的识别度落实抓取方的个人信息保护义务。

关键词：数据抓取；正当性；有限排他性；利益衡量

问题的提出

　　数据作为一种新型生产要素，是数字经济时代最宝贵的资源。数据抓取在数字市场无处不在，它既是许多企业获取数据的重要手段之一，同时也是企业重点关注和防范的行为。近年来，利用网络爬取技术获取数据的行为引发了频繁而激烈的讼争，如新近的“天津面兜兜网络科技有限公司不正当竞争案”“‘抖某家’数据权益保护纠纷案”“微梦创科公司诉抖音不正当竞争纠纷案”“微信社交数据爬取案”和早些年的“新浪诉饭友不正当竞争案”“大众点评网诉百度不正当竞争案”等。裁判者主要依照三重利益评估模式展开分析，其中的核心工作在于判断数据抓取行为对竞争秩序利益、经营者利益、消费者利益产生的影响。然而，这样的裁判思路在司法实践中存在模糊性：三者间是选言式关系还是并列式关系？若是选言式关系，又应如何排序？何者为先，何者次之，何者居末？前述问题的模糊性造成了司法裁决的不统一，加之数据保护与流通之间价值权衡的难度颇高，数据抓取行为的正当性判断一直争议不断。就抓取公开数据的行为评价而言，在“大众点评网诉百度不正当竞争案”中，法院认为百度公司获取并使用大众点评网用户评论的行为构成不正当竞争。同样，一审法院在“观澜网络诉上海医米不正当竞争案”中也认定获取公开数据的行为构成不正当竞争。但是，在“微博诉蚁坊不正当竞争案”中，法院却倾向于不保护公开数据，认为基于网络环境中数据的可集成、可交互之特点，平台经营者应当在一定程度上容忍他人合法收集或利用其平台中已公开的数据，通过用户浏览和网络爬虫技术获取数据的行为本质是相同的。

　　学界对数据抓取行为的反不正当竞争研究的充分程度与该问题在司法实践中面临的困惑程度不成正比，且存在不同的观点。有论者认为，竞争法不直接通过法律条文规定何种权利受保护。有学者对此持不同意见，主张立足于权利式保护，将事先的保护措施规定为受保护数据的构成要件，使数据权益保护具有确定性和事先可识别性。学者们还尝试提出不正当判定的分析方法，如运用权益权衡的方法，借助阿列克西（Robert Alexy）的“权重公式”和数据权益的细化，发现“社会福祉最大”或“社会伤害最小”的数据爬取规则；对用户直接生成展示在网页上的公开、原始数据，应采用竞争性权益的保护方式，而对平台进行适度处理可供商业化利用并采用密码等保护措施仅向特定人提供的数据，则采用财产性权益的保护路径；也有观点提出应当将法益衡平作为确定数据抓取合法性边界的基本思路。此外，还有学者对抓取公开数据的行为评价持相反观点。

　　既有研究未能充分意识到《中华人民共和国反不正当竞争法》（以下简称“《反不正当竞争法》”）对数据集合保护的确权效果，亦未能充分揭示《反不正当竞争法》评价数据抓取行为的底层原理，多数文献将行为规制思路与权益保护思路相对立，限制了对数据抓取行为正当性判断评价的深入思考。一些观点过于关注“平台企业是否有权控制数据”，缺乏对数据抓取的整体审视，未将数据界权与数据抓取的正当性判断标准相联系，并且忽视了数据与传统虚拟财产的不同，“因数据权属的不明确性而面临窘境，需要从注重传统权利保护规制思路转变为行为正当性判断的规制思路”。同时，过往的研究对问题的讨论还存在含混之处且不够全面，典型如抓取未采取技术性措施保护的非涉个人信息数据，在不构成“实质性替代”的情况下，是否能以“合理限度”予以规制。实际上，在数字经济的时代大背景下，法学理论研究面临的难题已不再局限于隐私保护，对第三方抓取经营者持有的非涉个人信息数据的定性问题有必要深入探究。有鉴于此，本文立足于数据确权的背景，结合数据与传统虚拟财产之间的差异，以探求新型数据财产权益的保护路径为着眼点，结合利益衡量理论的视角，对数据抓取行为正当性的认定和判断提出方案。

数据抓取的技术原理与正当性判断标准

（一）数据抓取的技术原理

　　数据抓取又称“网络爬取”“屏幕抓取”“数据挖掘”“数据提取”，指的是通过软件程序识别扫描并获取一个或多个网站数据的过程。爬取不同于通过应用程序编程接口（API）等正式的数据请求访问网站的底层数据结构，以网络爬虫为代表的数据爬取技术与一般用户获取网页内容的路径相同。有学者将网络爬虫定义为一种能够自动化收集并存储数据的技术。现在的“爬取”往往使用集检索、识别、获取的计算机程序，并在多个网页和各种应用场景之中同时操作，这种方法极大地便利了企业大规模获取公开在线数据。因为互联网实际上本身就是最大的数据库，爬取技术可以将大量非结构化数据提取后转化为可理解的结构化数据，便于进一步存储和分析，提高数据利用效率。当然，数据爬取的对象既包括结构化数据，也包括非结构化数据。

　　鉴于网络承载了当今世界大部分的信息和数据，网络爬取技术实际上为很多企业带来益处，数据爬取对企业而言十分重要，并且已经彻底改变了许多行业。然而，数据可能带来的竞争优势让许多企业不希望自己持有的数据被爬取，它们往往会采用反爬技术予以阻止，还会在网站使用条款中明确规定“禁止爬取”。有一种观点认为，网络爬虫做的事情，人类也可以手动使用网络浏览器完成，数据爬取只是一个技术问题。换句话说，网络爬虫收集数据的吸引力不过在于其速度快、数量大、范围广。相对于手动收集数据，企业更倾向于使用爬取技术更多的是出于效率方面的考虑。有法官将爬取者描述为邪恶的行为人，比作“拿着锤子砸机器”的破坏者。可见，数据爬取是一种有争议却广泛存在的行为。

（二）数据抓取的正当性标准与分歧

　　当前司法裁判主要采取一种解构的思路来处理涉数据爬取的不正当竞争纠纷，即在竞争秩序、经营者、消费者三重利益评估框架中，综合考虑每一种利益在具体个案的表现因素，以实现裁判结果的妥当性。

1.基于经营者利益损害的判断

　　我国法院在裁判中对经营者利益“损害”的阐述大致可以分为两种类型。第一，在双方当事人之间存在竞争关系的场景中，主流判断标准为，数据爬取者的行为是否对被爬取方的竞争优势产生实质性替代的效果。司法中逐渐确立的实质性替代规则已开始进入规范性文件，成为数据爬取不正当竞争行为正当性判断的构成要件。然而，实质性替代规则不仅缺乏理论逻辑，还与当前《反不正当竞争法》中的一些共识产生冲突。第二，当双方经营者不存在竞争关系时，法院对经营者利益损害的阐述具有不确定性。如给原告带来商誉上的损失或负面评价，使原告无法获得已投入数据维护成本的回报，加大原告的经营维护成本，增加原告平台服务器的额外运营负担，降低原告的核心竞争优势，破坏用户粘性，降低用户对原告产品或服务的信任度，等等。

2.基于消费者利益损害的判断

　　反不正当竞争法并不仅仅保护经营者的利益，消费者利益的保护也是判断市场参与者行为正当性的重要考量，《反不正当竞争法》第13条第2款中有关“影响用户选择”的表述就说明了这一点。总体而言，《反不正当竞争法》通过保护整体的消费者利益，避免抽象的消费者在交易过程中被误导或压制，从而促进经营者展开效能/绩效竞争。

　　首先，对于涉及个人信息的数据爬取，部分法院倾向于将爬取行为认定为“违法占先”型不正当竞争行为，即未遵守《反不正当竞争法》第2条第1款中的“法律和商业道德”，通过违反《反不正当竞争法》以外的法律获得竞争优势，影响竞争秩序。如杭州铁路运输法院指出：“……不仅有违商业道德，且违反了《网络安全法》的相关规定，构成《反不正当竞争法》第二条规制的不正当竞争行为。”而对于用户知情同意能否成为平台企业爬取数据行为违法性的豁免条件，该法院持否定态度，认为：我国网络安全法第43条和第64条、电子商务法第24条仅仅对个人用户享有请求删除其个人信息的权利和就收集、存储的个人信息错误请求更正的权利作出了规定，并没有规定相应的可携带权，且被告往往无法证明其从客户端获得的数据已经过平台用户及其关联用户的完整授权。其次，在不涉及个人信息的数据爬取类不正当竞争纠纷中，司法裁判的总体思路是将消费者利益作为反射利益，对消费者利益损害的阐述具有模糊性。有些法院认为，大量同质化内容和服务的提供，会降低平台对网络用户的吸引力，减少网络用户的消费意愿，损害行业的发展，最终损害消费者的福利。

3.基于竞争秩序利益损害的判断

　　当前司法裁判对数据爬取可能造成的竞争秩序损害主要从两个角度进行论述。其一，爬取数据的行为具有“搭便车”的效果，即不具有同样商品处理生成系统和算法、不掌握丰富的商品信息陈列的其他平台及商家通过“搭便车”攫取掌握数据的企业本应获得的流量收益和交易机会，获得不当优势。其二，从平台生态、数据安全等角度论述数据爬取对竞争秩序的影响，有观点认为，一味追求数据开放共享、互联互通可能不仅会造成数据来源者、处理者等市场主体的合法权益缺乏充分保障，还可能引起一系列平台生态、数据安全风险隐患，无异于“竭泽而渔”。

　　综上所述，通过梳理现有裁判，可以归纳出影响爬取数据行为正当性判断的情景因素，主要包括：是否产生实质性替代效果；是否导致经营者运营成本的增加、商誉评价的降低、平台生态的恶化；是否损害数据安全；是否降低消费者福利；是否经过用户同意；是否产生“搭便车”后果；是否损害数据集合的竞争性权益；等等。这些情境因素的判断多依赖于裁判者的直觉反应，当前的司法裁判在相当程度上引导了学术研究，但未能从底层原理层面剖析反不正当竞争法评价与这些情景因素之间的关系，成为探索数据爬取行为正当性边界的障碍。

数据确权背景下抓取数据的正当性考量

　　我国在实务中倾向于兼顾平衡各相关方的利益，合理划分各类数据权益的权属及边界。就这个目标而言，当前学界主要存在两个争议问题：第一，当抓取的数据涉及个人信息时，如何判定爬取个人信息的行为是应受数据法规制还是应受竞争法规制？第二，如何判断抓取数据的行为是否正当？标准为何？

　　针对第一个问题，实践中总结出“三重授权规则”，但诚如有论者所言，企业数据获取“三重授权规则”与个人数据可携带权在价值理念和授权原则上存在天然冲突。从立法已有规定的个人数据可携带权衍生出的是“个人一重授权原则”，要求“企业和个人双重授权”难免发生龃龉，因为企业享有的持有权在价值位阶上次于个人享有的人格权益。针对第二个问题，首先要解决的是数据确权问题。是否应当对数据确权和能否对数据确权的问题仍然存在颇多争议。在某种程度上，有关数据确权的争论能够决定数据抓取行为的正当性认定。

（一）数据确权之争：争议与共识

　　在我国的语境中，数据赋权与数据财产化可以说是相同的，而数据之上能否存在某种支配权性质的财产权则是数据财产化的前提：首先是是否应该确权的问题。其次，如果确定像对传统生产要素那样对数据赋权，在正当性问题（赋权）基本达成共识后，则需着重讨论合理性问题（选择何种赋权）和可行性问题（怎样赋权）。

　　赞成数据确权的学者提出了多种赋权模式。有论者提出绝对化赋权，认为应按照物权法原理来界定数据产权归属；亦有论者认为应采取二元权利结构，即赋予数据原发者（用户）数据所有权，同时授予数据处理者（平台）“数据用益权”，借鉴知识产权的专利许可原则，在公平、合理、非歧视原则下行使各项权能；还有论者主张，将该项新型财产权利确立为与物权、知识产权并列的第三类对世权。尽管以权利模式来调整数据财产已得到多数学者的认可，但有部分学者反对创设一种完全排他性的数据财产权，主要包括合同模式说（反对对世性权利保护）和和权益模式说（支持对世性保护但反对权利模式）。反对者认为，财产化确权并非解决问题的良方，对数据创设绝对权性质的财产权不仅无法有效解决数据交易中的阿罗信息悖论、投资激励、公地悲剧、“搭便车”等问题，还会造成公共资源私有化等问题。

　　可以发现，以合同模式说和权益模式说为代表的确权否定说与数据确权说的分歧在于“是否为数据生产者或控制者就其占有的数据要求排除他人干涉设置法律保障”，前者持否定答案，反对法律介入，后者则持肯定答案，赞成法律介入。但是，这样的区分其实并不全面，确权否定说只是反对在法律上构建完全排他性的数据财产权，这并不等同于认为对数据的事实控制的保护不需要法律介入。表面上，数据确权说与确权否定说看似价值取向不同，但主要在确权的利弊方面，二者存在某种共通之处。事实上，学界主流的数据确权说提倡的是一种有限的排他权，而非完全排他性财产权。确权并非赋予所有权意义上的对世权或支配权，数据财产权也并非一种财产所有权，其排他性具有一定的局限。即便创设数据权，也应该对其基本权能的效力范围、作用形式采取严格的限制，即相对的排他效力、有限的保护范围、有限的共享流动。而确权否定说实际上暗藏了有限排他权。

　　因此，数据确权说与确权否定说存在某种共识。从数据确权说的角度看，数据不应也无法以绝对财产权的形式被某一主体垄断，亦不应被赋予如同传统财产权一般的完全排他性。从确权否定说的角度来看，对数据的实际控制蕴含了确权意识，只不过是一种高度非标准化的财产权形态。数据产权并不完全等同于传统财产所有权，因此，传统不正当竞争行为的判断标准自然无法直接适用于保护新型的数据权益。

（二）新型数据财产权益的保护路径

　　学者在讨论数据占有和控制问题时，往往将争论焦点集中在“平台是否有权控制数据”，认为这决定了数据爬取行为正当性认定的基础。若是得出肯定结论，便认为司法实践中形成的“实质性替代”“破坏性利用”“三重授权规则”可适用于数据权益保护。但是，这种论证路径忽视了数据与传统虚拟财产之间的差异。

　　对数据爬取行为的独立调整源于数据要素的特性。不少既有研究已指出数据要素的诸多独特属性，例如数据具有可复制性、数据利用关注场景、数据随主体行为附随产生等，亦有学者结合数据要素的特征对治理数据爬取行为产生的影响进行了分析。本文认为，数据的特性中对数据抓取正当性认定有重要影响的是以下两项：

1.数据利用的“非排他性”

　　数据利用的“非排他性”是指数据财产权在一定程度上突破了物权法上的一物一权原则，同一数据可以被多方主体同时占有和使用。由此，将数据作为生产要素投入市场时，会引发如下现象：（1）数据可低成本无限复制的自然属性和客观存在形式，会导致市场中非排他式的资源配置状态广泛存在。（2）市场主体欲从数据要素上实现持续获利，则需限制下游利用者对数据进行任意流转，以防止数据的后续流通，由此产生数据权利的排他性需求。（3）如果数据被复制，则增加数据产量的边际成本，随着市场中该数据的供给量不断增大，数据的交易价值将不断降低，乃至为零或趋于零；而如果数据被赋予排他性权利，则可能使市场中的其他主体难以获取该数据，甚至阻碍数据流通和交易。

　　由此，根据数据利用的“非排他性”，可以概括出数据抓取正当性评价中应考虑的两个因素：

　　第一，保护意愿。保护意愿是在数据流通利用过程中，数据集合以特定方式对外表征并体现数据控制者意愿的主观表达。数据集合的表征方式主要包括两类：一类是管理措施，数据控制者可能通过单方声明表征权属，或者通过双方约定的协议方式禁止爬取。前者如机器人协议（robots protocol），即一种储存在网站根目录下的文本文件，以ASCII编码的形式告知网络蜘蛛（搜索引擎的漫游器），此网站中哪些内容允许或不允许被获取。类似的单方声明还有网页公开张贴的数据权属声明。后者则通常表现为用户协议中限制数据爬取的条款，而用户在注册或访问网站时往往被要求接受该协议。另一类是技术措施，如数据加密、设置账户密码、自然人身份认证、访问行为模式分析、客户端验证等。除单方权属声明以外，上述有关数据集合的表征方式通常与禁止他人抓取数据或反爬虫有关，基于分析便利，本文将这些意欲直接实现保护数据集合目的的措施亦归为数据集合表征方式。

　　以“合理期待的违反”为论证桥梁，可以进一步印证保护意愿作为数据抓取行为正当性判断要件的合理性。尽管隐私合理期待标准在美国法上产生的目的在于规范公权力的行使，但其所确立的原则不但有助于约束公权力侵害公民隐私权，还适用于平等主体间侵犯隐私权的认定。我国司法实践和相关立法均受到该理论的直接影响，比如“合理期待的违反”在侵犯公民个人信息罪的认定中是罪与非罪的重要界限，采“合目的论”或“合理期待论”判断行为的违法性。但这样的合理期待应经受社会公共客观期待和权利人主观期待的双重检验，而技术管理措施的合理性和有效性判断是社会公众客观期待的重要维度。因此，数据控制者的保护意愿能体现数据爬取行为的违法性程度，具有信息隐私法领域判断行为违法性“违反合理期待”的要件价值，印证了其作为数据爬取正当性判断要件的合理性。

　　第二，技术措施是否被突破。若将任何管理或技术措施都纳入数据爬取正当性认定，是否可能不当提升数据需求者的获取成本，或过于优待数据控制者？美国判例法上，从20世纪90年代开始，美国法院主要依据《计算机欺诈与滥用法》（Computer Fraud and Abuse Act, CFAA）审理数据抓取案件，大致经历了三个时期，在数据保护与流通的价值立场上呈现出明显的反复，至今仍充满不确定性。2009年以前，只要原告采取管理措施，被告的抓取行为即违法。2009—2013年，美国法院开始修正立场、偏向数据流通，对CFAA中的“未经授权”条款采取严格解释，只要原告没有采取技术措施阻止他人抓取数据，或被告未绕开此种措施，抓取行为都可以被认定为合法。2013年之后，禁止明知被限制数据抓取仍实施该行为。但是，从近期的HiQ Labs, Inc. v. LinkedIn Corporation案来看，美国部分法院又回到了第二阶段的价值取向，认为机器人协议、张贴声明、律师函均无法导致被告的行为构成CFAA中的“未经授权”，只有原告采取了技术措施才可能导致被告破解该措施的行为达到此效果。我国有学者对此持相反观点，认为鉴于企业的规模、形态、数据的性质等差异，数据持有者采取措施的内容和程度可以不同，但应达到第三人能够且容易认识的程度，机器人协议已达到此要求，因此可以作为数据权益保护的措施。

　　回答前述问题需要厘清数据集合外在表征的功能。一方面，数据集合的表征并非为了阻止第三者入侵，而是为了界定客体，在公众获取和权益保护之间取得平衡。其有效性如何在所不论，即便是比较弱的表征方式，只要可以界定数据集合的范围，不管该方式阻止数据爬取或他人入侵的有效性如何，均应在判断数据集合的可保护性时获得认可。另一方面，数据控制者可以通过有效的技术措施为第三人获取数据设定高门槛，以维持其市场先占优势，因此《反不正当竞争法》应规制这种技术措施的行为，以使社会公众分享和获取更多的数据资源。

　　值得一提的是，窄口径地认定数据集合表征，并不等同于《反不正当竞争法》仅保护达到一定门槛的反爬虫技术。数据集合的确权、抓取行为的正当性认定、反爬虫技术的有效性并非属于同一问题。将平台数据产权问题与反爬虫措施的法律属性混在一起讨论会制造更多的理论混乱。例如用户接受用户注册协议的反爬虫条款在先（暂且不论此类合同是否违反公共政策），而后却对数据采取爬虫措施，将产生违约后果，但是否构成不正当竞争则是另一个问题。综上，应当将数据控制者对数据集合采取的技术措施视为数据集合可保护性的条件，抓取行为是否突破此外在表征，应作为判断抓取行为违法性的要件。

2.数据效用的不确定性

　　基于物质的有限性，传统有体物的效用往往是固定的。但含有信息的数据却不同：其一，数据利用的“非排他性”使数据的多重效用能够在市场中同时发挥，且互不干涉，因此无法将数据视为效用确定的分析对象。其二，数据效用受到不同主体差异化、主观化解读，极易形成不同的表达。数据信息的社会效用依赖于其为人们消除不确定性的程度，即对现实社会的有序化表达程度。其三，数据还具有“协同性”和“自生性”。也即，数据A和数据B单独存在可能无效用，但两者结合却相反；或数据A自身不具有效用，但其衍生出来的数据B、C、D却相反。

　　对于效用不确定的数据，由于其对市场供需关系的影响不明确，将从两个方面影响数据抓取正当性的判断：

　　第一，数据集合价值（竞争性权益）的不确定性。《反不正当竞争法》规制数据抓取行为，一是在于恢复数据控制者原来享有的竞争性权益（市场先占优势），二是在于对数据生产流通市场的供应机制进行矫正，本质上是对数据控制者在数据集合的制作或加工过程中的投入和付出给予回报。通常情况下，数据控制者在收集、处理数据时的投入越大，产出的数据集合越具有稀缺性，他人对其的无偿抓取利用行为越有可能引起市场失灵，需要《反不正当竞争法》保护的必要性就越强。对于未体现数据制作者处理和加工的原始数据，第三人的无偿利用不会导致市场失灵，因此在对数据爬取行为正当性的判断中不应将爬取原始数据的行为纳入评估范围。

　　从前述原理可以推断：首先，数据公开与否不是评价数据集合价值的标准。公开的数据集合也可能凝结了制作者实质性的处理加工劳动，不应以公开性来否定数据集合的可保护性。其次，数据集合形成过程中的加工制作与其规模大小没有必然联系，因此数据集合的规模也不是评估其价值性的标准。再次，数据来源者同意或个人信息主体同意，并非判断数据爬取行为正当性的标准。客体和性质的差异，决定了这样的“同意”与数据爬取正当性评价过程不具有相关性：在客体上，个人信息并非符号学意义上“所指”的数据集合，也就不是《反不正当竞争法》保护对象；在性质上，数据来源者或个人信息主体对数据信息的“贡献”，既不是数据集合的“竞争性权益”，也不是“处理加工”。若将“数据来源者或个人信息主体同意”作为判断数据爬取正当性的标准，这明显缺乏合理性。

　　第二，抓取数据集合的合理限度。我国法院在数据抓取行为的正当性判断这一问题上，创造性地确立实质性替代规则作为最主要的裁判规则。从“大众点评网诉爱帮网不正当竞争案”首次提出该规则，到“大众点评网诉百度不正当竞争案”进一步阐释了其内涵，再到“淘宝诉美景不正当竞争案”将该规则的适用范围扩张至非公开数据，该规则在司法实践中得以确立并逐渐拓展。由于这一规则在十余年的时间里被大量的裁判者采纳，已成为主流的裁判规则，并开始进入规范性文件中。然而，学界对这一裁判规则运用于数据抓取类案件却争议颇多。赞成的观点认为，在知识产权制度中，实质性替代是市场失灵需要法律介入的前提条件，例如我国著作权法第24条第1款第2项规定的转换性使用，《反不正当竞争法》对市场的介入是一种支援型的激励机制，与知识产权制度的创设型激励机制类似，因此同样应将“实质替代”作为市场失灵的外在指标。这样的观点忽视了数据与传统虚拟财产之间的差异，可从以下角度进行评价：（1）一般认为知识产权的效用是可以确定的，知识产权中的一些财产权可以质押贷款，如专利权，其与数据财产权的差异在于价值或权益是否固定。数据抓取可以让抓取者以较低的成本获取价值较高的数据集合，且数据集合的价值还处于继续变化之中，很难评估数据制作者的竞争性权益损害，因此在数据抓取类案件中难以界定“实质替代效果”。（2）实质性替代规则应用于此类案件本身就存在悖论。竞争约束通常被认为有三个来源，即供给方的可替代性、需求方的可替代性、潜在竞争，由此推之，竞争法中的所谓“竞争”本质上就是“替代”，实质性替代其实就是实质性竞争，确立在“竞争”之上的行为违法性判断并没有解决“不正当”的问题。一方面，学界和实务界基本上一致认为应弱化竞争关系。越来越多的学者认为，竞争关系已成为《反不正当竞争法》实施中不必要的障碍和束缚，应放松竞争关系作为适用该法的条件，或考虑放弃竞争关系，或淡化竞争关系。司法实践中大量数据抓取类不正当竞争案件的原被告也并非同业竞争关系，如“淘宝诉裁和案”、“搜狐诉优度案”，因为互联网平台多边市场的特征导致此类案件的原被告通常不会是同业竞争关系。实质性替代规则所强调的同业竞争、直接竞争与这一趋势背道而驰。另一方面，对竞争关系的分析包括直接竞争、间接竞争，存在直接或间接竞争关系并不能作为判断行为是否正当的依据。如果将“实质替代效果”作为数据抓取正当性判断标准，其实就等同于认为“因为原被告之间存在直接竞争关系，所以被告抓取数据的行为不具有正当性”，这显然是错误的。

　　综上，数据效用的不确定性决定了数据价值（竞争性权益）是动态变化的，难以甚至无法评估竞争损害，不符合实质性替代规则以结果为导向的逻辑，将实质性替代规则适用于数据抓取类不正当竞争案件本身也存在悖论。那么，应当如何理解数据抓取的正当性问题？数据抓取的特别之处在于，数据并非由一方主体单独形成，数据控制主体并没有绝对权利，“搭便车”行为的认定应衡量竞争秩序和消费者福利损害，并兼顾竞争公平与竞争自由，不能仅从单一的视角来考察，且数据价值或权益处于不断变化之中，因而抓取行为在特定的场景和时空中是否超过合理限度才是数据抓取正当性判断的根本。事实上，学界和实务界已经开始出现少量以“合理限度”为基础的判断规则的探讨，但未获得足够的重视，且“合理限度”规则的具体操作还缺乏进一步的深入研究。

利益衡量理论下抓取数据的合理限度

（一）利益衡量思路的选定

　　在数据抓取类案件的司法实践中，需要探寻“合理限度”规则具体操作的根本原因在于，《反不正当竞争法》一般条款的不确定性导致适用法律时演绎推理方法失灵。法律适用的演绎失灵主要体现如下：一方面，在理论上，作为《反不正当竞争法》一般条款的文本范围本身就饱受争议，“自愿、平等、公平、诚信的原则”“法律和商业道德”“市场竞争秩序”，都难以形成明确的大前提。另一方面，实践中，由该条提炼出来的商业道德规则的认定过程也充满不确定性。

　　这样的演绎失灵造成了裁判逻辑的杂糅，徒增法律秩序的维护成本。在“海带配额案”中，最高人民法院明确了《反不正当竞争法》第2条独立适用的条件，首次确立该条一般条款的地位。该案直接推动诚信原则和商业道德成为不正当竞争行为认定的重要考量，但在具体案件适用时，裁决者往往陷入如何确定、如何有效地分析“诚信原则”“商业道德”这样具有强主观性因素的。2017年《反不正当竞争法》修订时，第2条第2款新增了“消费者合法权益”，并将其与“市场竞争秩序”“经营者合法权益”并列，从而构建三重利益评估模式。此时，表征三种利益的变量因素具有动态性和多样性，三重利益评估模式实质是基于平衡三种价值关系而作出的利益衡量。而只有三重利益评估模式运用的实质性替代规则才符合演绎推理的思路。

　　强行均衡三种不一致的利益无法平息数据抓取的争议，利益激励的问题应通过利益衡量予以解决。其中包括两种情形：（1）数据抓取行为直接损害群体利益，进而侵害特定主体利益；（2）数据抓取者以侵害他人利益的方式损害公共利益，该类行为不仅损害了消费者利益，还破坏了数据生产市场的平衡，扰乱了竞争秩序。涉及个人信息的数据抓取应属于第一种类型。此种抓取行为归属“个人信息处理”的范畴，利益衡量应兼顾个人信息保护。对不涉及个人信息的数据抓取，抓取行为在损害公共利益的同时还会反射性侵害个体利益，利益衡量实际是识别何种竞争优势应当在保障数据自由流通的前提下通过禁止数据抓取的方式进行保护，此种数据抓取的利益衡量属第二种类型。因此，“开发者协议”中体现数据控制者意志的数据管理规则不应成为裁决者采纳的有效证据，否则将阻碍数据价值的发挥。那么，数据抓取究竟涉及几种利益？不同利益之间是否存在冲突？应如何构建利益层次结构？

（二）数据抓取所涉利益及其层次结构

　　对于数据抓取类案件，当前司法裁判采用的论证思路，实际上就是一定程度上的“利益衡量”，但是，为什么会出现爬取数据行为正当性的情景因素判断多依赖于裁判者的直觉反应？其根本原因在于利益衡量是一种主观性极强的行为。就数据抓取行为的正当性而言，是否能够找到相对固定的程序或规则？

　　根据数据抓取所涉利益衡量的需要，可以把利益分为：（1）市场主体、消费者的具体利益；（2）同类市场主体、消费者的群体利益；（3）公平竞争制度的利益；（4）社会公共利益；（5）国家利益。具体而言，市场主体的具体利益是指数据抓取行为实施主体与被抓取数据的经营者、数据来源者（个人）之间的各种利益，群体利益由是推之。公平竞争制度的利益指的是竞争制度所要求的公平竞争秩序等利益。社会公共利益的主体是公众，其内容涉及社会公德和经济秩序，还包含着公平正义等法律理念，涉及平等自由等抽象理念。国家安全法中的国家利益概念具有鲜明的政治性，特指国家重大利益，而民法、经济法等部门法中的“国家利益”更多是指国家一般利益。数据抓取行为主要涉及国家一般利益中的经济利益。

　　现实中，利益往往处于冲突状态。“一种利益的实现总以牺牲其他的利益为代价。”数据抓取涉及的利益形成一个有机的层次结构，利益之间是一种包容与被包容的关系，群体利益是中间的纽带。因为经营者和消费者地位平等，往往面临经营者之间、经营者与消费者之间具体利益的细微衡量，极易陷入“保护此方利益亦可，不保护此方利益亦可”“保护彼方利益亦可，不保护彼方利益亦可”的两难境地。同类市场主体和消费者的群体利益具有把具体利益“放大”的功能，基于对公平竞争制度利益和社会公共利益的考量和分析，可以对其作出保护与否的判断。因此，在数据抓取案件的审理中，评估对公平竞争制度的利益和社会公共利益、国家利益所带来的影响是必要的。

　　综上，采用利益衡量方法判断抓取行为在特定的场景和时空中是否超过合理限度时，遵循利益的层次结构是克服恣意、保证裁决结果妥当性的必由之路。这种层次结构要求法律适用者在司法和执法过程中遵循如下思维：以市场主体和消费者的具体利益为起点，在社会公共利益和国家利益的基础上，联系同类市场主体和消费者的群体利益、公平竞争制度的利益，特别是对公平竞争制度的利益进行综合衡量，从而得出适宜的判断，即对数据抓取案件涉及的市场主体和消费者的具体利益是否需要加以保护。需要注意的是，当数据涉及个人信息时，利益衡量应兼顾个人信息的保护，既包括消费者的隐私保护，也包括个人信息保护法律制度涉及的个人信息安全利益。因此，数据抓取类案件的利益衡量可以按是否涉及个人信息具体展开。

（三）不涉及个人信息的数据抓取的利益衡量

1.作为一般标准的比例失衡原则

　　未采取任何技术保护措施的数据并不意味着可以被随意抓取。在“钢联公司诉纵横公司、拓迪公司案”中，法院认为，原告对全国钢铁行业行情信息的采集、编排、制作付出了大量投资并承担了投资风险，该数据信息系原告基于劳动获得，具备较高的经济价值，且仅向网站会员提供，两被告未能证明其信息具有合法来源，可能以买通网站会员等“搭便车”的方式获取这些数据，两被告出于商业目的向其客户提供原告拥有合法权益的数据信息牟利的行为构成不正当竞争。从该案的司法实践经验，可以明确比例失衡原则的两个适用标准：（1）原告的经营成本与不法行为的成本之间的比例明显失衡；（2）被告的获利与不法行为的成本之间的比例明显失衡。参考该标准，若抓取成本与被抓取方收集或利用数据的成本之间、抓取成本与抓取方的获利之间的比例明显失衡，市场主体和消费者的具体利益随即面临损害风险，公平竞争的秩序亦将受损，该数据抓取行为则应被禁止。通常来说，如果被抓取方只是简单地收集与整理数据，投入的成本与抓取成本之间一般不会出现明显失衡的比例；抓取方的获利仅指抓取数据实际带来的直接受益，不包括抓取方投入大量人力、物力、财力加工数据所获得的利益，仅将抓取的数据视为原始资源难以出现抓取成本与抓取方的获利之间比例明显失衡。

　　在适用比例失衡原则进行利益衡量时，裁决者应重点考察以下要点：（1）抓取方与被抓取方对数据的运用场景或具体用途往往相似或相同，但这一点并不必然引起比例失衡，也并不意味着存在利益侵害。“实质性替代”只能说明抓取方与被抓取方存在直接竞争关系，并不足以论证利益侵害的发生。（2）无论抓取方还是被抓取方具备一定的公共性（如构成“必需设施”），抓取数据的行为都应该被允许和容忍。这样的公共性使数据封锁不仅会损害涉案市场主体和消费者的具体利益，同类市场主体也会因缺乏必要的数据而难以为继，潜在市场参与者难以进入相关市场，影响相关市场的自由竞争以及整体的消费者利益。（3）如果被抓取方是初创企业，且与抓取方实力悬殊，涉案市场主体和消费者的具体利益更有可能受到侵害。（4）对于不特定的多数人可以无偿获取的数据，抓取行为一般是正当的。（5）抓取行为损害的制度利益一般指的是公平竞争制度保护的利益，但在某些情况下也可能损害知识产权法要求的知识产权利益等制度利益，如著作权利益。（6）当抓取行为不合理地增加被抓取方乃至其他同类市场主体的运营成本时，即便抓取方没有获得高额利益，也可能导致违背比例失衡原则。

2.robots协议的阻却效应

　　robots协议本质是被访问网站服务器根目录中的robots.txt文件，被访问网站设置robots协议应具备如下正当理由之一：（1）搜索引擎的抓取行为造成被访问网站无法正常运行；（2）搜索引擎的抓取行为会损害网站隐私和安全；（3）搜索引擎的抓取行为将导致社会公共利益或国家利益受损。限制搜索引擎抓取数据的robots.txt文件设置应遵循公平、非歧视原则，避免变成经营者打压特定竞争对手的工具。此外，鉴于搜索引擎提供商的公共服务属性，利益衡量过程中应着重考虑影响社会公共利益和国家利益的因素。抓取方获取数据后，应将数据用于特定的运用场景或专门用途。在符合上述要求以外，抓取行为还应符合比例失衡原则，才不具有正当性。

　　如果抓取的是必需数据，抓取行为则应被允许，因为robots协议已涉嫌垄断。裁决者应警惕控制着必需数据的平台借助robots协议打压、排挤其他经营者。此类平台的角色已经从单纯的竞争参与者转变为竞争管理者，其性质也“不再是纯粹的私人品，而更多地具备公共品属性”。利益衡量过程中应注重考察以下因素：（1）相对于“白名单”，“黑名单”阻却数据抓取的效果越强，越有可能造成利益损害；（2）同等条件下，数据利用的同质性越弱，越不易损害具体市场主体利益、消费者利益、同类市场主体利益、消费者利益以及公平竞争的制度利益；（3）数据生成的成本越小，其对被抓取者的价值越低，越不易造成前述利益的损害。

3.其他技术性措施的阻却效应

　　除了robots协议，被抓取方抵御数据抓取的技术性措施还包括不定期改变HTML标签、密码认证等，这些措施常常被抓取方破解。由此引发的问题在于：象征性技术性措施（如简单的网页弹窗警告）的阻却效应并不等同于具备一定强度的技术性措施，抓取方的破解行为是否必然导致抓取行为违法？

　　参照商业秘密的保密措施，被抓取方应采取与数据价值、获取的难易程度等因素相称的技术性措施。此外，还可以行业惯例等因素作为依据。在“Craigslist公司诉3Taps公司案”中，法院认为，原告明显具有不允许被告访问其网站的意图，任何具有正常智力水平的人都能轻易知悉原告的真实意图，因此被告的行为属于美国《计算机欺诈和滥用法》（CFAA）中的非法侵入。但有学者指出，在互联网行业，只要同时使用多台设备就可以拥有多个网址，而且同一设备的网址页并不是固定的，个人可以同时使用台式计算机、笔记本电脑、手机等多台设备的不同网址收集信息，也可以通过VPN等技术更换网址。因此，同时使用多个网址或更换网址是互联网行业的惯常做法，原告发布在其网站的信息内容已经向大众公开，被告的做法无可厚非。此外，进行利益衡量时，数据独占对公平竞争的制度利益、社会公共利益、国家利益造成的影响亦应成为技术性措施强度分析的考察因素，即平台的公共性越强，抵御抓取的技术性措施强度要求则越高。

　　综上，比例失衡原则是被抓取方未采取任何技术性措施时进行利益衡量的必要条件。搜索引擎领域的robots协议只有在符合特定条件的情况下才能以“黑名单”的方式阻却抓取行为；在不损害具体市场主体和消费者的个体利益、同类市场主体和消费者的群体利益、社会公共利益的前提下，其他领域的robots协议可以由平台自由选择设置“黑名单”或“白名单”。其他技术性措施只有与数据价值、获取难度等因素相称时，才能阻却数据抓取。

（四）涉及个人信息的数据抓取的利益衡量

1.类型化处理

（1）信息处理语境的类型化及对隐私权保护的影响

　　我国个人信息保护法规定“自然人因个人或者家庭事务处理个人信息的，不适用本法”，同时对“利用个人信息进行自动化决策”作出规范。依此，可以将信息处理行为分为通过算法、大数据等技术手段的智能处理行为和民法上的传统处理行为。智能处理行为的主要目的在于将数据作为算法决策的“生产原料”，而不是利用数据的具体内容，是以智能技术为手段、以超量数据为对象的由拥有显著强于信息主体的市场力量的信息处理者主导的行为。传统处理行为的主要目的在于获取和利用数据的具体内容，如盗用他人的指纹等生物识别信息用于电子支付的行为。在这样的语境中，一定的手段很可能是以自然人的隐私权为侵害对象的非法手段，抓取非私密信息一般不涉及违法，且该类信息不存在抓取的价值。但是，对私密个人信息的保护在数字时代信息处理的语境中很难发挥作用。

　　第一，收集超量私密用户数据并对用户“画像”也可能增进公共利益，一律限制既会极大地降低信息处理的效率，又不利于提升隐私保护的效果。第二，在现代技术手段的作用下，信息主体与信息处理者之间力量悬殊，前者根本无法依据隐私权制度获得足够对抗后者的能力。第三，运用算法、数据抓取等技术收集、使用特定场景中构成私密信息的数据并不必然侵害隐私权。第四，个人信息在智能处理行为的语境下私密性极大减弱。数字时代的个人信息可能与公共利益、个人自主、社会交往存在交融，对所有个人信息都给予绝对权保护并非明智之举。类似地，在“凌某某诉微播视界案”中，法院则以“通常会告知他人”“登录抖音App时对其功能包括互动交流应当有合理预期”等理由否认了社交关系、手机号码、地理位置等信息的私密性。在这样的情况下，隐私权制度难以发挥作用。

　　基于前述原理可以推出：（1）数字时代信息处理保障的是个人信息是否得到公平、合理的处理，而非仅仅出于保护“隐私权”；（2）应对信息处理中可能出现的不正当竞争行为并非隐私权制度的主要目的。如果信息处理者为获取并利用私密个人信息的具体内容（如短视频平台抓取用户注册、登录使用的手机号码进行匹配后推荐“可能认识的人”或推送用户观看时长较长的同类视频），抓取行为的正当性判断则需兼顾隐私权保护。

　　司法实践对个人信息的智能处理行为形成“用户授权＋平台授权＋用户再次授权”的三重授权原则。其中“用户授权”指的是用户明确的授权应成为平台获取数据的必要条件；“平台授权”可通过适当的robots协议、技术性措施或开发者协议予以实现；“用户再次授权”则要求实施抓取行为前再次获得用户授权，如果抓取方仅取得平台授权而未经用户再次授权，则可能与平台构成共同侵权。

（2）智能处理行为语境下个人信息的类型化保护

　　学界和实务界一致认为立足信息的属性构建相关制度是较优的选择，且应避免对可识别性不强的数据流通作过多的限制。由此，遵循分类分级的思维规制数据抓取行为亦成为研究的趋势。国家标准《信息安全技术个人信息去标识化指南》（GB/T 37964-2019）提出了去标识化过程和管理措施，在此基础上，国家标准《信息安全技术个人信息去标识化效果评估指南》（GB/T 42460-2023）将个人信息标识度从高到低划分为四级。抓取方需承担的个人信息保护义务，亦应结合个人信息标识度从一级到四级逐级递减。

　　此外，敏感个人信息的保护是限制数据抓取应考虑的另一重要因素。本质上，保护敏感个人信息是为了防控信息主体利益与社会公共利益可能遭受严重侵害的风险。我国个人信息保护法对此采用同意机制予以实现，但这样具有私法属性的信息处理规则在智能处理行为语境中必然会遭遇困境，因为数据主体根本不具备与处理者对抗的能力。我国可以借鉴欧盟《通用数据保护条例》对敏感个人信息处理活动的规制，该条例采取“一般禁止+例外允许”的模式对此作出规定，体现了明显的公法属性。其中，“一般禁止”指禁止对涉及种族、民族、宗教信仰等数据的处理活动。“例外允许”处理前述数据的情形包括：（1）实现实质性公共利益必不可少的要求，且对数据采取的适当的保护措施；（2）司法活动的要求；（3）属于公开个人信息；（4）处理行为对保护数据主体的权益具有必要性，但因身体或法律原因其无法表达同意；（5）非营利性组织在正当活动中的处理，且对数据采取适当的保护措施；（6）信息主体或其监护人单独同意；（7）为数据处理者履行职责所必需。

　　抓取公开个人信息是否应免受过多限制值得反思，我国个人信息保护法第27条也体现了对此类行为的优待倾向。保护公开个人信息的目的并非禁止他人获取数据，而是为了规制滥用公开个人信息的行为。抓取并不是获取公开个人信息的唯一途径，哪怕处理者被禁止抓取此类信息，其仍可通过其他途径获取此类信息并加工为数据。

2.四级标识度下的利益衡量

　　涉及一级个人信息标识度的抓取行为应受“用户授权＋平台授权＋用户再次授权”三重授权原则的限制，以避免数据被用于违法的算法决策等活动。抓取方应取得平台授权的理由在于：一方面，与上文确立的利益衡量原则一致，抓取方若未获平台授权即突破其已采取的保护措施实施抓取则属违法。另一方面，平台授权的另一重要意义在于履行其监督义务。经营者可在消费者产生转移数据的实际需求时在可携带数据的必要范围内实施抓取，这是可例外处理的情况。因为从利益衡量的角度来看，各方利益均未受损。

　　此举亦可回应个人信息可携带权的弊端。根据欧盟《通用数据保护条例》，数据可携带权包括数据传输权和副本获取权，具体指的是自然人享有“无障碍地从其提供个人数据的控制者处通过一种通用、结构化且机器可读的形式获取相关个人数据，并将这些数据转移至另一数据控制者处”的权利。除可行性困境以外，现阶段个人向信息处理者主张可携带权还面临如下问题：其一，由于涉及API使用权限的争议，可携带权模式下的数据传输往往难以进行。其二，个人数据的形式要求往往导致数据可携带权的实现需耗费大量成本。如英国银行若被用户要求以可被机器读取的形式提供数据，整个过程将耗费数月之久。其三，过度强调数据可携带权行使的“无障碍性”很可能使个人数据处于未被妥善保管的境地。

　　涉及二级个人信息标识度的抓取行为可以不经用户授权，但应当履行告知义务，并满足不重新识别个人信息的要求。通过去识别化等技术，平台已经形成了个人数据，因此抓取方必须经过平台同意才能抓取相关数据。如果抓取方重新识别个人信息，其自然应承担个人信息保护义务。此时平台可以采取如下措施保障数据安全：（1）若发现抓取方有再识别行为，应及时制止并向执法机构、信息主体报告，否则应与抓取方承担连带责任；（2）通过协议的方式对重新识别行为进行限制；（3）事前对抓取方违反约定重新识别信息主体的能力及潜在可能性、个人信息保护措施的有效性、数据流通可能带来的影响等因素进行评估，并及时进行必要的调整；（4）妥善履行监督义务，未持续监督后续处理行为的应对相关损失承担连带责任。鉴于二级、三级个人信息标识度的区别在于再识别风险是否超过0.05这一阈值，涉及三级个人信息标识度的抓取行为无需满足不重新识别个人信息的要求，但仍应履行告知义务。涉及四级个人信息标识度的抓取行为需经过平台同意，但不需承担个人信息保护义务。

3.涉及敏感个人信息和公开个人信息的利益衡量

　　考虑到消费者具体利益保护的需要，除非数据抓取符合上述例外情形，原则上应禁止涉及敏感个人信息的一切抓取活动，无论信息标识度强弱。

　　我国刑法第285条规定的“非法获取计算机信息系统数据罪”为划定抓取直接体现公开个人信息的数据的正当性界限提供了契机。任何擅自破解技术性措施或未经授权的方式进入系统均构成“侵入”行为，问题是侵入系统抓取直接体现公开个人信息的数据是否触犯该罪。学界通说认为，该罪的犯罪客体是计算机信息系统正常运行的数据安全，参考我国数据安全法第3条和网络安全法第10条，数据安全强调的则是数据的可用性、保密性、完整性；在数字经济时代，不少学者主张突破传统静态的消极防御性质，走向积极利用性质，数据安全应包含社会、商业、经济、国家安全等各种利益维度。有论者认为，数据的保密性具有独立的保护价值与判断标准，信息公开只针对信息内容，并不包括公开信息依附的存储在硬件载体的保密数据，故侵入系统获取前述数据亦构成非法获取计算机信息系统数据罪。

　　本文认为，上述观点仅在被抓取的公开信息不涉及个人信息时才能成立。如某公司经过技术剪辑的风景视频，即使其已将视频公开播放，相关数据仍然是该罪保护的对象。此外，司法解释亦对该罪的“情节严重”要件作了规定，因此，该罪并不打击前述数据的抓取行为。即便前述数据对经营者而言具有一定的经济价值，即便其形成与维护需要耗费相应的成本，以之为对象的抓取行为仍应被允许。

　　抓取不涉及敏感个人信息但直接体现用户公开个人信息的数据亦应得到最大限度的容忍，平台不得通过开发者协议等措施作出限制。在hiQ Labs, Inc. v. Linkedln Corp.案中，美国联邦第九巡回法院并不认可用户公开数据为经营者私有财产的观点，认为抓取该类数据有利于数据价值的发挥，因此要求Linkedln取消对访问前述数据的技术性阻碍措施。]在抓取方未谋取不法利益，且未妨碍被抓取方正常经营或破坏其数据管理制度的前提下，允许抓取利用，经营者可以收集用户的公开数据并进行加工处理。此时，经营者之间的利益衡量可参照不涉及个人信息的数据进行，因为以该类数据为对象的抓取活动并未损害信息主体利益。需要注意的是，简单归类与整理用户生成的公开数据很难形成值得衡量与保护的利益，只有当对前述数据收集、加工、处理所形成的数据产品产生明显的价值时，才可参照不涉及个人信息的数据进行利益衡量。

　　我国《网络反不正当竞争暂行规定》（2024年5月公布）第19条对数据获取使用作了规定，该条可分为三个部分，第一部分是“行为禁止”规定，第二、三部分是对行为后果的要求，对此可作如下评价。（1）对“利用技术手段”获取、使用数据的行为几乎一律禁止并非明智之举。《反不正当竞争法》应尽可能保持谦抑，国家市场监督管理总局在政策解读时强调要“着力促进互联网行业发挥最大创新潜能”，禁止数据抓取不符合“鼓励创新”的原则。（2）“非法”“合法”是分别对获取、使用和持有行为的限定描述，但法无规定时该如何界定行为是“非法”或是“合法”？作为被经营者广泛采用的获取、使用数据手段，数据抓取行为的相关规定仍十分缺乏，且具有模糊性。由于数据确权规范的缺失和数据产权分置规范欠完备，数据持有行为的合法性亦难以判断。（3）不妨碍、破坏“正常”运行的抓取行为也会损害经营者的利益。例如，当数据抓取符合比例失衡原则时，被抓取方的网络产品或服务依然处于正常运行的状态，但其成本或收益却遭受损害。（4）“扰乱市场公平竞争秩序”实属原则性规定，难以为经营者提供可预测性。总体而言，《网络反不正当竞争暂行规定》第19条不能有效指引数据抓取利用案件的处理，建议将该条修改为：经营者不得超过合理的限度破坏技术措施，获取、使用其他经营者持有的数据。2025年修订的《反不正当竞争法》第13条第3款新增了数据获取使用的规定，但仍然具有模糊性，且存在前述（1）、（2）、（4）问题。鉴于短期内再次修订《反不正当竞争法》的可能性较小，建议颁布《网络反不正当竞争规定》并将前述修改建议写入其中。

结语

　　对于数据的抓取利用是技术进步的必然产物，其正当性判断是全世界人工智能产业和数据产业发展所共同面临的问题，立法、司法、执法和企业合规管理机构均亟需对数据抓取提供有益的指引。但是，有关数据抓取正当性判断的法律规制原理迷雾重重。个人信息保护法和刑法领域的学者多从信息主体的控制权、“侵入”和“授权”的认定等角度探讨数据抓取行为的规制基础，《反不正当竞争法》对数据抓取行为的正当性评价则存在判断过程说理性不充分、方法论不足，司法实践中形成的“实质性替代”“破坏性利用”“三重授权规则”等判断标准模糊。以新型数据财产权益的有限排他性及其与传统虚拟财产之间的差异性为逻辑起点，可以将“数据控制者的保护意愿”“技术措施是否被突破”“数据集合的价值（竞争性权益）”“抓取数据集合的合理限度”确立为数据抓取行为正当性标准的构成要件。

　　从利益衡量理论入手，可以明确数据抓取的合理限度。对于不涉及个人信息的数据抓取，仅在抓取数据控制者未采取技术性保护措施的数据且符合比例失衡原则时才构成违法行为，仅在符合特定条件时，robots协议或其他技术性措施才能阻却抓取行为；对于涉及个人信息的数据抓取，应结合所涉个人信息的标识度强弱确定利益衡量规则，并在此过程中兼顾公开个人信息的流通与敏感个人信息的保护。利益衡量思路是在不单独对数据财产权立法的情况下明确数据抓取行为合理限度的最佳方案，可以在一定程度上达到数据确权的效果，还可以克服反不正当竞争评价事后性和情景性的缺陷，经营者可根据上述方案提前进行合规管理。