从“不正当竞争”角度思考AI模型训练中“爬虫行为”的违法边界——欧盟与中国之比较燕.pdf

从“不正当竞争”角度思考AI模型训练中“爬虫行为”的违法边界——欧盟与中国之比较燕.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

引言

当前,生成式人工智能(generativeartificialintelligence,以下简称“生成式AI”)的发展突飞猛进,而此

过程需要海量数据的支持,尤其是在模型训练阶段。故而,实践中很多生成式AI模型的训练往往依赖于爬虫工

具从互联网上大量爬取数据。[1]例如,OpenAI公司的ChatGPT模型曾通过互联网爬取第三方网站中的电子书

籍、文章、数据库等570GB、超过3000亿个单词用于训练AI模型。[2]

然而,在AI模型训练中的爬虫行为如火如荼开展的同时,也需警惕爬虫行为所带来的以下几方面法律风险:

(1)知识产权侵权:当AI公司对第三方网站上受版权保护的内容,如文章、图片、音乐、视频等进行爬取时,

可能构成版权侵权;

(2)个人信息侵权:若第三方网站上包含个人信息,如姓名、身份证号、地址、电话号码、电子邮件等,AI公

司未经授权对其进行爬取可能会违反个人信息保护的相关法律法规;

(3)构成不正当竞争行为:在受版权保护的作品和个人信息之外,还有大量可爬取的他人享有权益的数据。若

爬虫行为的规模和频率异常、爬虫行为突破了第三方网站的限制措施、对其他经营者的网络产品或服务构成了

实质性替代、违反了Robots协议进行爬取等,则可能构成法律所规制的不正当竞争行为。

囿于篇幅所限,本文仅从反不正当竞争的角度出发,简单介绍欧盟及我国对AI模型训练中针对非版权作品、非

个人信息的“其他数据”进行爬虫行为的监管态度,并通过中国的相关案例介绍,试图探讨在AI时代反不正当

竞争法的适用考量。

一、欧盟

(一)《欧盟人工智能法案》与《欧盟数据法案》

的适用范围

1.《欧盟人工智能法案》

2024年5月21日,欧盟理事会(theCounciloftheEuropeanUnion)宣布最终批准《欧盟人工智能法案》

(EUArtificialIntelligenceAct,下称“《人工智能法案》”),并于2024年7月12日在《欧盟官方公报》

(TheOfficialJournaloftheEuropeanUnion)上正式印发了其最终文本。[3]

就AI训练中的爬取数据而言,《人工智能法案》对爬取到的数据属于“受版权保护的作品”或“个人信息”的

情况进行了相应规定。具体而言,若爬取数据属于受版权保护作品,则根据《人工智能法案》第53条第一款(c)

项规定,[4]AI模型提供者“应制定相应政策以遵守欧盟关于版权和相关权利的法律,特别是确定和遵守欧盟

《数字化单一市场版权指令》(DirectiveonCopyrightintheDigitalSingleMarket)第4条第3款的相关内

容”。[5]同时,若爬取数据属于个人信息,那么除了遵循欧盟《通用数据保护条例》(GeneralData

ProtectionRegulation,以下简称“GDPR”)之外,《人工智能法案》第5条第1款(e)项也明文禁止了“从互

联网中无针对性地抓取面部图像,在市场上投放、为特定目的投入使用或使用AI系统来创建或扩大面部识别数

据库的行为”。[6]

2.《欧盟数据法案》

那么对于那些既不属于版权作品,又不是个人信息的其他数据,其监管状况如何呢?

2023年12月22日,欧盟发布了第2023/2854号法规,即《欧盟数据法案》(EUDataAct,下称“《数据法

案》”),并于2024年1月11日生效,且将于2025年9月12日起适用于整个欧盟。[7]《数据法案》规定了欧盟

范围内数据访问、云服务提供商转换和互操作性要求的统一规则。[8]该法案旨在规范通过互联网设备生成的数

据(和元数据[9],metadata)的使用和访问,为互联网产品或服务的用户提供更多权利,增加数字市场的竞

争,特别是加强中小企业的竞争地位。[10]

《数据法案》所适用的数据范围涵盖了互联产品(connectedproducts)[11]和相关服务(relatedservices)

[12]。在适用主体方面,《数据法案》定义了与数据使用和共享相关的三个主体,即用户(user)、数据持有者

(dataholder)和数据接收者(datarecipient)。[13]具体而言:

(1)用户是指拥有或通过合同转让临时使用互联产品,或接受相关服务的自然人或法人,[14]比如通过互联产

品监控产品质量的生产线设备公司,其可以要求数据持有者向数据接收者提供互联产品或服务生成的数据。

(2)数据持有者是指持有数据并能访问数据的自然人或法人,[15]比如负责接收和处理用户生产线机械性能数

据的生产线机械

文档评论(0)

186****0576 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:5013000222000100

1亿VIP精品文档

相关文档