极客FUN 生成式人工智能文本与数据挖掘的合理边界与侵权规制

随着人工智能时代的到来，在文学、艺术、科学等领域，人工智能逐渐成为独立的创作个体，人工智能生成物著作权在知识产权领域的保护也逐渐受到广泛关注。但人工智能生成物在输入和分析海量信息生成作品时往往未经著作权人许可即复制甚至输出更改了相关作品内容，人工智能产业发展面临系统性著作权侵权风险，尤以具备高度拟人特点的生成式人工智能为高发。其中，仅有使用作品构成“表达性使用”时方产生侵权风险。然而，现行著作权法对于该问题规定的缺失以及适用困难使得生成式人工智能文本与数据挖掘行为采用何种制度进行规制成为学界的争议焦点。基于“促进创新和文化繁荣”与“保护作者著作权”的“二元阶层”立法目标，以“是否具有商业目的”为标准设立分阶段豁免制度能够有效解决人工智能研发初期版权授权成本难以估量的现实问题。在生成式人工智能研发前期以非商业目的进行的文本与数据挖掘行为宜纳入合理使用制度范畴予以规制，在制度构建上可增设“文本与数据挖掘例外”并明确其构成要件。在生成式人工智能研发与应用以非商业目的进行的文本与数据挖掘行为具有表达性使用的天然属性，宜以法定许可制度予以规制。具体而言，可建立登记与备案制度并收取一定许可费，既避免机器学习对著作权人利益造成不当侵害，又促进人工智能产业繁荣发展。

一、问题的提出

随着大数据时代的到来，列入第五大生产要素的数据愈将成为各方必争之地，利用信息技术实现知识的发现和积累愈发重要。借此契机，文本与数据挖掘技术进一步唤醒了沉睡的海量数据。其中，尤以 ChatGPT 为代表的生成式人工智能引发学界的广泛关注与激烈讨论。其强大的学习与拓展能力标志着通用人工智能成为可能，进而2020年中共中央发布的《法治社会建设实施纲要（2020—2025年）》以及2023年4月28日中共中央政治局会议在国家战略层面肯定了发展生成式人工智能的必要性。人工智能创作过程，实质在于人类利用计算机系统或计算机本身自动生成的内容。生成式人工智能自身模拟人类大脑运作过程，通过学习和分析数据、总结和归纳经验，利用大数据和算法创作出新的作品，将生成内容输出后则完成了表达性使用。其学习过程大致分为三个阶段：第一阶段为数据输入阶段，人工智能通过阅读海量数据进行数字化复制；第二阶段为学习阶段，人工智能对上述数据进行分析，总结规律和经验，形成自身独特的思维模式并通过算法编程优化自身模型；第三阶段为输出阶段，人工智能依照已经形成的思维模式独立进行创作，该生成内容不受到人类控制，外观上也无法与人类自主创作的作品相区分，属于人工智能自身创作出的作品。

现有作品作为人工智能学习过程中不可缺少的数据材料和关键基础设施，为人工智能发展提供了素材，是产业发展的有力支撑。随着新兴技术发展，新的作品利用方式也会随之而发生变动，因此从鼓励智力创造、鼓励人工智能产业发展的目的出发，允许人工智能读取一定的数据应系立法者之额外考量。然而，数据输入作为生成式人工智能的学习方式，在创作之时未经权利人许可而抓取信息以及对相关著作权作品的数字化处理或将作品原件处理为数据格式副本并集合输入智能系统的复制及演绎行为存在着侵权风险。实务中，已出现诸多争议案件，集中探讨机器学习是否能够被纳入合理使用制度范畴内。对此，有学者提出了“非表达性使用”与“表达性使用”的概念，亦为我国学界所采用。非表达性使用以人工智能作为工具进行创作活动，所产生的内容本质上还是人类智力成果的直接体现，机器创作本身并不存在侵权风险。仅有“表达性使用”方存在侵权风险，本文的探究范围亦限于此。在理论上，域外立法也已对该问题有了较为充分的实践。欧盟在2019年通过的数字单一市场版权指令中增设了文本与数据挖掘例外，英国版权法第29条也规定了包含文本与数据挖掘在内的著作权例外规则，避免适用得过分严格，归为“有条件的例外”这一模式。美国作为判例法国家，也通过判例确定了“转换性使用”的判断标准，为我国学界与实务界提供了一定参考，日本则引入信息解析例外，豁免“为了解析信息而进行复制”以及“对信息进行轻微利用”等情形，不排除商业性的信息解析行为，二者均属“无条件的例外”这一模式。

著作权法第24条第1款对于该问题规定的缺失以及适用困难使得生成式人工智能产品是否必然构成侵权以及能否适用合理使用制度成为学界的争议焦点。2023年《生成式人工智能服务管理办法》第7条仍未明确机器学习是否能够纳入合理使用制度范畴，仍局限于“原创作者许可”模式，存在法律漏洞。与此同时，实务中自2023年起亦出现了如上海某电影制片厂诉浙江新某年代文化传播有限公司著作权侵权纠纷等围绕人工智能文本与数据挖掘是否构成合理使用免责的案件。从经济角度上看，人工智能创作过程中著作权人和合理使用人之间矛盾冲突的加剧导致双方均损害了一定的商业利益。若人工智能输入过程严格依照著作权法规定征得著作权人同意并支付一定报酬，必然大幅提升创作成本。由于知识产权独创性范围的扩大，海量的被复制作品意味着高额著作权费，阻碍人工智能获取知识的进程，导致数据输入需求难以得到满足，导致数据偏差，也可能会使得研发者放弃研发，阻碍人工智能领域的后续发展。在人工智能数据输入阶段，其所阅读、复制以及演绎的作品由于客观上数量过于庞大往往无法逐一取得著作权人许可，被认定为侵权行为的可能性增大，损害著作权人权利、打击著作权人创作积极性。若将人工智能生成物纳入合理使用制度适用范围，则能够有效地定纷止争，规避不正当竞争以及交易失灵机制。因此，在人工智能语境下探讨其创作中产生的侵权与合理使用的边界问题成为必要。

二、风险源起：文本与数据挖掘的著作权侵权界定

生成式人工智能的创作过程高度依赖所抓取的数据，且该种抓取手段对于被抓取作品的质量、数量以及其使用方式均具有一定的不可控性，因而被学界称为“高科技的剽窃”，在创作的全过程产生的侵权风险不可避免。

（一）

文本与数据挖掘的非侵权情形过滤

人工智能创作物侵权呈现模式化创作和综合性作品片段使用侵权的特点。目前，人工智能获取受著作权保护的作品的主要通过以下四种途径：一是通过“爬虫协议”抓取网站数据；二是未经许可抓取数据库的数据；三是未经权利人的许可，以商业目的数字化非电子数据；四是通过服务协议强制获得许可。由此，其存在的侵权风险体现为未经权利人许可而抓取信息用于人工智能创作过程，若非临时性复制符合侵犯复制权的构成要件则构成侵权，其翻译、改编、汇编等演绎行为若使得输出作品并不具有独创性，仍然构成侵权。

长久以来，我国在立法上重数据安全、信息保护，轻数据流通、交易变动，2022年末中共中央与国务院发布《关于构建数据基础制度得到更好发挥数据要素作用的意见》将数据列为市场重要的生产要素，以期扭转这一传统立法范式。就文本与数据挖掘侵权的合理使用边界，有学者提出了“作品性使用”和“非作品性使用”的概念，另有作者提出了“表达性使用”和“非表达性使用”这一概念。为解决生成式人工智能背负的侵权“原罪”，以“转换性使用”为标准划定作品使用的合理边界能够有效平衡产业发展与著作权保护的需求。但该标准的采用理当符合我国情，不可一概作“拿来主义”应用。我国侵权防御机制核心要素为非表达性使用，即借助新型互联网使用作者表达，以拷贝作为媒介技术设施，但没有独立经济影响，也不会将作者的原创性表达传递给公众，仅将其作为一种事实性信息进行功能性利用，不存在著作权侵权风险。由于我国尚未在法律层面明确规定该标准的构成要件，司法适用尚不统一，应当结合生成式人工智能的技术实现原理来明确“转换性使用”的内涵与外延，有效规制新技术背景下的著作权侵权风险。是否构成“转换性使用”的核心在于使用目的是否与原作品的创作目的一致。生成式人工智能输入阶段的作品复制行为兼具多重目的，构成“转换性使用”时应被认定为合理使用并加以豁免。而表达性使用则是指使用原作品的独创性表达从而在使用结果上也再现了其艺术价值。后者既可能影响原作品的正常使用，又可能不合理地损害原作品权利人的合法利益，无法成为合理使用之抗辩事由。生成式人工智能使用数据的目的为输出独创性表达，属“表达性使用”，输出阶段产生的表达性使用若与原作品构成“实质性相似”，则存在著作权侵权风险。

（二）

文本与数据挖掘在不同创作阶段的侵权类型厘定

1.数据输入、输出阶段的复制权侵权风险

依托科技发展的产业背景，新著作权法增加“数字化”作为复制权的行为方式，亦即“对于网络环境下从有形载体到数字载体以及数字载体之间的复制，均囊括在复制行为的范畴之中”。复制作为文本与数据挖掘过程中不可或缺的前置性步骤，其将非数字化资源转换为数字化资源或直接抓取数字化资源或对数据进行格式转换等过程实质上均展现了由原媒介向新媒介的移动过程，在文义层面已进入“数字化”复制的行为方式，对作品复制权的侵害为国内国际所公认。需要注意的是，仅有当文本与数据挖掘产生稳定存在的复制件时，方属复制权的规制范畴，随机器开关机状态而消失产生的短暂性存储并不产生复制的实质效果，即便在采集阶段存在临时复制行为，但机器统一进行结构性转码则改变了原样本的长期稳定的存在样态，这种“临时复制”并不产生侵权效果。我国《计算机软件保护条例》和《信息网络传播权保护条例》曾对特定临时复制行为作出例外规定豁免临时复制行为的侵权责任，其规定在满足对原作品内容不产生实质性改变等要件时临时复制行为可免责，但机器可读状态必然经历转码过程，机器学习过程已然对其实质内容作出了改变，并不存在传统意义上的临时复制，不符合临时豁免之要件，禁止终端用户非营业性地使用作品并不具有可行性。在生成式人工智能的输出阶段，根据“接触+实质性相似”的侵权判定规则，生成式人工智能最终创作出的作品若与其所使用的作品构成表达上的实质性相似，则被判定为侵犯复制权，而不论其创作过程与原作者是否相似。

2. 数据处理阶段的演绎权侵权风险

文本与数据挖掘的处理过程关键在于对信息进行结构化转化并进行“特性表达”，在收集好目标数据后对已获取信息进行标准化处理，对word、excel等非结构化格式进行分类提取，以区分其信息类别，最终转化为统一的机器可识别的xml格式。基于转换过程中特性标签的变化（如word向html的转化），其输出结果已与原作品的表达有所差别。而“表现形式是原著与改编间最大的区别”，文本与数据挖掘的“转码”行为实质就是通过改变数据的外在表现形式形成新的具有独创性的作品，从创作内容上看，“转码”行为在实质内容一致的情形下并没有改变样本创作思想的表达，与“改编”“翻译”具有同质性，存在改编权侵权风险。若未保证实质内容一致之前提而进行具备一定独创性但保留原作品的基本表且未经许可并支付报酬，则属于在实质内容上进行了改编，属于对改编权的侵害。由于机器学习过程中对于数据的选择、整理和汇总不可避免，可以将之视为“汇编”行为，侵害原作者的汇编权。

3.数据输出阶段的传播权侵权风险

网络平台作为大数据的载体，使得文本与数据挖掘的结果通过“知识”的无形形式向公众广泛传播，其分析结果可能包含部分受著作权保护的作品。且多数发布途径均包括网络发布环节，信息传播侵权无法避免。针对使用者为了实现研究结果的可验证性等对人工智能生成物的后续传播行为，当前我国著作权法已将使用互联网技术向公众传播信息的行为纳入广播权和信息网络传播权的涵盖范围。从其传播过程来看，文本与数据挖掘结果若通过网络即时发布则侵犯作品传播权，延时发布则可能侵犯信息网络传播权。

三、豁免困境：现行著作权法框架下文本与数据挖掘的法律漏洞

目前，针对当前产生的一系列生成式人工智能创作物侵权案例，其豁免内容一般包括合理使用、法定许可和强制许可三种类型。我国现行著作权法规定的法定许可制度设置了严格的适用条件，人工智能提供者不符合主体要件，算法创作也很难用于编写教科书等目的，使得法定许可又难以适用于人工智能创作场合。而我国又尚无强制许可制度，在现有著作权法框架下，合理使用制度作为侵权抗辩路径最为可行。然而，我国著作权法第24条第1款规定了著作权的合理使用制度，虽然2021年修改通过的著作权法对于合理使用制度的情形进行了扩展，但是并未对文本与数据挖掘行为规定例外情形，难以通过扩张解释将文本与数据挖掘纳入合理使用条款，无法为其行为合法化提供足够的空间。

（一）

著作权法第24条法定合理使用情形的失配

1.无法直接适用个人使用条款

著作权法第24条第1款第1项规定了个人使用条款，在人工智能创作中，适用该条存在两个问题：即人工智能是否符合该条中的主体要件，是否能够被解释为个人？人工智能创作在数据输入阶段所产生的数字化复制以及演绎等行为目的是否能够被定性为个人学习、研究或欣赏目的？

针对上述第一个问题，在传统的合理使用制度之下，著作的使用者仅仅是人类，而在人工智能创作过程中，人工智能通过模拟人脑学习过程对数据进行分析、总结和归纳，通过信息重组、排列等方式输出具有独创性的新产品，在整个创作过程中完全取代了人的地位，成为事实上的创作主体和使用主体，那么人工智能在此种情形下能否拟制为人则成为应思考的问题。在实体法方面，由于人工智能不具有自我表达的能力与自我意识，其运作过程虽为模拟人脑，但是其终究是依靠人类设定和算法应用的结果，其既不能享有权利也不能履行义务，不能成为我国法律所规定的权利主体；在法律责任承担方面，若将之拟制为人则意味着应当承担后续法律责任，但由于人工智能并无承担义务之能力，实际上该种责任系由其背后的研发团队等承担，强制将其解释或拟制为人则存在不合理之处。因此，若将人工智能拟制为人，则意味着赋予其法律上的权利和义务，是对现行私法规则的巨大颠覆。且由于其不具备独立思考的能力与自由意识，使得其创作产品局限于人类已经设定好的程序，创作范围有限，亦不宜将之拟制为人。由此可见，人类读者与机器读者之间仍然存在本质区别，虽然人工智能在事实上成为作品的阅读者和使用者，仍然不能将之拟制为“人”，不能将之视作个人使用的主体。

针对上述第二个问题，人工智能在学习过程中的数字化复制与演绎行为并不能被认定为学习、研究或者欣赏目的。人工智能在创作过程中仅是因程序和算法而运作，并不具备独立思考功能，其所谓的“学习阶段”仅是对现有数据和知识进行分析和存储，并不能够产生自身的思考以及附加的知识，与人类的学习和研究不同，该种“学习”准确来说应称其为检索和分析总结，其直接目的为分析而非学习和研究，因此该种行为并不能被认定为学习、研究或欣赏目的。同时，适用合理使用制度的目的要件要求“非商业目的”的利用。在现实层面，当前人工智能创作大多由大型商业互联网公司所控制和实施，也难以符合个人使用的非商业目的要求。

2.无法直接适用科研目的条款

著作权法第24条第1款第6项规定了科研目的条款。但是，无论从科研工作的主体还是科研目的上看，人工智能创作均不能直接适用该条款。在科研主体层面，科研目的条款的主体应限于国家设立的教育及科研公共事业单位。在人工智能创作过程中，事实上，承担科研工作的主体大多为人工智能背后的科研团队及公司，属商业范畴。人工智能由于不具有独立的科研思维和探索未知领域的能力，其所能获知的内容仅是人类为其输入的内容，该种特点和运作方式即决定了其不能进行科研工作，也并非从事科研工作的主体。在质量与数量要求层面，以科研目的条款免责需满足“少量复制”之要件，然人工智能创作过程所利用的海量数据与之不符，被利用部分多被用于构成生成作品的主要或实质部分，其生成过程对于利用数量的控制难以实现，容易引起市场竞争。另外，在科研目的层面，当前操控人工智能处理数据的科研团队多归属于大型互联网企业，其行为多为基于履行岗位职责要求而进行的职务行为，所利用的数据并非“供给科研人员使用”。且生成式人工智能的表达性创作具有不可预测性，并非仅是人类科研成果的集合，创作过不成仅在于分析总结且在于内容生成，无论是何种过程均不具有科研目的。因此，生成式人工智能难以使用科研目的条款就侵权行为产生抗辩。

3.无法直接适用兜底条款

著作权法第24条虽然增加了不得影响该作品的正常使用以及不得不合理地损害著作权人的合法权益这一一般条款，但该条款仍然不能使该条的适用摆脱列举式立法的困境，“法律法规规定”这一限制使得合理使用的适用范围缩小。在司法实践中，由于人工智能背景下新型著作物的出现导致其难以符合传统的著作权法中所规定的法定情形，则实践中仅能强行适用兜底条款，将之解释为“其他情形”。若将新兴人工智能纳入在内，存在过度扩张以及法官造法自由裁量权过大之嫌，不能将人工智能创作直接纳入其解释范畴，不能直接适用兜底条款。且目前我国立法也并未规定制度的例外条款，就生成式人工智能的规定仍沿用以往合理使用制度的类似规定，无法确定是否应对该项进行扩张。因此，由于人工智能问题尚未解决且争议颇多，在目前的立法及司法实践中，法官经过价值衡量后才能够确定能否适用，但是仍然不排除未来制度发展将其纳入解释范畴或者作出例外性规定，未来能否适用仍需结合现实状况具体分析。

（二）

“三步检验法”具有不确定性

“三步检验法”来自伯尔尼公约第9条第2款以及与贸易有关的知识产权协定（下称“trips协议”）第13条，其检视的基本步骤为：其一，合理使用应限于某种特殊情况；其二，不得与作品的正常使用相冲突；其三，不得不合理地损害权利人的合法权益。在2020年著作权法将之引入第24条这一判定标准后，意味着在判定是否构成合理使用时，不仅需要符合该条规定的法定使用情形，而且需要满足“三步检验法”所规定的一般要件。但是仅以三步检验法来断定是否符合合理使用制度仍然存在一定的不确定性。实践中文本与数据挖掘的场景十分广泛，“三步检验法”中“某些”“特殊”之用语尽管对合理使用的要件进行限制，但仍难以对相关情形进行清晰界定。且以作品为对象供生成式人工智能进行抓取和创造已日渐成为正常使用的方式，并不与其他正常使用产生冲突，第二步检视或已过时。与此同时，以三步检验法判定人工智能生成物是否侵权的核心机制在于：不可形成市场替代效应，具体判断可借助比例原则。基于上述对于人工智能创作过程的分析可以知道，人工智能在学习阶段分析数据、总结经验，其后在输出阶段表达出具有独创性的作品，该种作品或许并未运用原作品的词汇或相似语句，而系模仿其写作风格，而风格属于思想而非表达，本不受到著作权法保护，但是相似风格的作品若在市场流通极易产生市场替代效应，仍然可能存在侵权风险。在此视角下，仅有经济上的具体损失被纳入考量范围，而对权利人经济收入机会、职业生涯的损害难以计算，也难以使用比例原则进行界定。

与之类似，在广泛的司法实践中，美国最终形成了“四要素”判断方法，被称为“无条件例外”模式。也即仅将有关合理使用判定的基本原则写入法律，在具体案件中则由法官根据该基本原则进行自由裁量。具体包括：使用的目的和特点、作品的性质、所使用部分的数量和实质性以及该使用对作品潜在市场或价值的影响。“使用的目的和特点”作为合理使用认定的第一要素，若以新方式或与原作不同的新目的进行创作，可被认定为“转换性使用”，属合理使用范畴。但其第一步与第四步检验方法饱受诟病，有学者对其第一步批判道，无论是目的转换还是内容转换，均无法脱离通过学习而获得的原作品的风格或特点，无法为机器学习提供侵权豁免依据。“对作品潜在市场或价值的影响”这一要素在实践中关涉的“人类作者”利益、“机器作者”利益与公共利益更是难以通过法律方法进行评估，存在一定不确定性。为缓解这种判断上的不确定性，美国又提出了“转换性使用”这一标准，即新作品是否被合理地视为具有不同于原作品创作的目的，或者增加了新表达、新含义、新信息等内容，属合理使用范畴，具有广泛使用性。

最高人民法院于2011年发布的《关于充分发挥知识产权审判职能作用推动社会主义文化大发展大繁荣和促进经济自主协调发展若干问题的意见》第8条有意将美国的这种方法引入我国司法，形成“混合标准”。可见司法政策的指导性介入也期待通过吸纳美国合理使用的四要素判断法来纾解当前列举式立法产生的法律闭合难题。但由于其性质属于司法政策而非司法解释，不宜直接作为法律适用依据，但可在裁判说理中予以参照。从其内容上看，该种判别标准仍然过于原则和抽象，每个要素并无统一的衡量标准，使得文本与数据挖掘行为是否可被纳入合理使用制度具有较大的不确定性，在学界存在着相反结论。

值得注意的是，实践中若允许其适用合理使用制度，也存在着不能直接适用现有合理使用制度的困境以及企业滥用合理使用制度的问题，基于人工智能大数据分析传播的快速性和广泛性，倘若人工智能大量使用和广泛传播该著作或其中的部分内容，则侵犯了著作权人的合法权益，丧失了著作权法对著作权进行保护的初衷。同时，如果肯定开发者可以受到合理使用制度的保护，可能压缩作者的利益空间，不利于激励人类的创作行为。

四、制度建构：文本与数据挖掘“区分制度”的规则设计

人工智能创作所使用的数据在价值上具有低密度性，即单个作品对最终形成的创作成果贡献极小，只有大批量、规模化地使用数据对于人工智能创作才有意义。如此，机器学习以海量数据为模型基础，在侵权风险无法避免的情形下，为防止对原著作权作品价值的消减，其规制便必然落入许可制度范畴内。国内外学界就文本与数据挖掘例外的探讨集中于法定许可与合理使用两种制度，对此，笔者基于对域外方案以及现有理论的探讨，认为在非商业目的情形下纳入合理使用制度规制并在商业目的情形下纳入法定许可制度规制具有可行性。

（一）

文本与数据挖掘豁免的域外方案考察

文本与数据挖掘技术的使用带来巨大商业价值的同时也带来极大的法律风险，法律的滞后性成为阻碍技术进步的因素。近年来全球范围内均出现了针对文本与数据挖掘技术的著作权制度变革，各国均对文本与数据挖掘行为的豁免进行了较为深入的探讨与立法规范，为机器学习提供法律确定性，大体形成“有条件的例外”与“无条件的例外”两种模式。采用“有条件的例外”模式的国家（如欧盟、英国、德国、日本）均在各自的法律中确认了文本与数据挖掘的合理使用性质，并对此技术在著作权制度改革进程中的重要性进行了深入研究。

欧盟与英国在机器文本和数据挖掘所引起的版权问题上频繁立法，在平衡版权保护与制度创新方面采取了较为审慎的态度。欧盟2019年通过的单一数字市场版权指令第3条和英国2014年修订的版权、设计及专利法第29a条均对文本与数据挖掘设置了版权例外情形，并明确设置了非商业性研究目的的使用条件，为行为的合法性划定了标准。但该条仅对以科研人员为代表的非商业主体进行限定，也并未明确机器学习过程应如何使用作品，忽视了著作权人和商业主体之利益，难以满足科技企业在人工智能浪潮中的发展需要。单一数字市场版权指令第4条所规定的商业性文本与数据挖掘豁免允许对可合法访问的作品内容进行复制和提取，但允许退出豁免这一限制可能对人工智能的开发产生不利影响。2022年4月欧洲议会通过的数据治理法兼顾数据的保护与流通属性，在将数据作为可供流动的财产进行保护的同时，规定数据共享在商业范围内实现登记制。如此，人工智能企业在研发过程中使用作品则不必经过同意且著作权人可以依次获得一定经济补偿，类似我国法定许可之模式。但仍然存在经济补偿制度不甚完善、缺少强制性措施和激励手段保障共享的阙漏。近来欧盟于2023年6月通过的人工智能法案草案进一步实现了对人工智能领域的全面监管。该法案进一步限定了生成式人工智能供应者的义务，在行为主体使用生成式 AI 的过程中尽到了法案中第28条所述的“透明度义务”以及研发训练不违反欧盟版权立法义务即可将该产出的基础模型向市场提供或自己所用。此次立法通过告知等能够使得人类与人工智能进行有效交互的措施向著作权人“公示”，使其保有对自身著作的决定权。然而，这也显示出欧盟立法再次向合理使用制度游移的态度。由此可见，欧盟立法进程在合理使用与法定许可间徘徊不定，在严格立法模式下仍尚未解决人工智能研发者与著作权人的利益平衡问题。

日本将文本与数据挖掘纳入著作权例外制度。早在2009年的日本著作权法第47（7）条赋予所有用户基于商业和非商业目的对作品和信息进行筛选、比较和分析的权利。在2018年对该法进行修订时，则将合理使用情形进一步类型化，分为“无害使用”“轻微使用”“公共政策目的下的使用”三类，并采用领域分割下的“总则+列举+兜底”复合规范结构，形成了一种新的立法范式。此外，日本著作权法第47（5）条还规定通过计算机化数据处理创造新知识和信息时，任何人都可以利用公众可获得或已发表的作品进行计算机化数据分析并提供分析结果，但明知构成侵权或会不合理损害版权所有者利益的除外。由此可见，日本立法例对文本与数据挖掘例外采取了较为开放和灵活的态度，在目的上不以非商业使用为前提，仅以侵权损害程度与公共利益相互平衡达成合理使用情形中权益冲突的消弭。此举固然有利于人工智能产业的飞速发展，但宽泛的满足某种义务便可取得豁免的倾向实则在利益衡量的结果上与欧盟殊途同归，对于人工智能文本与数据挖掘的宽容态度仍无法有力地制侵权行为。

（二）

我国文本与数据挖掘场景下构建“区分制度”的必要性

人工智能是产业数字化转型和经济高质量发展的重要驱动力，借鉴欧盟和日本等国家文本与数据挖掘豁免规则可以为我国人工智能发展提供理论范本。目前，如何将人工智能生成物纳入合理使用制度存在两种解决路径，第一种为人工智能创作物合理使用制度创设例外，并在司法实践中通过“转换性使用”的方式解决人工智能创作的合理使用问题；对人工智能复制与演绎作品的行为予以类型化，在合理使用立法上进行固化。第二种为通过法定许可制度、著作权集体管理制度规制人工智能在创作中对既有作品的使用行为。综观各国立法进程，域外立法也在合理使用与法定许可的制度选择间徘徊不定。基于这两种解决方案的优势与弊端，作出适合我国国情的模式选择尤为重要。

1.择一的制度选择难以纾解现实困境

结合机器学习数据来源合规的理论与相关实践，理论界结合我国现有法律条文和实际国情提出了适用著作权法项下的合理使用制度，形成我国学界的多数观点。生成式人工智能的学习过程以海量数据为模型基础，其对原作品的复制、演绎、传播等行为必然落入许可制度的规制范畴。在内涵层面，从复制这一行为分析与知识增值这一结果分析两个层面来看，人工智能深度学习的结果是以能否满足特定主体的需求为判断标准，仍然属于使用价值的范畴，可以纳入合理使用制度。在利益衡量的视角上，著作权法意义上的利益衡平原则作为公共利益与私人利益的结合，是指权利人控制版权作品与社会公众使用版权作品间平衡。考虑到社会利益以及产业政策目标，允许作品的有序使用对满足人工智能产业发展之需要具有重要价值。对此，基于利益衡平的基本原则，应当考虑生成式人工智能开发者与著作权人之间的利益冲突，以协调“促进创新和文化繁荣”与“保护作者著作权”的“二元阶层”立法目标。有学者以个人利益与公共利益的协调为视角，认为合理使用制度力图避免机器学习稍有不慎便侵犯“个人利益”边界的现状，以平衡技术在“公共利益”方面带来的效益。相较于法定许可制度的“等价交易”方式，当下生成式人工智能的“发展起步阶段”合理使用制度的免费使用属性更有利于达成二者平衡。也能够维护公平的市场竞争秩序。同时，在公共政策层面，合理使用制度具有重新分配公共福利的功能，通过限制权利人的经济利益而使特定群体获得补贴。如果合理使用为机器学习提供侵权庇护，那么公共利益再分配会逆向发展：以牺牲弱势的用户的利益为代价，让作为既得利益者的大公司获得更多经济利益。由此，支持者普遍推崇构建更加开放的合理使用制度。

然而，合理使用这一柔性制度规制更为偏向技术发展的选择，仍然存在伦理与法律适用问题。有学者认为，合理使用制度设置于著作权法的权利限制一章，著作权立法是关于公共利益与专有权利的平衡法，而合理使用制度只是对著作权人权利滥用的限制。由于合理使用制度的这种困境难以通过自身的制度完善加以解决，作者的著作权利益与使用者所代表的技术进步价值难以在该制度下得到调和。有学者对合理使用说持反对意见，理由在于：该说以激励理论为渊源主张增加社会智力总量来促进社会发展，是为社会公共利益限制著作权人的权利，且因制度具有不同程度的激励作用，无法以激励学说合理界分，欲扩展合理使用制度需经充分论证。同时，合理使用制度的设立使智力产品销售价格趋近于零，长远来看反而削弱个人的智力生产动力，有违知识增值的初衷。

合理使用制度的一大优势便在于不必获得事前授权并支付报酬的便利性，但生成式人工智能机器学习难以适用无须付费、无须获得许可的合理使用制度。法定许可则与之相反，其试图通过政府管制下的拟制平台进行登记并向权利人支付报酬以充分保障著作权人的利益。换言之，法定许可并非完全基于著作权人的自愿授权，而是将著作权人的绝对权利转化为一种获得报酬的权利。对此，法定许可说的支持者聚焦制度构建以解决文本与数据挖掘产生的人机著作权冲突问题。在利益衡平视角下，有学者认为法定许可制度在简化作品获取和使用程序的同时，保证了作品权利人的经济利益，不致形成以剥夺作品权利人利益为代价而服务人工智能企业的现象。有学者以衡平理论考量著作权行使与限制的关系，得出法定许可说为知识增值的最优解。相较于合理使用制度完全忽视著作权人利益，法定许可更能兼顾保护与限制的二元价值取向。有学者认为机器学习适用法定许可可以同时实现效率与正义的价值追求，集“权利限制”与“报酬补偿”于一身，在技术发展与专有权利的利益博弈中为权利失衡提供了解决路径，有助于提高作品利用、传播效率。

该种模式虽然在构建上能够大体上解决生成式人工智能与著作权的冲突问题，但基于我国国情却存在着较大的现实阻碍。首先，法定许可的设置目的之一在于提升交易效率、降低交易成本，但由于其必然借助登记制度加以实施，人工智能研发企业、政府和著作权人间的沟通成本并未因此而减少。确定每个作品中的著作权人并支付费用更因其繁复性而难以完成，相较于赔偿成本反而增加了著作权人的维权成本和时间成本，相对于合理使用制度仍然较为复杂。其次，就著作权的登记缺乏强制措施、高效公平的分配体系和完善的监管体系，著作权人往往难以察觉所有侵权行为，无法切实保障著作权人权利。且机器学习训练数据记录需借助区块链技术加以保存，但区块链技术尚无法完全保障数据安全。

基于上述分析，在文本与数据挖掘豁免规则上，单一适用法定许可与合理使用制度均存在难以克服的缺陷。

2.分阶段构建豁免制度的必要性与可行性

将文本与数据挖掘纳入合理使用与法定许可规制范围内并非均不可取，而应根据具体问题具体分析。随着技术不断更新迭代，原有的利益分配关系要重新做出调整，需要在著作权的弱保护与强保护之间寻找利益平衡点。

综观各国立法进程均在合理使用与法定许可间徘徊不定，其主要争议点集中于“若文本与数据挖掘行为能够纳入合理使用制度规制，是否应限制其商业目的”，主要原因在于合理使用的“非商业主体”原则与人工智能发展间的矛盾难以调和。在我国，无论是业界还是学界，均认为合理使用制度内含非商业使用之构成要件。各国立法进程与司法实践证成合理使用的主要理由之一也是非商业性使用，“四要素”判断方法的首要要素“使用目的”之界定亦包含是否属于商业性使用之内涵。由此可见是否具有盈利目的对于制度模式的采纳具有重要意义。

如上所述，将文本与数据挖掘的侵权认定划分为“表达性使用”与“非表达性使用”的法理基础在于“是否影响他人利益”。非商业性行为的提出就是对非表达性使用的进一步限制，将人工智能研发训练数据的需求在非商业性行为下归类于合理使用，可以为人工智能研发扫清侵权和成本障碍。基于非商业性行为不影响他人权利义务的核心，即便人工智能创作生成利用原作品的独创性表达，也可以落入合理使用的规制范畴。而人工智能的商业使用天然地具有表达性使用的气质，该种行为的合法性必须通过法律法规规定或授权许可的检验，对此不能以合理使用制度作为侵权行为的版权豁免条款，合理使用不是表达型人工智能随意剽窃作品的许可证。一旦生成式人工智能以商业目的进行研发与应用，必然构成对原作品市场价值的威胁并形成市场竞争、挤占作品的市场份额，影响其他主体的权利义务关系。若允许商业性使用也能够通过合理使用豁免无偿获取并使用大量作品，将极大地扰乱市场秩序，损害著作权人利益并抑制其积极性。基于商业主体日渐成为生成式人工智能的研发主力这一社会现实，参照欧盟许可商业性主体在不损害著作权人合法利益的情况下进行商业性使用或为当下最好的选择，也能够符合“三步检验法”的判定范式并获得司法裁判支撑。因此，就商业性使用的规制不宜选择合理使用制度，法定许可这一豁免条款显然更为适宜。

因此，将人工智能文本与数据挖掘在非商业性行为目的下纳入合理使用制度的范畴以及在商业性行为目的下纳入法定许可制度的范畴，构建不同阶段不同制度的“区分制度”，能够有效解决人工智能研发初期版权授权成本难以估量的现实问题。生成式人工智能以研发等非商业目的使用作品适用合理适用规则能够有效提高作品的利用率，迎合人工智能井喷式发展的浪潮，繁荣文化市场。从比较法的视角上看，欧盟、日本等地区已经通过立法为人工智能生成物适用合理使用制度，增设了数字著作权以及为数字及文本挖掘提供例外，可供借鉴。在司法实践上，我国也已经有法院将人工智能创作物纳入合理使用制度适用范畴。而在生成式人工智能以商业目的使用作品时企业仅需支付必要的许可费用，以政府为沟通平台既能够对著作权进行确权归类，也能够降低沟通成本、提升交易效率。由此，分阶段适用不同制度大大降低了生成式人工智能的研发成本，避免研发前期大量投入成本的风险。从长远的产业发展视角看，此举将有效带动人工智能企业的研发积极性，吸引大量资本投入，以人工智能高水平应用促进高质量创新发展。

（三）

文本与数据挖掘场景下构建“区分制度”的规则设计

人工智能技术发展已经成为全球发展共识，生成式人工智能作为新领域和新地带发展空间较大，为避免著作权冲突问题的加剧，在平衡著作权人与合理使用人的利益诉求的基础之上针对该领域立法创设制度例外规制法律尚无规定的灰色地带具有现实必要。

1.非商业性目的下的合理使用规则构建

我国著作权法中合理使用制度采具体列举式立法模式，这种立法技术在一定程度上能够限制法官的恣意裁判，但在面临新技术发展时也会无所适从。对于文本与数据挖掘这一行为的规制已慢慢过渡到“半开放型”权利限制，著作权法第24条第1款第13项“法律、行政法规规定的其他情形”这一兜底条款一定程度上缓解了体系闭合和僵化困境的问题。就该涉数据侵权问题，结合我国立法实践与具体国情，就非商业目的下的文本与数据挖掘行为，可以以著作权法第24条第1款第13项“法律、行政法规规定的其他情形”为接口，通过修订《著作权法实施条例》的方式，引入文本与数据挖掘例外，构建更为开放的合理使用机制。

在制度构建上，应对修改的程度审慎把握，避免动摇既定成熟司法裁判基础规则的风险。在新著作权法背景下为人工智能创作物进行例外制度应当以双方之间的利益衡平为基础和前提，且仍然要符合三步检验法的规定及立法目的，既限制合理使用人的使用范围，又不致侵犯著作权人的合法权益。具体而言，立足本土的制度设计应注意以下几个方面：一是使用目的的非商业性。立基于保护著作权的倾向，对文本与数据挖掘使用作品的目的进行限制能够有效避免侵权泛化的风险。另外，出于非商业目的开展文本与数据挖掘活动的主体多为科研机构、高校等，对其利用作品的活动进行监督和管理相对容易。在人工智能浪潮下，头部互联网企业在数据与算法的开发方面发挥着举足轻重的作用，不应将之径行排除于合理使用主体之外。对此，在解释论上将非商业性使用的目的予以部分扩张较为可行。在不突破非营利性目的的限制下，将虽用于企业经营但主要为研发创新所需的文本与数据挖掘的简介行为排除在外。二是使用结果的非替代性。基于上述分析，仅有“表达性使用”存在侵权可能，“非表达性使用”则因符合“三步检验法”可以落入合理使用范畴。若人工智能生成的最终内容包含原作品的独创性表达则具有侵权风险，因而文本与数据挖掘例外的创设应排除原作内容的实质性表达。如此，制度原则与例外并存共同规制人工智能著作权问题，可为后续发展作出有益贡献。

2.商业性目的下的法定许可制度构建

诚然合理使用制度能够在人工智能发展初期极大地降低成本，滋养人工智能创作产业的迅猛发展。但以商业目的为出发点所做的文本与数据挖掘行为对著作权具有侵害性，为确保以人为核心的著作权理念不被破坏，法定许可制度或成为较为合理的出路。

为了解决上述问题，需要从制度和技术两方面进行着手。在制度方面，引入著作权集体管理机制能够协助著作权人授权集体管理组织与人工智能公司签署许可使用协议，从而简化了人工智能公司与大量分散的著作权人的繁琐协商过程，同时帮助著作权人追踪作品的使用情况并在必要时采取维权措施。然而，现行法定许可制度无法保证著作权人能够及时获得满意的薪酬。行政机关事先设定的收费标准难以与基于市场规律变化的市场价格相匹配，难以体现作品的实际价值。而借助集体管理组织则可大幅提升著作权人的议价能力，辅以人工智能企业自行与著作权人协商这一途径，保障意思自治，促进人工智能公司与著作权人之间的合作与信任。同时，法定许可制度规制文本与数据挖掘行为饱受诟病的一点即是缺乏具有强制力的监管措施促使著作权人进行备案与登记。对此，可借鉴欧盟在《人工智能法案》中规定的生成式 AI创作者的“透明度义务”，探索建立作品使用标准和监管规范。政府应创建监管人工智能系统安全的专门机构以充分发挥其监管人工智能研发与应用的公共职能，构建起“事前监督—事中干预—事后审查”的全流程监管模式。一方面，非商业性行为目的下的人工智能系统研发应接受专门机构备案以及专门机构和相关利益人的监管。另一方面，商业性使用目的下人工智能系统应用的制度则应当向专门机构进行登记，进行全面审查后同样接受专门机构的监管和相关利益人的监管。同时人工智能研发机构应就其使用行为支付一定的许可费，具体标准以该专门机构确立的统一标准为要，确保人工智能文本与数据挖掘行为的数据合规。

此外，法定许可制度的运作离不开先进技术的支撑。首先，应开发智能化的著作权管理系统加强作品的数字化管理，利用大数据和人工智能技术来自动识别和跟踪作品的使用情况，在网络空间内完善著作权人的个人信息登记，便于著作权集体管理组织的统一保存和管理。其次，可以探索挖掘区块链等先进技术，保障数据训练数据获取的记录不被篡改，以构建去中心化著作权交易平台，实现作品信息的透明化和可追溯性。此外，也通过技术手段对作品进行加密，控制作品使用的范围和期限，确保人工智能技术公司只能将作品用于对机器学习的训练。

结语

大数据时代为文本与数据挖掘技术带来了新的发展契机，而数据作为人工智能文化产业发展的“养料”，却受到当前严格的版权制度的桎梏，生成式人工智能在输入、学习和输出三阶段对文本与数据挖掘技术的使用却不可避免地产生了对著作权的侵害。我国著作权法尚存法律漏洞，难以将之纳入合理使用、法定许可制度加以规制。无论是从科技进步、产业发展的现实需要还是满足“两阶层”立法目的及“三步检验法”判别标准上看，为文本与数据挖掘行为提供合法抗辩确有必要，以使处于新技术浪潮中的文本与数据挖掘争议有法可依。放眼全球，越来越多的国家选择设置文本与数据例外为机器学习提供合法化依据，但均在合理使用与法定许可的选择上摇摆不定。对此，本文认为非表达性使用可以作为判定侵权的过滤器，生成式人工智能仅有在构成表达性使用时方存在侵权风险。进一步以是否具有商业目的划分，非商业目的的文本与数据挖掘宜以合理使用加以规制，具有商业目的则宜适用法定许可这一制度，通过“区分制度”的构建解决人机著作权冲突问题。具体而言，在非商业目的情景下，可通过增设文本与数据挖掘这一合理使用之例外并明确生成式人工智能不同创作阶段的作品使用合理边界。同时，在商业目的情景下，通过完善相应的版权登记制度并辅以恰当的合规治理监督机制以及完善相关技术手段，可以期待以法定许可制度的构建实现利益衡平。

本文旨在推动生成式人工智能产业发展与著作权保护的协调。尽管我国现行著作权法体系尚缺乏对文本与数据挖掘的豁免措施，但随着理论和实务界对著作权法规则的理解不断深化，终将通过解释的方法探索出统合合理使用与法定许可两种豁免制度的一般性规范。有理由期待，当前对文本与数据挖掘侵权判定的诸多不足在今后的司法实践中能够得以补正，通过制度规范的不断健全，更好地兼顾人工智能研发者的研发需求与著作权人的合理信赖，促进我国生成式人工智能行业繁荣健康发展。相信生成式人工智能文本与数据挖掘豁免规则将会更加明晰，从而促进司法公正。

生成式人工智能文本与数据挖掘的合理边界与侵权规制

全球最大AI竞技场竟在国内？五大顶流国产模型化身武侠少女硬核PK

50%优势，力压OpenAI和DeepMind！清华DSAC系列算法全面解析

AI模拟5亿年生物进化，ESM3开启「蛋白质创世纪」！论文登上Science

Mira Murati，ChatGPT 前高级执行官，有一个属于她自己的神秘人工智能项目

基础产品管理：为什么它在人工智能时代更加重要

最好的人工智能程序员，来自 Weights & Biases

Saga x Virtuals — 释放人工智能驱动的虚拟经济