生成式人工智能版权侵权:类型、认定及责任承担
作者: 陈黎明[摘 要]建立在大语言模型基础之上的生成式人工智能收集、学习海量受保护作品,其在训练输入阶段存在侵害著作权人复制权的风险,在内容输出阶段存在侵害著作权人修改权、汇编权、改编权及署名权的风险。鉴于当下版权侵权“实质性相似”规则的主体标准及客体标准均存在过于抽象及主观性过强等问题,应从放宽认定标准及判断标准客观化两个层面进行变革,以应对生成式人工智能技术发展给知识产权保护带来的挑战。在认定版权侵权的基础之上,科学搭建生成式人工智能版权侵权责任规则体系应坚持过错责任原则,规范损害赔偿责任承担方式,明确“合理使用”情形作为侵权抗辩理由。
[关键词]生成式人工智能;版权侵权;实质性相似;合理使用
[中图分类号]G641 [文献标志码]A [文章编号]2096-1308(2024)01-0052-11
一、问题的提出
国家网信办国家发展改革委等七部门于2023年7月10日联合公布《生成式人工智能服务管理暂行办法》(以下简称《暂行办法》),将生成式人工智能技术定义为“具有文本、图片、音频、视频等内容生成能力的模型及相关技术”,并以部门规章的形式将生成式人工智能技术与服务纳入政府分级分类监管体制之下。这是对以ChatGPT为典型代表的生成式人工智能技术跨越式、迭代式发展现象的立法回应。生成式人工智能区别于传统人工智能的显著特点是,生成式人工智能建立在大语言模型基础之上,能够对超大规模作品进行深度分析、学习,与用户进行多轮对话,得出针对性优质答复。大语言模型作为语言建模的最终阶段在学习数据、预测趋势以及生成新内容等方面性能显著提升,表现出超凡能力。[1]以ChatGPT为例,Open AI实验室发布了参数规模高达1.76万亿级别的GPT-4模型,使得ChatGPT已具备“涌现能力”,即能够逐步推理、指令遵循甚至联系上下文进行学习,这是在小模型中所无法具备的学习能力。See ZHAO WX, ZHOU K, LI J, etal.A Survery of Large Language Models [Z/OL].(2023-06-29)[2023-08-15]. https://arxiv.org/abs/2303.18223.
生成式人工智能的运作机制为通过对信息、数据的学习、提炼,生成区别于原始数据的新内容[2],其并不能凭空产出内容。高质量的生成内容建立在优质数据之上,往往优质数据又均为受著作权法保护的作品,故生成式人工智能的版权侵权风险不可忽视且难以避免。[3]伦敦高等法院受理的“Stable Diffussion”侵权案即为典型代表,盖蒂图片社及多位美国艺术家起诉Stable Diffussion非法复制、处理60亿张受保护图像,侵犯百万名艺术家版权。参见微信公众号“WU hu动画人空间”发布的《全球首例大型AIGC侵权诉讼案件!36页诉状书状告AI侵犯图库老大哥数百万图像版权!》一文,https://mp.weixin.qq.com/s/DsPSs4ZrkoNhqOXqFOOEHQ。该案作为全球首例AIGC(AI-Generated Content,人工智能生成内容)侵权案波及范围之广令人震惊,生成式人工智能产业发展与版权保护之间的张力逐步凸显,也愈发强烈。《暂行办法》第四条第三款“尊重知识产权”,第七条第二款“涉及知识产权的,不得侵害他人依法享有的知识产权”等条文内容均体现了规范层面重视版权侵权后果的立法理念[4],但《暂行办法》作为部门规章,效力层级过低,且条文数量较少,条文内容仅具有宣示作用,没有具体可落实的防范版权侵权风险的配套措施,故科学认定生成式人工智能的版权侵权并创造性地搭建生成式人工智能的版权侵权责任规则,具有现实意义及紧迫性。
二、生成式人工智能阶段性版权侵权类型
美国版权局出台的公共指导法案提出人工智能生成物不属于受保护的作品,在进行版权申报时应注明由生成式人工智能完成内容。See U.S.Copyright Office & Library of Congress(Mar 16,2023).“Copyright Registration Guidance:Works Containing Material Generated by Artificial Intelligence.”Federal Register,https://www.govinfo.gov/content/pkg/FR-2023-03-16/pdf/2023-05321.pdf.我国不少学者也持ChatGPT生成内容不具有可版权性,不应给予版权保护的观点。[5]但人工智能生成物不构成作品,并不意味着不会导致版权侵权结果。相反,生成式人工智能以大语言模型为基础,其对海量数据深度学习的能力、对用户语言命令的高度理解能力以及针对性地生成文本的把控能力,实现了技术智能跃迁。伴随性能飞速提升,生成式人工智能的各类风险也逐步放大,对世界范围内的知识产权保护提出了更为严峻的挑战。以ChatGPT为代表的生成式人工智能在模型训练阶段,由于难以全部获得数以百万计受保护作品的授权,容易引发复制权侵权风险;经过对语料库进行深度学习、反复训练后,ChatGPT生成的内容可能存在与原始数据相似之处,这会对著作权人的修改权、汇编权、改编权以及署名权造成威胁。
(一)训练输入阶段:侵害复制权
生成式人工智能训练流程为,对文本语料进行诸如语法、文义、上下文逻辑结构等内容的无监督学习,再根据用户指令展开多轮对话,并借助Transformer模型生成符合自然人语言习惯的针对性答复。[6]从上述训练流程可知,文本语料的质量高低直接决定生成内容的优劣。事实上,数据是人工智能技术发展的决定性要素。生成式人工智能开发者会尽可能地吸纳优质数据以充实文本语料,尤其是具备独创性的智力成果。优质作品受著作权法保护,只有在取得授权的情形下才可合法复制。《暂行办法》第七条亦规定生成式人工智能服务提供者在训练数据处理活动中“涉及知识产权的,不得侵害他人依法享有的知识产权”。
ChatGPT等生成式人工智能在训练过程中,需对数据进行复制后再进行“计算机可读”的格式处理,无可避免地会对受保护的作品进行电子化复制。那么ChatGPT语料库中数以百万计作品均已取得著作权人授权了吗?从Open AI实验室公布的信息来看,ChatGPT的训练数据来源途径广泛,譬如维基百科、期刊、Reddit链接、书籍以及雇佣标注工的手写文本。[7]就外界对上述数据并未取得授权的质疑,Open AI实验室并未给出明确答复。据《华尔街日报》等国外媒体报道,Open AI在未支付费用的情形下将他们的文章用于ChatGPT模型训练[8],答案不言而喻。受大语言模型这一关键技术作为“基座”的影响,生成式人工智能训练输入阶段所使用的数据,数量巨大、涵盖面广,涉及社会生活方方面面,要想完全取得授权几乎不能实现。生成式人工智能在训练输入阶段使用未经授权的作品会对著作权人的复制权造成实质侵害。生成式人工智能的无序发展极大冲击世界范围内确立的知识产权保护体系,给各国的著作权法的施行带来严峻挑战。然而,从促进技术进步的视角来看,严格要求所有经ChatGPT训练使用的作品均需得到著作权人授权的观点,并非必然有益。这是因为,“不取得授权即违法”的规则不仅会极大提升收集训练数据难度、花费财力用于支付许可报酬,耗费大量精力用于证明复制行为合法,引发“寒蝉效应”[9],迫使小型生成式人工智能服务提供者因过重经济负担而退出市场,实力雄厚的人工智能服务提供者一家独大、垄断市场,而且高质量训练数据的减少会对生成内容的质量造成负面影响,人工智能技术的进步明显受阻。故,生成式人工智能产业发展与知识产权保护之间的张力难以调和,生成式人工智能技术训练输入阶段对著作权人复制权的侵害风险不容忽视,采取有效应对措施迫在眉睫。
(二)内容输出阶段:侵害修改权、汇编权、改编权及署名权
以ChatGPT为代表的生成式人工智能被称为“智能洗稿器”,这是对其学习及生成文本功能的戏谑概括。ChatGPT在按照用户指令输出文本时,不会对语料库中的文本进行直接抄袭,而是根据学习模型重新组合文本或对文本进行同义替换。虽然ChatGPT生成的内容并不会直接复制语料库中的数据,具备一定程度的创造性,但本质上而言,其生成内容高度依赖输入的数据,尤其是高质量的智力成果。反复频繁的学习、使用,会产出相似内容,或者说与在先作品存在相似可能性。ChatGPT截取优质作品片段或结合多部作品内容重新加工及修改的行为,会对著作权人的修改权、汇编权、改编权造成巨大侵权风险。从我国《著作权法》第十条的规定来看,侵害著作权人汇编权与改编权的关键区别为,改编聚焦于原作品内容进行修改,而汇编则仅从个性化编排角度对作品及其他非作品材料进行独创性表达。相较于复制权而言,改编权与汇编权不拘泥于固定作品,只需要产生独创性表达即可。[10]生成式人工智能服务提供者应当格外警惕,采取措施以应对文本生成阶段可能出现的上述侵权风险。除此之外,ChatGPT训练、学习流程十分精密,使用的模型及算法相当复杂,用户甚至技术开发人员都无法清晰地知晓生成内容对哪部作品施以何种程度的利用,生成式人工智能的生成文本不能标注所使用的作品及作者姓名,也会对著作权人的署名权造成严重侵害。
与传统领域著作权侵权行为相比,生成式人工智能版权侵权波及的在先作品数量大幅增加,且侵权成本显著降低。一方面,ChatGPT等生成式人工智能产品以大语言模型技术为核心,其训练学习的语料库由海量受保护的作品及相关数据组成。借助模型对数以百万计的作品进行文义、上下文逻辑学习的训练过程,直接导致ChatGPT等生成式人工智能产品的生成内容存在对众多作品进行片段化截取及创意拼接等风险,而不再仅仅局限于对个别或少数他人原作品的侵害。[11]另一方面,由于以ChatGPT为代表的生成式人工智能产品的算法及模型已相当成熟,用户仅需发出需求指令,生成式人工智能产品就能生成符合用户需求且有针对性的文本,大大缩减了传统创作中收集、学习所耗费的时间,侵权成本显著降低。综上所述,AIGC时代,受侵权范围扩大、侵权成本降低的影响,生成式人工智能内容输出阶段诸如修改权、汇编权、改编权及署名权等版权受侵害的风险已大幅提升,但我国尚未出台成熟的生成式人工智能产品法案以规制当前涌现的大量版权侵权行为,故应当加快研究步伐、扩展研究深度,以应对生成式人工智能技术给我国传统著作权保护体系带来的严峻挑战。
三、生成式人工智能的版权侵权认定:实质性相似标准的变革
实践中人民法院一般采取“接触+实质性相似”标准以判定版权侵权是否成立。由于生成式人工智能建立在“大语言模型”基础之上,ChatGPT需要通过对数以百万计的作品进行分析、学习、训练才能生成作品,故“接触”要件必然满足。[12]生成式人工智能版权侵权的认定关键,应当为如何科学理解“实质性相似”要件。自英国议会颁布世界上第一部版权法——《安娜法令》以来,每一次技术变革都会对现有著作权法律体系造成不小冲击[13],生成式人工智能技术的发展也不例外。事实上,对自然人作品所适用的实质性相似要件的主、客观判断标准过于抽象,在生成式人工智能版权侵权判定问题上存在适用困境。著作权法应当在符合基础理论的情形下,综合考虑公共利益与私人利益间的平衡,对司法适用中现存的问题作出回应。本文认为,可从放宽认定标准及判断标准客观化这两方面对生成式人工智能领域版权侵权的“实质性相似”标准进行变革,以契合技术发展特色,有效纾解当下版权侵权认定中的适用困境。
(一)放宽实质性相似认定标准
随着ChatGPT程序火爆全球,多家顶级期刊明确表示抵制ChatGPT生成的文章,尤其是Nature杂志发表社论,表示使用ChatGPT生成的论文相当于剽窃。学术界对于ChatGPT生成内容的抵触心态反映了自然人作品与人工智能生成物的本质差异。生成式人工智能是凭借大语言模型对海量作品进行学习、训练而生成内容,其中几乎不会掺杂服务提供者、使用者的个性与情感,而自然人作品是思维碰撞出的智力成果,需要被赋予思想层面的有力保护。传统“实质性相似”规则是针对自然人作品而设定的,将其适用于显著不同的生成式人工智能领域,可尝试放宽主、客体认定标准,以顺应学术界对于使用ChatGPT生成内容的收紧态势,落实对在先作品的版权保护。在主体判断标准层面,有学者提出以“专业技术人员”取代“普通观众”的观点[14],只要从专业技术人员的视角来看,人工智能生成物在模式、结构及创作风格等方面与受著作权保护的作品存在相似之处,即可认定为构成“实质性相似”。这一做法提高了判断主体的专业度,增加了人工智能生成物被认定为构成版权侵权的可能性。譬如,某些内容若由自然人创作不会构成版权侵权,但若该内容由ChatGPT生成则可能构成版权侵权。这也与生成式人工智能系统日益增长的规避实质性相似能力相匹配。在客体标准层面,应当将认定自然人作品构成实质性相似时所采用的“单一对比”原则变革为“综合使用量对比”原则。这是因为,生成式人工智能产品展开学习、训练的对象并非单一作品,而是包含受保护作品和其他数据在内的一个“集合”。在此领域仍适用自然人作品认定的单一对比原则会导致认定版权侵权的标准过高,难以有效打击人工智能生成物侵害在先作品版权的行为。生成式人工智能依靠大语言模型对海量作品进行深度学习、反复训练,其生成内容所涉及的作品数量也远超一般自然人作品。此情形下,仅证明人工智能生成物的单一作品片段使用量低于“实质性相似”的客体标准尚不足以认定不构成版权侵权。人工智能生成物所引用的“集合”片段数量超过判断标准会对整个“集合”中的作品构成侵权。这一“综合使用量对比”原则对人工智能生成物的版权侵权认定提出了更为严格的要求,系出于保障自然人作品现有著作权保护力度的考虑而作出的时代选择,可最大限度地降低生成式人工智能技术对现有著作权保护体系的冲击。