“你的AI侵犯了我的版權”:淺談AIGC背後的版權保護問題


作者:朱開鑫,騰訊研究院高級研究員;張藝群,騰訊研究院助理研究員。

圖片來源:由無界版圖AI工俱生成

ChatGPT的大火,帶來了AIGC技術及相關應用的“強勢出圈”。除了感慨AI超強的內容生成輸出能力之外,各界也開始思考AIGC可能產生的潛在風險。 2023年1月23日,美國三名漫畫藝術家針對包括Stability AI在內的三家AIGC商業應用公司,在加州北區法院發起集體訴訟,指控Stability AI研發的Stable Diffusion模型以及三名被告各自推出的、基於上述模型開發的付費AI圖像生成工具構成版權侵權。

無獨有偶,2月15日《華爾街日報》記者弗朗西斯科·馬可尼(Francesco Marconi)也公開指責,Open AI公司未經授權大量使用路透社、紐約時報、衛報、BBC等國外主流媒體的文章訓練Chat GPT模型,但從未支付任何費用。[1]

AIGC技術開發與應用中的知識產權尤其是版權侵權問題之所以受到高度關注,其根源在於AIGC模型的形成和完善依賴於大量的數據訓練,而用於訓練的數據往往包含受版權法保護的內容。

AIGC是如何利用版權作品進行數據訓練與輸出成果的?這一過程存在哪些版權侵權風險?應當如何有效應對AIGC版權利用帶來的侵權風險?本文以“Stable Diffusion案”為引,結合AIGC內容生產模式的技術原理,對上述問題進行探討。

(左圖:畫家Erin Hanson在2021年創作的作品;右圖:在Stable Diffusion中以“style of Erin Hanson”等作為提示生成的結果)[2]

全球首例:“Stable Diffusion”AIGC模型版權侵權案

作為全球首例知名的AIGC商業化應用領域,算法模型及訓練數據版權侵權案,“Stable Diffusion案”自起訴書公佈伊始便引起了各界關注與探討,其最終判決結果亦將對AIGC產業和技術發展產生舉足輕重的影響。回歸到案件本身,我們發現:其一,從核心爭議來看,當前國內外對於AIGC獲取與利用版權作品進行算法訓練是否合法存在諸多爭議,尚無立法和司法層面的明確共識;其二,從涉案技術原理而言,Stable Diffusion模型訓練過程中利用版權作品的方式、利用行為的版權定性仍有待分析明確。

在本案中,原告圍繞Stability AI公司未經權利人許可,獲取與利用其版權作品作為Stable Diffusion的“訓練圖像”展開指控。原告將Stable Diffusion模型定性為“一個複雜的拼貼工具”(a complex collage tool)——“將無數受版權保護的圖像存儲和合併為訓練圖像後……生成完全基於訓練圖像的’新’圖像”。被告“從使用受版權保護的圖像中獲得商業利益和豐厚利潤”,而數百萬權利人則因生成的“新”圖像對原作品交易市場的擠占而遭受損失。[3]

技術原理:AIGC模型涉及哪些作品利用行為?

表面看,不同AIGC模型生成的內容形式各異,涵蓋文字、圖像、語音、視頻等。但各類AIGC模型利用現有作品進行模型訓練、生成最終結果的方式卻存在異曲同工之處:將數據庫中的作品數據進行一定程度的形式轉換後輸入AIGC模型,利用AIGC模型自主學習能力從中提取有價值的內容,再根據輸入的指令生成與之相匹配的學習結果加以輸出。以此次陷入糾紛的Stable Diffusion模型為例,其以包含數以億計的圖像數據庫——LAION-5B[4]作為訓練數據來源,原告主張的被侵權作品亦包含於內。

簡單來講,Stable Diffusion模型對版權作品的利用存在於兩個階段。第一,AI模型訓練階段。 Stable Diffusion利用版權作品訓練內部組件“圖像編碼器”(U-Net模型),輔之以“Clip文本編碼器”(Text Encoder模型),最終做到只需輸入一段描述性文字,即可生成對應的圖像內容。第二,AI模型應用階段。 Stable Diffusion經過充分訓練後,可以依據用戶給出的文本輸出最終圖像。但這些生成的圖像內容,很大的概率包含並展現出作為訓練數據的版權作品的元素及特徵。

(Stable Diffusion內部結構圖)[5]

AIGC模型訓練階段存在哪些版權侵權風險?

在模型訓練階段,Stable Diffusion會將版權作品和與之對應的文本數據轉換為同一個“圖像信息空間”(latent space)的“潛在表現形式”(Latent Representations)。具言之,Stable Diffusion模型以從數據庫中下載的作品作為輸入對象,對其添加噪點並進行編碼(壓縮),使作品進入“圖像信息空間”。進入這個空間的版權作品,會與被“Clip文本編碼器”編碼的描述性文本進行“交互”,得到兩者信息融合的結果——“潛在表現形式”。

簡單解釋,之所以Stable Diffusion模型訓練涉及增加噪點和去噪點的過程,是因為:不同於人類作畫的起點是“從無到有”,即在白紙上開始增加線條顏色等,最終形成圖像;Stable Diffusion模型作畫是“從有到無”,即從佈滿雜亂噪點的底板(類似於九十年代電視的“雪花屏”),不斷去掉無關的噪點,直至保留最終目標圖像的過程。

若將訓練前數據準備過程,也囊括至模型訓練階段。則Stable Diffusion模型對版權作品的主要利用行為系“複製”與“改編”。相關行為主要體現於兩個步驟中。

其一,是準備訓練數據過程中的複制。由於LAION-5B數據庫本身並不提供版權作品副本而僅提供版權作品在線URL列表的索引,因此在訓練Stable Diffusion模型前,需要先將作為訓練數據的作品從相應網絡地址下載並存儲,以形成版權作品的副本。

其二,是對作品進行編碼後,將其輸入至“圖像信息空間”的改編。較之於對作品的直接下載與存儲,過程對作品進行了噪聲添加與編碼(壓縮),未在“圖像信息空間”“無差還原”原始版權作品,但其仍保留了作品內容中最關鍵、本質的特徵,應當認定為版權法意義上的改編。

AIGC模型輸出階段存在哪些版權侵權風險?

在內容輸出階段,通過Stable Diffusion模型生成最終圖像,首先需要先通過“Clip文本編碼器”將用戶輸入的文本對應至“圖像信息空間”的“潛在表現形式”。其次,由經過噪聲輸出訓練的“U-Net模塊”,對該潛在表現形式中添加的噪聲進行預測。再次,對該文本的潛在表現形式減去“U-Net模塊”所預測的噪聲,根據用戶的設定進行若干次“去噪”,最終得到新的圖像內容。

這一階段,對原版權作品的利用需結合最終生成內容判斷。若去噪與解碼後生成的內容,與原作品在表達上構成“實質性相似”,則落入“複製權”的規制範圍;若不構成“實質性相似”,而是在保留作品基礎表達的前提下形成了新的表達,則可能構成對原作品“改編權”的侵害。

在將討論對象放寬至整體意義上的AIGC模型,谷歌公司的研究人員Kevin P. Murphy指出:機器學習模型有時會重建輸入數據的特性,而不是反映這些數據的潛在趨勢。此類模型可以視為生成作品的概率模型,落入原作“複製品”或“衍生作品”的寬泛定義,存在侵犯“複製權”與“改編權”的風險。[6]

此外,依據Stable Diffusion官方網站的聲明,Stable Diffusion生成的新內容會以“CC0 1.0通用協議”的方式呈現於互聯網環境中,“完全開源”。[7]從版權法來看,根據上述傳播生成內容的方式是交互式或非交互式,即是否能使公眾在自行選定的時間和地點獲取,還可能分別落入“信息網絡傳播權”與“廣播權”(網絡直播)的規制範疇。

AIGC版權侵權是小概率事件?

有觀點認為,AIGC輸出內容侵犯版權是極小概率的事件,因為在數以億計的訓練數據前擔憂生成結果與某一張或某幾張作品相似,似乎過於“杞人憂天”。如英國薩塞克斯大學的Andrés Guadamuz教授便指出,“經過訓練的機器模型,最終通常會產生與原始圖像不同的新圖像”。[8]

然而,在最新一項以Stable Diffusion等AI擴散生成模型為研究對象的實驗中,馬里蘭大學和紐約大學的聯合研究團隊指出:利用Stable Diffusion模型生成的內容與數據集作品相似度超過50%的可能性達到了1.88%,鑑於龐大的用戶使用量,令人無法忽略這其中侵權問題的存在。

研究人員表示,由於該項實驗中對複制(版權作品)的檢索,僅涵蓋訓練數據中心化的1200萬張圖像(佔訓練數據集整體很小一部分),再加之有較大概率存在檢索方法無法識別的複制內容等因素,該實驗的結果實際上會低估了Stable Diffusion的侵權複製量。[9]由此可見,AIGC模型作品侵權風險不能為各界所忽視。

AIGC能否構成“合理使用”免責?

在美國,雖然在合理使用認定標准上相較於其他國家更為靈活,更傾向於鼓勵作品二次利用,但AIGC模型對於訓練數據中作品的使用也難謂完全合法。 “Stable Diffusion案”後,很多美國學者和律師認為,結合美國版權法上的“四要素分析法”[10],很難將AIGC對於作品的使用納入合理使用的範疇。

一方面,Stable Diffusion生成的絕大部分內容並未在原作品的基礎上增加新的表達形式,產生區別於原作品的新功能或價值,不符合“轉換性使用”的要求。另一方面,在版權作品授權許可市場已經十分成熟的背景下,AIGC生成的內容很大程度上擠壓與替代了被利用作品的原有市場。

在我國,現行《著作權法》關於合理使用的規定,能適用於AIGC數據訓練的情形主要有三:“個人使用”“適當引用”以及“科學研究”。[11]“個人使用”適用目的存在嚴格限制,而目前AIGC模型最終落腳於對不特定主體的商業性服務,難以與之契合;“適當引用”的適用前提“為介紹、評測說明某一作品”或“說明某一問題”,AIGC模型商業化領域的應用顯然難以歸於此類;“科學研究”對作品的利用限定在“學校課堂教學或者科學研究”,同時還強調僅能“少量複製”,AIGC模型大量複製與利用作品的現狀無法滿足該項要求。

傳統的作品“授權利用模式”是否適用?

國內學者曾形像地將AIGC模型與海量訓練數據的關係,比喻為“孩子”與“母乳”。[12]人工智能技術的發展與提升必須以體量龐大的數據供給為前提,而被提供的數據中不可避免地包括受版權保護的作品。若嚴格遵循現行《著作權法》,則人工智能合法獲取與利用作品的方式似乎僅剩傳統的“授權許可模式”。但對於AIGC內容生產而言,既有的授權許可模式又存在天然的適用困境。

一方面,授權許可模式可能造成AIGC研發的“寒蟬效應”。在面臨版權作品高昂的授權許可費用時,AIGC研發主體往往面臨兩種選擇:一是,放棄AIGC領域,進而轉向其他行業;二是,堅守AIGC領域,但使用免費數據進行訓練。然而,前者無疑阻礙了人工智能技術和產業發展的趨勢,與科技進步規律相違背;後者則可能因訓練數據的不足,而引發算法模型偏見等不良後果。

另一方面,授權許可模式在實操層面存在難以落地的問題。 AIGC模型所需的訓練數據中包含的作品數量眾多、來源各異、權屬不同,若採用事先授權許可的方式則:首先,需要精準地將受保護的作品從海量數據中進行分離、提取;其次,再找到每一部版權作品對應的權利人與之協商授權,並支付價格不一的授權費用。上述過程漫長且複雜,很難落地執行。

此外,AIGC數據訓練對作品數量的需求遠超出著作權集體管理組織所能調控與規制的範疇,集體管理組織製度同樣面臨適用的“失靈”。不可否認,當前通過Stable Diffusion等AIGC模型生成的結果存在侵權風險,但可以預想隨著AI算法的不斷改進優化與訓練數據的倍數增長,單個版權作品在這一過程中的價值將被“沖淡”,生成結果的侵權概率也將隨之進一步降低。

國內思考:更加關注AI模型訓練中的版權問題

雖然國內目前尚未出現類似於“Chat GPT”和“Stable Diffusion”般的現象級應用,但AIGC領域的侵權訴訟也已出現。關注度較高的兩個案件分別是2018年的“菲林訴百度案”和2019年的“騰訊訴盈訊案”。但上述案件涉及更多的是AIGC“小模型時代”,對於特定領域(法律、財經)內容的生成和輸出,模型訓練數據需求量仍較低。特定專業數據庫和公開信息即可滿足,不完全等同於當下AIGC“大模型時代”多類型、多領域海量數據的訓練要求。

“菲林訴百度案”涉及,在享有合法授權的“科威先行數據庫”基礎上生成輸出的內容;“騰訊訴盈訊案”涉及,在“股市歷史和實時數據”這類不受版權法保護的事實信息的基礎上生成和輸出的內容。各界的關注點,也多停留在AIGC輸出內容“是否構成作品”以及“權利歸屬何方”。但隨著國內AIGC技術的應用與發展,AIGC模型訓練和構建中的版權保護也需要保持重視。

國內重點科技企業和科研機構已經在AIGC領域完成技術、產業佈局。在全球超千億參數的大模型中,中國企業或機構佔1/3,比如過去幾年國內相繼推出了百度文心大模型、騰訊混元大模型等。而我國發展人工智能具有的海量數據、豐富場景和用戶基礎,正是未來AIGC“大模型時代”發展和競爭的有力優勢。

如何破局:AIGC內容生產模式的版權治理探索

思考(一):可否增加新的“合理使用”情形?

在規則層面,2018年日本《著作權法》修訂中增加了“靈活的權利限制條款”,為AIGC技術爬取與利用版權作品創造了條件。新條款規定,如果互聯網公司對作品的使用“不侵害著作權所有者利益”或者“對所有權的損害程度輕微”,則可不經權利人許可而直接使用。歐盟則於2019年正式通過《單一數字市場版權指令》,創設文本與數據挖礦(TDM)的例外,支持數據科學和人工智能的發展。但如果權利人以適當的方式明確保留對作品或其他客體的使用,則不適用該例外。

日本與歐盟在這一領域的做法,為當前AIGC版權侵權治理提供了一個可供參考的路徑。整體來看,日本傾向於從結果出發具體認定AIGC技術利用版權作品是否合法,最終還是需要落腳到具體個案的分析;而歐盟則主張保障版權人事前選擇權利以避免侵權的發生,強調數據的開發利用不得侵害權利人的利益。

思考(二):可否搭建有效的“作品退出機制”?

在實操層面,據報導,Stability AI公司近期表示將修改《用戶協議》中“數據庫不得加入或退出”的規定,允許權利人從後續發布的Stable Diffusion 3.0的訓練數據中心化刪除自己的作品。版權人可在“Have I Been Trained”網站上找到自己的作品,選擇退出數據訓練集。[13]具言之,在將版權作品納入AIGC模型訓練數據庫前,給予版權人一定的期限,自由選擇是否從訓練數據庫中將其版權作品刪除。若版權人在規定期限內提出反對意見,則應當尊重其意願,刪除相關作品;若伴權人未提出反對意見,則默認允許作品用於數據訓練。

需要指出的是,在將版權作品上傳至網絡空間時已做出明確禁止使用聲明的版權人同樣應當視為“提出反對意見”的主體。在退出機制的具體建構上,應當盡可能保證版權人的知情權與選擇權。在AIGC模型訓練前,要及時通過各類渠道發布其訓練數據庫的搭建信息,並在技術上為版權人提供便利的作品查詢與檢索機制,保證有可靠的渠道了解到版權作品是否被納入至相關數據庫。

思考(三):可否優化AIGC模型的版權保護機制?

在技術層面,優化與完善模型設計,也是AIGC避免版權侵權風險的重要途徑。來自倫敦瑪麗女王大學的研究團隊指出,AIGC模型在創新能力方面存在固有的限制,無法以創造性的方式與訓練數據保持差異。為了解決這些局限性,可通過對AIGC模型的優化與重寫,使其主動偏離訓練數據。[14]此種“偏離”作用於生成結果上,能在一定程度上避免對原版權作品的侵權。

目前,鑑於AIGC生成內容是否構成版權法上的作品加以保護,仍處於探討之中,未有定論。有必要通過外部檢測技術或者完善AIGC模型標註機制,對AIGC內容進行打標,和自然人創作的內容加以區分,防止後續可能涉及的版權法律風險及應對處理。 2023年2月1日,Open AI宣布推出名為“AI Text Classifier”的文本檢測器,來輔助辨別文本到底是人類撰寫還是AI生成。雖然目前這項技術的準確度仍有待提升,但可以通過機器學習自動優化,代表著一種“技術自治”的發展方向。

參考資料來源:

[1]https://twitter.com/fpmarconi/status/1625867414410825728?cxt=HHwWgMC4_ZLznpAtAAAA.

[2]https://edition.cnn.com/2022/10/21/tech/artists-ai-images/index.html

[3]See UNITED STATES DISTRICT COURT NORTHERN DISTRICT OF CALIFORNIA SAN FRANCISCO DIVISION,Page3-4.

[4]需指出,LAION-5B數據庫並非直接提供圖像數據,而僅提供圖像和對應文本的在線URL列表的索引。為獲取圖像數據和文本間的對應度,LAION-5B首先會下載圖像,但在數據訓練完後會進行刪除.

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts