反芻的「美國派」為GenAI 版權主張增添了酸味


唐·麥克萊恩總是不得不分享“美國派”。自1971 年發行以來,這首熱門歌曲已重新出現在麥當娜的翻唱、怪異阿爾·揚科維奇的模仿、韓國總統的小夜曲、漫威電影的次要情節,甚至中央情報局的酷刑技巧中。但如今,麥克林的主要模仿者甚至不是人類。

你可以親自審問罪魁禍首。只需載入OpenAI 的ChatGPT 並提示文字產生器「為一首關於音樂消亡的日子的歌曲寫下歌詞」。工具的輸出總是會吐出「美國派」的歌詞或主題,有時還會吐出相同的副歌。

儘管提示沒有訂購《美國派》或它的靈感故事——1959 年搖滾先驅巴迪·霍利(Buddy Holly)、里奇·瓦倫斯(Ritchie Valens) 和大波普(The Big Bopper) 遇難的飛機失事,但這種反流還是出現了。

這進一步證明ChatGPT 無法創造任何真正原創的東西。相反,該系統更接近混音演算法。真正的創造力在於其訓練數據,這些數據是未經同意從網路上抓取的。

伯明翰大學的人工智慧專家Max Little 博士將該工具描述為「侵權機器」。他對任何關於大型語言模型(LLM)具有獨立創造力的說法都嗤之以鼻。

「事實並非如此,因為如果沒有經過天文數字量的文字訓練,他們根本無法產生任何東西,」利特爾告訴TNW。

這是生成人工智慧中普遍存在的一種方法。嚴格的研究表明,法學碩士可以反思大量的原始訓練文本,包括書籍和詩歌中的逐字段落。就在上週,一份報告發現OpenAI 的GPT-3.5 輸出中有60% 有抄襲行為。

該問題也不僅僅適用於文字產生器。從Stable Diffusion 的圖像到Google Lyria 的音樂和GitHub Copilot 的程式碼,跨模式的GenAI 工具可以產生令人驚嘆的品質和令人毛骨悚然的熟悉感。

他們的模仿對創意產業構成了生存威脅。這也對GenAI 產業構成了威脅。

OpenAI 反芻《美國派》歌詞的螢幕截圖。

公平培訓

藝術家們表示,GenAI 的無情進軍正在踐踏他們的版權慣例。毫不奇怪,科技公司不同意。他們的辯護通常援引「合理使用」原則。

細節因司法管轄區而異,但「合理使用」的核心原則是輸出具有「變革性」目的和特徵。他們不僅僅是複製或複製他們的訓練數據,而是添加了一些新的、重要的東西。至少,這就是GenAI 領導人在法庭上爭論的內容。

影像產生器Stable Diffusion 背後的英國新創公司Stability AI 去年向美國版權局提出了這個論點。 OpenAI 在最近一項駁回兩起集體訴訟的動議中也引用了這項原則。

包括喜劇演員莎拉·西爾弗曼(Sarah Silverman) 和加拿大小說家莫娜·阿瓦德(Mona Awad) 在內的幾位作家已起訴該公司,稱該公司涉嫌使用非法獲取的數據集對法學碩士進行訓練。

由於他們的作品被納入ChatGPT,他們表示該工具本身是受版權保護的「衍生作品」。

OpenAI 拒絕了這個說法。該新創公司的法律團隊表示,「創新者以變革性方式使用受版權保護的資料並不侵犯版權。」法官也駁回了關於每個ChatGPT 輸出都是衍生性商品的指控。

但當輸出與訓練資料相同時,合法水域就開始變得混濁。繁殖是轉化的一個可疑的基礎。這也是一個普遍現象。

與《美國派》一樣,GenAI 工具也重現了電影場景、卡通人物、電玩遊戲、產品設計和程式碼。

他們也抄襲報紙——這可能會導致一個轉折點。

“變革性的自然”,我的眼睛,@OpenAI。 @迪士尼不會那樣看。 https://t.co/t0A0lfM6f9 pic.twitter.com/0XX51yQjN2

— 加里·馬庫斯@ AAAI 2024 (@GaryMarcus) 2023 年12 月29 日

合法副本

去年12 月,《紐約時報》起訴OpenAI 及其商業夥伴微軟。該新聞媒體聲稱,未經授權在訓練資料中使用其文章侵犯了智慧財產權(IP)。法律專家將該訴訟描述為「迄今為止指控生成式人工智慧侵犯版權的最佳案例」。

《紐約時報》的律師強調了該媒體的內容與ChatGPT 輸出之間的「實質相似性」。為了證實這項說法,他們提供了100 個機器人複製報紙報導的範例。

他們在投訴中表示:“在每種情況下,我們都觀察到GPT-4 的輸出包含與《紐約時報》文章的實際文本相同的大跨度。”

他們的訴訟也挑戰了「合理使用」的另一個關鍵面向:對原創作品市場的影響。

生成式AI 反芻訓練資料的範例,在OpenAI 產生的精確副本旁邊顯示《紐約時報》的原始文章文本

原告稱,OpenAI 不僅複製《紐約時報》的內容,還利用這些內容在同一市場競爭。同時,該公司將流量從報紙網站轉移出去。

作為證據,他們指出了Bing 瀏覽,這是一項由ChatGPT 背後的相同技術提供支援的高級功能。此工具可總結《紐約時報》評測者提出的產品推薦。律師表示,透過向用戶提供這些信息,OpenAI 消除了他們訪問原始文章的動機。這也意味著他們不會點擊為發布商帶來收入的產品連結。

訴狀宣稱:“在不付費的情況下使用《紐約時報》的內容來創造替代《紐約時報》並搶走觀眾的產品,這並沒有什麼’變革性’。”

GenAI 巨頭自然不同意。

創意衝突

OpenAI 在一篇充滿責備的部落格文章中回應了這起訴訟。該公司懷疑《紐約時報》要么“指示模型反省”,要么“從多次嘗試中挑選了他們的例子”。

業內人士對此表示贊同。 Stability AI 首席情報官 Daniel Jeffries 將訴訟中的提示描述為「明顯被操縱」。他說,這些副本「幾乎肯定」是透過一種稱為檢索增強生成(RAG)的技術產生的,該技術透過存取外部資訊來源來優化法學碩士的輸出。

「他們冒著摧毀依賴版權的創意產業的風險。

無論採用哪種方法,OpenAI 表示反流是一種“罕見的錯誤”,該公司正在“努力將其降至零”。但批評者質疑預防機制的力量。

Little 指出ChatGPT 複製了「美國派」。

「有時,演算法會偵測到直接逐字侵犯版權,並發出警告,」他說。

「儘管如此,該演算法仍然可以輕鬆地產生明顯抄襲訓練數據的輸出,就像在這種情況下,歌詞的主題始終是Holly/Valens/Bopper 1959 年的車禍事件。”

GenAI消化不良

儘管在ChatGPT 中很少見,但反流在GenAI 工具中卻很普遍。當他們明顯複製訓練資料並在同一市場競爭時,合理使用的基礎就顯得搖搖欲墜。

智慧財產權律師事務所EIP 的執行合夥人本·馬林(Ben Maling) 正在密切關注局勢的不穩定。他警告說,訓練資料的逐字副本或衍生性商品的輸出威脅著「另一種潛在的版權侵權」。系統或最終使用者都可能對損害負責。

「許多大型人工智慧供應商都非常擔心這可能會嚇跑他們所提供的客戶 [assurances] 承諾保護他們免受侵權行為,」Maling 透過電子郵件告訴TNW。

這並不是OpenAI 擔憂的唯一證據。上個月,GenAI 旗手告訴英國國會,如果沒有受版權保護的資料,「不可能」創造像ChatGPT 這樣的人工智慧工具。為了尋求法律保護,該公司請求對這種做法給予特別豁免。

這項請求加劇了人們對反芻訓練資料的擔憂。

如果政客豁免OpenAI,那麼這家新創公司「將隨時隨地自由複製和重新混合任何和所有原始文本,」Little 說。結果,他們冒著「摧毀依賴版權而存在的創意產業」的風險。

固化逆流

GenAI 的逆流不一定是晚期。分析師為這種尷尬的痛苦開出了多種治療方法。

其中一個是由Stability AI 前音訊副總裁Ed Newton-Rex 創建的。在新創公司任職期間,Newton-Rex 開發了Stable Audio,這是一種經過許可內容訓練的音樂產生器。這位36 歲的人希望其他公司效仿他的做法。

「你可能會稍微放慢人工智慧產業的發展速度,因為他們必須花更多的時間、更多的錢和更多的精力來獲得許可,」Newton-Rex 告訴TNW。 “但坦白說,在這個過程中,你會拯救創意產業。 我認為這裡有生存威脅。”

面對這種威脅的藝術家使用了更極端的解毒劑:毒藥。

最受歡迎的交付方法是一種名為Nightshade 的工具。該軟體透過對影像進行不可見的更改來「毒害」訓練資料。當公司未經同意就竊取作品時,他們可能會破壞人工智慧模型的輸出。

事實證明,這種方法很受歡迎。上線五天內,Nightshade 的下載量就超過了25 萬次。

儘管如此,利特爾預計人工智慧將繼續吐出美國餡餅。他懷疑那些訓練有素的創意內容工具能否避免抄襲問題。 “因為按照設計,”他說,“它們只是重新混合訓練資料的演算法。”

今年TNW大會的主題之一是Ren-AI-ssance:人工智慧驅動的重生。如果您想更深入地了解人工智慧的所有內容,或者只是體驗該活動(並向我們的編輯團隊打個招呼),我們為我們的忠實讀者提供了一些特別的東西。結帳時使用代碼TNWXMEDIA,即可獲得商務通行證、投資者通行證或啟動套餐(Bootstrap 和Scaleup)30% 的折扣。

資訊來源:由0x資訊編譯自THENEXTWEB。版權歸原作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts