OpenAI 和微軟正面臨調查報告中心(CIR) 的一項新訴訟。 CIR 稱,OpenAI 曾利用其在Mother Jones 和Reveal 網站上發布的內容來訓練ChatGPT 的早期版本。
另請閱讀:斯嘉麗約翰遜引發爭議後,OpenAI 放棄ChatGPT 語音
原告CIR 稱,OpenAI 未經許可或承諾支付報酬就使用了其內容。 CIR 成立於1977 年,經營美國非營利雜誌《瓊斯母親》和《Reveal》播客。
CIR 起訴OpenAI 和微軟侵犯版權
調查報道中心(CIR) 於週四向紐約聯邦法院提起訴訟。該非營利組織指控OpenAI 和微軟未經許可或未支付報酬使用其內容。 CIR 表示,OpenAI 使用其內容訓練ChatGPT 違反了版權法。
CIR 執行長Monika Bauerlein 表示:“這種搭便車行為不僅不公平,而且侵犯了版權。無論是在CIR 還是在其他地方,記者的工作都是有價值的,OpenAI 和微軟都知道這一點。”
🚨[AI copyright lawsuit] 調查報道中心(@MotherJones 和@reveal 的幕後推手)起訴OpenAI 和微軟侵犯版權。引述:
「被告在未經CIR 許可或授權的情況下複製、使用、刪節和展示了CIR 的寶貴內容,並且…pic.twitter.com/SeZ0VtDOMY
— Luiza Jarovsky (@LuizaJarovsky) 2024 年 6 月 29 日
在正式的起訴書中,原告聘請了一位資料科學家來分析OpenWebText 資料庫。 OpenWebText 是WebText 的近似版本,後者是OpenAI 所建立的抓取網頁語料庫。資料科學家發現,該資料集包含17,434 個來自Mother Jones 的URL 和415 個來自Reveal 的URL。 OpenWebText 和WebText 的Mother Jones 文章數量略有不同,因為抓取過程發生在不同的日期。
原告在正式訴狀中表示,
“當他們用新聞作品填充訓練集時,被告可以選擇:尊重新聞作品,或者不尊重。被告選擇了後者”
另請閱讀:OpenAI 首席科學家Ilya Sutskever 告別
OpenAI 使用兩種演算法Dragnet 和Newspaper 來建立WebText 資料庫。 Dragnet 旨在將文章主要內容與網站的其他部分(例如頁首、頁尾、標題、作者姓名和版權聲明)分開。當OpenAI 廢棄Mother Jones 網站時,它刪除了頁腳和頁首中的所有內容。此外,ChatGPT 製造商還根據投訴刪除了版權聲明和使用條款資訊。
此外,原告聲稱微軟知道抓取的URL 包含新聞內容,但沒有作者姓名、標題和版權聲明,從而為Bing AI 和ChatGPT 侵犯版權提供了便利。
CIR 要求OpenAI 和微軟賠償其利潤以及實際或法定的損失。賠償金額為每件侵權作品至少750 美元,每項DMCA 違規行為至少2,500 美元。
OpenAI 面臨其他出版物的訴訟
這並不是第一起針對OpenAI 侵犯版權的訴訟。自2022 年底發布ChatGPT 以來,OpenAI 和微軟已經面臨來自《紐約時報》、《The Intercept》、《紐約每日新聞》和《芝加哥論壇報》等大牌的無數訴訟。
另請閱讀:員工聲稱OpenAI 和Google DeepMind 隱瞞了AI 風險
同時,一些大型出版商和網路巨頭已與OpenAI 簽署許可協議,允許其存取其檔案。其中包括《時代》雜誌、新聞集團、《金融時報》、Vox Media、美聯社、《大西洋月刊》、Stack Overflow 和Reddit。
Randa Moses 的Cryptopolitan 報告
資訊來源:由0x資訊編譯自CRYPTOPOLITAN。版權歸作者Randa Moses所有,未經許可,不得轉載