根據DoNews 1 月15 日報道,Meta 近日就因使用包含大量盜版書籍的“Books3”數據集訓練其LLAM 1 和LLAM 2 模型而面臨包括喜劇演員Sarah Silverman 和作家Richard Kadrey 在內的一眾作者的集體訴訟。 Meta 雖承認使用了Books3 資料集,卻拒絕向作者支付適當的補償。 Books3 是一個包含19.5 萬本圖書、總容量近37 GB 的文本資料集,由AI 研究者Shawn Presser 於2020 年創建,旨在為改進機器學習演算法提供更好的資料來源。 Meta 也將其用於訓練自己的LLAM 模型,然而Books3 中包含大量從盜版網站Bibliotik 爬取的受版權保護作品,使得Meta 的行為面臨法律風險。 Meta 的做法並非特例。先前,《紐約時報》也因OpenAI 和微軟使用其文章訓練聊天機器人ChatGPT 而對此提起訴訟。 OpenAI 則辯稱,不使用受版權保護的材料來訓練AI 模型“幾乎不可能”,並要求法院駁回相關訴訟。 Meta 同樣否認故意侵犯版權,聲稱其使用Books3 資料集屬於合理使用範疇,無需獲得許可、署名或支付補償。