根據IT 之家1 月10 日消息,ChatGPT 開發商OpenAI 最近承認,像ChatGPT 這樣的AI 工具的開發離不開受版權保護的素材,並表示如果沒有這些素材,這些工具根本無法誕生。據報道,OpenAI 在提交給英國上議院通信和數位事務特別委員會關於大型語言模型調查的文件中做出了這一表述。 ChatGPT 和圖像生成器DALL-E 等AI 模型之所以擁有強大的能力,主要是因為它們通過海量的內容進行訓練,其中一部分是從網上公開內容抓取而來,並且並不總是經過版權持有人的許可(OpenAI 確實會獲得部分訓練內容的許可)。這種「自由奔放」的抓取方式在學術機器學習研究中由來已久,但隨著深度學習AI 模型近期走向商業化,這種做法也受到了愈加嚴厲的審查。 OpenAI 在提交給上議院的文件中寫道,「由於當前版權涵蓋了幾乎所有形式的人類表達方式,包括部落格文章、照片、論壇貼文、軟體程式碼片段和政府文件,如果不使用受版權保護的內容,就不可能訓練當今領先的人工智慧模型。」OpenAI 進一步表示,如果將訓練資料僅限於「一個世紀前」的公共領域書籍和圖畫,將無法訓練出「滿足當代公民需求」的AI 系統。