駭客展示為訓練資料集“下毒”的工具Nightshade,可令AI 模型“輸入狗生成貓”

根據IT 之家10 月25 日報道,日前有駭客展示了一款名為Nightshade 的工具,該工具可在不破壞觀感的情況下輕微修改圖片,若有AI 模型在訓練時使用了這些被「下毒」的圖片,模型生圖結果會被毀壞。據悉,Nightshade 工具是一種專用提示詞入手的攻擊手法,號稱“手法相對目前’在提示詞中加入觸發字’的後門攻擊法更簡單”,不需要介入模型的訓練及部署等過程。駭客選擇了Stability AI 的Stable Diffusion V2、SDXL 及DeepFloyd 驗證攻擊效果。測試顯示,只需要少量「下毒樣本」就擾亂AI 模型的文生圖模型。駭客使用不到100 張經過修改的“狗的照片”,便污染了SDXL 模型已經養成的“狗”概念,使該模型在接受外界輸入“生成狗的圖片”提示後,反而生成了貓的圖片。駭客聲稱,經過Nightshade 工具「下毒」的圖片難以辨別,因為該工具主要影響訓練資料集的「特徵空間」。

Total
0
Shares
Related Posts