谷歌研究團隊利用GPT-4 擊敗AI-Guardian 審核系統

據IT 之家8 月2 日消息,谷歌DeepMind 的研究人員Nicholas Carlini 在一篇題為“AI-Guardian 的LLM 輔助開發”的論文中,探討了使用GPT-4“設計攻擊方法、撰寫攻擊原理”的方案,並將這些方案用於欺騙AI-Guardian 的防禦機制。谷歌研究團隊表示,通過GPT-4 的幫助,他們成功地“破解”了AI-Guardian 的防禦,使該模型的精確值從98% 的降低到僅8%。目前相關技術文檔已經發佈在ArXiv 中。不過AI-Guardian 的開發者也同時指出,谷歌研究團隊的這種攻擊方法將在未來的AI-Guardian 版本中不再可用,考慮到別的模型也會隨之跟進,因此當下谷歌的這套攻擊方案更多在日後只能用於參考性質。據悉,AI-Guardian 是一種AI 審核系統,能夠檢測圖片中是否存在不當內容,及圖片本身是否被其他AI 修改過,若檢測到圖片存在上述跡象,便會提示管理員前來處理。

Total
0
Shares
Related Posts