約翰霍普金斯大學和杜克大學的研究人員發現了領先的人工智慧模型中的一個令人擔憂的缺陷,包括Stability AI 的Stable Diffusion 和OpenAI 的DALL-E 2。這個被稱為「SneakyPrompt」的缺陷使得能夠操縱這些模型生成露骨和暴力的內容,繞過開發人員設定的安全過濾器和策略。
這項研究將於IEEE 安全與隱私研討會上發表,揭示了生成式人工智慧模型可以輕鬆地被迫創建露骨和有害的圖像。 SneakyPrompt 利用強化學習來製作看似無意義的提示,當輸入模型時,會導致生成禁止內容。這種方法本質上是「越獄」人工智慧,繞過既定的安全措施。
揭露漏洞
Stability AI 和OpenAI 都是人工智慧領域的主要參與者,擁有強大的安全過濾器來防止創建不當內容。然而,SneakyPrompt 證明這些保護措施並非萬無一失。透過巧妙地調整提示,研究人員成功地避開了安全網,迫使模型產生明確的圖像。
SneakyPrompt 的技術涉及用看似不相關、無意義的術語替換被阻止的單詞,而人工智慧模型會以與禁止內容一致的方式解釋這些術語。例如,用“grponypui”這樣的術語替換“裸體”會產生露骨的圖像。這種語義顛覆凸顯了人工智慧模型識別有害內容能力的重大弱點。
違反開發商政策
這些研究人員的工作強調了將人工智慧模型發佈到公共領域相關的潛在風險。儘管Stability AI 和OpenAI 明確禁止將其技術用於露骨或暴力內容,但SneakyPrompt 卻暴露了現有護欄的不足。這引發了人們對安全措施是否充分以及人工智慧技術可能被濫用的擔憂。
開發商的回應
Stability AI 和OpenAI 及時獲悉了研究人員的發現。截至撰寫本文時,OpenAI 的DALL-E 2 不再根據已識別的提示產生NSFW 影像。然而,Stability AI 的Stable Diffusion 1.4(經過測試的版本)仍然容易受到SneakyPrompt 攻擊。
OpenAI 沒有對具體調查結果發表評論,而是將注意力轉向其網站上用於提高安全性的資源。另一方面,Stability AI 表示致力於與研究人員合作,增強即將推出的模型的防禦機制並防止濫用。
應對未來的威脅
研究人員承認人工智慧模型的安全威脅不斷變化。他們提出了潛在的解決方案,例如實施新的過濾器來評估單一標記而不是整個句子。另一種防禦策略是阻止包含字典中未找到的單字的提示,儘管研究揭示了這種方法的局限性。
人工智慧模型繞過安全措施的能力具有更廣泛的影響,特別是在資訊戰的背景下。正如最近的以色列與哈馬斯衝突所證明的那樣,產生與敏感事件相關的虛假內容的可能性引起了人們對人工智慧產生的錯誤訊息所造成的災難性後果的擔憂。
為人工智慧社群敲響了警鐘
研究結果敲響了人工智慧界重新評估和加強安全措施的警鐘。 SneakyPrompt 暴露的漏洞強調需要不斷改進安全過濾器,以減輕與濫用生成人工智慧技術相關的風險。
在快速發展的領域,追求強大的安全措施勢在必行,以防止人工智慧模型被惡意操縱。隨著人工智慧在各個領域繼續發揮越來越重要的作用,開發人員有責任領先潛在威脅一步,並確保其技術的道德和安全部署。
資訊來源:由0x資訊編譯自CRYPTOPOLITAN。版權歸作者Derrick Clinton所有,未經許可,不得轉載