研究人員:微調大語言模型會削弱“安全性”,容易被駭客進行後門攻擊

根據IT 之家10 月16 日報道,針對用戶不同的需求,對現有的大語言模型進行修改,可提升相關模型的適用性,不過普林斯頓大學及IBM 研究院的一項研究發現,微調大語言模型,會破壞開發者為模型加入的安全性。研究人員進行了一系列實驗,結果顯示,即使完全使用良性數據,仍會弱化模型的安全性,例如以Alpaca 數據集為例,GPT-3.5 Turbo 有害率由5.5% 增加為31.8%,而Llama- 2-7b Chat 在Alpaca 的有害率從0.3% 增加到16.1%,在LLaVA-Instruct 的有害率則從0% 增加到18.8%。研究人員指出,需要微調大模型的用戶,可以透過慎重選擇訓練資料集、導入自我審核系統、使用紅隊演練測試等,避免模型的安全性被弱化。

Total
0
Shares
Related Posts