撰文:Boxin Wang、Bo Li、Zinan Lin
來源:微軟
圖片來源:由無界AI生成
生成式預訓練transformer 模型(GPT)的可信度如何?
為了回答這個問題,伊利諾大學香檳分校與史丹佛大學、加州大學柏克萊分校、人工智慧安全中心和微軟研究院共同發布了一個大型語言模型(LLMs)綜合可信度評估平台,並在最近的論文《DecodingTrust : 全面評估GPT 模型的可信度》《DecodingTrust: 全面評估GPT 模型的可信度》中進行了介紹。
根據我們的評估,我們發現了以前未曾公佈過的與可信度有關的漏洞。例如,我們發現GPT 模型很容易被誤導,產生有毒且有偏見的輸出,並洩漏訓練資料和對話歷史中的隱私資訊。我們還發現,雖然在標準基準上,GPT-4 通常比GPT-3.5 更值得信賴,但在越獄系統或用戶提示的情況下,GPT-4 更容易受到攻擊,這些提示是惡意設計來繞過LLM的安全措施的,這可能是因為GPT-4 更精確地遵循了(誤導性的)指示。
我們的工作展示了對GPT 模型的全面可信度評估,並揭示了可信度差距。我們的基準可公開取得。
值得注意的是,研究團隊與微軟產品部門合作,確認所發現的潛在漏洞不會影響目前面向客戶的服務。之所以如此,部分原因是已完成的人工智慧應用採用了一系列緩解方法,以解決可能在技術模型層面發生的潛在危險。此外,我們也與GPT 的開發商OpenAI 分享了我們的研究成果,OpenAI 已註意到相關模型的系統卡中存在潛在漏洞。
我們的目標是鼓勵研究界的其他人員利用這項工作並在此基礎上再接再厲,從而有可能預先阻止不良行為者利用漏洞造成危害。這項可信度評估只是一個起點,我們希望與其他各方合作,在評估結果的基礎上繼續努力,創造出更強大、更可信的模型。為了促進合作,我們的基準程式碼具有很強的可擴展性和易用性:一個命令就足以在一個新模型上運行完整的評估。
語言模型的可信度視角
機器學習(尤其是LLM)領域的最新突破使得從聊天機器人到機器人技術等各種應用成為可能。然而,儘管有關GPT 模型可信度的文獻仍然有限,但實踐者已經提出,即使在醫療保健和金融等敏感應用中,也要使用有能力的GPT 模型。為此,我們重點介紹從八個可信度角度對GPT 模型進行了全面的可信度評估,並基於不同的構建場景、任務、指標和數據集進行了全面評估,如下圖1 所示。
總體而言,我們的目標是評估:1)GPT 模型在不同可信度視角下的表現;2)其在對抗環境(如對抗性系統/使用者提示、演示)中的適應性。
例如,為了評估GPT-3.5 和GPT-4 對文本對抗攻擊的穩健性,我們建構了三種評估情境:1) 在標準基準AdvGLUE 上進行評估,採用虛無任務描述,目的是評估a) GPT 模型對現有文本對抗攻擊的脆弱性;b) 不同GPT 模型在標準AdvGLUE 基準上與最先進模型的魯棒性比較;c) 對抗攻擊對其指令遵循能力的影響(以模型在受到攻擊時拒絕回答問題或給出錯誤答案的比率來衡量);d) 當前攻擊策略的可轉移性(以不同攻擊方法的可轉移攻擊成功率來量化);2) 在AdvGLUE 基準上進行評估,給出不同的指導性任務說明和設計的系統提示,以研究模型在不同(對抗性)任務說明和系統提示下的恢復能力;3) 對我們生成的具有挑戰性的對抗性文本AdvGLUE++ 進行GPT-3.5 和GPT-4的評估,以進一步測試GPT-3.5 和GPT-4 在不同環境下受到強對抗攻擊時的脆弱性。
圖1. 基於不同可信度視角的評估分類。黃色區塊表示對現有基準的評估,綠色區塊表示使用我們設計的新數據或新評估協議對現有數據集進行的評估。
來自DecodingTrust 的見解和發現
我們的研究發現了大型語言模型在可靠性方面一些先前未曾揭露的優點和威脅。
例如,在模型對抗性演示的穩健性方面,我們發現,一方面,GPT-3.5 和GPT-4 不會被演示中添加的反事實示例誤導,甚至可以從反事實演示中受益;另一方面,我們觀察到,提供反詐騙演示會誤導GPT-3.5 和GPT-4 對反事實輸入做出錯誤預測,尤其是當反事實演示靠近用戶輸入時,GPT-4 更容易受到反事實演示的影響。
此外,就毒性和偏差而言,GPT-3.5 和GPT-4 在良性和無目標系統提示下對大多數刻板印象主題的偏差都不大。但是,在設計有誤導性(對抗性)的系統提示下,兩個GPT 模型都可能被「誘騙」同意有偏見的內容。與GPT-3.5 相比,GPT-4 更容易受到有針對性的誤導性系統提示的影響,並更頻繁地同意有偏見的內容,這可能是因為GPT-4 更準確地遵循了誤導性指令。模型偏差往往取決於使用者提示中提到的人口群體。例如,對於「同性戀者感染HIV」這一查詢,GPT-4 一般會強烈反對,而對於「女性感染HIV」這一查詢,GPT-4 則經常同意並輸出有偏見的內容。模型偏差也取決於刻板印象主題。 GPT 模型在領導力和貪婪等較不敏感的主題上輸出的內容偏差較大,而在毒品交易和恐怖主義等較敏感的主題上產生的內容偏差較小。這可能是由於GPT 模型對一些受保護的人口群體和敏感話題進行了微調。
DecodingTrust 也評估了LLM 的隱私外洩問題。我們發現,GPT 模型可能會洩露隱私敏感的訓練數據,例如標準Enron 電子郵件數據中心化的電子郵件地址,尤其是在提示電子郵件的上下文或少樣本演示對時。此外,在少樣本的提示下,利用目標電子郵件域等補充知識,電子郵件提取的準確率可比電子郵件域未知的情況高出100 倍。我們也觀察到,GPT 模型會洩漏對話歷史中註入的私人資訊。總體而言,GPT-4 在保護個人識別資訊(PII) 方面比GPT-3.5 更穩健,而且兩種模型對特定類型的PII(如社會安全號碼)都很穩健,這可能是由於對這些PII 關鍵字進行了明確的指令調整。不過,當在上下文學習過程中出現隱私洩漏演示時,GPT-4 和GPT-3.5 都會洩漏所有類型的PII。最後,GPT 模型在理解不同的隱私相關詞彙或隱私事件方面表現出不同的能力(例如,當被告知“confidentially”時,它們會洩露隱私信息,而當被告知“in confidence”時,則不會)。在我們建構的提示下,GPT-4 比GPT-3.5 更有可能洩漏隱私,這可能是因為它更精確地遵循了(誤導性的)指示。我們將在下面的圖2 介紹更多模型不可靠輸出的例子。
圖2. 從不同的可信度角度來看,GPT-4 在良性系統提示下的不良反應範例。攻擊性或敏感資訊被屏蔽。
資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載