ChatGPT、Llama-2等大模型,能推算出你的隱私數據


原文來源:AIGC開放社區

圖片來源:由無界AI生成

ChatGPT等大語言模型的推理能力有多強?透過你發過的貼文或部分隱私數據,就能推算出你的住址、年齡、性別、職業、收入等隱私數據。

瑞士聯邦理工學院透過蒐集並手工標註了包含520個Reddit(知名論壇)用戶的個人資料真實數據集PersonalReddit,包含年齡、教育程度、性別、職業、婚姻狀況、居住地、出生地和收入等隱私數據。

然後,研究人員使用了GPT-4、Claude-2、Llama-2等9種主流大語言模型,對PersonalReddit資料集進行特定的提問和隱私資料推理。

結果顯示,這些模型可以達到85%的top-1和95.8%的top-3正確率, 僅通過分析用戶的文字內容,就能自動推斷出隱藏在文本中的多種真實隱私數據。

論文網址:https://arxiv.org/abs/2310.07298

研究人員也指出,在美國,只需要地點、性別和出生日期等少量屬性,就可以確定一半人口的確切身份。

這意味著,如果非法人員獲取了某人在網絡上發過的帖子或部分個人信息,利用大語言模型對其進行推理,可以輕鬆獲取其日常愛好、作息習慣、工作職業、家庭住址範圍等敏感隱私資料。

建構PersonalReddit資料集

研究人員建構了一個真實的Reddit使用者個人屬性資料集PersonalReddit。此資料集包含520個Reddit用戶的個人簡介,總計5814則評測。評測內容涵蓋2012年至2016年期間。

個人屬性包括使用者的年齡、教育程度、性別、職業、婚姻狀況、居住地、出生地、收入等8類。研究者透過手動標註每一個使用者簡介,來獲得準確的屬性標籤作為檢驗模型推理效果的真實資料。

資料集建構遵循以下兩個關鍵原則:

1)評測內容須真實反映網路上使用語言的特色。由於使用者主要是透過線上平台與語言模型互動,網路語料具有代表性和普適性。

2)個人屬性種類需不同種類,以反映不同隱私權保護法規的要求。現有資料集通常只包含1-2類屬性,而研究需要評估模型推斷更廣泛的個人資訊的能力。

此外,研究人員也邀請標註人員為每個屬性打分,表示標註難易程度及標註人員的確信程度。難易度從1(非常簡單)到5(非常困難)。如果屬性資訊無法直接從文本中取得,允許標註人員使用傳統搜尋引擎進行查驗。

對抗交互

考慮到越來越多的語言聊天機器人應用,研究人員還構建了一個對抗對話的場景來模擬實際互動。

開發了一個惡意的大語言模型驅動的聊天機器人,表面作用是作為一個樂於助人的旅行助手,而隱藏任務則是試圖套取用戶的個人信息如居住地、年齡和性別。

在模擬對話中,聊天機器人能夠透過似乎無害的問題來引導用戶透露相關線索,在多輪互動後準確推斷出其個人隱私資料,驗證了這種對抗方式的可行性。

測試數據

研究者選了9種主流大語言模型進行測試,包括GPT-4、Claude-2、Llama-2等。對每位使用者的所有評測內容,以特定的提示格式進行封裝,輸入到不同的語言模型中,要求模型輸出對該使用者的各項屬性的推測。

然後,將模型的推測結果與人工標註的真實數據進行比較,得到各個模型的屬性推斷準確率。

實驗結果顯示,GPT-4的整體top-1準確率達到84.6%,top-3準確率達到95.1%,幾乎匹敵專業人工標註的效果,但成本只有人工標註的1%左右。

不同模型之間也存在明顯的規模效應,參數數量越多的模型效果越好。這證明了當前領先的語言模型已經獲得了極強的從文本中推斷個人資訊的能力。

保護措施評估

研究人員也從客戶端和服務端兩方面,評估了目前的隱私資料的保護措施。在客戶端,他們測試了業內領先的文本匿名化工具進行的文本處理。

結果顯示,即使刪除了大多數個人資訊,GPT-4依然可以利用剩餘的語言特徵準確推斷出包括地點和年齡在內的隱私資料。

從服務端來看,現有商用模型並沒有針對隱私外洩進行對齊優化,目前的對策仍無法有效防範語言模型的推理。

研究一方面展示了GPT-4等大語言模型超強的推理能力,另一方面,呼籲對大語言模型隱私影響的關注不要僅限於訓練資料記憶方面,需要更廣泛的保護措施,以減輕推理帶來的隱私外洩風險。

資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載

Total
0
Shares
Related Posts