專訪OpenAI「紅隊」：GPT 發布前，專家都做哪些測試？

紅隊演習旨在解決人們對在社會中部署強大人工智能係統的危險的廣泛擔憂

撰文：Madhumita Murgia

來源：金融時報

在Andrew White 獲准訪問GPT-4（為流行的ChatGPT 聊天機器人提供支持的新人工智能係統）後，他利用該系統提出了一種全新的神經毒劑。

這位羅切斯特大學的化學工程教授是去年由GPT-4 背後的微軟支持的公司OpenAI 聘請來測試該系統的50 名學者和專家之一。在六個月的時間裡，“紅隊”對新模型進行“定性探測 [和] 對抗性測試”，並試圖打破它。

White 告訴《金融時報》，他曾使用GPT-4，通過“插件”為模型提供新的信息來源（如科學論文和化學品製造商目錄）提出了一種可以作為化學武器的化合物。此外，該聊天機器人甚至找到了一個製造這種化合物的地方。

“我認為它將為每個人配備一個工具，以更快、更準確地進行化學研究，他說。“但也有很大的風險，人們可以進行危險的化學實驗。現在，這種情況確實存在。 ”

這些令人震驚的發現讓OpenAI 能夠確保在上個月向公眾更廣泛地發布該技術時不會出現這種結果。

事實上，紅隊演習旨在解決人們對在社會中部署強大人工智能係統的危險的廣泛擔憂。該團隊的工作是提出探究性或危險的問題，以測試這個以詳細和細微的答案回應人類詢問的工具。

OpenAI 希望尋找模型中有害、偏見和語言偏差等問題。因此，紅隊測試了謊言、言語操縱和危險的科學知識。他們還檢查了其協助和教唆剽竊、金融犯罪和網絡攻擊等非法活動的潛力，以及它如何可能損害國家安全和戰場通信。

《金融時報》與GPT-4 紅隊的十幾位成員進行了交談。他們是一群白領專業人士，包括學者、教師、律師、風險分析師和安全研究員，主要在美國和歐洲工作。

他們的發現被反饋給OpenAI，OpenAI 在更廣泛地推出GPT-4 之前，利用這些發現來緩解並“重新訓練”GPT-4。專家們在幾個月內花了10 到40 個小時測試該模型。據多位受訪者稱，大多數受訪者的工作報酬為每小時100 美元左右。

受訪者們圍繞語言模型的快速進展有著共同的擔憂，特別是通過插件將其與外部知識來源連接的風險。

“今天，系統被凍結了，這意味著它不再學習，也沒有記憶，”GPT-4 紅隊成員、瓦倫西亞人工智能研究所的教授José Hernández-Orallo 說。 “但如果我們讓它接入互聯網呢？這可能是一個與世界相連的非常強大的系統。”

OpenAI 表示，該公司非常重視安全性，在發布前對插件進行了測試，隨著越來越多的人使用GPT-4，該公司將定期更新GPT-4。

技術和人權研究人員Roya Pakzad 使用英語和波斯語提示來測試該模型的性別化反應、種族偏好和宗教偏見，特別是關於頭飾的問題。

Pakzad 承認這種工具對非英語母語者的好處，但他發現，即使在後來的版本中，該模型也顯示了對邊緣化社區的明顯刻板印象。

她還發現，所謂的幻覺– 當聊天機器人用捏造的信息做出反應時– 在用波斯語測試該模型時更糟糕，Pakzad 發現與英語相比，波斯語中捏造的名字、數字和事件的比例更高。

她說：“我擔心語言多樣性和語言背後的文化可能會被削弱。”

Boru Gollu，一位駐內羅畢的律師，也是紅隊中唯一的非洲測試者，也注意到了該模型的歧視性語氣。 “在我測試模型的時候，有那麼一瞬間，它就像一個白人在跟我說話，”Gollu 說。 “你會問一個特定的群體，而它會給你一個帶有偏見的觀點或回答。”OpenAI 承認，GPT-4 仍然會表現出偏見。

從國家安全角度評估模型的紅隊成員對新模型的安全性有不同的看法。外交關係委員會的研究員Lauren Kahn 說，當她開始研究該技術如何被用於對軍事系統的網絡攻擊時，她說，她“沒想到會是如此詳細的指導，以至於我只要進行微調”。

然而，Kahn 和其他安全測試人員發現，在測試期間，該模型的反應變得相當安全。 OpenAI 說，它在推出GPT-4 之前就曾訓練它拒絕惡意的網絡安全請求。

紅隊的許多成員表示，OpenAI 在推出之前已經做了嚴格的安全評估。 “他們在擺脫這些系統的公開毒性方面做得非常好，”卡內基梅隆大學的語言模型毒性專家Maarten Sap 說。

Sap 研究了模型對不同性別的描述，發現這些偏見反映了社會差異。然而，Sap 也發現，OpenAI 做出了一些積極的帶有政治色彩的選擇來應對這種情況。

“我是一個同性戀者。我當時非常努力地想讓它說服我去做轉化治療。而它真的會反擊– 即使我扮演一個角色，比如說我是宗教徒或者來自美國南方。”

然而，自推出以來，OpenAI 面臨著廣泛的批評，包括一個科技道德團體向聯邦貿易委員會提出的投訴，稱GPT-4“有偏見，有欺騙性，對隱私和公共安全有風險”。

最近，該公司推出了一個被稱為ChatGPT 插件的功能，通過該功能，Expedia、OpenTable 和Instacart 等合作夥伴的應用程序可以讓ChatGPT 訪問他們的服務，從而允許其代表人類用戶預訂和訂購物品。

紅隊的人工智能安全專家Dan Hendrycks 說，插件可能會導致人類成為這個世界的“圈外人”。

他說：“如果一個聊天機器人可以在網上發布你的私人信息，訪問你的銀行賬戶，或者把警察送到你的家裡，你會怎麼想？”“總的來說，在我們讓人工智能揮舞互聯網的力量之前，我們需要進行更有力的安全評估。”

受訪者還警告說，OpenAI 不能因為其軟件已經上線就停止安全測試。在喬治敦大學安全和新興技術中心工作的Heather Frase，對GPT-4 的輔助犯罪能力進行了測試，她說，隨著越來越多的人使用這項技術，風險會繼續增加。

她說：“你之所以做操作測試，是因為一旦在真實環境中使用，事情的表現就會有所不同。”她認為，應該建立一個公共分類賬，以報告大型語言模型產生的事件，類似於網絡安全或消費者欺詐報告系統。

勞動經濟學家和研究員Sara Kingsley 建議，最好的解決方案是明確宣傳危害和風險，“像營養標籤一樣”。她說：“關鍵是要有一個框架，知道經常出現的問題是什麼，這樣你就可以有一個安全閥。”“這就是為什麼我說這項工作永遠沒有盡頭的原因。”

附：GPT-4“紅隊”受訪成員

Paul Röttger：英國牛津互聯網研究所博士生，專注於使用人工智能檢測在線仇恨言論
Anna Mills：美國馬林學院的英語教師，社區學院的寫作老師
Maarten Sap：美國卡內基梅隆大助理教授，專門研究大型語言模型輸出的毒性問題
Sara Kingsley：美國卡內基梅隆大學博士研究員，專門研究在線勞動力市場和科技對工作的影響
Boru Gollo：TripleOKlaw LLP 律師，主要研究肯尼亞人工智能機會
Andrew White：美國羅切斯特大學副教授，計算化學家，對人工智能和藥物設計感興趣
José Hernández-Orallo：西班牙瓦倫西亞理工大學人工智能研究所（VRAIN）教授，人工智能研究人員，從事人工智能軟件的評估和準確性研究
Lauren Kahn：美國對外關係委員會研究員，專注於人工智能在軍事系統中的使用
Aviv Ovadya：美國哈佛大學伯克曼克萊因互聯網與社會中心研究員，重點關注人工智能對社會和民主的影響
Nathan Labenz：美國Waymark 公司及基於人工智能的視頻編輯創業公司Waymark 的創始人
Lexin Zhou：西班牙瓦倫西亞理工大學VRAIN 學院初級研究人員，致力於使人工智能更有益於社會
Dan Hendrycks：美國加州大學伯克利分校人工智能安全中心主任，人工智能安全和減少人工智能的社會規模風險方面的專家
Roya Pakzad：致力於科技和人權的非營利組織Taraaz 的創始人
Heather Frase：美國喬治敦大學安全與新興技術中心高級研究員，專長於將人工智能用於情報目的和主要防禦系統的操作測試

展開全文打開碳鏈價值APP 查看更多精彩資訊

專訪OpenAI「紅隊」：GPT 發布前，專家都做哪些測試？

比特幣有兩名礦工攻擊51％攻擊的風險

Dogecoin（Doge）會打1美元嗎？三個鮮為人知的山寨幣首先要到達那裡

為什麼Pepe Coin和Dogwifhat的持有者在Web3 Coldbook Plauna Punauna之前選擇多樣化投資於RWA加密貨幣

Ripple提出數字資產託管四大準則，推動穩定幣與數字金融發展

金鵝寵物種植花園維基

傑克遜霍爾會議前夕，交易員押注美聯儲激進降息

以太坊模因幣Pepeto上市時預售金額突破62億美元

社會排名情況

專訪OpenAI「紅隊」：GPT 發布前，專家都做哪些測試？

Related Posts