騰訊發布大模型安全與倫理報告:以負責任AI引領大模型創新


文章來源:騰訊研究院

圖片來源:由無界AI生成

在1月24日舉辦的騰訊科技向善創新節2024「大模型安全與倫理專題論壇」上,騰訊發布了大模型安全白皮書《大模型安全與倫理研究報告2024:以負責任AI引領大模型創新》,並邀請業界專家進行圓桌研討。

白皮書由騰訊朱雀實驗室、騰訊研究院、騰訊混元大模型、清華大學深圳國際研究生院、浙江大學區塊鏈與資料安全全國重點實驗室聯合研究撰寫,對大模型發展中的安全機遇與挑戰、大模型安全框架和實踐做法、AI倫理和價值對齊進行了系統性梳理,並展望了大模型安全與倫理未來趨勢。

專家點評:

AI技術將深刻影響我們工作及生活方式,如何保障人工智慧安全是我們當前迫切的責任。要把這一理念轉變為具體的行動需要有標準的製定,健全的安全管理機制,有效的實踐經驗帶來的思路啟發等。在該報告當中,我們把過往實踐的安全增持與前沿洞察的變化融在一起,希望能夠在大模型快速發展中提供一個安全視角,探明存在的問題與挑戰,有哪些積極的應對措施,以及未來在整體安全,資料安全,監管立法,跨學合作方面尋找新的理念,為行業同仁提供一份參考。道阻且長,行則將至,讓我們一起為AI時代奮鬥,加油

——楊勇

騰訊安全平台部負責人

隨著大模型能力的不斷增強和適用範圍的延伸,其在金融、醫療、廣告、行銷等商業領域的應用,使得大模型中存在的微小安全隱患會造成巨大損害,因而大模型安全問題引起了廣泛關注。此報告從大模型的發展趨勢、面臨的機會與挑戰出發,闡明了大模型的安全框架與實踐方案,最後點明了大模型安全的未來發展趨勢。報告的敘述內容層次分明,詳盡地給出了大模型安全與倫理的研究與分析,可以作為大模型安全領域研究的重要參考。

——夏樹濤

清華大學深圳國際研究生院教授/博導

研究報告內容翔實全面,不僅介紹了大模型本身安全問題,也闡述了大模型在安全領域的應用。在此基礎上,也進一步設計了大模型安全框架建構的原則和技術路徑,並且展示了騰訊朱雀實驗室在建構大模型安全框架上的初步實踐和成果,兼顧了全面性和可操作性。該報告還對大模型的對齊與倫理等更廣義安全問題進行了闡述,清晰揭示了該領域所面臨的挑戰和未來發展趨勢。總體而言,該報告融合了學術洞察和行業實踐,兼具前瞻性和可操作性,對於大模型安全領域的發展將起到積極的推動作用。我相信不論是研究人員還是工程人員,都可以從該報告中收穫有價值的資訊。

——吳保元

香港中文大學(深圳)資料科學學院副教授

大模型安全作為新興的安全領域,多家頭部企業、安全團隊都在積極探索潛在安全問題及風險收斂的解決方案。然而,目前業界還未形成成熟完善的解決方案,仍處於探索階段。為此,我們圍繞大模型生產研發流程設計了大模型安全框架,從全局視角剖析大模型生產應用全生命中後期存在的安全風險問題,為大模型的研發及應用提供安全指導,致力於建構安全、可靠、穩定、可信的大模型應用。

騰訊發布大模型安全與倫理報告:以負責任AI引領大模型創新

大模型安全框架

把安全措施落實到具體的研發,訓練,測試,部署發布環節是提升大模型安全的行業共識,透過對大模型安全進行多個角度的測評、安全驗證分析,我們總結了以下幾方面實踐過程中的工作經驗供業界同仁參考。

(1)Prompt安全測評。我們建立了Prompt安全偵測平台,專門用於模擬攻擊者的行為,以掌握大模型在Prompt風險情境下的安全性和表現。 Prompt安全測評的目的是在大模型上線前提前自動化挖礦潛在的多種原生安全風險,並在上線過程中輔助業務進行風險收斂,從而確保大模型生成的回复內容符合《生成式人工智慧服務管理暫行辦法》等各類法規。並在此基礎上形成自動化攻擊樣本產生能力,自動化風險研判能力。

騰訊發布大模型安全與倫理報告:以負責任AI引領大模型創新

Prompt安全檢測平台

(2)紅藍對抗演習。透過多輪紅藍對抗演習,能夠對大模型安全防禦體系中的資料安全、攻擊防護、緊急應變機制進行安全有效性驗證,並協助業務在上線前發現並收斂潛在的內外網路資產安全風險。

騰訊發布大模型安全與倫理報告:以負責任AI引領大模型創新

圍繞騰訊混元大模型的四輪安全演習

(3)大模型原始碼安全防護實務。大模型原始碼保護的重要性主要體現在資產維度,研發週期維度,研發環境維度。從經驗來看,大模型研發到上線分為兩個大的階段,上線前和上線後。上線前需專注於研發環境的安全加固,主要分為客戶端加固、鏈結層加固、服務層加固以及基礎設施加固。上線後主要是營運階段,風險面主要在於對外暴露的資產,例如網頁、介面、APP、小程式等。這塊的防護主要是分為用戶客戶端加固、業務接取層安全防護兩個步驟進行。

(4)大模型基礎設施漏洞安全防護方案。在資料的收集和清洗、大模型的訓練和推理過程中,都會大量使用外部開源或自研的系統或框架以提高工作效率,這些工具成為大模型工作流程中的基礎設施。若這些效率工具存在安全漏洞,將會使得模型本身以及訓練程式碼和資料變得不安全,存在被攻擊者竊取或竄改的風險。為了確保大模型的安全生產,我們必須建立機制以提前發現和消除潛在的漏洞。

隨著AI模型的能力日益更加強大,如何讓其行為和目的跟人類的價值、偏好、倫理原則、真實意圖之間實現協調一致,這個被稱為人機價值對齊的問題變得越來越重要。價值對齊對於確保人類與人工智慧協作過程中的信任與安全至關重要,已成為AI治理領域的關鍵任務,是大模型實現穩健發展和提升競爭力的必經之路。業界和研究界積極探索實現大模型價值對齊的多種措施,包括人類回饋強化學習、可擴展監督方法、訓練資料介入、可解釋AI方法、對抗測試、治理措施等等。 TIME雜誌將美國AI公司anthropic開發的AI價值對齊技術「原則型AI」(constitutional AI)評選為2023年三大AI創新之一(另外兩個分別為多模態AI、文生視訊技術),這足以顯示價值對齊已然成為AI領域的核心方向,其重要性正越來越被認識。實際上,在大模型加速發展引發關於有效加速(e/acc)還是有效對齊(e/a)的AI技術發展理念之爭的背景下,人們需要更加負責任地發展應用人工智慧技術,而關於價值對齊的技術和治理探索將推動負責任AI走向深入,確保人類與人工智慧(包括未來的AGI)和諧共生、有效協作的美好未來。

随着我们步入一个越来越多被先进人工智能模型主导的时代,围绕安全性和伦理的关切变得更加显著。在2023年,在AI技术加速创新之外,反思AI风险和安全影响也成为了AI领域的主基调之一,甚至引发了有效加速(effective acceleration,e/acc)和有效对齐(effective alignment,e/a)两种技术发展理念之间的冲突。这种冲突并非不可调和的矛盾,而是折射出了“负责任AI”的发展理念和实践的极端重要性。实际上,AI安全和伦理已经成为了AI领域不可或缺的组成部分,对于大模型而言,其安全、伦理、人机对齐等问题之应对和解决,将需要政府、业界、学界等利益相关方进行持续的探索。总之,大模型等AI技术的未来不仅受到技术进步的影响,还受到不断发展的伦理规范、法律科技和社会期望的影响。

其一,資料安全、隱私外洩、抗攻擊能力提升等問題是現有大模型應用面臨的真實挑戰,解決這些問題的技術手段還存在一定的局限性,如數據來源驗證不足、數據加密貨幣技術的效能開銷、防禦效果與模型效能之間的權衡等。如何在確保大模型效能的同時,提高資料使用的安全性,提升隱私保護效果,防止越獄攻擊、提示注入攻擊等,這些都是亟待解決的問題,有賴於業界持續探索、總結並分享最佳實踐做法。總之,對抗性人工智慧技術與防禦策略之間的競賽將加劇,為了應對對抗性攻擊和操縱等惡意行為,模型需要被設計成更具穩健性。

其二,從整體對AI大模型的安全風險進行建模,系統化地建構安全評估系統是大模型安全領域的未來發展方向。這將最大程度地確保大模型應用是在符合社會價值與應用價值方面同步進行。目前,Anthropic已經採納並批准了模型開發應用的「負責任擴展政策」(responsible scaling policy,RSP),透過一系列的技術和組織協議來管理開發日益更加強大的AI系統的風險,其核心思路包括對AI安全等級進行建模。 OpenAI在人事鬥爭風波平息後,對其AI安全團隊做出調整,針對當前模型、前沿模型(即新一代模型)、超級智能模型分別搭建不同的安全團隊,分別是系統安全團隊、準備團隊和超級對齊團隊;並公佈了最新的模型危害等級框架,用來指導前沿模型開發中的安全性。微軟,Google則透過擴大漏洞獎勵計畫和紅隊測試(Red teaming)方式激勵研究人員發現針對人工智慧系統的攻擊場景,進而增強AI模型的安全性。

其三,增強模型透明度和可解釋性。研究模型的可解釋性,提高模型的透明度既是未來AI的發展方向,也能幫助提升AI模型的安全性。未來的人工智慧模式可能會融入更先進的XAI技術。這將涉及開發能夠為其決策提供易於理解的理由的模型,使其更加透明和值得信賴。透過解釋模型的決策過程,我們可以更好地理解模型的行為,及時發現潛在的安全隱患,並採取相應的措施進行修復。例如,LIME局部可解釋性(Local interpretable model-agnostic explanations)和SHAP(Shapley Additive Explanations)等演算法已經在提高模型可解釋性方面取得了一定的結果。而Anthropic的研究表明,可解釋性AI也是可以擴展的,並非隨著模型規模的持續擴大而變得一無是處。

其四,人機價值對齊和倫理嵌入設計(ethics by design)的概念將變得越來越重要。在談論人工智慧倫理和人工智慧倫理框架多年之後的今天,人們越來越意識到需要更務實的思路,將抽象的倫理原則轉變為具體的工程化實踐。因此,AI系統將越來越多地以倫理原則為指導進行設計,從而實現倫理嵌入設計(ethics by design)。無論是AI價值對齊還是倫理嵌入設計,都需要人們發展新的更務實的AI倫理框架及其實踐指南。同時,模型的價值對齊需要考慮不同的文化和社會價值,超越那種一刀切的想法。此外,在AI對齊領域,隨著模型能力的持續提升,未來能力更強的新一代AI模型將可能需要新的對齊技術和策略,目前主流AI企業都在積極探索如何實現對前沿AI模型甚至未來的超級智慧的有效對齊和控制。大模型未來發展對先進的安全措施的需求將越來越強烈:安全功能如故障保護和緊急停機開關,將變得更加複雜,確保模型在行為不可預測或危險時可以被控製或停用。

其五,人工智慧監管立法和國際治理合作將進一步推進。隨著大模型在各行業的廣泛應用,政府和監管機構對大模型安全和倫理的關注也在不斷加強,歐盟已經就制定全球首個人工智慧法案達成了最終的立法共識,英國政府召開全球首個AI安全高峰會並建立專門的AI安全研究所促進AI安全相關研究和工作,美國政府推出的安全、可信AI的行政命令提出AI安全相關的措施。未來立法和監管措施將為大模型安全和倫理的研究和實踐提供更進一步的指導。此外,隨著大模型的加速發展,AI安全和治理領域的國際合作將迎來新的階段,邁向更務實的方向,確保AI技術的開源開放和普惠發展,同時有效管控全球性安全風險。

最後,在大模式安全和倫理研究中,跨學科合作是一個重要趨勢。隨著大模型在各領域的應用,安全和倫理問題的複雜性也不斷提高。因此,未來大模型安全和倫理研究需要吸收多領域的知識和技術,形成跨學科的研究團隊,共同解決不斷升級的複雜安全和倫理問題,確保負責任的、安全可控的AI發展應用。

完整報告取得連結:https://mp.weixin.qq.com/s/KCWw9gBwUnzywyNW_K8-4A

Total
0
Shares
Related Posts