原文來源:學術頭條
圖片來源:由無界AI生成
人工智慧(AI)會讓人類滅絕嗎?
這項有關「AI 滅絕論」的爭論正變得愈發激烈。
日前,著名AI 學者吳恩達發文稱,他對AI 的最大擔憂是“AI 風險被過度鼓吹並導致開源和創新被嚴苛規定所壓制”,甚至談到“某些人傳播(AI 滅絕人類的)恐懼,只是為了搞錢」。
這一言論,引發了包括吳恩達、圖靈獎得主Geoffrey Hinton、Yoshua Bengio、Yann LeCun 和Google DeepMind 首席執行官Demis Hassabis 等人的“在線battle”。
Yann LeCun 同意吳恩達的觀點,認為AI 的進展遠未構成對人類的威脅,並稱「天天鼓吹這些言論,就是在給那些遊說禁止開放AI 研究技術的人提供彈藥」。
Demis Hassabis 則認為,“這不是恐嚇。如果不從現在就開始討論通用人工智能(AGI)的風險,後果可能會很嚴重。我不認為我們會想在危險爆發之前才開始做防範。”
除了在X 上發文回應,Geoffrey Hinton 甚至聯合Yoshua Bengio 以及全球眾多專家學者發表了一篇題為《在快速發展的時代管理人工智慧風險》(Managing AI Risks in an Era of Rapid Progress)的共識論文。
他們表示,AI 可能導致社會不公、不穩定、減弱共同理解,助長犯罪和恐怖活動,加劇全球不平等;人類可能無法控制自主AI 系統,對駭客攻擊、社會操縱、欺騙和策略規劃等領域構成威脅;AI 技術的發展可能自動化軍事活動和生物研究,使用自主武器或生物武器;AI 系統還有可能被廣泛部署,代替人工決策,在社會中扮演重要角色。
此外,他們也表示,如果AI 技術管理得當、分配公平,先進的AI 系統可以幫助人類治癒疾病、提高生活水平、保護生態系統。
在這場爭論的背後,涉及到一個被業內頻頻提及的「關鍵字」——AI 對齊(AI Alignment)。
那麼,AI 對齊是否是一種可行的減緩人類擔憂的方法?又該如何做?
AI 對齊的“四大原則”
近日,來自北京大學、劍橋大學、卡內基美隆大學、香港科技大學和南加州大學的研究團隊,共同發布了一篇調查論文,深入探討了「AI 對齊」的核心概念、目標、方法和實踐。
根據論文描述,AI 對齊指的是確保AI 追求與人類價值相符的目標,確保AI 以對人類和社會有益的方式行事,不對人類的價值和權利造成乾擾和傷害。 AI 對齊的關鍵目標為四個原則:
穩健性(Robustness):穩健性要求系統的穩定性需要在各種環境中得到保證; 可解釋性(Interpretability):可解釋性要求系統的操作和決策過程應清晰且可理解; 可控性(Controllability):可控性要求系統應在人類的指導和控制下; 道德性(Ethicality):道德性要求系統應遵守社會的規範和價值觀。
這四個原則指導了AI 系統與人類意圖和價值的對齊。它們本身並不是最終目標,而是為了對齊服務的中間目標。
另外,該研究將當前對齊研究分解為兩個關鍵組成部分:前向對齊和後向對齊。前者旨在透過對齊訓練使AI 系統對齊,而後者旨在獲取有關係統對齊的證據,並適當地管理它們,從而避免加劇對齊不當的風險。前向對齊和後向對齊形成一個循環過程,其中透過前向過程的AI 系統的對齊在後向過程中得到驗證,同時為下一輪的前向對齊提供更新的目標。
圖|對齊循環
在前向對齊和後向對齊中,研究共討論了四種AI 對齊的方法和實踐。
1.從回饋中學習(Learning from feedback)
從回饋中學習(Learning from feedback)涉及到一個問題,即在對齊訓練期間,我們如何提供和使用回饋來影響已訓練AI 系統的行為?它假定了一個輸入-行為對,並只關心如何在這個對上提供和使用回饋。
圖|從回饋中學習過程的概覽
在大型語言模型(LLMs)的背景下,一個典型的解決方案是基於人類回饋的強化學習(RLHF),其中人類評估者透過比較聊天模型的不同答案來提供回饋,然後使用強化學習根據已訓練的獎勵模型來利用這個回饋。
儘管RLHF 很受歡迎,但它面臨著許多挑戰。一個重要的挑戰是可擴展監督,即如何在人類評估者難以理解和評估AI 系統行為的複雜情境中,為超越人類能力的AI 系統提供高品質的回饋。另一個挑戰是如何提供關於道德性的回饋,這個問題是透過機器倫理的方法來解決的。在倫理方面,不對齊也可能源自於忽略價值觀中的關鍵變化維度,例如在回饋資料中代表某些人口群體不足。還有一些工作結合回饋機制與社會選擇方法,以產生更合理和公平的偏好總和。
2.分佈轉移下的學習(Learning under Distribution Shift)
分佈轉移下的學習(Learning under Distribution Shift)與從回饋中學習形成對照,它專注於輸入分佈發生變化的情況,即分佈轉移發生的地方。更具體地說,它專注於在分佈轉移下保持對齊性質(即與人的意圖和價值保持一致),而非模型的能力。
圖|分佈轉移下的學習概覽
與分佈轉移相關的一個挑戰是目標誤泛化,即在訓練分佈下,AI 系統的預期目標(例如,遵循人類的真實意圖)與其他不對齊的目標(例如,無論手段如何,都獲得人類批准)難以區分。系統學習了後者,導致部署分佈中出現不對齊的行為。另一個相關挑戰是自我誘導的分佈轉移(ADS),其中AI 系統改變其輸入分佈以最大化獎勵。目標誤泛化和ADS 都與AI 系統中的欺騙行為和操縱行為緊密相關,可能是它們的原因。
解決分佈轉移的干預方法包括演算法幹預,改變訓練過程以提高在其他分佈下的可靠性,以及資料分佈幹預,擴展訓練分佈以減小訓練和部署分佈之間的差距。前者包括Risk Extrapolation(REx)和Connectivity-based Fine-tuning(CBFT)等方法。後者包括對抗性訓練,透過對抗輸入擴展訓練分佈,以及協同訓練,旨在解決單一代理和多代理環境之間的分佈差距。
3.保證(Assurance)
保證(Assurance)指一旦一個AI 系統經過前向對齊,我們仍然需要在部署之前對其對齊性感到有信心。這就是Assurance 的作用:評估已訓練AI 系統的對齊性。
圖|在Assurance 領域的研究方向、技術與應用組織
保證的方法包括安全性評估以及更高級的方法,例如可解釋性技術和紅隊測。保證的範圍還包括驗證系統與人的價值觀的對齊性,包括專注於可證明合作性和道德性的正式理論,以及各種經驗性和實驗性方法。
保證貫穿AI 系統的整個生命週期,包括在訓練之前、訓練過程中、訓練之後和部署後,而不僅僅是在訓練之後。
4.治理(Governance)
治理(Governance)單獨無法提供對系統的實際對齊性完全的信心,因為它沒有考慮到現實世界的複雜性。這需要針對AI 系統的治理努力,並專注於它們的對齊性和安全性,涵蓋系統的整個生命週期。
圖|分析目前AI 治理的框架
AI 治理需要多方利害關係人參與,包括政府法規、實驗室的自我治理以及審計等第三方實踐。另外,AI 治理也應關註一些開放性問題,包括開源治理的迫切挑戰(開源模型的治理以及是否將高度能力模型開源的問題),以及國際協調在AI 治理中的重要性。除了政策研究,公共部門和私部門也應採取關鍵行動。
這是一個全球普遍關注的議題
目前,生成式AI 的倫理和安全治理已成為全球AI 領域普遍關注的議題,各大科技企業紛紛提出了自己的理念,並採取了實際行動。
今年7 月,OpenAI 宣布成立了一個新的超級對齊團隊(Superalignment),並動用公司20% 的運算資源來應對AI 失控問題。該團隊的使命是發展一種自動對齊研究員(automated alignment researcher)系統,首先進行訓練以達到大致與人類水平的AI 研究者,然後利用大規模的計算資源進行快速迭代,最終實現AI 的自我監管。
今年9 月,Anthropic 發布了負責任的擴展政策(Responsible Scaling Policy,RSP),該政策採用了一系列技術和組織協議,旨在幫助管理日益強大的AI 系統開發所帶來的風險。
此外,Google DeepMind 的政策團隊先前提出了一個模型,該模型考慮了AI 系統對人類社會的潛在風險。除了關注模型本身存在的技術性風險,還需要關注由技術濫用所帶來的風險。
另外,OpenAI、Anthropic、微軟、Google也發起成立了一個新的產業組織「前沿模型論壇」(Frontier Model Forum),確保「安全地、負責任地」開發部署前沿AI 模型。
值得注意的是,除了科技公司,各國政府和組織也積極尋找對策,參與全球AI 治理。
在國際範圍內,歐盟引入了《人工智慧法案》,採用基於風險的方法,對不同程度的AI 進行監管要求。美國則發布了一系列自願性標準,如《AI風險管理框架》和《AI權利法案藍圖》,重點強調AI 的創新和發展,傾向於採用組織自願遵守的指南、框架或標準等方式進行AI 應用的軟治理。
國內方面,中國發布了《生成式人工智慧服務管理暫行辦法》,堅持發展與安全並重的原則,鼓勵創新與治理相結合,實施了包容審慎和分類分級的監管措施,旨在提高監管的高效性、精確性和敏捷性。
本月初,全球首屆AI 安全高峰會在英國召開,聚集了來自100 名各國政府官員、AI 企業代表和專家,共同探討了AI 可能帶來的風險。 28 個國家和歐盟一同達成了《布萊切利宣言》,旨在推動全球在AI 安全領域的合作。
面向未來,對生成式AI 的有效監管與治理,離不開政府、企業、產業組織、學術團體、使用者、社會大眾等多元主體的共同參與,需要更好發揮多方共治的合力作用,推進實踐「負責任人工智慧」(responsible AI)的理念,打造安全可信的生成式AI 應用和負責任的AI 生態。
未來,實現對生成式AI 的有效監管和治理需要政府、企業、產業組織、學術界以及社會大眾等多方共同參與,積極實踐「負責任人工智慧」理念,以建構安全可信的生成式AI應用和負責任的AI 生態系統。
最後,引用馬斯克在全球首屆AI 安全高峰會的發言,強調「AI對齊」的重要性:
「總體而言,AI 很有可能會產生積極的影響,並創造一個富饒的未來,那時,商品和服務將不再稀缺。但這多少有點像魔法精靈,如果你有一個可以實現所有願望的魔法精靈,通常這些故事的結局都不會太好,小心你許下的願望。”
參考連結:
https://arxiv.org/abs/2310.19852
https://arxiv.org/abs/2310.17688
https://36kr.com/p/2469833834666113
資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載