Bengio、Hinton、張亞勤等AI大佬再發聯名信：AI太危險，我們需要重新定位

原文來源：新智元

圖片來源：由無界AI生成

AI風險管理，再度被AI大佬提上了日程。

就在剛剛，一封由Bengio、Hinton、姚期智（Andrew Yao）、張亞勤等知名專家簽署的聯名信引起了許多人的注意。

這篇題為「在快速發展的時代管理人工智慧風險」的文章，也即將發表在arXiv上。

有網友稱，已經太晚了。

聯名信全文

在AI的快速發展中，本文作者對即將到來的強大AI系統的大規模風險達成了共識。他們呼籲在開發這些系統之前，採取緊急治理措施，並在AI研發中向安全和道德實踐進行重大轉變。

2019年，GPT-2能力很有限，還無法可靠地數到10。

僅僅4年後，深度學習系統就可以編寫軟體，按需產生逼真的場景，對知識性主題提供建議，並結合語言和影像處理來控制機器人。

隨著AI開發者擴大這些系統的規模，一些未預見的能力和行為，會在沒有明確編程的情況下自發性地出現。

AI的發展太過迅速，已經遠遠超出人們的預期。而AI進步的速度，可能會再次讓我們感到驚訝。

目前的深度學習系統仍然缺乏重要的能力，我們不知道需要多長時間才能開發它們。

然而，科技公司正在競相開發AGI系，以匹配或超越人類在大多數認知工作方面的能力。

他們正在迅速部署更多資源，並開發新技術來提高AI的能力。

AI本身的進步也可以加速開發進，如用AI助理自動化程式設計和資料收集，以進一步改進AI系統。

我們沒有理由認為，AI的進步會在達到人類智力時停止。事實上，AI已經在蛋白質折疊或策略遊戲等細分領域超越了人類。

與人類相比，AI系統可以更快地行動，學習更多知識，並以更高的頻寬進行溝通。

此外，它們可以透過使用大量的運算資源進行擴展，並且可以以數以百萬計的速度複製。

AI的進步速度足以令人震驚科技公司擁有充足的現金儲備，可以很快將最新的訓練的模型規模擴大100-1000倍。

再加上AI研發的持續成長和自動化，我們必須認真看待AGI系統在本十年或未來十年內，在許多關鍵領域超越人類能力的可能性。

這將會發生什麼？

如果管理得當、分配公平，先進的AI系統可以幫助人類治癒疾病、提高生活水平並保護我們的生態系統。 AI提供的機會是巨大的。

但是伴隨著先進的AI能力而來的是大規模的風險，目前我們無法很好地應對這些風險。

人類正在投入大量資源來使AI系統更加強大，但在安全性和減輕傷害方面的投入則要少得多。

要讓AI成為一種社會福音，我們必須重新定位。僅僅推動AI能力的發展是不夠的。

我們已經落後於重新定位AI的進度。

我們必須事先預測AI可能造成的危害和新風險，並儘早做好防範最大風險的準備，不要等到風險出現才應付。

就拿世界氣候變遷來說，等了幾十年才被承認和應對。

而對AI來說，幾十年可能太長了。

社會規模風險

AI系統可能會在越來越多的任務中迅速超越人類。

如果這些系統沒有經過仔細設計和部署，它們就會帶來一系列社會規模的風險。

它們有可能放大社會不公正，侵蝕社會穩定，削弱我們對社會基礎現實的共同理解。

它們還可能導致大規模犯罪或恐怖活動。特別是在少數強大的參與者手中，AI可能會加劇全球不平等，或促進自動化戰爭、客製化的大規模操縱和普遍監控。

隨著公司正在開發自主的AI，其中許多風險可能很快就會被放大，並產生新的風險：這些系統可以規劃、在現實中採取行動和追求目標。

雖然目前的AI系統的自主性有限，但正在努力改變這一點例如，非自主的GPT-4模型很快就適應了瀏覽網頁，設計和執行化學實驗，並利用軟體工具，包括其他AI模型。

如果我們建構高度先進的自主AI，我們就有可能創造追求不良目標的系統。惡意行為者可能有意植入有害目標。

此外，目前沒有人知道如何可靠地將AI行為與複雜的價值觀聯繫起來。

即使是善意的開發人員也可能無意中建立追求非預期目標的AI系統——尤其是如果為了贏AI競賽，他們忽略了昂貴的安全測試和人類監督。

一旦自主AI系統追求不良的目標，被惡意行為者植入或意外植入，我們可能無法控制它們。軟體控制是一個古老且未解決的問題：電腦病毒長期以來就能繁殖並避免被偵測。

然而，AI正在駭客攻擊、社會操縱、欺騙和策略規劃等關鍵領域取得進展。先進的自主AI系統將帶來前所未有的控制挑戰。

為了推進不良的目標，未來的自主AI系統可以使用惡意策略──從人類學習或獨立開發──作為達到目的的手段。

AI系統可以獲得人類信任，獲得財務資源，影響關鍵決策者，並與人類參與者和其他AI系統結盟。

避免人為幹預，他們可以像電腦病毒一樣在全球伺服器網路中複製它們的演算法。

AI助理已經在全球範圍內共同編寫大量電腦程式碼；未來的AI系統可以插入並利用安全漏洞來控制我們通訊、媒體、銀行、供應鏈、政府背後的電腦系統。

在公開衝突中，AI系統可以使用生物武器。取得這些技術的AI只會延續現有趨勢，使軍事活動、生物研究和AI開發本身自動化。

如果AI系統以足夠的技能實施這些策略，人類將很難幹預。

最後，如果人類自願讓渡影響力，AI可能不需要謀取。隨著自治AI系統在速度和成本效益上越來越勝過人類工作者，一個兩難困境出現了。

公司、政府可能被迫廣泛部署AI系統，並裁減昂貴的人工核查AI決策的環節，否則就面臨被競爭對手超越的風險。

因此，自主AI系統可以越來越多地承擔關鍵的社會角色。

如果沒有足夠的謹慎，我們可能不可逆轉地失去對自主AI系統的控制，導致人類幹預無效。

大規模網路犯罪、社會操縱和其他突出的危害可能會迅速升級。這種不受控制的AI進步可能最終導致大規模生命和生物圈損失，以及人類邊緣化甚至滅絕。

假訊息和演算法歧視等危害今天已經很明顯了，其他危害正有萌芽的跡象。

應對正在發生的危害和預測新出現的風險至關重要。這不是一個非此即彼的問題。目前和新出現的風險通常有相似的機制、模式和解決方案。投資治理框架和AI安全將在多個方面取得成果。

一條前進路

如果今天開發出先進的自主AI系統，我們將不知道如何讓它們變得安全，也不知道如何正確測試它們的安全性。

即使我們這樣做了，政府也缺乏防止濫用和維護安全實踐的機構。

然而，這並不意味著沒有可行的前進道路。

為了確保正面的結果，我們可以也必須在AI安全和倫理方面取得研究突破，並迅速建立有效的政府監督。

重新定位技術研發

我們需要研究突破，來解決當今在創建具有安全和道德目標的AI方面的一些技術挑戰。

其中一些挑戰不太可能透過簡單地提高AI系統的能力來解決，這包括：

– 監督與誠實：更強大的AI系統能夠更好地利用監督和測試中的弱點，例如，產生虛假但令人信服的輸出

– 穩健性：AI系統在新情境下的行為無法預測（在分佈轉移或對抗性輸入情境下）

– 可解釋性：AI決策是不透明的。到目前為止，我們只能透過反覆試驗來測試大型模型。我們需要學習了解它們的內部運作

– 風險評估：前沿AI系統發展出僅在訓練期間甚至部署後才發現的不可預見的能力，需要更好的評估來檢測危險能力。

– 應對新出現的挑戰：更強大的未來AI系統可能會表現出，我們迄今為止僅在理論模型中看到的故障模式。例如，AI系統可能會學會假裝服從，或利用我們的安全目標和關閉機制中的弱點，來推進特定目標。

鑑於利害關係，我們呼籲主要科技公司和公共投資者將至少1/3的AI研發預算，用於確保安全和道德的使用，與他們為AI能力提供的資金相當。

解決這些問題，著眼於強大的未來系統，必須成為我們領域的核心。

緊急治理措施

我們迫切需要國家機構和國際治理來執行標準，以防止魯莽行為和濫用。

從製藥到金融系統和核能，許多技術領域表明，社會既需要也有效地利用治理來降低風險。

然而，目前還沒有類似的AI治理架構。

沒有這些框架，公司和國家為了獲得競爭優勢，可能會在犧牲安全性的同時提升AI能力，或將關鍵的社會角色交給幾乎沒有人類監督的AI系統。

就像製造商將廢物排放到河流中以降低成本一樣，他們可能會試圖獲得AI發展的回報，同時讓社會來處理後果。

為了跟上快速進展，避免僵化的法律，國家機構需要強大的技術專長和快速行動的權威。為了因應國際競爭動態，他們需要促成國際協議和夥伴關係的能力。

為了保護低風險使用和學術研究，他們應該避免為小型和可預測的AI模型設置過度的官僚障礙。

最迫切的審查應該是前沿的AI系統：少數最強大的AI系統——在價值數十億美元的超級電腦上訓練——將具有最危險和最不可預測的能力。

為了實現有效監管，政府迫切需要對AI發展的全面洞察。監管者應該要求模型註冊、舉報人保護、事件報告以及對模型開發和超級電腦使用的監控。

監管機構還需要在部署前訪問先進的AI系統，以評估它們的危險力，例如自我複製、闖入電腦系統或使大流行病原體廣泛可取得等等。

對於有危險力的AI系統，我們需要各種治理機制的組合與風險規模相符。

監管機構應制定，取決於模型能力的國家和國際安全標準。他們還應讓前沿AI開發商和所有者對其模型造成的可以合理預見和預防的傷害承擔法律責任。

這些措施可以防止傷害，並創造急需的安全投資動力。

未來能力非凡的AI系統需要進一步的措施，例如可以規避人類控制的模型。

在足夠保護措施就緒之前，政府必須準備好對其開發頒發許可，暫停開發以應對令人擔憂的能力，強制執行訪問控制，並要求對州級黑客採取強有力的信息安全措施。

為了在法規出台之前架起橋樑，主要AI公司應該迅速制定“如果-那麼承諾”：如果在其AI系統中發現特定的紅線能力，他們將採取具體的安全措施。這些承諾不僅要詳細還要獨立審查。

AI可能是塑造本世紀的技術。

雖然AI能力正在迅速發展，但安全和治理的進展卻落後了。

為了引導AI走向正面的結果，遠離災難，我們需要重新定位。

如果我們有足夠的智慧，一條負責任的路就在那裡。

政策補充

除了以上正文內容，文中還附有政策補充的部分。

具體了解，請參考連結內容。

網址：https://managing-ai-risks.com/policy_supplement.pdf

參考資料：

https://managing-ai-risks.com/

[N] New letter from Yoshua Bengio, Geoffrey Hinton, and others: Managing AI Risks in an Era of Rapid Progress
byu/RPG-8 inMachineLearning

Bengio、Hinton、張亞勤等AI大佬再發聯名信：AI太危險，我們需要重新定位

社會規模風險

一條前進路

重新定位技術研發

緊急治理措施

加密AI興衰啟示錄：泡沫褪去，留下哪些火種？

Speciale Invest在INR 600億上支持DeepTech創業公司，專注於III類投資

FTX用戶加強訴訟，稱律師事務所Fenwick & West是其欺詐案的“關鍵”推手

跨鏈橋安全隱患剖析：28億美元損失揭示Web3基礎設施的致命弱點

特朗普一家為全球自由令牌推出15億美元的寶藏公司

XRP今日價格預測（8月12日）

策略性購買BTC火箭推動比特幣清算失衡至17,300%

比特幣的利潤率從122,000美元的高價降低； CPI報告Loom

Bengio、Hinton、張亞勤等AI大佬再發聯名信：AI太危險，我們需要重新定位

社會規模風險

一條前進路

重新定位技術研發

緊急治理措施

Related Posts