以下是Interwork Alliancez聯合創始人John Devadoss的來賓和意見。
加密貨幣項目傾向於追逐流行語。但是,他們試圖整合生成的AI“代理”的緊迫性構成了系統性的風險。大多數加密貨幣開發人員都沒有在戰es工作中工作的好處,並哄騙前幾代基礎模型來上班。他們不明白在以前的AI冬季中發生了什麼正確的以及發生了什麼問題,也不欣賞與無法正式驗證的生成模型相關的風險的幅度。
用歐比旺·基諾比(Obi-Wan Kenobi)的話來說,這些不是您想要的AI代理商。為什麼?
當今生成的AI模型的培訓方法使他們傾向於採取欺騙性的行動,以獲得更高的獎勵,學習未對準的目標,使概括遠遠超過其培訓數據,並使用尋求權力的策略實現這些目標。
獎勵AI護理特定結果的系統(例如,得分更高或積極反饋);獎勵最大化會導致模型學會利用系統以最大程度地提高獎勵,即使這意味著“作弊”。當AI系統受到訓練以最大程度地提高獎勵時,它們傾向於學習策略,這些策略涉及控制資源並利用系統和人類中的弱點以優化其結果。
從本質上講,當今的生成AI“代理”建立在一個基礎上,這使得任何單一生成AI模型都無法確保在安全性方面保持一致的一致性,即防止意外後果;實際上,即使模型不在,模型也可能會被碰到。
偽造“對齊”和安全
AI系統中的拒絕行為是表面上設計的事前機制,旨在防止模型產生違反安全準則或其他不受歡迎行為的響應。這些機制通常使用預定義的規則和過濾器來實現,這些規則和過濾器將某些提示識別為有害。但是,實際上,迅速注射及相關的越獄攻擊使不良行為者能夠操縱模型的回應。
潛在空間是一種壓縮,較低維,數學表示,可捕獲模型訓練數據的基本模式和特徵。對於LLM,潛在空間就像該模型用於理解和組織所學知識的隱藏“心理圖”一樣。安全的一種策略涉及修改模型的參數以限制其潛在空間。但是,這僅在潛在空間內的一個或幾個特定方向上證明有效,這使該模型易受惡意參與者的進一步參數操作。
AI模型的正式驗證使用數學方法來證明或試圖證明該模型將正確地行事並在定義的範圍內。由於生成的AI模型是隨機的,因此驗證方法中心化在概率方法上。經常使用諸如蒙特卡洛模擬之類的技術,但當然,它們限於提供概率保證。
隨著邊境模型變得越來越強大,現在顯然它們表現出緊急行為,例如“偽造”與安全規則和限制的“偽造”。在這種模型中,潛在行為是尚未得到廣泛認可的研究領域。特別是,模型的欺騙性行為是研究人員不了解的領域。
非確定性的“自主權”和責任
生成的AI模型是非確定性的,因為即使給出相同的輸入,它們的輸出也會有所不同。這種不可預測性源於這些模型的概率性質,這些性質是根據可能的響應分佈而不是遵循固定的,基於規則的路徑的樣本。諸如隨機初始化,溫度設置和學習模式的嚴重複雜性等因素有助於這種可變性。結果,這些模型不會產生單個,保證的答案,而是產生許多合理的輸出之一,從而使其行為不可預測和難以完全控制。
護欄是事後安全機制,試圖確保該模型產生道德,安全,一致性和其他適當的輸出。但是,它們通常失敗,因為它們通常受到實施限制的限制範圍有限,能夠僅涵蓋某些方面或行為的子範圍。對抗性攻擊,訓練數據不足和過度擬合是使這些護欄無效的其他一些方法。
在諸如財務等敏感部門中,這些模型隨機性質引起的非確定性增加了消費者傷害的風險,使遵守監管標準和法律責任制變得複雜。此外,降低的模型透明度和解釋性阻礙了對數據保護和消費者保護法的遵守,可能會使組織面臨訴訟風險和責任問題。
那麼,他們有什麼好處?
一旦您超越了加密貨幣和傳統業務領域的“代理AI”炒作,事實證明,生成的AI代理人從根本上徹底改變了知識工作者的世界。基於知識的域是生成AI代理的最佳選擇。處理思想,概念,抽像以及可能被視為“副本”或現實世界的表示(例如,軟件和計算機代碼)的域將是最早被完全破壞的領域。
生成的AI代表了增強人類能力,提高生產力,創造力,發現和決策的變革性飛躍。但是,與數字貨幣包一起使用的自主AI代理人不僅需要在API上創建API,還需要為生成的AI模型創建外觀。
生成AI“代理”的麻煩首先出現在隱層上。
資訊來源:由0x資訊編譯自CRYPTOSLATE。版權歸作者所有,未經許可,不得轉載