AI能否在加密世界中生存:18個大模型的加密試驗

來源:Empower Labs

在科技進步的編年史上,革命性技術往往獨立出現,各自引領一個時代的變革。而當兩股革命性技術相遇,它們的碰撞往往會產生指數級的影響。如今,我們正站在這樣一個歷史性時刻:人工智慧與加密技術,這兩種同樣具有顛覆性的新技術,正攜手步入舞台中央。

我們暢想AI領域的許多挑戰能夠被加密技術所解決;我們期待AI Agent建構自主經濟網絡,推動加密技術的大規模採用;我們也盼望AI能加速加密領域現有場景的發展。無數目光聚焦於此,海量資金瘋狂湧入,就如任何buzzword一樣,它凝聚了人們對創新的渴望、對未來的憧憬,也包含了難以抑制的野心與貪欲。

然而在這一片喧囂中,我們卻對最基本的問題所知甚少。 AI究竟有多懂加密領域?配備了大語言模型的Agent是否具備運用加密工具的實際能力?不同的模型在加密任務上的差異有多大?

這些問題的答案將決定AI和加密技術的相互影響力,也對這個交叉領域的產品方向和技術路線選擇至關重要。為了探究這些問題,我做了一些大語言模型的評量實驗。透過評估它們在加密領域的知識和能力,衡量AI的加密應用水平,判斷AI與加密技術融合的潛力和挑戰。

先說結論

大語言模型在密碼學和區塊鏈基礎知識方面表現卓越,對加密生態非常了解,但在數學計算和複雜業務邏輯分析上表現很差。在私鑰和基本錢包操作方面,模型有著令人滿意的基礎,但面臨如何在雲端保管私鑰的嚴峻挑戰。許多模型能夠產生簡單場景的有效智慧合約程式碼,但無法獨立執行合約審計、複雜合約創建等高難度的工作。

商業閉源模式整體有較大領先,開源陣營中僅Llama 3.1-405B表現突出,而參數規模較小的開源模式全體不及格。然而潛力是有的,透過提示詞引導、思維鏈推理和少樣本學習技術,所有模型的表現都得到了大幅提升,領先的模型在一些垂直應用場景已經具備了較強的技術可行性。

實驗細節

選擇了18個具備代表性的語言模型作為評估對象,包括:

  • 閉源模型:GPT-4o、GPT-4o Mini、Claude 3.5 Sonnet、Gemini 1.5 Pro、Grok2 beta(暫時閉源)

  • 開源模型:Llama 3.1 8B/70b/405B、Mistral Nemo 12B、DeepSeek-coder-v2、Nous-hermes2、Phi3 3.8B/14b、Gemma2 9B\27B、Command-R

  • 數學最佳化模型:Qwen2-math-72B、MathΣtral

這些模型涵蓋了主流商業和流行開源模型,參數量從3.8B到405B有超過一百倍的跨度。考慮到加密技術與數學的密切關係,實驗也特別選擇了兩個數學最佳化模型。

而實驗涵蓋的知識領域包括密碼學、區塊鏈基礎、私鑰與錢包操作、智慧合約、DAO與治理、共識和經濟模型、Dapp/DeFi/NFT、鏈上資料分析等。每個領域都由一系列由易到難的問題和任務組成,不僅測試模型的知識儲備,也透過模擬任務測試其在應用情境中的表現。

任務的設計來源多樣化,一部分來自加密領域多位專家的輸入,另一部分由AI輔助生成,並經過人工校對,以確保任務的準確性和挑戰性。其中一部分任務使用了形式較簡單的選擇題,方便單獨進行標準化的自動化測試和評分。而另一部分試驗則採用更複雜的題目形式,測試過程則由程式自動化+人工+AI結合的方式進行。所有測驗任務均採用了零樣本推理方法進行評估,不提供任何範例、思維引導或指令型提示。

由於實驗本身設計的還比較粗糙,並不具備足夠的學術嚴謹性,用來測試的問題和任務遠遠無法全面覆蓋加密領域,測試框架也不成熟。因此本文並非列舉具體的實驗數據,而是著重分享一些實驗中的洞見。

知識/概念

在評估過程中,大語言模型在加密演算法、區塊鏈基礎知識和DeFi應用等各領域的基礎知識測試中表現出色。例如在考察對資料可用性概念理解的問答題中,所有模型均給出了準確答案。而評估模型對以太坊交易結構的掌握程度的題目,儘管各模型在回答細節上略有差異,但總體上都包含了正確的關鍵信息。考察概念的選擇題則更是沒有難度,幾乎所有模型的正確率都在95%以上。

概念性問答完全難不住大模型。

計算/業務邏輯

然而當涉及需要進行具體計算的題目時情況就倒了過來。一道簡單的RSA演算法計算題就讓絕大多數模型陷入困難。這其實不難理解:大語言模型主要透過辨識和複製訓練資料中的模式來運作,而非透過深入理解數學概念的本質。這種限制在處理抽象數學概念如模運算、指數運算時尤其明顯。鑑於加密領域與數學緊密相關,這意味著直接依賴模型進行加密相關的數學計算是不可靠的。

在其他計算題目中,大語言模型的表現同樣不盡人意。例如計算AMM無常損失的簡單題目,儘管不涉及複雜數學運算,但18個模型中僅有4個給出了正確答案。而另一道更為基礎的計算出塊機率題目,竟然所有模型全部答錯了。竟然難倒了所有模型,無一算對。這不僅暴露了大語言模型在精確計算上的不足,也反映出它們在業務邏輯分析上有較大問題。值得注意的是,即便是數學最佳化模型,在計算類題目中也未能展現出明顯優勢,其表現令人失望。

然而,數學計算的問題並非無解。如果我們稍作調整,要求LLMs給予對應的Python程式碼而非直接計算結果,正確率就會大幅提高。先前述RSA計算題為例,大部分模型給出的Python程式碼都能順利執行並得出正確結果。在實際生產環境中,更可以透過提供預設的演算法程式碼來繞過LLMs自行運算的環節,這與人類在面對此類任務時的處理方式相似。而在商業邏輯層面,透過精心設計的提示詞引導,也可以有效改善模型的表現。

私鑰管理和錢包操作

如果問Agent採用加密貨幣的第一個場景是什麼,我的答案是付款。加密貨幣幾乎可以被視為AI原生的貨幣形式。相較於Agent在傳統金融體系中面臨的諸多障礙​​,利用加密技術為自身配備數位身分並透過加密錢包管理資金,是再自然不過的選擇。因此,私鑰的生成與管理、錢包的各類操作,構成了Agent能否自主使用加密網路的最基本技能要求。

安全產生私鑰的核心在於高品質的隨機數,這顯然是大語言模型並不具備的能力。不過模型對私鑰安全的認知是充分的,在被要求產生私鑰時,絕大多數模型都選擇利用程式碼(如Python的相關函式庫)來引導使用者自主產生私鑰。即便有模型直接給出了私鑰,也明確聲明這僅用於演示目的,並非可直接使用的安全私鑰。在這方面,所有大模型都展現了令人滿意的表現。

私鑰管理則面臨一些挑戰,主要源自於技術架構的固有限制,而非模型能力的不足。使用本地部署的模型時,產生的私鑰可被視為相對安全。然而如果使用的是商業雲端模型,我們必須假設私鑰在產生的瞬間就已經暴露給了模型的營運者。但對於目標獨立工作的Agent,具備私鑰權限是必須的,這意味著私鑰不能只在使用者本地。在這種情況下,僅依靠模型本身已不足以確保私鑰的安全性,需要引入可信任執行環境或HSM等額外的安全服務。

如果假設Agent已經安全地持有私鑰,在此基礎上進行各類基本操作時,測試中的各種模型都表現出了良好的能力。雖然產出的步驟和程式碼常常存在錯誤,但在適當的工程架構下,這些問題在很大程度上是可以解決的。可以說從技術層面來看,讓Agent自主進行基礎的錢包操作已經不存在太多障礙。

智能合約

智能合約的理解、利用、編寫和風險識別能力是AI Agent在鏈上世界執行複雜任務的關鍵,因此也是實驗的重點測試領域。大語言模型在這一領域展現出顯著潛力,但同時也揭露了一些明顯問題。

在測試中幾乎所有模型都能正確回答基礎合約概念,並辨識簡單的bug。在合約gas優化方面,大多數模型能夠識別關鍵優化點,並分析優化可能帶來的衝突。然而,當涉及深層業務邏輯時,大模型的限制開始顯現。

以一個token vesting合約範例:所有模型都正確理解了合約功能,大部分模型找出了幾個中低風險漏洞。但是,對於一個隱藏在業務邏輯中、可能在特殊情況下導致部分資金被鎖死的高風險漏洞,沒有任何模型能夠自主發現。在多個使用真實合約的測試中,模型的表現都大致相同。

這顯示大模型對合約的理解仍停留在形式層面,缺乏對深層業務邏輯的理解。不過,在提供額外提示後,部分模型最終能夠獨立找出上述合約中隱藏較深的漏洞。基於此表現判斷,在良好的工程設計支援下,大模型已基本具備在智慧合約領域擔任co-pilot的能力。然而要獨立承擔合約審計等重要工作,仍有很長的路要走。

有一點需要說明,實驗中程式碼相關的任務主要針對邏輯簡單、程式碼量在2000行以內的合約。對於更大規模的複雜項目,在不進行微調或複雜提示詞工程的情況下,我認為明顯超出了當前模型的有效處理能力範圍,並未列入測試。此外,本測試僅涉及Solidity,未包含Rust、Move等其他智能合約語言。

除了上述測試內容,實驗還涵蓋包括DeFi場景、DAO及其治理、鏈上資料分析、共識機制設計以及Tokenomics等多個面向。大語言模型在這些方面均展現了一定的能力。鑑於許多測試仍在進行中,且測試方法和框架正在不斷優化,本文暫不對這些領域進行深入探討。

模型的差異

在所有參與評測的大語言模式中,GPT-4o和Claude 3.5 Sonnet延續了它們在其他領域的卓越表現,是毫無爭議的領導者。面對基礎問題時​​,這兩個模型幾乎都能給出準確答案;在複雜場景分析中,它們更是能夠提供深入且論點充分的見解。甚至在大模型不擅長的計算類任務裡也展現出了高勝率,當然這種”高”成功率是相對而言的,仍未達到在生產環境中穩定輸出的水平。

在開源模型陣營中,Llama 3.1-405B得益於其龐大的參數規模和先進的模型演算法,遙遙領先同類。在其他參數規模較小的開源模型中,各模型間並未呈現顯著的效能差距。儘管得分高低略有不同,但整體都離及格線很遠。

因此如果目前要建構加密相關的AI應用,這些中小參數量的模型不是合適的選擇。

在我們的評測中,有兩個模型特別引人注目。首先是微軟推出的Phi-3 3.8B模型,它是本次參與實驗的最小模型,然而它以不到一半的參數量就達到了與8B-12B模型相當的性能水平,在某些特定類別的問題上甚至表現更為出色。這項結果凸顯了模型架構最佳化和訓練策略的重要性,而不僅僅是依賴參數規模的增加。

而Cohere公司的Command-R模型成為了一匹令人意外的”黑馬”——反向的。 Command-R相對其他模型名氣不那麼大,但是Cohere是專注2B市場的大模型公司,我認為和Agent開發等領域還是有相當多的契合點,因此特意列入測試範圍。但擁有35B參數的Command-R卻在大多數測試中墊底,不敵許多10B以下的模型。

這項結果引發了思考:Command-R在發佈時主打的是檢索增強生成能力,甚至都沒公佈常規的基準測試成績。這是否意味著它是一把”專用鑰匙”,只在特定場景下才能開啟全部潛力?

實驗限制

在這一系列測試中,我們對AI在加密領域的能力有了初步的了解。當然這些測試還遠遠未達專業水準。資料集的覆蓋範圍遠遠不夠,答案的量化標準相對粗略,尚缺乏精細且更為準確的評分機制,這都會影響評估結果的精確度,不排除會導致某些模型表現被低估。

在測試方法上實驗僅採用了零樣本學習(zero-shot learning)的單一方式,並未探索思維鏈條,少樣本學習等能啟發模型更大潛力的方式。而在模型參數上,實驗均採用了標準模型參數,並未檢視不同參數設定對模型表現的影響。這些整體單一的測試方法限制了我們對模型潛力的全面評估,也未能充分挖掘模型在特定條件下的表現差異。

儘管測試條件相對簡陋,這些實驗依然產生了不少有價值的見解,為開發者建構應用提供了參考。

加密領域需要自己的Benchmark

在AI領域,基準(benchmark)扮演關鍵角色。現代深度學習技術的快速發展就源自於李飛飛教授於2012年完成的ImageNET,這正是一個電腦視覺領域的標準化基準與資料集。

透過提供統一的評估標準,基準不僅為開發者提供清晰的目標和參考點,還推動了整個產業的技術進步。這解釋了為什麼每個新發布的大語言模型都會專注於其在各種基準測試上的成績。這些結果成為了模型能力的”通用語言”,使研究者能夠定位突破口,開發者可以選擇最適合特定任務的模型,而使用者則能夠基於客觀數據做出明智選擇。更重要的是,基準測試往往預示著AI應用的未來方向,引導資源投入與研究焦點。

如果我們相信AI與加密技術的交叉領域蘊含巨大潛力,那麼建立專門的加密領域基準測試就成為一項迫切的任務。基準測試的建立可能成為連結AI與加密兩大領域的關鍵橋樑,催化創新,並為未來應用提供清晰指引。

不過與其他領域的成熟benchmark相比,建構加密領域的基準測試面臨獨特挑戰:加密技術快速演進,產業知識體系尚未固化,多個核心方向缺乏共識。作為跨領域領域,加密涵蓋密碼學、分散式系統、經濟學等,複雜度遠超過單一領域。更具挑戰性的是,加密基準不僅需評估知識,還需檢視AI運用加密技術的實際操作能力,這需要設計全新的評估架構。而相關資料集的匱乏進一步增加了難度。

這項任務的複雜性和重要性決定了它無法由單一個人或團隊完成。它需要匯集從使用者、開發者、密碼學專家、加密研究者到更多跨學科領域人士的多方智慧,並依賴廣泛的社群參與和共識。也因此,加密基準需要更廣泛的討論,因為這不僅是一項技術工作,更是對我們如何理解這一新興技術的深刻反思。

後記:聊到這裡,話題還遠遠沒有結束。在接下來的文章中,我將深入探討建構加密領域AI基準的具體想法和挑戰。實驗目前也還在進行,正在不斷優化測試模型、豐富資料集、完善評測框架,並改進自動化測試工程。秉持開放協作的概念,未來所有相關資源——包括資料集、實驗結果、評測框架和自動化測試程式碼都會作為公共資源開源。

Total
0
Shares
Related Posts