大語言模型如何在加密領域生根發芽?

作者:Yiping, IOSG Ventures

本文為IOSG原創內容,僅做行業學習交流之用,不構成任何投資參考。如需引用,請註明來源,轉載請聯繫IOSG團隊獲取授權及轉載須知。

寫在前面

  • 隨著大語言模型(LLM)日益蓬勃,我們看見不少項目正在將人工智能(AI)和區塊鏈融合。 LLM 和區塊鏈的結合越來越多,我們也看到人工智能重新與區塊鏈融合的機會。其中值得一提的,當屬零知識機器學習(ZKML)。
  • 人工智能和區塊鍊是兩種具有根本性差異特徵的變革性技術。人工智能需要強大的計算能力,通常由中心化的數據中心提供。而區塊鏈提供了去中心化的計算和隱私保護,在需要進行大規模計算和存儲任務上表現不佳。我們仍在探索和研究人工智能和區塊鏈集成的最佳實踐,後續也將向大家介紹目前一些”AI + 區塊鏈”結合的項目案例。

Source: IOSG Ventures

本篇研究報告分為上下兩部發表,本文為上部,我們將重點關注LLM 在加密領域的應用,並探討應用落地的策略。

LLM 是什麼?

LLM(大語言模型)是一種計算機化語言模型,由一個具有大量參數(通常為數十億)的人工神經網絡組成。這些模型在大量未標記的文本上進行訓練。

2018年前後,LLM 的誕生徹底改變了自然語言處理的研究。與以往需要為特定任務訓練特定監督模型的方法不同,LLM 作為一個通用模型,在各種任務上都表現出色。其能力和應用包括:

  • 理解和總結文本:LLM 可以理解和總結大量的人類語言和文本數據。它們可以提取關鍵信息並生成簡潔的摘要。
  • 生成新內容:LLM 具有生成基於文本內容的能力。通過向模型提供prompt,它可以回答問題、新生成的文本、摘要或情感分析。
  • 翻譯:LLM 可用於在不同語言之間進行翻譯。它們利用深度學習算法和神經網絡來理解詞彙之間的上下文和關係。
  • 預測和生成文本:LLM 可以基於上下文背景預測並生成文本,與人類生成的內容類似,包括歌曲、詩歌、故事、營銷材料等。
  • 在各個領域的應用:大型語言模型在自然語言處理任務中具有廣泛的適用性。它們被用於對話式人工智能、聊天機器人、醫療保健、軟件開發、搜索引擎、輔導、寫作工具等眾多領域。

LLM 的優勢包括其對大量數據的理解能力、執行多種語言相關任務的能力,以及根據用戶需求定制化結果的潛力。

常見的大型語言模型應用

由於其出眾得自然語言理解能力,LLM 具有相當大的潛力,而開發者主要關注以下兩個方面:

  • 基於大量的上下文數據和內容,為用戶提供準確的並且最新的答案
  • 通過使用不同的代理和工具完成用戶下達的特定任務

正是這兩個方面讓與XX 聊天的LLM 應用如雨後春筍般爆發。例如,與PDF 聊天、與文檔聊天以及與學術論文聊天。

隨後,人們嘗試將LLM 與各種數據源融合。開發者已成功將平台,如Github、Notion 和一些筆記軟件與LLM 整合。

為了克服LLM 固有的限制,不同的工具被納入了系統中。第一個這樣的工具是搜索引擎,為LLM 提供了訪問最新知識的能力。進一步的進展將把WolframAlpha、Google Suites 和Etherscan 等工具與大型語言模型整合。

LLM Apps 的架構

下圖概述了LLM應用在回應用戶查詢時的流程:首先,相關的數據源被轉換為嵌入向量並存儲在向量數據庫中。 LLM 適配器使用用戶查詢和相似性搜索從向量數據庫中找到相關的上下文。相關的上下文被放入Prompt 中並發送給LLM 。 LLM 將執行這些Prompt,並使用工俱生成回答。有時,LLM 會在特定數據集上進行調優,以提高準確性並降低成本。

大語言模型如何在加密領域生根發芽?

LLM 應用的工作流程可以大致分為三個主要階段:

  1. 數據準備和嵌入:該階段涉及將機密信息(例如項目備忘錄)保留以供將來訪問。通常,文件會被分割,並通過嵌入模型進行處理,保存在一種特殊類型的數據庫中,稱為向量數據庫。
  2. Prompt 的構建(Formulation)和提取(Extraction):當用戶提交搜索請求(在本例中,搜索項目信息)時,軟件會創建一系列Prompt,輸入到語言模型中。最終的Prompt 通常包含由軟件開發人員硬編碼的提示模板,作為few-shot 示例的有效輸出示例,以及從外部API 獲取的任何所需數以及向量數據庫中提取的相關文件。
  3. Prompt 的執行和推理:完成Prompt 後,將它們提供給預先存在的語言模型進行推理,這可能包括專有模型API 、開源或經過個別微調的模型。在此階段,一些開發人員可能還會將操作系統(如日誌記錄、緩存和驗證)整合到系統中。

將LLM 引入加密領域

儘管加密領域(Web3)與Web2有一些類似的應用,但在加密領域中開發出優秀的LLM 應用需要尤其謹慎。

加密生態系統獨特,具有其特有的文化、數據和融合性。在這些加密限定的數據集上微調的LLM 可以以相對較低的成本提供優越的結果。雖然數據豐富可得,但在類似HuggingFace 等平台上明顯缺乏開放數據集的。目前,只有一個與智能合約相關的數據集,其中包含11.3 萬個智能合約。

開發者還面臨將不同工具整合到LLM 中的挑戰。這些工具與Web2 中使用的工具不同,它們賦予LLM 訪問與交易相關的數據、與去中心化應用(Dapp)互動以及執行交易的能力。到目前為止,我們還沒有在Langchain 中找到任何Dapp 的集成。

儘管開發高質量的加密LLM 應用可能需要額外的投入,但LLM 天然適合加密領域。這個領域提供了豐富的、乾淨的、結構化的數據。再加上Solidity 代碼通常簡潔明了,這使得LLM 更容易生成功能性的代碼。

在《下部》中,我們將討論LLM 可以幫助區塊鏈領域的8個潛在方向,如:

將內置的人工智能/LLM功能集成到區塊鏈中

  • 使用LLM 分析交易記錄
  • 使用LLM 識別潛在的機器人
  • 使用LLM 編寫代碼
  • 使用LLM 閱讀代碼
  • 使用LLM 幫助社區
  • 使用LLM 跟踪市場
  • 使用LLM 分析項目

敬請期待!

Total
0
Shares
Related Posts