1 引言
從2017 年的第一波dApp Etheroll、ETHLend 與CryptoKitties 開始,到如今各式各樣基於不同區塊鏈的金融、遊戲與社交dApp 百花齊放,當我們談論去中心化的鏈上應用時,是否曾思考過這些dApp 在互動中所採納的各類資料的源頭?
2024 年,熱點聚焦在AI 與Web3,在人工智慧的世界裡,數據就像是其成長與進化的生命來源。正如植物依賴陽光和水分才能茁壯成長,AI 系統同樣依賴大量的數據來不斷「學習」和「思考」。沒有數據,AI 的演算法再精妙也不過是空中樓閣,無法發揮其應有的智慧與效能。
本文從區塊鏈資料可訪問性(Data Accessibility)的角度,深入分析了產業發展過程中區塊鏈資料索引的演變,並比較了老牌資料索引協定The Graph 與新興的區塊鏈資料服務協議Chainbase和Space and Time,特別探討了這兩個結合AI 技術的新晉協議在資料服務與產品架構特色的異同。
2 資料索引的繁與簡:從區塊鏈節點到全鏈資料庫
2.1 資料來源:區塊鏈節點
從一開始了解「區塊鏈是什麼」時,我們就常看到這樣一句話:區塊鏈是去中心化的記帳本。區塊鏈節點是整個區塊鏈網路的基礎,承擔記錄、儲存和傳播鏈上所有交易資料的責任。每個節點都擁有完整的區塊鏈資料副本,確保網路的去中心化特性得以維持。然而,對於一般用戶來說,自建和維護一個區塊鏈節點並非易事。這不僅需要專業的技術能力,還伴隨著高昂的硬體和頻寬成本。同時,普通的節點查詢能力也有限,無法以開發人員所需的格式查詢資料。因此,儘管理論上每個人都可以運行自己的節點,但在實際操作中,使用者通常更傾向於依賴第三方服務。
為了解決這個問題,RPC(遠端過程呼叫)節點提供者應運而生。這些提供者負責節點的成本和管理,並透過RPC 端點提供資料。使得用戶可以無需自建節點,便可輕鬆存取區塊鏈資料。公共RPC 端點是免費的,但有速率限制,可能會對dApp 的使用者體驗產生負面影響。私有RPC 端點透過減少擁塞提供更好的效能,但即使是簡單的資料檢索也需要大量的來回通訊。這使得它們請求繁重,對於複雜的資料查詢效率低。此外,私有RPC 端點通常難以擴展,且缺乏跨不同網路的兼容性。但節點提供者標準化的API 介面給予了用戶存取鏈上的資料更低的門檻,為後續的資料解析和應用打下了基礎。
2.2 數據解析:從原型數據到可用數據
從區塊鏈節點獲取的資料往往是經過加密和編碼處理的原始資料。這些資料雖然保留了區塊鏈的完整性和安全性,但其複雜性也增加了資料解析的難度。對於一般使用者或開發者來說,直接處理這些原型資料需要大量的技術知識和運算資源。
資料解析的過程在這背景下顯得格外重要。透過將複雜的原型資料進行解析,轉換為更易於理解和操作的格式,使用者可以更直觀地理解和利用這些資料。資料解析的成功與否直接決定了區塊鏈資料應用的效率和效果,是整個資料索引流程中的關鍵一步。
2.3 資料索引器的演進
隨著區塊鏈資料量的增加,對資料索引器的需求也日益增加。索引器在組織鏈上資料並將其發送到資料庫以便於查詢方面起著至關重要的作用。索引器的工作原理是索引區塊鏈資料並透過類似於SQL 的查詢語言(GraphQL 等API)使其隨時可用。透過提供查詢資料的統一介面,索引器允許開發人員使用標準化查詢語言快速且準確地檢索所需的信息,從而大大簡化了流程。
不同類型的索引器透過各種方式優化資料檢索:
-
完整節點索引器:這些索引器運行完整的區塊鏈節點並直接從中提取數據,確保數據完整準確,但需要大量的儲存和處理能力。
-
輕量級索引器:這些索引器依靠完整節點根據需要獲取特定數據,從而減少儲存要求但可能會增加查詢時間。
-
專用索引器:這些索引器專門針對某些類型的資料或特定的區塊鏈,可優化特定用例的檢索,例如NFT 資料或DeFi 交易。
-
聚合索引器:這些索引器從多個區塊鏈和來源提取數據,包括鏈下信息,提供統一的查詢介面,這對於多鏈dApp 特別有用。
目前,以太坊檔案節點(Archive Node)在Geth 用戶端中的存檔模式佔用了約13.5 TB 的儲存空間,而在Erigon 用戶端下,存檔需求約為3 TB。隨著區塊鏈的不斷增長,檔案節點的資料儲存量也會隨之增加。面對如此龐大的資料量,主流索引器協定不僅支援多鏈索引,還針對不同應用的資料需求,並客製了資料解析框架。例如,The Graph 的「子圖」(Subgraph)框架就是一個典型案例。
索引器的出現大大提升了資料的索引和查詢效率。與傳統的RPC 端點相比,索引器可以有效地索引大量數據,並支援高速查詢。這些索引器允許用戶執行複雜的查詢,輕鬆過濾數據,並在提取後進行分析。此外,一些索引器還支援聚合來自多個區塊鏈的資料來源,避免在多鏈dApp 中需要部署多個API 的問題。透過在多個節點上分散式運行,索引器不僅提供了更強的安全性和效能,也減少了集中式RPC 提供者可能帶來的中斷和停機風險。
相較之下,索引器透過預先定義的查詢語言,使得使用者可以在無需處理底層複雜資料的情況下,直接取得所需資訊。這種機制顯著提高了資料檢索的效率和可靠性,是區塊鏈資料存取的重要創新。
2.4 全鏈資料庫:向流優先對齊
使用索引節點查詢資料通常意味著API 成為消化鏈上資料唯一入口網站。然而,當一個專案進入擴展階段時,往往需要更靈活的資料來源, 而這是標準化的API 無法提供的。隨著應用程式需求的複雜化,初級資料索引器與其標準化的索引格式逐漸難以滿足越來越多樣化的查詢需求,例如搜尋、跨鏈存取或鏈下資料映射。
在現代資料管道架構中,「流優先」方法已成為解決傳統批次限制的一種方案,能夠實現即時的資料攝取、處理和分析。這種範式的轉變使得組織能夠對傳入資料立即作出回應,幾乎即時地得出洞察並做出決策。類似地,區塊鏈資料服務供應商的發展也正朝著建立區塊鏈資料流的方向前進,傳統索引器服務商均陸續推出了以資料流方式獲取即時區塊鏈資料的產品,例如The Graph 的Substreams,Goldsky 的Mirror,也有如Chainbase 和SubSquid 這樣根據區塊鏈產生資料流的即時資料湖。
這些服務旨在解決對區塊鏈交易進行即時解析和提供更全面查詢能力的需求。正如「流優先」架構透過降低延遲和增強響應能力,革新了傳統數據管道中的數據處理和消費方式一樣,這些區塊鏈數據流服務商也希望透過更先進且成熟的數據源,支援更多應用程式的發展並輔助鏈上數據分析。
透過現代資料管道的視角重新定義鏈上資料的挑戰,我們得以從全新的角度看待鏈上資料的管理、儲存和提供的全部潛力。當我們開始將子圖和以太坊ETL 等索引器視為資料管道中的資料流而非最終輸出時,便可以設想一個能夠為任何業務用例量身定制高效能資料集的可能世界。
3 AI + Database? 深入對比The Graph, Chainbase, Space and Time
3.1 The Graph
The Graph 網路透過一個去中心化的節點網路來實現多鏈資料索引和查詢服務,促進開發者便捷地索引區塊鏈資料並建立去中心化應用。其主要的產品模式為資料查詢執行市場和資料索引快取的市場,這兩個市場本質都是服務於使用者的產品查詢需求,其中資料查詢執行市場具體指消費者為所需的資料選擇合適的提供資料的索引節點付費,資料索引快取的市場則是索引節點依據子圖的歷史索引熱度、收取的查詢費、鏈上策展人對子圖輸出的需求調動資源分配的市場。
子圖(Subgraphs)是The Graph 網路中的基礎資料結構。它們定義瞭如何從區塊鏈中提取並轉換資料為可查詢的格式(例如GraphQL 模式)。任何人都可以建立子圖,並且多個應用程式可以重複使用這些子圖,這提升了資料可重複使用性和使用效率。
The Graph 產品結構(Source: The Graph Whitepaper)
The Graph 網路由四個關鍵角色構成:索引器、策展人、委託人和開發者,他們共同為web3 應用提供資料支援。以下是他們各自的職責:
-
索引器(Indexer):索引器是The Graph 網路中的節點運營商,索引節透過質押GRT(The Graph 的原生代幣)參與網絡,提供索引和查詢處理服務。
-
委託者(Delegator):委託者是將GRT 代幣質押給索引節點以支援其營運的使用者。委託者透過他們所委託的索引節點賺取部分獎勵。
-
策展人(Curator):策展人負責訊號哪些子圖應該被網路索引。策展人幫助確保有價值的子圖被優先處理。
-
開發者(Developer):與前三名作為供應方不同,開發者是需求方,是The Graph 的主要使用者。他們創建並提交子圖至The Graph 網絡,等待網絡滿足需求數據。
目前The Graph 已經轉向全面的去中心化子圖託管服務,不同的參與者之間有流通的經濟誘因確保系統運作:
-
索引節點獎勵:索引節點透過消費者的查詢費用和部分GRT 代幣區塊獎勵來賺取收益。
-
委託者獎勵:委託者透過他們所支持的索引節點獲得部分獎勵。
-
策展人獎勵:如果策展人訊號了有價值的子圖,他們可以從查詢費用中獲得部分獎勵。
事實上,The Graph 的產品也在AI 浪潮中迅速發展。作為The Graph 生態系統的核心開發團隊之一,Semiotic Labs 一直致力於利用AI 技術優化索引定價和使用者查詢體驗。目前,Semiotic Labs 開發的AutoAgora、Allocation Optimizer 和AgentC 工具分別在多個方面提升了生態系統的效能。
-
AutoAgora 引入動態定價機制,基於查詢量和資源使用情況即時調整價格,優化定價策略,確保索引器的競爭力和收入最大化。
-
Allocation Optimizer 解決了子圖資源分配的複雜問題,幫助索引器實現資源的最佳配置,以提升收入和效能。
-
AgentC 是一個實驗性工具,可讓使用者透過自然語言存取The Graph 的區塊鏈數據,從而提升用戶體驗。
這些工具的應用使得The Graph 結合AI 輔助進一步提升了系統的智慧化和使用者友善度。
3.2 Chainbase
Chainbase 是一個全鏈數據網絡,將所有區塊鏈數據整合到一個平台,方便開發者更輕鬆地建立和維護應用程式。它的獨特功能包括:
-
即時資料湖:Chainbase 提供了一個專門用於區塊鏈資料流的即時資料湖,使得資料在生成時即可即時存取。
-
雙股架構:Chainbase 基於Eigenlayer AVS 建構了一個執行層,與CometBFT 的共識演算法形成平行的雙股架構。這種設計增強了跨鏈資料的可編程性和可組合性,支援高吞吐量、低延遲和最終性,並透過雙重質押模型提升了網路安全性。
-
創新資料格式標準:Chainbase 引進了一種名為「manuscripts」的全新資料格式標準,優化了加密產業中資料的結構化和利用方式。
-
加密世界模型:憑藉其龐大的區塊鏈資料資源,Chainbase 結合AI 模型技術,打造了能夠有效理解、預測區塊鏈交易並與之互動的AI 模型。目前已推出基礎版模型Theia,供大眾使用。
這些功能使Chainbase 在區塊鏈索引協議中脫穎而出,尤其註重即時數據的可訪問性、創新的數據格式,以及透過鏈上和鏈下數據的結合,創建更聰明的模型以提升洞察力。
Chainbase 的AI 模型Theia 是其有別於其他資料服務協議的關鍵亮點。 Theia 基於NVIDIA 開發的DORA 模型,結合鏈上和鏈下資料以及時空活動,學習並分析加密模式,並透過因果推理做出回應,從而深入挖掘鏈上資料的潛在價值和規律,為使用者提供更加智能化的數據服務。
AI 賦能的數據服務使Chainbase 不再只是一個區塊鏈數據服務平台,而成為更具競爭力的智慧化數據服務商。透過強大的資料資源和AI 的主動分析,Chainbase 能夠提供更廣泛的資料洞察,並優化使用者的資料處理流程。
3.3 Space and Time
Space and Time (SxT) 意在打造可驗證的運算層,在去中心化資料倉儲上擴展零知識證明,進而為智慧合約、大語言模型和企業提供可信任的資料處理。目前Space and Time 已獲得2,000 萬美元最新一輪的A 輪融資,由Framework Ventures、Lightspeed Faction、Arrington Capital 和Hivemind Capital 領投。
在資料索引和驗證領域,Space and Time 引入了全新的技術路徑—Proof of SQL。這是Space and Time 開發的一種創新零知識證明(ZKP)技術,確保在去中心化資料倉儲上執行的SQL 查詢是防篡改的和可驗證的。當執行查詢時,Proof of SQL 會產生一個加密證明,以驗證查詢結果的完整性和準確性。這個證明附加在查詢結果上,使任何驗證者(如智慧合約等)都可以獨立確認資料在處理過程中未被竄改。傳統的區塊鏈網路通常依賴共識機制來驗證資料的真實性,而Space and Time 的Proof of SQL 實作了更高效的資料驗證方式。具體來說,在Space and Time 的系統中,一個節點負責資料的獲取,而其他節點則透過zk 技術驗證該資料的真實性。這種方式改變了共識機制下多個節點重複索引相同資料的到最終達成共識取得資料的資源損耗,提升了系統的整體效能。隨著這項技術的成熟,它為一系列專注於數據可靠性的傳統產業使用區塊鏈上資料構造產品打造了落腳石。
同時,SxT 一直與微軟AI 聯合創新實驗室密切合作,加速研發成式AI 工具,方便用戶更輕鬆地透過自然語言處理區塊鏈資料。目前在Space and Time Studio 中,使用者可以體驗輸入自然語言查詢,而AI 會自動轉換為SQL 並代表使用者執行查詢語句呈現使用者所需的最終結果。
3.4 差異對比
結論與展望
綜上所述,區塊鏈資料索引技術從最初的節點資料來源,經過資料解析和索引器的發展,最終演進到AI 賦能的全鏈資料服務,經歷了一個逐步完善的過程。這些技術的不斷演進,不僅提高了資料存取的效率和準確性,也為使用者帶來了前所未有的智慧化體驗。
展望未來,隨著AI 技術和零知識證明等新技術的不斷發展,區塊鏈資料服務將進一步智慧化和安全化。我們有理由相信,區塊鏈數據服務將在未來作為基礎設施繼續發揮重要作用,為產業的進步和創新提供有力支持。