Filecoin:深入探討分佈式數據計算的重要性和商業潛力

編者按:本文主要取材於 David Aronchick 在 2023 年巴黎 Filecoin Unleashed 大會上的演講。 David 是Expanso的首席執行官,也是協議實驗室(Protocol Labs)的前數據計算負責人,該實驗室負責Bacalhau項目的啟動。本文僅代表原創內容創作者的獨立觀點,並已獲得重新發布的許可。

據IDC稱,截至 2025 年,全球存儲的數據量將超過 175 ZB。這是一個龐大的數據量,相當於 175 萬億個 1 GB 的 U 盤。這些數據大部分在 2020 年至 2025 年之間產生,預計複合年增長率為 61% 。

如今,快速增長的數據圈出現了兩大挑戰:

  • 移動數據既緩慢又昂貴。若您試圖以目前的帶寬下載 175 ZB 的數據,大約需要 18 億年。

  • 合規任務繁重。全球有數百種與數據相關的管理規定,使得跨司法管轄區的合規任務幾乎不可能完成。

網絡增長乏力和監管限制的綜合結果是,近 68% 的機構數據處於閒置狀態。正因如此,將計算資源轉移至數據存儲地(廣義上稱之為compute-over-data ,即“數據計算”)而不是將數據轉移至計算地變得尤為重要,Bacalhau 等數據計算(CoD)平台正在為此而努力。

在接下來的章節中,我們將簡要介紹:

  • 當下的機構如何處理數據。

  • 提出基於“數據計算”的替代解決方案。

  • 最後,假設分佈式計算為何重要。

現狀

目前,機構應對數據處理挑戰的方式主要有以下三種方式,但均不理想。

使用集中式系統

最常見的方法是使用集中式系統進行大規模數據處理。我們經常看到機構將 Adobe Spark、Hadoop、Databricks、Kubernetes、Kafka、Ray 等計算框架結合起來使用,形成一個連接到集中式 API 服務器的集群系統網絡。然而,這些系統無法有效解決網絡違規問題以及其他有關數據移動性的監管問題。

這在一定程度上導致機構因數據洩露而遭受數十億美元的管理罰款和處罰。

自行構建

另一種方法是讓開發人員建設定制的協調系統,該系統應具備機構所需的認知度和穩健性。這種方法很新穎,但由於過度依賴少數人來維護和運行系統,往往面臨失敗風險。

無所作為

令人驚訝的是,大多數情況下,機構對其數據無所作為。例如,一個城市每天可以從監控錄像中收集大量數據,但由於成本高昂,這些數據僅支持在本地機器上查看,既不能歸檔,也不能處理。

構建真正的分佈式計算

數據處理痛點主要有兩種解決方案。

解決方案一:構建在開源數據計算平台之上

Filecoin:深入探討分佈式數據計算的重要性和商業潛力

解決方案一:開源數據計算平台

開發人員可以使用開源分佈式數據平台進行計算,而不是使用前文提到的定制協調系統。因為該平台開源且可擴展,機構只需構建所需的組件即可。這種設置可滿足多雲、多計算、非數據中心的應用場景,並能駕馭複雜的監管環境。重要的是,開源社區的訪問權限不再依賴於一個或多個開發人員進行系統維護,從而降低了發生故障的可能性。

解決方案二:構建在分佈式數據協議之上

在 Bacalhau 和 Lilypad 等先進計算項目的幫助下,開發人員可以更進一步,不僅在解決方案一中提到的開源數據平台上構建系統,還可以在 Filecoin 網絡等真正的分佈式數據協議上構建系統。

Filecoin:深入探討分佈式數據計算的重要性和商業潛力

解決方案二:分佈式數據計算協議

這意味著機構可以使用分佈式協議,這些協議懂得如何以更精細的方式協調和描述用戶問題,從而解鎖緊鄰數據生成和存儲位置的計算區域。這種從數據中心到分佈式協議的轉換可以在理想情況下進行,且僅需對數據科學家的經驗做出少量改動。

分佈式意味著選擇最大化

通過在 Filecoin 網絡等分佈式協議上進行部署,我們的願景是用戶可以訪問同一網絡上分佈在不同地區的數百(或數千台)機器,並遵循與其他機器相同的協議規則。這本質上為數據科學家打開了一個充滿選擇的海洋,因為他們可以請求網絡:

  • 選擇世界上任何地方的數據集。

  • 遵循任何治理結構,無論是 HIPAA、GDPR 還是 FISMA。

  • 盡可能以最低廉的價格運行。

Filecoin:深入探討分佈式數據計算的重要性和商業潛力

胡安三角|解碼縮略語:FHE(完全同態加密),MPC(多方計算),TEE(可信執行環境),ZKP(零知識證明)

說起選擇最大化的概念,就不得不提“胡安三角(Juans triangle)”,該術語是在Protocol Labs 的創始人Juan Benet 解釋為何不同用例(在未來)會有不同的分佈式計算網絡來支持時創造的。

胡安三角提出,計算網絡通常需要在隱私、可驗證性和性能這三者之間進行權衡,傳統的“一刀切”方法很難適用於每種使用情況。相反,分佈式協議的模塊化特性使不同的分佈式網絡(或子網絡)能夠滿足不同的用戶需求——無論是隱私、可驗證性還是性能。最終,我們將根據自己認為重要的因素進行優化。屆時,將有許多方服務提供者(如三角形內方框所示)填補這些空白,並使分佈式計算成為現實。

總而言之,數據處理是一個複雜的問題,需要開箱即用的解決方案。利用開源數據計算來替代傳統的集中式系統是很好的第一步。最終,在 Filecoin 網絡等分佈式協議上部署計算平台,可以根據用戶的個性化需求自由配置計算資源,這在大數據和人工智能時代至關重要。

Total
0
Shares
Related Posts