一文讀懂Bacalhau 1.0:釋放私有數據潛力

本文基於 Simon Worthington 於 2023 年 5 月在波士頓峰會上的演講。

Bacalhau 通過支持數據本地計算,徹底改變數據處理格局:將代碼發送到數據所在位置運行分析,而不是將數據移動到代碼之上。通過保留數據並允許對其進行授權、審計和控制計算,可以使用更多數據,同時降低誤用風險,這就是解決數據治理問題的答案。數據量的增長速度比網絡帶寬快 45% , 57% 的數據存儲於雲或傳統數據中心之外,對任何大規模運營的組織而言,移動數據都太慢且成本高昂。

將數據保存在本地還有一個很好的理由:控制權。無論是通過《健康保險便攜和問責法》(Health Insurance Portability and Accountability Act, HIPAA)或《通用數據保護條例》(General Data Protection regulation, GDPR)等強制性法規,還是對敏感財務或公司機密的本地保護,幾乎 100% 的數據都處於某種形式的治理之下。將數據轉移到計算中會使其脫離其通常所處的安全區域,並增加其被濫用的風險。

大多數數據並非嚴格意義上的開放或封閉,而是存在於一定範圍內。在該範圍內,可以為特定用途授予特定人員訪問權限。

資料來源:The ODI

2008 年以來,全球在數據治理方面的罰款總額接近 2500 億美元。因此,大多數企業對數據共享心存恐懼也就不足為奇了,這也導致 68% 的企業數據未被開發利用。事實上,大多數受控數據原則上都可以共享並用於更有效的決策——但前提是要有正確的人和正確目的。

數據共享需要技術強制執行

大多數組織試圖通過嚴格的數據共享協議或合同來滿足這一需求。這些協議的建立既昂貴又耗時——對於像國家政府或金融機構這樣的企業來說,甚至需要花費數月時間通過數據治理來實現內部團隊之間的數據共享。

更糟糕的是,這些協議根本不起作用——大多數數據共享協議完全無法執行,只能起到虛假安全感的作用。一旦數據越過信任邊界,只有軟機制(例如信任大家會遵守協議)才能防止濫用。大家對共享數據的實際操作不可見,也很難監管。

“事實證明,數據提供者和數據使用者之間的合同或協議常常不能發揮作用。

在 Cambridge Analytica 醜聞中,合同條款被完全忽視,個人數據被濫用。

缺乏任何有力的技術證據可能會使法庭無法獲取有效信息,並使監管機構、政界人士、記者和公眾難以了解發生了什麼。 ”

——《數據信任中的信任》(Putting the trust in data trusts),Register Dynamics, 2019

顯然,我們需要的是一種跨信任邊界重複使用數據的新方法:通過該方法,分析師可以簡單、受控地訪問數據,同時數據所有者不會面臨監管罰款和上頭條新聞的風險。

Bacalhau 使數據共享可見且可審計

在 Bacalhau,我們相信數據本地計算是解決數據治理難題的答案。通過保留數據並允許對其進行授權、審計和控制計算,可以使用更多數據,同時降低誤用風險。

更重要的是,由於 Bacalhau 是一個分佈式計算平台,不需要將數據轉移至中央存儲。數據可以保存在組織中它應該存在的任何地方,從而避免了艱難的組織變革,也不會剝奪數據所有者的任何控制權。

我們非常自豪地在此宣布,作為 Bacalhau 1.0 的一部分,我們新增了作業和數據管控功能。通過 Bacalhau,數據所有者可以控制誰、做什麼、在何處、為什麼以及如何對其私有數據進行計算。

Bacalhau 管控代碼和輸出

Bacalhau 採用兩步法進行作業管控。首先,數據所有者有機會檢查作業是否符合其政策。這一預管控階段發生在作業開始運行之前,並允許管控人員根據將要使用的數據、請求作業的人員以及針對該作業執行的代碼來批准或拒絕計算。

雖然人工始終處於控制地位,但並非每個決策都需要人工做出。預管控過程非常靈活,可根據需要實現自動化。數據所有者可以設置策略,深度檢查即將運行的計算,針對不同人員設置不同策略,並調用分析安全和風險的複雜算法。當某項工作不適合自動管控時,可由人工做出最終決策。

一文讀懂Bacalhau 1.0:釋放私有數據潛力

Bacalhau 為計算提供兩個網關——一個在計算之前,一個在計算之後。

經批准後,Bacalhau 將把作業發送給適當執行器,該執行器只能訪問請求數據,並且與主機系統安全隔離。 Bacalhau 對作業進行資源限制,從而控制處理能力和內存使用。

雖然預管控提供了合理的第一道信任防線,但一般來說,在不運行計算機程序的情況下決定它將做什麼是個難題,這需要技術技能。英國國家統計局和其他相關受控研究環境幾十年來一直在安全地允許受控訪問數據,我們從中汲取了經驗並藉鑑了其在數字領域的做法。因此,除了執行前控制之外, Bacalhau 還允許在執行後對結果進行修改,然後再發布給任務提交者。

當 Bacalhau 完成計算時,它會將結果保存至私有的預發布領域。然後,管理員根據作業的背景檢查結果,判斷這些結果是否是該作業預期產生的結果。如果管理員認為這些內容適合共享,則可以下載結果。更重要的是,私人存儲區域的訪問權限被嚴格鎖定,用戶只能通過 Bacalhau 的下載功能為自己的作業流式傳輸結果。

與預管控一樣,可以對結果進行整套複雜分析。通過Amplify 技術,數據所有者可以自動檢測個人身份信息(PII),總結 CSV 等表格數據,並分析圖像和視頻片段中的內容。生成的元數據既可以用於自動發布結果,也可以為人類決策提供有價值信息。

管控開啟全新聯合學習

在被信任邊界分隔的數據上進行計算,可以實現大量數據共享,但目前還沒有安全的技術解決方案。如果一個組織持有的數據在更大範圍內共享能夠產生共同價值,那麼這些組織現在就可以應用 Bacalhau 作業管控(job moderation)並開放數據訪問,而無需複雜的數據治理。

例如,一所大學可以向公民科學家或外部研究人員提供更多數據,一個政府部門可以允許另一個部門分析其數據,或者高度監管金融機構中的一個團隊可以允許另一個團隊深度分析其數據。綜上所述,重要的是不要將原始數據發布給信任度較低的用戶。 Bacalhau 可確保用戶獲得他們的分析結果,僅此而已。

一文讀懂Bacalhau 1.0:釋放私有數據潛力

相同的分佈式受控計算模型還可以在不同組織的參與者之間實現聯合學習。通過 Bacalhau,獨立組織可以從匯總數據中進行深度分析,而無需共享數據。通過聯合學習技術,數據科學家現在可以在許多不同的獨立甚至競爭性組織的數據集上訓練機器學習或 AI 模型,而不會讓這些組織失去數據控制權並能夠準確看到數據使用情況。

例如,負責制定宏觀政策的中央政府機構可以利用地方組織所掌握的數據。同樣,保險監管機構等行業機構可以通過向其所有成員保險公司提交聯合學習 Bacalhau 工作來訓練模型。

若將數據集中在一處,很可能會導致出售或濫用這些寶貴的綜合數據;但若將數據保留在本地,每個保險公司都可以確定其數據僅被用於雙方同意的互利目的。

為特定主題分析計算島嶼

最後,Bacalhau 提供的對作業執行的精細化管控現在能夠讓管理員成為進入計算島的網關。在這種結構中,有興趣為特定目的提供資源的獨立計算提供者和數據所有者可以將作業授權委託給可信的管控人。

一文讀懂Bacalhau 1.0:釋放私有數據潛力

例如,科學家們合作收集了有助於治療癌症的醫療數據,可以通過他們信任的外部管控人來提供數據和計算。管控人只接受符合約定政策的作業——在本例中,只允許有助於癌症新療法的作業。

通過該方式,科學家們將外部訪問請求委託給管控人,便可以專注於更大的公益目標。有了 Bacalhau 強大的審計日誌,科學家們可以在日後核實管控人是否按照商定政策行事。

Bacalhau 是數據共享之未來

我們很高興在 Bacalhau 1.0 中發布作業和數據管控功能!我們相信,數據計算代表了數據共享的新思路——簡而言之,通過不共享數據來保證數據安全!

如今,一些公司和政府機構已經認識到跨信任邊界的管控計算所帶來的潛力,我們也在與之開展合作。若您想進一步了解這些功能如何為您所用,請加入Bacalhau Slack 或直接與我們聯繫。

Total
0
Shares
Related Posts