為科學提供一個去中心化的數據共享空間

科學數據的語料庫是分散的、受訪問控制的,它們的迅速增長已經超出了中心化服務的維護能力。點對點技術的最新發展使得建立一個對所有人開放的永久科學記錄檔案成為可能。前期,DAOrayaki社區已經編譯系列DeSci的文章,在本系列文章中,我們將深入探討去中心化文件存儲網絡的前沿技術,並為協作式去中心化科學生態系統提供潛在的發展路徑。

知識到底該為誰所擁有?

歷史上,人類獲取知識的邊界,一直受到觀察工具和高質量數據的限制。如今我們所擁有的,對自然界各領域產生飛躍式理解的能力/權力,之前只屬於少數特權階層。

托勒密用渾天儀和紙莎草紙來記錄人類所理解的地球邊界,這個邊界在過去的一千年裡沒有受到任何挑戰。伽利略使用凸透鏡和羊皮紙,用一個像被鎖定在宇宙中的神一樣的球體,來解釋宇宙的邊界。哈勃利用胡克望遠鏡的力量,為所有的人類知識劃定了一個無限擴大的地平線,在一個一切皆有可能的宇宙裡,給後來的真理探求者留下了新的挑戰。

分佈式知識,解剖學板塊。 1857 年JG Heck

哪怕直到最近,仍舊只有那些屬於獨家學者俱樂部的人,才能獲得應對科學領域重大挑戰所需的儀器和數據寶庫。而今天,開放式協作和數據共享實踐的做法,能夠使天文學和物理學在未來取得更大進步的情況成為可能。這些問題太大,複雜的模型太多,工程挑戰的難度太高,即使是最開明的人也無法單槍匹馬解決。我們對宇宙範圍所累積的理解力會更加擴大,而高質量的數據集,以及配合數據集所使用的工具,會對我們每個人、每個地方越來越開放。

富於數據,貧於智慧

雖然天文學界已經為合作性的開放科學實踐制定了標準,但許多領域仍然根植於“基於聲譽和自我職業發展”的傳統做法。對許多人來說,我們很難知道如何才能超越這種對抗性根深蒂固的學術利益。然而,當今現代科學所面臨的現實挑戰,將迫使它不可避免地引發一場文化革命,這種範式的轉變已經隨著今天開放科學數據共享、期刊和自由軟件的出現而發生。如今我們在自然世界的科學觀察中所獲得的數據量成爆炸式增長,這種增長已經超過了傳統機構基礎設施所能提供的,用於維護、存儲和篩選不斷擴大大量原始知識工具的最大承載能力。

關於人類健康、經濟活動、社會動態和宇宙以及我們對它的影響的,數千PB的寶貴數據和觀察結果被儲存在過時的存儲系統中。這些數據無法被搜索引擎訪問,存儲在只有少數人知道的神秘模式中,而且可能永遠都不會被加以使用。據估計,20世紀90年代收集的原始科學數據中,有超過80%的數據由於過時的技術和不完善的檔案基礎設施而永遠的消失。哪怕是今天,從一篇論文發表三年後開始算起,能找到一個數據集的可能性也是以17%的比例呈逐年下降趨勢。故意限制科學數據訪問的做法限制了我們社會的創新速度。

去中心化的文件存儲協議通過內容可尋址的數據、可編程的數據存儲激勵機制、出處追踪、抗審查以及隨著全球採用而擴展的帶寬,為這種失敗提供了解決方案。由這些功能驅動的點對點式的科學數據公域,可以提供一個有彈性的數字結構,讓去中心化的社區會圍繞當今最關鍵和最具挑戰性的問題保持認知的統一。

點對點內容網絡簡史

對等文件共享與互聯網一樣古老。事實上,我們所知道的互聯網的前身ARPANET 在1969 年首次啟動時,嚴格來說就是一個點對點網絡。網絡退化的彈性、高雙向帶寬、信息冗餘、資源聚合和內在的參與性,是使分佈式對等網絡成為早期互聯網架構師和工程師首選設計的主要原因。這種直接信息共享的多次迭代出現在互聯網的短暫歷史中。

1973年公鑰加密學的出現標誌著身份協議的開始,並通過巧妙的密鑰對簽名系統對內容進行可驗證。網絡上的用戶第一次可以信任由密鑰加密的信息包,前提是它是由已知身份公開發布的密鑰的唯一解密。後來,Ralph Merkle 在1979 年發明了Merkle 樹,作為一種跟踪信息包來源的方法,為git 和svn 等版本控制軟件鋪平了道路。公鑰密碼技術與默克爾樹數據結構的綜合,推動了新的創新,例如區塊鏈、分佈式計算和共識機制的出現,這些機制增強了攻擊的複原力,並最大限度地減少了分佈式網絡中信息碎片化問題。

分佈式網絡最著名的例子之一,Napster,通過集中式索引服務器連接對等點,該服務器後來在2001年Metallica因侵犯版權提起訴訟後被當局關閉。分佈式哈希表(DHT) 的引入徹底改變了點對點網絡的設計,解鎖了更高層次的去中心化方式,並使網絡在內容審核跟審查上更具彈性。 DHT 最初用於幫助在對等網絡上各節點位置的相互記憶,早期的互聯網時代,這種方式會允許點對點網絡以真正去中心化的方式擴展,因為它們不需要像Napster 那樣依賴中心化服務器。極受歡迎的點對點網絡BitTorrent 是最早使用DHT 技術的網絡之一。

比特幣代碼庫指紋

2009年,比特幣進入了人們的視野。雖然在比特幣之前的點對點網絡允許用戶方便快捷地相互傳輸數據,但它們並沒有被設計為加密可驗證交換的防篡改記錄。只有當提交交易的節點證明他們在短時間內完成了一定數量的計算工作時,事件才能附加到比特幣分類賬中。比特幣是第一個具有單一全局狀態的點對點網絡實例,該狀態為網絡共識的真相做了新的定義,對代表經濟價值的加密代幣進行轉移。

用於驗證分佈式網絡中事件的加密證明概念為加速點對點技術的創新鋪平了道路。星際文件系統(IPFS) 是一種點對點文件共享協議,它綜合了分散式計算(如DHT 和默克爾樹)的關鍵進展和加密證明,為在互聯網上永久記錄存檔提供了基礎層。 IPFS 使信息真正屬於網絡公共資源成為可能,IPFS通過對內容的修訂,對針對數據完整性攻擊的矯正,以及對集中式服務提供商強加的帶寬瓶頸的修正,促使它具有內在抵抗地理審查具的能力。

雲存儲的現狀

21世紀初,集中式雲服務提供商的出現,成為互聯網上內容的把關者。今天,雲存儲市場被極少數玩家所主導。根據Canalysis(2020年)的估計,亞馬遜、微軟和谷歌控制了一半以上的市場,而亞馬遜一家就控制了三分之一的市場。亞馬遜通過解決早期互聯網的關鍵可擴展性問題,達到其近乎壟斷的地位,但也正是如此,亞馬遜也創造了一系列新的問題,所有這些問題都源於集中化。主要問題是資源分配效率低下,數據在孤立的存儲庫中分散,缺乏隱私和安全,以及不必要的高成本。總的來說,雲服務提供商控制著他們所管理的所有存儲數據,使他們成為獲取知識的仲裁者。

大型科技公司所採用的控制模式分類

亞馬遜最近開始為科學家提供誘人的數據存儲交易,以進一步增加其內容護城河的規模和深度。分析師推測,如果亞馬遜能夠從工業界、學術界和政府研究人員那裡彙編大量高質量的互操作數據集,他們的服務價值可能會變得更高。例如,艾倫大腦觀察站已與亞馬遜達成協議,在其云端存儲數10TB的寶貴神經成像觀測結果。

雖然亞馬遜為數據上傳提供了免費的存儲,但從他們的服務器出口往往會產生高額的費用,有時會將數據捕獲在他們龐大的計算中心內,並使亞馬遜成為公共資助研究的實際所有者。社區的反響似乎已經讓亞馬遜考慮為”合格的”研究機構減免每月15%的雲存儲費用。看來,亞馬遜已經從科學出版業吸取了經驗,將知識的獲取作為其日益擴展的雲計算商業模式的另一個有利可圖的組成部分。即便如此,一股對抗集中化趨勢的逆流正在形成,並有望打破大型科技公司在過去20年中所建立的控制權基石。

期待一個更加開放性的網絡

作為這股逆流的一部分,IPFS促使了許多為去中心化網絡提供動力的其他技術創新的出現。在這一系列文章中,我們涵蓋了主要的去中心化數據存儲協議,並討論了它們作為去中心化科學數據公共資源的底層結構的潛力。我們對IPFS背後的歷史、機制和流行的應用進行了深入的探討。

引用

  1. Allen Brain Institute. (2018, August 9). Neuroscience Data Joins the Cloud. Retrieved November 21, 2021, from https://alleninstitute.org/what-we-do/brain-science/news-press/articles/neuroscience-data-joins-cloud

  2. Amazon. (2018, July 12th). New AWS Public Datasets Available from Allen Institute for Brain Science, NOAA, Hubble Space Telescope, and Others. Retrieved November 12, 2021, from New AWS Public Datasets Available from Allen Institute for Brain Science, NOAA, Hubble Space Telescope, and Others

  3. Canalysis. (2020, April 29). Global cloud services market Q1 2021. Retrieved November 27, 2021, from https://www.canalys.com/newsroom/global-cloud-market-Q121

    Cocks, C. (2001, December). An identity based encryption scheme based on quadratic residues. In IMA international conference on cryptography and coding (pp. 360–363). Springer, Berlin, Heidelberg.

  4. Jocelyn Goldfein and Ivy Nguyen. (2018, March 27). Data is not the new oil. Retrieved 20 November, 2021 from Data is not the new oil — TechCrunch
  5. Merkle, RC (1987, August). A digital signature based on a conventional encryption function. In Conference on the theory and application of cryptographic techniques (pp. 369–378). Springer, Berlin, Heidelberg.

  6. Paratii. (2017, October 25). A Brief History of P2P Content Distribution, in 10 Major Steps. Retrieved November 20, 2021, from A Brief History of P2P Content Distribution, in 10 Major Steps | by Paratii | Paratii | Medium
  7. Nakamoto, S. (2008). Bitcoin: A peer-to-peer electronic cash system. Decentralized Business Review, 21260.

    Vines, TH, et. al. (2014). The availability of research data declines rapidly with article age. Current biology, 24(1), 94–97.

  8. Wiener-Bronner, D. (2013, December 23). Most Scientific Research Data From the 1990s Is Lost Forever. Retrieved November, 13, 2021, from Most Scientific Research Data From the 1990s Is Lost Forever — The Atlantic

Total
0
Shares
Related Posts