破除AI資料障礙資料DAO正當時

作者:Li Jin,Variant Fund合夥人;翻譯:金色財經xiaozou

最近備受矚目的資料授權交易(如OpenAI與News Corp和Reddit之間的交易)突顯了人工智慧(AI)對高品質資料的需求。前沿大模型已經在大部分互聯網上進行了訓練——例如,Common Crawl索引了大約10%的網頁,用於LLM訓練,包含超過100萬億枚代幣。

進一步改進人工智慧模型的一個途徑是擴展和增強它們可用於訓練的資料。我們一直在討論聚合資料的機制——特別是以一種去中心化的方式。我們特別感興趣的是探索去中心化方法如何幫助產生新的資料集,並為貢獻者和創建者提供經濟獎勵。

近幾年加密領域裡的討論主題之一就是資料DAO的概念,也就是創建、組織和管理資料的一群人。這個話題已經被Multicoin和其他人談過了,但人工智慧的快速發展催生了關於數據DAO的一個新的問題——“為什麼現在正當時?”

本文,我們將分享我們對資料DAO的思考,以求回答這樣一個問題:資料DAO如何加速人工智慧的發展?

1、AI領域的數據現狀

如今,人工智慧模式是在公共資料上進行訓練的,要么是透過News Corp和Reddit等合作來實現,要么是透過在開放的網路上收集資料。例如,Meta的Llama 3是使用公開來源的15兆代幣進行訓練的。這些方法在快速聚合大量資料方面是很有效的,但它們在收集哪一類資料以及如何收集資料方面都有其限制。

首先,應收集什麼樣的收據:人工智慧的發展受到數據品質和數量的瓶頸。 Leopold Aschenbrenner曾寫過限制演算法進一步改進的“資料牆”相關內容:“很快,在更多的抓取資料上預訓練更大的語言模型的樸素做法可能會開始遭遇嚴重的瓶頸。”

推倒資料牆的一種方法是開啟新資料集的可用性。例如,模型公司無法在不違反大多數網站服務條款的情況下抓取登入數據,而且根據定義,它們無法存取尚未收集的數據。目前還有大量的私人資料是人工智慧訓練無法取得的:例如Google Drive和Slacks等公司、個人健康資料或私人資訊。

其次,如何收集收據:在現有的模式下,資料收集公司獲取了大部分價值。 Reddit的S-1將資料授權作為主要的預期收入來源:「我們預計,我們不斷增長的資料優勢和智慧財產權將繼續成為未來LLM訓練的關鍵要素。」產生實際內容的最終用戶並沒有從這些授權協議或人工智慧模型本身獲得任何經濟利益。這種錯位可能會扼殺參與積極性——已經有起訴生成式人工智慧公司或選擇退出訓練資料集的運動。更不用說將收入集中在模型公司或平台的手中而不分給最終用戶分毫所帶來的社會經濟影響。

2、資料DAO效應

上述數據問題有一個共同的主線:它們受益於來自不同的、有代表性的使用者樣本的大量貢獻。任何單一資料點對模型效能的價值可能都可以忽略不計,但總體來看,一大群使用者可以聚集對人工智慧訓練有價值的新的資料集。這就是資料DAO概念的用武之地。有了數據DAO,數據貢獻者可以透過提供數據來收穫經濟好處,並可管理數據的使用方式和貨幣化方式。

數據DAO可以在目前數據領域裡的哪些方面做出貢獻?以下是一些想法——請注意,這並非一個詳盡列表,數據DAO肯定還有其他的機會:

(1)現實世界數據

在去中心化實體基礎設施(DEPIN)領域,Hivemapper等網路旨在收集全世界最新的全球地圖數據,方法是透過激勵行車記錄器的所有者貢獻他們的數據,以及激勵用戶透過他們的應用程式貢獻數據(例如關於道路封閉或維修的數據)。可以將DEPIN視為現實世界的資料DAO,其中資料集是從硬體設備和/或使用者網路產生的。這些數據對許多公司都有商業價值,收入將以代幣獎勵的形式回饋給貢獻者。

(2)個人健康資料

生物駭客是一項社會運動,指的是個人和社區採取DIY的方法來研究生物學,通常是拿自己來做實驗。例如,一個人可能會服用不同的益智藥物來提高大腦的表現,或測試不同的治療方法或環境變化來改善睡眠,甚至還有人給自己注射實驗性藥物。

數據DAO可以透過組織參與者圍繞共同的實驗和系統地收集結果,為這些生物駭客的努力帶來激勵。這些個人健康DAO所獲得的收入,例如來自研究實驗室或製藥公司的收入,可以回到以自己的個人健康數據形式貢獻結果的參與者。

(3)用人類回饋強化學習

使用RLHF(使用人類回饋強化學習)微調人工智慧模型涉及到利用人類輸入來提高人工智慧系統的效能。通常,人們會期待回饋者都是他們各自領域的專家,他們可以有效地評估模型的輸出。例如,實驗室可能會尋求數學博士的幫助來提高他們的LLM的數學能力,等等​​。代幣獎勵可以透過其投機優勢在尋找和激勵專家參與方面發揮作用,更不用說使用加密支付軌道所提供的全球存取權了。 Sapien、Fraction和Sahara等公司都正在這一領域開展工作。

(4)私人數據

隨著可供人工智慧訓練使用的公開資料越來越少,競爭的基礎可能會轉向專有資料集,包括私人用戶資料。登入牆後面有大量高品質的資料仍然無法訪問,例如私訊、私人文件等。這些數據不僅可以有效地訓練個人AI,而且還包含了在公共網路上無法存取的有價值的資訊。

然而,存取和利用這些數據在法律和道德上都面臨著重大挑戰。數據DAO可以提供一種解決方案,讓有意願的參與者上傳和變現他們的數據,並管理數據的使用方式。例如,Reddit數據DAO允許用戶上傳他們從Reddit平台匯出的Reddit數據,其中包含評論、貼文和投票歷史,這些數據可以以隱私保護的方式出售或出租給人工智慧公司。代幣激勵讓用戶不僅可以透過一次性交易賺取收益,還可以基於使用其資料訓練的人工智慧模型所創造的價值大小來賺取收益。

3.開放問題與挑戰

雖然數據DAO的潛在好處是巨大的,但也存在一些考慮和挑戰。

(1)激勵的扭曲影響

從Crypto使用代幣激勵的歷史中可以看到一點,那就是外部激勵會改變用戶行為。這對利用代幣激勵來實現數據目的有直接影響:激勵可能會扭曲參與者群體和其所貢獻的數據類型。

代幣激勵的引入也引入了參與者尋求系統漏洞的可能性,例如提交低品質或捏造數據來最大化他們的收入。這很重要,因為這些數據DAO的收益機會取決於數據品質。如果貢獻偏離目標,就會破壞資料集的價值。

(2)數據測量與獎勵

數據DAO的核心思想是,透過代幣激勵措施來獎勵貢獻者的數據提交,從長遠來看,這將成為DAO所獲得的收入。然而,考慮到數據價值的主觀性,確切地知道應該對各種數據貢獻給予多少獎勵是極具挑戰性的。在上面關於生物駭客的例子中,例如:某些使用者的資料比其他使用者的資料更有價值嗎?如果是,決定因素有哪些?對於地圖資料:某些地區的地圖資訊是否比其他地區更有價值?這種差異如何量化? (透過計算數據對模型性能的增量貢獻來衡量人工智慧中的數據價值這方面的研究非常活躍,但這種方法可能需要大量的計算。)

另外,建立健全的機制來驗證數據的真實性和準確性至關重要。如果沒有這些措施,系統可能容易面臨欺詐性資料提交(例如建立虛假帳戶)或Sybil攻擊。 DEPIN網路試圖透過在硬體設備層級進行整合來解決這個問題,但是依賴用戶貢獻的其他類型的資料DAO可能容易受到操縱。

(3)新資料遞增量

大多數開放網路已經被用作訓練目的,因此資料DAO操作員必須考慮,透過分散式方式收集的資料集是否真的是開放網路上現有資料的增量和附加,以及研究人員是否可以從平台上獲得這些數據或透過其他方式取得這些數據。上述想法強調了收集全新數據的重要性,這些數據超越了現有的數據,導致了接下來的考慮:影響大小和收益機會。

(4)評估收益機會

從本質上講,數據DAO正在建立一個雙邊市場,將數據買家和數據貢獻者連結起來。因此,數據DAO的成功取決於能否吸引穩定且多樣化的、願意為數據付費的客戶群。

數據DAO需要識別和驗證其最終需求,並確保收益機會足夠大(無論是基於總量還是基於單一貢獻者),以激勵所需數據的數量和品質。例如,創建一個用戶資料DAO來匯集個人偏好以及出於廣告目的瀏覽資料的想法已經討論了好幾年了,但最終,這樣一個網路能夠傳遞給用戶的收益可能微乎其微。 (作為對比參考,Meta在2023年底的全球ARPU為13.12美元。)隨著人工智慧公司計劃在訓練方面投入數萬億美元,分給每個用戶的數據收益可能足以吸引大規模貢獻,這就給數據DAO提出了一個有趣的問題:“為什麼是現在?”

4.攻克資料牆

資料DAO代表了一種潛在的光明前景,可以產生新的高品質資料集,並攻克人工智慧領域裡的資料牆。具體如何實現還有待觀察,但我們很高興看到這個領域的發展。

Total
0
Shares
Related Posts