OpenAI最近與News Corp和Reddit等公司達成的數據授權協議強調了對高品質數據的需求。他們的Frontier模型已經在許多領域進行了訓練,索引了大約10%的所有網頁用於LLM訓練。為了進一步改進AI模型,他們探索了擴展和增強可訓練資料的途徑。數據DAO成為加密貨幣產業討論的話題,探討如何聚合數據以及如何獎勵數據創造者。數據DAO有望加速AI發展,但也面臨一些挑戰,例如數據質量,數據操縱等問題。數據DAO將建立一個雙邊市場,為數據買方和數據貢獻者提供收入機會。
OpenAI 與News Corp 和Reddit 等公司最近達成的重視目的數據授權協議凸顯了對高品質數據的需求。 Frontier 模型已經在網路大部分領域進行了訓練,例如Common Crawl,它索引了大約10% 的所有網頁,用於LLM 訓練,包含超過100 兆個token。
進一步改進AI 模型的途徑Extending 和增強其可訓練資料。我們一直在討論如何聚合資料——以去中心化的方式。我們特別感興趣的是探索去中心化方法如何幫助產生新的資料集,並在經濟上獎勵創造者的想法。
多年來,加密貨幣產業內討論的一個主題是資料DAO,即創建、組織和管理資料的個人集合。 Multicoin和其他公司已經討論過這個主題,但人工智慧的快速發展催生了資料DA的新「為什麼是現在?」。
我們圍繞著資料DAO 主題分享我們的思考,以探討以下問題:資料DAO 如何加速AI 發展?
訂閱
當今人工智慧中的數據
如今,人工智慧模型都是透過公共資料進行訓練的,要么透過與新聞集團和Reddit等公司合作,要么透過從開放的網路上獲取資料。例如,Meta的Llama 3就是透過公開來源的15萬個代幣進行訓練的。這些方法在聚合大量數據方面非常有效,據稱在收集數據的內容和方式方面都取得了輝煌的成就。
首先,什麼是:AI開發受到數據品質和數據限制。 Leopold Aschenbrenner曾寫過關於限制演算法進一步改進的“資料牆”的文章:“很快,在更多獲取資料上對更大的語言模型進行預訓練的簡單方法可能會開始遇到嚴重的瓶頸。”
: 初始資料庫不存在,但是可以正常使用,不需要重新建立資料庫,只需要在資料庫中新增一個空的資料庫即可,不需要重新建立資料庫,只需要在資料庫中新增一個空的資料庫即可,不需要重新建立資料庫,只需要在資料庫中新增一個空的資料庫即可,不需要重新建立資料庫,只需要在資料庫中新增一個空的資料庫即可,不需要重新建立資料庫,只需要在資料庫中新增一個空的資料庫就可以了…
其次,如何實現:在現有模式下,匯總資料公司保護了大部分價值。 Reddit的S-1將數據許可列為主要預期收入來源:「我們預計我們的不斷增長的數據優勢和知識產權將繼續成為未來法學碩士培訓的關鍵要素。」生成實際內容的最終用戶不會從這些許可協議或AI模型本身獲得任何經濟利益。這種錯誤位可能會抑制參與-已經有人起訴生成AI公司或選擇退出訓練資料集。更不用說將收入中心化在模型公司或平台手中而不將主要用於分給最終用戶的社會經濟影響。
資料DAO 效應
重點:它們受益於來自個人、有特定使用者的規模化開發。任何單一資料點模型值得深入研究,但總體而言,它們的價值在於,它能夠幫助使用者實現其價值,包括訓練目標新資料集和推動DAO 的發展。
資料DAO 可以解決目前資料格局的空白?以下是一些想法,請注意,此並不詳盡,數據DAO 肯定還有其他機會:
真實世界數據
在去中心化實體基礎設施(DEPIN)領域,Hivemapper 等網路旨在透過激發行車記錄器所有者貢獻資料以及激發用戶透過其應用貢獻資料(例如有關道路封閉或維修的資訊)來收集世界上最新鮮的地圖資料。從某種程度上來說,DEPIN 是該數據DAO,其中包括硬體設備和用戶網路生成。在許多公司都有商業利益,收入以代幣獎勵的形式回饋給貢獻者。
個人健康數據
生物駭客安全社會運動,個人和社群採用DIY方式研究生物學,通常是透過自己做實驗。例如,個人可能會服用不同的益智藥來提高大腦功能,或測試不同的流行病或環境變化來改善睡眠,甚至自己注射藥物。
數據DAO可以透過組織參與者進行共同實驗並有條不紊地收集結果,為這些生物駭客活動建立和激發。這些個人健康DAO獲得的收入(例如來自研究實驗室或製藥公司的收入)可以以個人健康數據的形式給予貢獻的參與者。
透過人工回饋進行強化學習
使用RLHF(基於人工回饋的強化學習)對AI模型進行微調涉及利用人工輸入來提高AI系統的性能。通常,回饋者的理想形像是其領域的專家,訪問有效地評估模型的輸出。例如,實驗室可能會尋求數學博士學位來提高其法學碩士的數學能力等。代幣獎勵可以透過其投機性優勢在尋找和激發專家參與方面在會議上,更不用說使用加密貨幣支付管道提供的全球訪問權限了。 Sapien、Fraction和Sahara等公司正在這個領域開展工作。
私募數據
為推動人工智慧發展,我們制定了多項計劃,包括:人工智慧培訓、人工智慧技術與應用;人工智慧技術在教育、科學研究、金融、金融管理、金融監管等多個領域都發揮著重要作用;人工智慧技術在醫療、食品、化學、電力、電力系統、電力供應等各個領域都發揮著重要作用;人工智慧技術在醫療、科學研究、金融、金融管理、金融監管等多個…
然而,訪問和利用已經在法律和道德方面超出了重大挑戰。數據DAO 可以解決這個問題,讓有意願的參與者上傳和貨幣化他們的數據並管理其使用方式。例如,Reddit 資料DAO 謝謝你承諾平臺本身匯出的Reddit 資料(包含評測、貼文和投票歷史)上傳到資料寶庫,然後以保護隱私的方式將其出售或交給AI 公司。代幣激發措施不僅感謝透過一次性數據交易獲得收益,也謝謝你在數據上訓練的AI 模型所創造的價值獲得收益。
未決問題與挑戰
雖然數據DAO有著巨大的優勢,但也存在一些擔憂和挑戰。
激發。的影響
如果從加密貨幣使用代幣激發歷史中可以得出一個結論,那就是環境激發改變用戶的行為。 這意味著利用代幣獲取資料具有以下作用:激發人們的基礎和所貢獻的加密貨幣。
引入代幣激勵措施還可能試圖欺騙,提交低品質或數據以最大化他們的收益。這很重要,因為進入DAO的收入機會取決於數據品質。如果貢獻有偏見,就會損害資料集的價值。
數據測量和獎勵
數據DAO的核心概念是,貢獻者透過代幣激勵獲得其提交內容的獎勵,從長遠來看,這些獎勵將匯聚到DAO的收入中。然而,鑑於數據價值的性質,授予這些數據貢獻者一定的安全挑戰。例如,對於地圖資料:某些地區的地圖資訊是否受到歐洲地區的青睞,如何決定因素是什麼? (目前有積極研究透過計算模型效能的增量貢獻來貢獻人工智慧中的數據價值,但其中分析了佔用大量計算資源。)
此外,如果未能確保資料的真實性和準確性,系統可能會受到欺詐性資料提交(例如建立虛假帳戶)或Sybil AGE 影響。 DEPIN 尚未獲得硬體設備等級整合的批准,但可能會容易受到操縱。
新數據
大多數網路已經用於培訓,因此數據DAO運營商必須考慮透過分散式網路收集的數據集真正具有增量性,是否對網路現有數據具有補充性,以及是否能夠透過合作夥伴的許可方式獲取數據。上述概述的資訊顯示了數據已有範圍的大學生,這又引出了考慮因素:數量和收入機會。
研究收入機會
從本質上講,數據DAO 正在建立一個雙邊市場,將數據買家與數據貢獻者視為一體。因此,數據DAO 的成功取決於願意為數據付費的穩定性而不願意。
數據DAO 需要確定並驗證其最終需求,其收入機會足夠大(其總體還是按每個貢獻者計算),以激發所需數據的數量和品質。例如,創建使用者資料DAO 以匯集個人購買力和瀏覽資料用於廣告的想法已經討論了多年,但最終,這種網路能夠代表使用者的收入可能微乎其微。 (作為比較,Meta 2023年底的全球ARPU 為13.12 美元。)由於AI 公司計劃在培訓上花費數萬億美元,其數據的每個用戶收入可能足以吸引人的規模貢獻,這為數據DAO 提出了一個有趣的「為什麼是現在」。
克服數據牆
數據DAO 代表著一種可能很有前途的途徑,可以產生新的高品質數據集並克服AI 中的數據壁壘。具體如何實現待觀察,但我希望看到這個領域的發展。
如果您是這個領域的工作目標商,請關注我們—我們迫切需要您的聲音。
感謝Matt Lim、Tom Hamer、Anastasios Angelopoulos、Nish Bhat和Jason Zhao的審閱,以及感謝Variant團隊的討論,這些討論促成了這些想法
資訊來源:0x資訊編譯自網際網路。版權歸作者Li所有,未經許可,不得轉載