邁向使用者擁有的網路之路

2022 年,我(anna)撰寫了一份提案,提出了一個使用者擁有的基礎模型,該模型使用私人資料而不是從網路上公開抓取的資料進行訓練。我認為,雖然可以使用公共數據(例如Wikipedia、4Chan)來訓練基礎模型,但要將它們提升到一個新的水平,您需要高品質的私人數據,這些數據僅存在於需要權限或登入才能訪問的孤立平台(例如Twitter、個人訊息、公司資訊)中。

這項預測正在開始實現。 Reddit 和Twitter 等公司已經意識到其平台資料的價值,因此他們鎖定了開發人員API(1、2 ),以防止其他公司自由地使用其文字資料訓練基礎模型。

這與兩年前相比發生了巨大變化。創投Sam Lessin 總結了這一變化:“[平台] 只是把這些垃圾丟到後面,沒有人看管,然後突然間,你會覺得,哦,該死,那些垃圾是金子,對吧?我們得到了很多。我們必須鎖好垃圾箱。 」例如,GPT-3 是在WebText2 上進行訓練的,它匯總了所有Reddit 提交鏈接中的文本,這些鏈接至少有3 個贊成票(3,4)。使用Reddit 的新API 後,這不再可能。

網路變得越來越不開放,孤立的平台築起更大的牆來保護其寶貴的訓練資料。

儘管開發人員無法再大規模存取這些數據,但由於數據隱私法規,個人仍然可以跨平台存取和匯出自己的數據(5、6 )。平台鎖定開發人員API,而個人用戶仍然可以存取自己的數據,這一事實提供了一個機會:1 億用戶是否可以導出其平台數據來創建世界上最大的數據寶庫?這個數據寶庫將匯總大型科技公司和其他公司收集的所有用戶數據,而這些公司通常不願意分享這些數據。這將是迄今為止最大、最全面的訓練資料集,比用於訓練當今領先的基礎模型的資料集大100 倍。 1

表1. 數據

將基礎模型訓練資料集與範例使用者資料集進行比較的粗略估計。來源及計算。

然後,使用者可以建立一個使用者擁有的基礎模型,該模型使用的資料比任何一家公司能夠聚合的資料都要多。訓練基礎模型需要大量的GPU 運算。但每個使用者都可以用自己的硬體幫助訓練模型的一小部分,然後將這些部分合併在一起,創建一個更大、更強大的模型(7、8、9 )。 2當激勵措施合適時,使用者可以匯集大量計算。例如,以太坊礦工的總計算量是用來訓練領先基礎模型的50 倍。

表2. 計算

與以太坊礦工GPU 相比,對用於訓練基礎模型的資料中心的總浮點運算次數(每秒浮點運算次數= 所有GPU 的「思考」速度總和)進行估計。 3帶有 計算的來源。

為該模型做出貢獻的使用者將集體擁有並管理該模型。他們可以在使用模型時獲得報酬,甚至可以根據他們的數據對模型的改進程度按比例獲得報酬。集體可以製定使用規則,包括誰可以存取該模型以及應該實施哪種控制。也許每個國家的使用者都會創造自己的模型,代表他們的意識形態和文化。或者也許一個國家並不是正確的分界線,我們將看到一個世界,每個網路國家都有自己的基於其成員資料的基礎模型。

我鼓勵您花時間思考您希望擁有哪些基礎模型的一部分,以及您可以從使用的平台貢獻哪些訓練資料。您可能擁有的數據比您意識到的還要多——您的研究論文、未發布的藝術品、您的Google 文件、您的約會資料、您的醫療記錄、您的Slack 訊息。將這些資料整合在一起的一種方法是透過個人伺服器,這使您可以輕鬆地將您的私人資料與本地LLM 一起使用。將來,您的個人伺服器還可以訓練您擁有的使用者基礎模型的一部分。

基礎模型傾向於壟斷,因為它們需要在數據和計算方面進行大量的前期投資。我們很容易選擇簡單的選項:盡我們所能地使用落後幾代的開源模型,即大型人工智慧公司的殘餘。但我們不該滿足於落後幾代,只吃剩飯剩菜!作為用戶,我們應該創建我們自己的最佳模型——我們擁有實現這一目標的數據和運算能力。

隨著人工智慧越來越有能力完成有價值的經濟工作,一場巨大的經濟轉變正在發生。大型科技公司已經根據您的公開工作、寫作、藝術作品、照片和其他數據以及其他人的數據訓練了人工智慧模型,並開始每年賺取數十億美元(1)。他們現在正在追逐您在公共網路上無法獲得的數據,從Reddit 等公司購買您的私人數據,這樣他們就可以將人工智慧的收入增加到每年數萬億美元(2、3 )。

您不應該擁有由您的資料幫助創建的AI 模型的一部分嗎?

這就是數據DAO 的作用所在。數據DAO 是一個去中心化的實體,允許用戶匯集和管理他們的數據,並用代表特定數據集所有權的數據集特定代幣獎勵貢獻者。它有點像數據的工會。這些資料集可以複製甚至超越大型科技公司以數億美元出售的資料集( 4 )。 DAO 對資料集擁有完全控制權,可以選擇將其出租或出售匿名副本。例如,Reddit 數據甚至可以用來播種新的、用戶擁有的平台,包括好友、你過去的貼文和其他數據,這些數據可以在新平台上隨時使用。

如果您對技術細節感興趣:資料DAO 有兩個主要組成部分:1)鏈上治理,透過資料貢獻獲得代幣;2)安全伺服器,使用公鑰-私鑰對加密,社群擁有的資料集駐留在該伺服器中。要做出貢獻,您首先要驗證資料以證明所有權並估計其價值。然後,使用伺服器的公鑰在瀏覽器中加密數據,並將加密數據儲存在雲端。只有當DAO 批准授予存取權限的提議時,資料才會解密。例如,它可以允許AI 公司租用資料來訓練模型。您可以在此處閱讀有關Vana 網路架構的更多信息,該網路旨在實現資料集和模型的集體所有權。

數據DAO 不僅使用戶受益,還推動了AI 的發展,使像開源軟體一樣建立AI 成為可能,讓所有做出貢獻的人受益。開源AI 正在努力尋找可行的商業模式:支付GPU、數據和研究人員的費用非常昂貴。而且,一旦模型訓練完成,如果它是開源的,就無法收回這些成本。資料DAO 的技術架構可以應用於模型DAO,使用者和開發人員可以貢獻資料、運算和研究以換取模型的所有權。

當今社會的預設選項是允許大型科技公司獲取我們的數​​據,並用它來訓練為我們工作的人工智慧模型。他們從這些人工智慧模型中獲利,因為我們被用我們的資料訓練的模型所取代。這對社會來說是一筆非常糟糕的交易,但對大型科技公司來說卻是件好事。防止這種情況發生的唯一方法是採取集體行動。數據就是貨幣,集體數據就是力量。我鼓勵你參與:世界上第一個專注於Reddit 數據的數據DAO今天在Vana 網路上上線。透過打破少數特權階級控制的資料護城河,資料DAO 開闢了一條通往真正使用者擁有的網路的道路。

Total
0
Shares
Related Posts