深入探討:加密貨幣激勵眾籌AI模型的可行性分析


在新冠疫情期間,Folding@home計畫透過全球200萬志願者的運算資源,實現了2.4 exaFLOPS的運算能力,大大推動了對新冠病毒的研究。這種基於眾包計算的模式源自於1990年代的SETI@home,現已擴展應用於多個領域,包括生物醫學。

目前,深度學習面臨高昂的訓練成本和中心化趨勢,只有少數大型公司能夠負擔。 OpenAI等公司在這一領域的投資已達數十億美元,預計未來訓練成本將持續上漲。這導致研究人員無法進行大規模實驗,限制了科學進展。

去中心化訓練成為新的探索方向,近年來技術進步可望減少節點間的通訊需求。例如,DiLoCo和SWARM等新興技術已顯示出在減少通訊開銷的同時,提高訓練效率。新的加密貨幣原語和激勵機制也幫助實現了大規模眾包計算的可能性。

回顧歷史,SETI@home和Folding@home成功吸引了大量志願者,透過捐贈閒置計算資源解決複雜科研問題。現在,如何將此模式應用於深度學習成為急需解決的挑戰。

不同的去中心化訓練方案,需要解決通訊延遲、容錯能力不足和運算能力需求劇增等問題。新技術的出現,如模型分割和去中心化混合專家模型,意味著未來有望克服這些挑戰。

前景看好,未來的訓練將可能突破資料中心的限制,充分利用全球邊緣設備的運算資源。隨著學術界和工業界對去中心化訓練的重視,開放式合作的生態系統將有望加速科學研究的發展,並推動技術進步。

撰文:Jeff Amico

編輯:深潮TechFlow

引言

在新冠疫情期間,Folding@home 取得了一個重大里程碑。研究計畫獲得了2.4 exaFLOPS 的運算能力,由全球200 萬台志工設備提供。這代表了當時世界上最大超級電腦的十五倍處理能力,使科學家能夠大規模模擬新冠病毒蛋白質動態。他們的工作推動了我們對病毒及其病理機制的理解,尤其是在疫情中。

Folding@home 用戶的全球佈局,2021

Folding@home 基於志願運算的悠久歷史,專案透過眾包運算資源來解決大規模問題。這個想法在1990 年代的SETI@home 中得到了廣泛關注,該計畫收集了超過500 萬台志願者電腦來尋找外星生命。此後,這一理念已被評估多個領域,包括天文物理學、分子生物學、數學、密碼學和遊戲。在絕境情況下,集體力量增強了單一項目的能力,可見超出了它們單獨能夠實現的範圍。這推動了進步,使研究能夠以更開放和合作的方式進行。

許多人想知道我們是否可以將這個眾包模型評估深度學習。也就是說,我們能否在大眾中訓練一個大型神經網路?前沿模型訓練是人類歷史上計算最密集的任務之一。許多@home專案一樣,目前的成本超出了只有最大參與者才能承擔的範圍。這可能會阻礙未來的進展,因為我們依賴越來越少的公司來尋找新的突破。這也將我們的人工智慧系統的控制權中心化在少數人手中。無論你對這項技術的看法如何,這都是一個值得關注的未來。

大多數批評者駁斥了中心化訓練的想法,認為與目前的訓練技術不相容。然而,這種觀點已經越來越過時。新去的技術已經出現,能夠減少節點間的通訊需求,從而允許在這些技術包括DiLoCo 、 SWARM Parallelism 、 lo-fi 和環境中基礎模型的去中心化訓練等多項技術。其中許多具有容錯性,並支援顏色計算。還有一些新架構專為去中心化網路設計,包括DiPaCo和去中心化混合專家模型。

我們也看到各種加密貨幣原語開始成熟,使得網路能夠在全球範圍內協調資源。這些技術支援數位貨幣、跨境支付和預測市場等應用情境。與早期的志工計畫不同,這些網路能夠匯聚驚人的運算能力,通常比目前設想的最大雲端訓練負載大幾個數量級。

這些要素共同構成了新的模式訓練範式。模型充分利用全球的運算資源,包括如果連接在一起可以使用大量邊緣設備。這將透過引入新的競爭機制來降低大多數訓練工作負載的成本它還可以解鎖新的訓練形式,使得模型開發整合協作和協作,而不是孤立和單一的方式。模型可以從大眾中取得計算和數據,即時學習。個人可以擁有他們所創建模型的部分研究人員也可以重新公開分享新穎的研究成果,透過貨幣化消耗他們的發現來彌補計算經費。

本報告報告了大型模型訓練目的地及訓練成本。它回顧了以往相關的計算工作——從SETI到折疊再到BOINC——以此為靈感探索替代路徑。報告討論了去中心化的歷史挑戰,並轉向可能有助於克服這些挑戰的最新突破。最後,它總結了未來的機會與挑戰。

模範訓練的演習

前緣模型訓練的成本對非大型參與者來說已經無法負擔。這個趨勢並不新鮮,但根據實際情況,情況正在變得更加嚴重,因為前沿實驗室不斷挑戰擴展假設。據報道,OpenAI 今年在訓練中這方面花費超過30億美元。人類預測到2025年,我們將開始進行100億美元的訓練,而1000億美元的模型也不會太遠。

深度研究:加密貨幣激勵眾籌一個AI模型,是否可行?

這一趨勢導致行業的中心化,因為只有極少數幾家公司能夠承擔參與的費用。這引發了未來的核心政策問題——我們是否能夠接受所有領先的人工智慧系統由一家公司控制的決定?也限制了進展速度,這一點在研究社區中普遍存在,因為較小的實驗室無法承擔擴展實驗所需的計算資源。產業領導者也多次提到這一點:

Meta 的Joe Spisak:要真正理解 [模型] 架構的能力,你必須在規模上進行探索,我這就是當前生態系統中所認為的。如果你看看學術界——學術界有很多傑出的人才,但他們缺乏計算資源的訪問,這就出現了一個問題,因為他們有這些偉大的想法,但卻沒有真正以所需的水平實現這些想法的途徑。

Max Ryabinin:對昂貴的硬體需求給研究社群帶來了極大的壓力。大多數研究人員無法參與大型神經網路開發,因為進行必要的實驗對他們來說成本過高。如果我們繼續透過擴大模型規模來增加其規模,最終能夠進行競爭

Google 的Francois Chollet:我們知道大語言模型(LLM) 尚未實作通用人工智慧(AGI)。同時,朝AGI 的發展進展已經吸引了我們。我們在大語言模型上所面臨的限制與五年前的威脅我們需要新的想法和突破。我認為下一個突破很可能來自外部團隊,而所有大型實驗室則忙於訓練更大的大型語言模型。有些人對這些擔憂持懷疑態度,認為硬體改善和雲端運算資本支出將解決這個問題。但似乎不太現實。方面,到本十年末,新一代Nvidia 晶片的FLOP 數量將大幅增加,可能達到今天H100 的10 倍。這涉及到每FLOP的價格下跌80-90%。同樣,預計到本十年末,總FLOP供應將增加約20倍,同時改善網路和相關基礎設施。所有這些都將提高每美元的訓練效率。

深度研究:加密貨幣激勵眾籌一個AI模型,是否可行?

資料來源:SemiAnalysis AI Cloud TCO 模型

同時,總FLOP 需求也將急劇上漲,因為實驗室希望進一步擴大規模。如果持續十年的訓練運算趨勢保持不變,到2030 年前沿的FLOP 預計將達到約2e29。進行這種規模的訓練大約需要2000 萬個H100 對應GPU,引用目前的訓練運行時間和使用率。假設這個領域越來越多個前沿實驗室,總需要的FLOPS 數量將會是這個數字的幾倍,因為整體供應將在他們之間分配。 EpochAI 預測到那時我們需要大約1 億個H100 相當於GPU,大約是2024 年出貨量的50 倍。 SemiAnalysis 也做出了類似的預測,前緣認為訓練需求和GPU在此供應期間大致同步成長。

產能供應狀況可能會因多種原因而變得更加緊張。例如,如果製造瓶頸延遲了提前的出貨週期,這種情況是常有的事。或者如果我們未能生產足夠的能源來為資料中心供電。又或者如果我們在將這些能源來源連接到電網時遇到困難。或者如果對資本方面的支出進行大規模審查最終導致行業規模縮減等等。在最好的情況下,目前的方法只能讓少數人公司繼續推動研究的進展,但這可能還不夠。

深度研究:加密貨幣激勵眾籌一個AI模型,是否可行?

顯然,我們是一種新的方法。這種方法不需要不斷擴展資料中心、高效的資本支出和能源消耗來尋找下一個突破口,而是利用我們現有的基礎設施,能夠根據需求的靈活擴展這將使研究中有更多實驗的可能,因為訓練運行不再需要確保億萬美元計算預算的投資回報。一旦擺脫這個限制,我們可以超越目前的許多大語言模型(LLM)模式,正如人們認為,實現通用人工智慧(AGI)是必要的。為了理解這種替代方案可能呈現的樣子,我們可以從過去的全面計算實踐中汲取靈感。

群體計算:簡史

SETI@home 在1999 年普及了這個概念,讓數百萬參與者分析無線電訊號,尋找外星智慧。 SETI 從Arecibo 望遠鏡電磁數據,將其遙控器收集的若干批次,並透過網路傳送給使用者。在日常活動中分析數據,將結果傳回。用戶之間進行溝通,批次可以獨立審核,從而實現高度的任務處理。在其關鍵時刻,SETI@home 擁有超過500 名參與者,處理能力超過當時最大的超級電腦。它最終在2020 年3 月關閉,但它的成功引發了一系列自願計算的運動。

Folding@home於2000年提出了這個理念,利用邊緣運算模擬阿茲海默症、癌症和帕金森氏症等疾病的蛋白質摺疊。志願者在個人電腦的空閒時間進行蛋白質模擬,幫助研究人員研究蛋白質如何錯誤折疊並導致疾病。在其歷史的不同時間段,其計算能力超過了當時最大的超級計算機,包括在2000 年代升級和新冠期間,它當時成為第一個超過1 exaFLOPS 的計算項目自成立以來,Folding的研究人員已發表超過200篇同儕審查論文,每一篇都依賴志工的運算能力。

伯克利開放網路運算基礎設施(BOINC)於2002年普及了這個概念,提供了一個眾包運算平台,用於各種研究計畫。它支援SETI@home 和Folding@home 等多個項目,以及在天文物理學、分子生物學、數學和密碼學等領域的新項目。 2024年,BOINC推出了30個發射的項目,以及近1,000篇發表的科學論文,均利用其運算網路產生。

在科學研究領域之外,志願計算被用於訓練圍棋(LeelaZero、KataGo)和國際象棋(Stockfish、LeelaChessZero)等遊戲引擎。 LeelaZero透過志願計算從2017年到2021年進行訓練,能夠與自己下棋超過一千萬局,創造了今天最強的類似圍棋引擎。其中之一,Stockfish 自2013 年以來一直在志願網絡上持續訓練,成為最受歡迎和最強大的國際象棋引擎之一。

關於深度學習的挑戰

但是我們能否將這個模型評估深度學習?我們是否可以將世界各地的邊緣設備連網,創造一個熱點的公共訓練資源?消費者硬體——從蘋果筆記本到Nvidia 遊戲顯示卡——在深度學習在許多情況下,這些設備的效能甚至超過了資料中心顯示卡的每美元效能。

深度研究:加密貨幣激勵眾籌一個AI模型,是否可行?

然而,要在全球環境中有效利用這些資源,我們需要克服各種挑戰。

首先,目前的波動訓練技術中心化在節點之間存在著頻繁的通訊。

目前最先進的模型已經變得如此龐大,以至於訓練必須分割到數千個GPU之間。這是透過多種工具化技術來實現的,通常是在可用的GPU之間分割模型、資料集或同時拆分。這通常需要高頻寬和低延遲的網絡,否則節點將閒置,資料等待到來。

例如,每個資料技術(DDP)將資料集分配到各個GPU上,GPU在其特定的資料片段上訓練完整的模型,然後共享其梯度更新,以產生各個步驟的新模型權重。需要相對有限的通訊總量,因為節點僅在每次逆向傳播後共享急劇更新,並且集合通訊操作可以部分與計算重疊。然而,這種方法僅適用於較小的模型,因為它要求每個GPU在記憶體中儲存整個模型的權重、啟動值和最佳化器狀態。例如,GPT-4在訓練時需要超過10TB的內存,而單一H100只需80GB。

為了解決這個問題,我們也採用了各種技術對模型進行拆分,以便在GPU之間進行分配。例如,張量並行技術(張量並行)在單一層內拆分各個權重,使得每個GPU執行必要的操作將輸出傳遞給其他的GPU。這降低了每個GPU的記憶體需求,但需要它們之間進行持續的通訊來提高,因此需要高頻寬、低延遲的連接效率。

模擬中的下一個GPU共享更新。雖然這所需的通訊量比張量少,但可能會出現「氣泡」(例如,空閒時間),在這種情況下,位於右側後方的GPU 會等待前面GPU 的訊息,以便開始其工作。

為了解決這些挑戰,發展出了各種技術。例如,ZeRO(零視覺優化器)是一種記憶體優化技術,它透過增加通訊開銷來減少記憶體使用,從而使更大的模型能夠在特定設備上進行訓練。 ZeRO 透過在GPU 之間流行分割模型參數、瞬時和優化器狀態來降低記憶體需求,但依賴大量的通信,使設備能夠獲取分割的資料。它是完全分片資料填充(FSDP) 的技術和DeepSpeed 的基礎方法。

這些技術通常在大模型訓練中結合使用,以最大化資源的利用效率,稱為3D 玩具。在這種配置中,張量玩具技術(張量並行)通常用於在單一伺服器內將權重分配到各個GPU上,因為在每個被分割的層之間需要大量通訊。然後,模擬模擬技術(管道並行)被用於在不同伺服器之間(但在資料中心的同一島嶼內)分配層,因為它需要的通訊量縮短。接下來,資料附件技術(資料並行)或完全分片資料附件技術(FSDP)被用於在不同伺服器島嶼之間分割資料集,可以因為透過非同步共享更新和/ 或壓縮梯度來適應更長的網絡延遲。 Meta 使用這種組合方法來Llama 3.1,如下面的圖示所示。

這些方法為去中心化訓練網路帶來了核心挑戰,這些網路依賴於透過(速度更慢且移動更大的)消費級網路連接的設備。在這種環境中,通訊很快就會超過邊緣運算帶來的效益,因為設備通常是空閒訓練的,資料等待到達。以一個簡單的例子說明,每個資料填入一個具有10 億參數的半精度模型,每個GPU 在每個最佳化步驟中都需要共享2GB 的資料。以典型的網路頻寬(例如1 千兆位元每秒)為例,假設計算與通訊不重疊,傳輸刷新至少需要16 秒,導致顯著的空閒。像張量瘋狂技術(張量並行)這樣的技術(需要更多的通訊)當然會表現得更糟糕。

其次,目前的訓練技術缺乏容錯能力。像任何多樣化系統一樣,隨著規模的增加,我們訓練變得更加容易故障。然而,這個問題在訓練中更加嚴重,因為目前的技術主要是同步的,這意味著GPU 必須順利工作才能完成模型訓練。數以千計的GPU 中單一GPU 的故障會導致整個訓練過程停止,而其他GPU 從頭開始訓練。在某些情況下,GPU 並不會發生故障,而是由於各種原因變得遲緩,首先考慮減慢叢集中數千其他GPU的速度完全。到了集群集群的規模,這可能意味著數千萬到數億美元的額外成本。

Meta 在他們的Llama 訓練過程中詳細闡述了這些問題,他們經歷了超過400 次意外中斷,平均每天約8 次中斷。這些中斷主要預防於硬體問題,例如GPU 或主機硬體故障。這導致了他們的GPU 吞吐量38-43%。 OpenAI 在GPT-4 的訓練過程中表現較差,吞吐量32-36%,這也是由於訓練過程中故障中斷。

為此,前沿實驗室在完全優化的環境中(包括同質的、最先進的硬體、網路、電源和冷卻系統)進行訓練時,仍然難以達到40% 的利用率。這主要的損失在於硬體故障和網路問題,而在邊緣訓練環境中,這些問題會更加嚴重,因為設備在處理能力、頻寬、延遲和可靠性方面存在不平衡。更不用說,去中心化網路容易受到不良行為者的影響行為,他們可能出於各種原因試圖破壞整體專案或在特定工作純負載上作弊。即使是志工網絡SETI@home,也曾出現不同參與者的作弊現象。

第三,前沿模型訓練需要大規模的運算能力。雖然像SETI 和Folding 這樣的專案達到了令人印象深刻的規模,但與前緣模型訓練所需的運算能力相比,它們相形見絀。 GPT-4 在一個由20,000 個A100 組成的負載上訓練,其峰值吞吐量為半精度的6.28 ExaFLOPS。這比Folding@home 在其峰值時的運算能力多出三倍。 Llama 405b 使用16,000 個H100 進行訓練,峰值吞吐量為15.8 ExaFLOPS,是折疊高峰的7 倍。隨著多個實驗室計劃建造超過100,000 個H100 的負載,這一缺口必然會進一步擴展,每個負載的運算能力高達驚人的99 ExaFLOPS。

深度研究:加密貨幣激勵眾籌一個AI模型,是否可行?

這確實有道理,因為@home計畫是志工驅動的。貢獻者放棄了他們的記憶體和處理器週期,並承擔了相關成本。這自然限制了他們相對於商業項目的規模。

雖然這些問題在歷史上一直困擾著去中心化訓練工作,但它們似乎不再有效率超過不可越。新的訓練技術已經出現,能夠減少節點間的通訊需求,從而在網路連接的設備上進行。這些許多技術都來自大型實驗室,他們希望為模型訓練增加更大的規模,因此需要有效率跨資料中心的通訊技術。我們也看到了容錯訓練方法和加密貨幣系統的進展,這些方法可以支援更大規模的訓練在邊緣環境中進行。

高效通訊技術

DiLoCo 是Google近期的研究,它透過在設備間提交更新的模型狀態之前進行本地優化,從而減少了通訊開銷。他們的方法(基於早期的聯邦學習研究)顯示了與傳統同步訓練相當的效果,同時節點之間的通訊量降低了500 倍。此後,該方法已被其他反轉複製,並擴展至訓練更大模型(超過10 億個參數)。它仍然極化,這意味著節點可以在不同時間共享瞬時更新,而不是一次共享所有更新。這更適應了處理能力和網路速度各異的邊緣硬體。

其他資料量方法,如lo-fi和DisTrO,旨在進一步降低通訊成本。 Lo-fi提出了完全局部變數的方法,這意味著節點獨立訓練,只在最後傳遞權重。這種方法消耗超過10億參數的語言模型時,效能與基準相當,同時完全消除了通訊開銷。在最初的報告中,DisTrO聲稱採用了一種新型的優化器,他們認為可以將通訊需求降低四到五個數量級別,儘管該方法尚待確認。

新的模型玩具方法也已經出現,這使得實現更大的規模成為可能。 DiPaCo(同樣來自Google)將模型劃分為多個模組,每個模組包含不同的專家模組,以便於特定任務的然後。 ,訓練資料透過「路徑」進行分片,這些路徑是每個資料樣本對應的專家序列。給定一個分片,每個工人幾乎可以獨立訓練特定的路徑,除了共享模組所需的通信,這部分由DiLoCo 處理。這種架構將十億參數模型的訓練時間減少超過一半。

SWARM 組裝性和佔用環境中基礎模型的去中心化訓練(DTFMHE) 也提出了模型組裝的方法,以在環境中實現大模型訓練。 SWARM 發現,隨著模型規模的增加,管道組裝性通訊約束的減少,這使得在較低的網路頻寬和更高的理念的延遲下有效更大的模型成為可能。為了在互連環境中應用這一點,他們在節點之間使用臨時的“管道連接”,這些管道可以在每次迭代中即時更新。這節點將其輸出傳送到任意下一個管道階段的對等節點。這意味著,如果某對等節點比其他節點更快,或任意參與者斷開連接,輸出可以動態重新路由,以確保訓練的持續進行,只要每個階段至少有一個活躍參與者。他們使用這種方法在七個的GPU上訓練一個超過10億參數的模型,並且互連速度較慢(如下圖所示)。

DTFMHE同樣提出了一種新穎的調度演算法,以及管道精度和數控數據,以在3個大洲的設備上訓練大型模型。雖然他們的網路速度比標準Deepspeed慢100倍,但他們的方法僅比在資料中心使用標準Deepspeed慢1.7-3.5倍。與SWARM類似,DTFMHE隨著模型規模的增加而顯現出來,通訊成本可以有效隱藏,即使在地理分佈的網路中也同樣適用。這使得我們能夠透過各種技術克服節點之間較弱的連接,包括增加隱藏層的大小和每個管道階段增加更多層。

故障容錯

這些資料數量方法預設容錯能力,因為每個節點都在記憶體中儲存整個模型。這種節點通常意味著,即使其他節點發生故障,節點仍然可以獨立運作。這對於去中心化訓練非常重要,因為節點通常是不可靠的、被佔用的,甚至可能有惡性行為。但是,如前所述,純資料補充方法僅適用於較小的模型,因此模型大小受到網路中最小節點記憶體容量的否定。

為此,有人提出了適用於模型玩具(或混合玩具)訓練的容錯技術。 SWARM透過優先選擇延遲較低的穩定對等節點來應對對等故障節點,並在發生故障時重新路由管道其他方法,如Oobleck,採用類似的方法,透過創建多個「管道模板」來提供動力,以應對部分節點故障。儘管在資料中心進行了測試,Oobleck 的方法提供了強大的可靠性保證,這些保證同樣適用於去中心化環境。

我們也看到了一些新的模型架構(如去中心化混合專家模型(Decentralized Mixture of Experts,DMoE)),用於支援去中心化環境中的容錯訓練。與傳統的專家混合模型類似,DMoE 由多一個獨立的「專家」網路組成,這些網路分配在一組工人節點上。 DMoE 使用旋轉表以去中心化方式追蹤和整合非同步更新。此機制(在SWARM 中也使用)對節點故障具有良好的抵抗力,因為如果某些節點失敗或未能及時回應,可以將某些專家排除在平均運算之外。

規模

最後,像比特幣和以太坊所採用的加密貨幣激勵系統可以幫助實現所需的規模。這兩個網路透過向貢獻者支付可以隨著採用成長而增值的本地資產來眾包計算。這個設計透過給予早期貢獻者文藝復興來激勵他們,當網路實現小型化規模化後,這些獎項可以逐漸簡化。

事實上,這種存在著各種陷阱,需要。其中突破的陷阱是,過度刺激而未能帶來相應的需求。另外,如果基礎網路不夠去中心化避免,這可能引發監管問題。但是,當設計達到當時,去中心化激勵系統可以在短時間內實現可觀的規模。

例如,比特幣年消耗約為150 太瓦時(TWh),比目前規劃中的最大AI 訓練群集的電力消耗高出了兩個數量級之多(100,000 個H100 負擔全部運行一年)。 ,OpenAI 的GPT-4 在20,000 個A100 上進行了訓練,Meta 的旗艦Llama 405B 模型在16,000 個H100 上進行了訓練。同樣,在其高峰期,以太坊的電力消耗約為70 TWh,去中心化在數個百萬個GPU 之間。即使考慮到未來幾年AI 資料中心的成長,像這些刺激的運算網路仍將多次超越其規模。

當然,並不是所有的計算都是可替換的,訓練相對於挖礦有獨特的需求,需要考慮。儘管如此,這些網路展示了透過這些機制可以實現的規模。

未來的道路

將這些部分連結在一起,我們可以看到前進的新道路的開端。

很快,新的訓練技術使得我們能夠超越資料中心的限制,因為設備不再需要共同放置才能發揮作用。這將需要時間,因為我們去目前的中心化訓練方法仍然規模較小,主要在10億到20億個參數的範圍內,比像GPT-4這樣的模型小倍數。我們需要進一步的突破,以不犧牲關鍵屬性(如通訊效率和容錯能力)的情況下提升這些方法的或者,我們需要新的模型架構,這些架構與今天的大型模型模型有所不同——可能更小、更客製化,在邊緣設備上運行,而不是在雲端

不管怎樣,可以合理地預期在這個方向上會有進一步的進展。我們目前方法的成本是不可持續的,這為創新提供了強烈的市場動力。我們已經看到了這個趨勢,就像蘋果這樣的製造商正在建造更強大的邊緣設備,以便在本地運行更多的工作負載,而不是依賴雲端。我們也看到對開源解決方案的支援不斷增加——甚至像Meta這樣的公司內部,以促進更多去中心化的研究與開發。這些趨勢隨著時間的推移只會加速。

同時,我們也需要連接邊緣設備的新網路基礎設施,以便能夠使用它們。這些設備包括筆記型電腦、遊戲桌上型電腦,最終甚至可能是擁有高效能顯示卡和大內存的手機。我們能夠建構一個「全球集群」,至少、持續線上訓練的運算能力,可以完成任務處理任務。這也是一個棘手的問題,需要在多個領域取得進展。

我們需要更好的調度技術來在一個環境中進行訓練。目前沒有任何方法可以自動裝化模型來達到最佳化,特別是在可以隨時斷開或連接的設備的情況下。這是優化訓練的關鍵下一步,同時保持基於邊緣網路的規模優勢。

我們也必須解決去中心化網路的一般複雜性。為了擴大規模,網路應該建立開放協議——設定標準和指令,規定參與者之間的交互,就像TCP/IP而不是機器學習計算。這使得任何遵循特定規範的設備都能夠連接到網絡,無論擁有者和位置。它還確保網路保持中立,允許用戶訓練他們喜歡的模型。

雖然這實現了規模最大化,但它也需要一個機制來驗證所有訓練的任務性,而不是依賴單一實體。這一點至關重要,因為存在固有的作弊誘因——例如,要求自己完成了某個訓練任務以獲得正確報酬,但實際上並沒有實現。考慮到不同的設備通常以不同的方式執行機器學習操作,這使得使用標準複製技術變得難以驗證性,因此這一點尤其要認識到。解決這個問題需要在密碼學和其他學科上進行深入研究。

幸運的是,我們在所有這些方面都繼續看到進展。與過去幾年相比,這些挑戰似乎不再越過。與機會相比,它們也視野相當微小。谷歌在他們的DiPaCo 論文中對此進行了最佳總結,指出去中心化訓練有潛力打破負回饋機制:

訓練機器學習模型的進展可能會促進基礎設施的簡化建設,最終導致計算資源的可用更加廣泛。目前,基礎設施是圍繞著訓練大型模型的標準方法和設計的,同時機器學習模型的架構也目的是利用目前的基礎設施和訓練方法。回饋循環可能使社區繪製一個錯誤的局部,即計算資源的限制超過了這種實際需求。

也許最令人興奮的是,研究界對解決這些問題的熱情激動高漲。我們在Gensyn 的團隊正在建立上述網路基礎設施。像Hivemind 和BigScience 這樣的團隊在實踐中應用了許多這些技術。像Petals、 sahajBERT 和Bloom 這樣的專案展示了這些技術的能力,對社區為基礎的機器學習以及迫切增長的興趣。還有許多其他人正在推動研究進展,目標是建立一個更開放、更協作的模型來訓練生態系統。如果您對這項工作感興趣,請與我們聯繫以參與其中。

資訊來源:0x資訊編譯自網際網路。版權歸作者深潮TechFlow所有,未經許可,不得轉載

Total
0
Shares
Related Posts