機器智能網絡Gensyn引入了RL Swarm,這是一種分散的點對點系統,旨在促進通過Internet通過Internet進行協作強化學習。下個月,該項目打算啟動測試網,從而更廣泛地參與開放機器智能。
RL Swarm是一個完全開源的平台,可以使增強學習模型能夠跨分佈式系統集體培訓。它是研究結果的實時演示,表明利用RL的模型可以在作為協作群的一部分而不是孤立的一部分培訓時提高其學習效率。
操作群節點可以使用公共地址啟動新群或連接到現有的群體。在每個群中,模型都將增強學習作為一個集體,利用分散的交流協議(基於Hivemind上的分散的交流協議)促進知識共享和模型的改進。通過運行提供的客戶端軟件,參與者可以加入一群人,觀察共享的更新,並在本地培訓模型,同時受益於集體智能。展望未來,將進行其他實驗,從而鼓勵更廣泛地參與這項技術。
邀請個人加入RL群,親身體驗系統。通過標準消費者硬件和更高級的基於雲的GPU資源,可以訪問參與。
機器智能網絡
兩年前,我們對機器學習計算協議提出了願景。一個將世界上的每個設備連接到一個開放網絡的機器智能網絡,沒有看門人或人工邊界。
本週,我們將……pic.twitter.com/w9wgjhijpi
– Gensyn(@gensynai)2025年2月26日
RL群如何工作?
長期以來,Gensyn構想了一個未來,在該未來中,機器學習被分散並分佈在龐大的設備網絡中。這種方法不依賴大型的集中模型,而是將模型分解為較小的,相互聯繫的組件,這些組件可以合作運行。作為對這一願景的研究的一部分,Gensyn探索了分散學習的各種途徑,最近觀察到,當模型交流並互相提供反饋時,訓練後培訓(RL)培訓特別有效。
具體而言,實驗表明,當RL模型作為協作群的一部分而不是獨立時,提高了他們的學習效率。
在此設置中,每個群節點運行QWEN 2.5 1.5B模型,並通過結構化的三階段過程來解決數學問題(GSM8K)。在第一階段,每個模型都獨立嘗試解決給定問題,以指定格式產生其推理和答案。在第二階段,模型審查了同行的反應並提供建設性的反饋。在最後階段,每個模型都會對其預測的大多數人認為最佳答案進行投票,然後相應地完善其回答。通過這些迭代互動,模型共同增強了他們的解決問題的能力。
實驗結果表明,這種方法可以加速學習過程,從而使模型能夠在較少的訓練迭代中對看不見的測試數據產生更準確的響應。
使用張板的數據可視化說明了參與群節點中觀察到的關鍵趨勢。這些地塊由於週期性的“重置”而表現出循環模式。所有圖中的X軸代表自節點加入群以來經過的時間,而Y軸則傳達了不同的性能指標。從左到右,圖描繪了:共識正確性獎勵,該獎勵衡量了模型正確格式化響應並產生數學準確的答案的實例;總獎勵,基於規則的評估的加權總和(例如格式化,數學準確性和邏輯連貫性);培訓損失,反映了模型如何根據獎勵信號進行調整以優化其學習過程;響應完成長度,該長度跟踪響應中使用的令牌數量,這表明當模型接受同伴評論時,模型變得更加簡潔。
資訊來源:由0x資訊編譯自出MPOST。版權歸作者Alisa Davidson所有,未經許可,不得轉載!