Zyda-2是由Zyphra和NVIDIA共同開發的突破性5兆令牌資料集,旨在提升大型語言模型(LLM)的訓練標準。此資料集比前身Zyda-1大五倍,注重語言熟練度並涵蓋多個主題。透過NVIDIA的NeMo Curator,資料處理效率顯著提高,資料處理時間縮短一半,速度提升十倍。 Zyda-2結合多個開源資料集,採用高效率的濾波技術,改善語言和邏輯推理任務的效能。 Yury Tokpanov表示,資料品質的提升顯著增強了模型效能。欲了解更多,請參閱NVIDIA NeMo Curator GitHub儲存庫。
張彼得2024年10月16日08:51
Zyda-2 是由Zyphra 和NVIDIA 開發的突破性5T 代幣資料集,為LLM 培訓設定了新標準,提高了AI 性能和效率。
作為人工智慧社群的一項重大發展,Zyphra 和NVIDIA 合作推出了Zyda-2 資料集,這是一個強大的5 兆令牌資料集,旨在推進大型語言模型(LLM) 的訓練。此資料集使用NVIDIA 的NeMo Curator 進行處理,將透過提供無與倫比的品質和多樣性來重新定義AI 模型訓練的標準。
使用Zyda-2 增強AI 模型訓練
Zyda-2 資料集因其全面的範圍和細緻的管理而脫穎而出。它比其前身Zyda-1 大五倍,涵蓋廣泛的主題和領域。這個廣泛的資料集專為通用語言模型預訓練而定制,強調語言熟練程度而不是代碼或數學應用。 Zyda-2 的優勢在於其在整體評估分數方面超越現有資料集的能力,正如使用Zamba2-2.7B 模型的測試所證明的那樣。
與NVIDIA NeMo Curator 集成
NeMo Curator 在資料集的開發中發揮關鍵作用,利用GPU 加速高效處理大規模資料。透過使用該工具,Zyphra 團隊成功地大幅縮短了資料處理時間,將總擁有成本降低了一半,並將處理速度提高了十倍。這些增強功能對於提高資料集的品質至關重要,從而可以更有效地訓練人工智慧模型。
建構模組和方法論
Zyda-2 將多個開源資料集(包括DCLM、FineWeb-edu、Dolma 和Zyda-1)與先進的過濾和重複資料刪除技術相結合。這種組合確保資料集不僅保留其組件的優點,而且還解決了它們的弱點,從而提高了語言和邏輯推理任務的整體效能。 NeMo Curator 的模糊重複資料刪除和品質分類等功能的使用有助於完善資料集,確保僅使用最高品質的資料進行訓練。
對人工智慧發展的影響
Zyphra 資料集負責人Yury Tokpanov 表示,NeMo Curator 的整合改變了遊戲規則,實現了更快、更具成本效益的資料處理。資料品質的提升證明暫停訓練以重新處理資料是合理的,從而使模型的效能顯著提高。這些增強功能的效果顯而易見,即在Zyda 和Dolma 資料集的高品質子集上訓練的模型的準確性得到了提高。
如需進一步了解Zyda-2 及其應用,請參閱NVIDIA NeMo Curator GitHub 儲存庫上的詳細教學。
圖片來源:Shutterstock
資訊來源:由0x資訊編譯自BLOCKCHAINNEWS。版權所有,未經許可,不得轉載