Zyda-2 資料集透過NVIDIA NeMo Curator 完全變革了人工智慧模型的訓練方式

Zyda-2是由Zyphra和NVIDIA共同開發的突破性5兆令牌資料集，旨在提升大型語言模型（LLM）的訓練標準。此資料集比前身Zyda-1大五倍，注重語言熟練度並涵蓋多個主題。透過NVIDIA的NeMo Curator，資料處理效率顯著提高，資料處理時間縮短一半，速度提升十倍。 Zyda-2結合多個開源資料集，採用高效率的濾波技術，改善語言和邏輯推理任務的效能。 Yury Tokpanov表示，資料品質的提升顯著增強了模型效能。欲了解更多，請參閱NVIDIA NeMo Curator GitHub儲存庫。

張彼得2024年10月16日08:51

Zyda-2 是由Zyphra 和NVIDIA 開發的突破性5T 代幣資料集，為LLM 培訓設定了新標準，提高了AI 性能和效率。

Zyda-2 資料集借助NVIDIA NeMo Curator 徹底改變了AI 模型訓練

作為人工智慧社群的一項重大發展，Zyphra 和NVIDIA 合作推出了Zyda-2 資料集，這是一個強大的5 兆令牌資料集，旨在推進大型語言模型(LLM) 的訓練。此資料集使用NVIDIA 的NeMo Curator 進行處理，將透過提供無與倫比的品質和多樣性來重新定義AI 模型訓練的標準。

使用Zyda-2 增強AI 模型訓練

Zyda-2 資料集因其全面的範圍和細緻的管理而脫穎而出。它比其前身Zyda-1 大五倍，涵蓋廣泛的主題和領域。這個廣泛的資料集專為通用語言模型預訓練而定制，強調語言熟練程度而不是代碼或數學應用。 Zyda-2 的優勢在於其在整體評估分數方面超越現有資料集的能力，正如使用Zamba2-2.7B 模型的測試所證明的那樣。

與NVIDIA NeMo Curator 集成

NeMo Curator 在資料集的開發中發揮關鍵作用，利用GPU 加速高效處理大規模資料。透過使用該工具，Zyphra 團隊成功地大幅縮短了資料處理時間，將總擁有成本降低了一半，並將處理速度提高了十倍。這些增強功能對於提高資料集的品質至關重要，從而可以更有效地訓練人工智慧模型。

建構模組和方法論

Zyda-2 將多個開源資料集（包括DCLM、FineWeb-edu、Dolma 和Zyda-1）與先進的過濾和重複資料刪除技術相結合。這種組合確保資料集不僅保留其組件的優點，而且還解決了它們的弱點，從而提高了語言和邏輯推理任務的整體效能。 NeMo Curator 的模糊重複資料刪除和品質分類等功能的使用有助於完善資料集，確保僅使用最高品質的資料進行訓練。

對人工智慧發展的影響

Zyphra 資料集負責人Yury Tokpanov 表示，NeMo Curator 的整合改變了遊戲規則，實現了更快、更具成本效益的資料處理。資料品質的提升證明暫停訓練以重新處理資料是合理的，從而使模型的效能顯著提高。這些增強功能的效果顯而易見，即在Zyda 和Dolma 資料集的高品質子集上訓練的模型的準確性得到了提高。

如需進一步了解Zyda-2 及其應用，請參閱NVIDIA NeMo Curator GitHub 儲存庫上的詳細教學。

圖片來源：Shutterstock

Zyda-2 資料集透過NVIDIA NeMo Curator 完全變革了人工智慧模型的訓練方式

Coinbase 在與0x 項目的“交換器” 合約交互中損失約30 萬美元

BitMEX Research：加密貨幣持倉公司費用高昂，股東回報將長期受損

山寨季雖遲但會到？機構資金或成輪動新突破口

ChainLink整合冰定價數據並推出Link Reserve作為代幣聚集平台

機構：美聯儲9月會議必將出現反對意見

比特幣將新的歷史最高高點為$123,637

矮人企鵝CEO專訪：我們目標超越凱蒂和神奇寶貝

4E：BTC創歷史新高，渣打大幅上調ETH中長期預期

Zyda-2 資料集透過NVIDIA NeMo Curator 完全變革了人工智慧模型的訓練方式

Related Posts