NVIDIA NeMo Curator 增強LLM 訓練的非英語資料集準備


NVIDIA NeMo Curator 增強LLM 訓練的非英語資料集準備

資料管理對於開發有效且公平的大型語言模型(LLM) 至關重要。高品質、多樣化的訓練資料透過解決偏差、不一致和冗餘等問題直接影響LLM 效能。 NVIDIA 最近宣布開源NVIDIA NeMo Curator,這是一個資料管理庫,旨在透過可擴展且高效的資料集準備來提高LLM 訓練準確性。

資料管理的重要性

在訓練本地化多語言LLM 時,尤其是針對資源匱乏的語言,諸如OSCAR 之類的網路爬取資料至關重要。然而,這些數據通常包含噪音、不相關的內容、重複項和格式問題。有效的數據管理對於緩解這些問題並確保高品質的LLM 效能至關重要。 NeMo Curator 提供了一個可自訂的模組化介面,透過準備高品質的token 來簡化管道擴展並加速模型收斂。

NeMo Curator 概述

NeMo Curator 利用Dask 和RAPIDS 的GPU 加速資料管理,使用戶能夠從大量未經管理的網路語料庫以及自訂資料中心化大規模挖礦高品質文字。例如,可以使用泰語維基百科資料集(維基百科資料集的較小子集)建立資料管理管道,該資料集可以在單一GPU 上處理。維基百科因其準確、結構良好的內容而被認為是LLM 預訓練的高品質資料。 NeMo Curator 透過偵測和過濾低品質文件來增強這一點,確保僅使用最佳資料進行訓練。

資料管理流程範例

以泰語維基百科為例,資料管理流程涉及幾個步驟:

下載並將資料集提取到JSONL 檔案。

執行初步資料清理,包括語言分離和Unicode 文字修復。

進階清理,例如GPU 加速的精確和模糊重複資料刪除以及啟發式過濾。

有關本教學的完整程式碼範例,請參閱NVIDIA NeMo Curator GitHub repo。

先決條件和設定

若要使用GPU 加速重複資料刪除,建議採用下列硬體設定:

NVIDIA GPU:本教學使用NVIDIA A10 24GB GPU。

CUDA 和NVIDIA 驅動程式:帶有驅動程式535.154.05 的CUDA 12.2。

Ubuntu 22.04。

NVIDIA-container-toolkit 版本1.14.6。

若要安裝NeMo Curator 庫,請執行以下命令:

git clone https://github.com/NVIDIA/NeMo-Curator.git cd NeMo-Curator pip install –extra-index-url https://pypi.nvidia.com “[cuda12x]“

進階資料清理

採用重複資料刪除和啟發式過濾等進階資料管理技術來提高資料品質。例如,ExactDuplicates 類別使用RAPIDS cuDF 庫中的GPU 加速實作來刪除相同的文件。同樣,FuzzyDuplicates 類別使用MinhashLSH 演算法來刪除幾乎相同的文檔,該演算法在計算上非常有效率。

啟發式過濾

啟發式過濾有助於使用簡單、計算效率高的規則從資料中心化刪除低品質內容。在發佈時,NeMo Curator 為自然語言提供了24 種啟發式方法,為編碼語言提供了8 種啟發式方法。可以使用YAML 設定檔套用這些過濾器來定義啟發式過濾的過濾器。

下一步

本教學示範如何為泰語維基百科資料建立範例資料管理管道。如需更多資訊和範例,請參閱GitHub 上的資料管理範例集合。企業還可以要求存取NVIDIA NeMo Curator 微服務,可提供簡化的效能和可擴充性。

圖片來源:Shutterstock

資訊來源:由0x資訊編譯自BLOCKCHAINNEWS。版權所有,未經許可,不得轉載

Total
0
Shares
Related Posts