英偉達推出AI 語音辨識模式Parakeet,號稱優於Whisper

據站長之家1 月8 日報道,開源對話AI 工具包NVIDIA NeMo 宣布推出Parakeet ASR 模型系列,這是一系列最先進的自動語音識別(ASR)模型,能夠以出色的準確性轉錄英語口語。英偉達宣布推出了四個Parakeet 模型,這些模型基於RNN Transducer/Connectionist Temporal Classification 解碼器,並且具有0.6-1.1 億參數。它們能夠應對各種音訊環境,並且在僅使用了64000 小時的資料集進行訓練後,在基準資料集上實現了出色的詞錯誤率(WER)表現,優於以往的模型。根據開發人員的說法,這些模型對音樂和靜音等非語音片段具有穩健性,並且在基準測試中優於OpenAI 的Whisper v3。它們還透過預先訓練的控制點提供使用者友好的整合到專案中。

Total
0
Shares
Related Posts