智源研究院開源裁判模型“JudgeLM”,可評測各類大模型並輸出評分

據站長之家11 月13 日報道,智源研究院開源了一種名為JudgeLM 的裁判模型,可以高效準確地評判各類大模型。與GPT-4 相比,JudgeLM 僅需1/120 的成本,就能達到90% 以上的評判結果一致性。它可以應用於純文字、多模態等多種評判場景,並且可以輸出評分、判斷和闡述理由。透過創新方法,JudgeLM 與參考答案的一致性最高超過了90%,接近人類表現。 JudgeLM 有三個不同參數版本,分別為70 億、130 億和330 億參數,能力和表現隨著參數規模的增大而提升。此外,智源研究院還開源了一個包含訓練和驗證樣本的資料集,用於深入研究大語言模型裁判。 JudgeLM 的評判效率高,成本低於基於API 的評判方法。

Total
0
Shares
Related Posts