智源研究院開源裁判模型“JudgeLM”，可評測各類大模型並輸出評分

據站長之家11 月13 日報道，智源研究院開源了一種名為JudgeLM 的裁判模型，可以高效準確地評判各類大模型。與GPT-4 相比，JudgeLM 僅需1/120 的成本，就能達到90% 以上的評判結果一致性。它可以應用於純文字、多模態等多種評判場景，並且可以輸出評分、判斷和闡述理由。透過創新方法，JudgeLM 與參考答案的一致性最高超過了90%，接近人類表現。 JudgeLM 有三個不同參數版本，分別為70 億、130 億和330 億參數，能力和表現隨著參數規模的增大而提升。此外，智源研究院還開源了一個包含訓練和驗證樣本的資料集，用於深入研究大語言模型裁判。 JudgeLM 的評判效率高，成本低於基於API 的評判方法。

智源研究院開源裁判模型“JudgeLM”，可評測各類大模型並輸出評分

dYdX完成首筆外部收購，收購加密社交交易平台Pocket Protector

薩皮恩（Sapien）重塑了去中心化AI，將人類置於中心位置

Kucoin發布Xstocks，為全球頂級股票提供便捷的一站式訪問平台

AI與Meme令牌：Nexchain的500萬美元獎勵系統及空投助力公用事業公司在2025年脫穎而出

INU人工智能風格增長了3615％

幣安上市只是開始？深入解析騰訊背後的投資鏈條

選擇合適的智能合約平台以塑造您的去中心化應用程序開發之旅。

全星塔國防X代碼清單發布（2025年7月）

智源研究院開源裁判模型“JudgeLM”，可評測各類大模型並輸出評分

Related Posts