Langchain推出了OpenEvals和Agensevals兩個新軟件包,以簡化大型語言模型(LLM)的評估過程。評估對於確定LLM輸出質量至關重要,包括數據和評估指標兩個主要組件。 OpenEvals和Agensevals提供可自定義評估人員和特定用例評估器,強調高質量數據集的重要性。 LLM-AS-AA-Gudge評估可進行無參考的自然語言輸出評估,確保模型輸出符合預定義格式。 Agensevals則集中於代理人執行任務時的軌跡評估。 Langchain還計劃擴展評估庫,鼓勵開發者分享改進建議。
扎克·安德森(Zach Anderson)2月26日,2025年12:07
Langchain引入了OpenEvals和Agensevals來簡化大型語言模型的評估過程,為開發人員提供了預建的工具和框架。
Langchain是人工智能領域的傑出參與者,已推出了兩個新軟件包,即OpenEvals和Agensevals,旨在簡化大型語言模型(LLMS)的評估過程。根據Langchain的說法,這些軟件包為開發人員提供了一個強大的框架和一組評估人員,以簡化LLM驅動的應用程序和代理的評估。
了解評估的作用
評估(通常稱為Evals)對於確定LLM輸出的質量至關重要。它們涉及兩個主要組件:評估的數據和用於評估的指標。數據的質量顯著影響評估反映現實世界使用的能力。 Langchain強調了策劃針對特定用例的高質量數據集的重要性。
評估指標通常是根據應用程序的目標定制的。為了滿足共同的評估需求,Langchain開發了OpenEvals和Agensevals,共享了預先建立的解決方案,這些解決方案突出了普遍的評估趨勢和最佳實踐。
常見的評估類型和最佳實踐
OpenEvals和Agensevals專注於兩種評估的主要方法:
可自定義的評估人員:廣泛適用的LLM-AS-AAA-Gudge評估,使開發人員可以根據其特定需求調整預構建示例。 特定的用例評估器:這些是為特定應用程序設計的,例如從文檔中提取結構化內容或管理工具調用和代理軌跡。 Langchain計劃擴展這些圖書館,以包括更多針對性的評估技術。 LLM-AS-AA-Gudge評估
LLM-AS-AAaa-Gudge評估由於評估自然語言產量的效用而普遍存在。這些評估可以是無參考的,可以實現客觀評估,而無需地面真相答案。 OpenEvals通過提供可自定義的入門提示,結合了很少的示例並為透明度生成推理評論來幫助此過程。
結構化數據評估
對於需要結構化輸出的應用程序,OpenEvals提供了工具,以確保模型的輸出粘附到預定義的格式。這對於諸如從文檔中提取結構化信息或驗證工具調用參數的任務至關重要。 OpenEvals支持精確的匹配配置或針對結構化輸出的LLM-AS-AA-Gudge驗證。
代理評估:軌跡評估
代理評估集中於代理人完成任務的動作順序。這涉及評估工具選擇和應用的軌跡。 Agensevals提供了評估和確保代理使用正確工具並遵循適當序列的機制。
跟踪和未來的發展
Langchain建議使用Langsmith隨著時間的推移跟踪評估。 Langsmith提供了用於追踪,評估和實驗的工具,並支持生產級LLM應用程序的開發。像Elastic和Klarna這樣的著名公司利用Langmith評估其Genai應用。
Langchain旨在編纂最佳實踐的計劃繼續進行,併計劃為常見用例介紹更具體的評估者。鼓勵開發人員貢獻自己的評估者或通過GitHub提出改進。
圖像來源:Shutterstock
資訊來源:由0x資訊編譯自BLOCKCHAINNEWS。版權歸作者所有,未經許可,不得轉載!