新加坡科技設計大學聯手清華、微軟研究院,推出大模型調優方法Tuna

根據品玩10 月24 日報道,Arxiv 頁面顯示,一支由來自新加坡科技設計大學、微軟研究院和清華大學的研究者所組成的研究團隊今日發布了一款名為Tuna 的提起有方法,讓模型可以使用大語言模型的回饋進行指令調整。研究團隊使用其新穎的機率排名和情境排名方法來微調指令調整後的LLM,以增加產生更好反應的可能性。機率排名使指令調整後的模型可以從高階大模型處繼承高品質和低品質響應的相對排名。另一方面,使用上下文排名學習允許模型使用更強大模型的上下文理解能力來精煉其自己的反應分佈。據研究團隊表示,Tuna 在Super Natural Instructions (119 個測試任務)、LMentry (25 個測試任務)、Vicuna QA 等任務上都表現出色。

Total
0
Shares
Related Posts