Google推出BIG-Bench Mistake 資料集,可協助AI 語言模型改善自我糾錯能力

據IT 之家1 月15 日報道,谷歌研究院日報使用自家BIG-Bench 基準測試建立了一項“BIG-Bench Mistake”數據集,並利用相關數據集對市面上流行的語言模型“出錯概率”及「糾錯能力」進行了一系列評估研究。谷歌研究人員表示,由於過去沒有能夠評估大語言模型「出錯機率」及「自我糾錯能力」的資料集,因此他們創建了一項名為「BIG-Bench Mistake」的專用基準資料集用於評估測試。據悉,研究人員首先使用PaLM 語言模型在自家BIG-Bench 基準測試任務中運行了5 項任務,之後將生成的「思維鏈(Chain-of-Thought)」軌跡修改加入「邏輯錯誤」部分,之後重新丟給模型判斷思維鏈軌跡中哪些地方有錯誤。谷歌研究人員聲稱,這一BIG-Bench Mistake 資料集有利於改善模型自我糾錯能力,經過相關測試任務微調後的模型,「即便是小型模型表現通常比零樣本提示的大模型更好」。

Total
0
Shares
Related Posts