微軟推出“從錯誤中學習”模型訓練法,號稱可“模仿人類學習過程,改善AI 推理能力”

根據IT 之家11 月7 日消息,微軟亞洲研究院聯合北京大學、西安交通大學等大學提出了一項名為「從錯誤中學習(LeMA)」的AI 訓練方法,號稱可以透過模仿人類學習知識的過程,來改進AI 推理能力。為了提升開源大語言模型的思考鏈推理能力,研究團隊提出了LeMA 方法。這種方法主要是模仿人類的學習過程,透過“從錯誤中學習”,以改進模型的推理能力。研究人員的方法是使用一對包含「錯誤解答」與「修正後正確答案」的資料來微調相關模型。為取得相關數據,研究人員收集了5 個不同大語言模型(包括LLaMA 及GPT 系列)的錯誤答案和推理過程,再以GPT-4 作為“訂正者”,提供修正後的正確答案。據悉,修正後的正確答案包含三類訊息,分別是原推理過程中錯誤片段、原推理過程出錯的原因、以及如何修正原方法以獲得正確答案。

Total
0
Shares
Related Posts