圖片來源:由無界AI生成
目前,大型語言模型(LLM)在推理任務上表現出令人驚豔的能力,特別是在給出一些樣例和中間步驟時。然而,prompt 方法往往依賴LLM 中的隱性知識,當隱性知識存在錯誤或與任務不一致時,LLM 就會給予錯誤的答案。
現在,來自Google、Mila 研究所等研究機構的研究者共同探索了一種新方法—— 讓LLM 學習推理規則,並提出一種名為假設到理論(Hypotheses-to-Theories,HtT)的新框架。這種新方法不僅改進了多步驟推理,還具有可解釋、可遷移等優勢。
論文網址:https://arxiv.org/abs/2310.07064
對數值推理和關係推理問題的實驗表明,HtT 改進了現有的prompt 方法,準確率提升了11-27%。學到的規則也可以遷移到不同的模型或同一問題的不同形式。
方法簡介
總的來說,HtT 框架包含兩個階段—— 歸納階段和演繹階段,類似於傳統機器學習中的訓練和測試。
在歸納階段,LLM 首先被要求產生並驗證一組訓練範例的規則。研究使用CoT 來聲明規則並推導答案,判斷規則的出現頻率和準確性,收集經常出現並導致正確答案的規則來形成規則庫。
有了良好的規則庫,下一步該研究如何應用這些規則來解決問題。為此,在演繹階段,研究在prompt 中加入規則庫,並要求LLM 從規則庫中檢索規則來進行演繹,將隱式推理轉換為顯式推理。
然而,研究發現,即使是非常強大的LLM(例如GPT-4)也很難在每一步都檢索到正確的規則。為此,該研究開發了XML tagging trick,來增強LLM 的上下文檢索能力。
實驗結果
為了評估HtT,研究針對兩個多步驟推理問題進行了基準測試。實驗結果表明,HtT 改進了少樣本prompt 方法。作者也進行了廣泛的消融研究,以提供對HtT 更全面的了解。
他們在數值推理和關係推理問題上評估新方法。在數值推理中,他們觀察到GPT-4 的準確率提高了21.0%。在關係推理中,GPT-4 的準確性提高了13.7%,GPT-3.5 則獲益更多,性能提高了一倍。性能增益主要來自於規則幻覺的減少。
具體來說,下表1 顯示了在算術的base-16、base-11 和base-9 資料集上的結果。在所有base 系統中,0-shot CoT 在兩個LLM 中的表現都最差。
表2 呈現了在CLUTRR 上比較不同方法的結果。可以觀察到,在GPT3.5 和GPT4 中,0-shot CoT 的表現最差。對於few-shot 提示方法,CoT 和LtM 的效能相似。在平均準確率方面,HtT 始終比兩種模型的提示方法高出11.1-27.2%。值得注意的是,GPT3.5 在檢索CLUTRR 規則方面並不差,而且比GPT4 從HtT 中獲益更多,這可能是因為CLUTRR 中的規則比算術中的規則少。
值得一提的是,使用GPT4 的規則,GPT3.5 上的CoT 性能提高了27.2%,是CoT 性能的兩倍多,接近GPT4 上的CoT 性能。因此,作者認為HtT 可以作為從強LLM 到弱LLM 的一種新的知識蒸餾形式。
表3 顯示,HtT 顯著提高了GPT-4(文本版)的效能。對於GPT3.5 來說,這種改進並不顯著,因為在處理文字輸入時,它經常產生除規則幻覺以外的錯誤。
資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載