根據站長之家11 月7 日報,北京大學和北京智源人工智慧研究院的團隊提出了一個名為LLaMA-Rider 的訓練框架,旨在讓大型語言模型在開放世界中具備自主探索和學習任務的能力。這個框架透過回饋- 修改機制來實現主動探索,使模型在環境中接收回饋訊息,不斷調整決策,從而逐漸適應開放環境。據悉,LLaMA-Rider 採用兩階段訓練方法,首先讓模型在環境中自主探索,然後將成功經驗整合為監督資料集,用於模型微調,提高多任務解決的能力。實驗結果顯示,LLaMA-Rider 在多任務解決上表現出高採樣效率和低訓練代價,與強化學習方法相比具有優勢。這項研究為大型語言模式在開放世界中的自主學習提供了重要想法。