據新智元9 月5 日報導,谷歌團隊的最新研究提出,用大模型替代人類進行偏好標註,也就是AI 反饋強化學習(RLAIF)。結果發現,RLAIF 可以在不依賴人類標註員的情況下,產生與RLHF 相當的改進效果,勝率50%。同時,谷歌研究再次證明了RLAIF 和RLHF,比起監督微調(SFT)勝率都超過了70%。
巴比特訊