據《科創板日報》9 月7 日報導,中國科學院院士何積豐在2023 Inclusion・外灘大會上表示,大模型的主要安全問題一是在隱私方面,大模型訓練過程中涉及大量用戶個人信息和數據,使用過程涉及很多用戶私密信息,這些信息沒有受到應有的隱私保護,生成能力讓隱私洩露的方式變得多樣化,隱私保護更加困難。二是在對齊方面,需要讓系統的價值觀和人類價值觀一致,使其符合設計者的利益和原則,不會產生意外的有害結果。但人類價值觀是多元且動態變化的,而且大模型的“有用性”和“無害性”存在衝突,這導致對齊成為複雜的跨學科研究問題。目前,反饋強化學習是實現對齊的技術途徑,通過反饋給模型不同的獎勵信號,引導模型的高質量輸出;基於給大模型提供明確的原則,系統自動訓練模型,對所有生成的輸出結果提供初始排序。