據品玩9 月12 日報導,新加坡國立大學下一代搜索技術聯合研究中心(NExT++)近日公佈一項新的計劃,開發一款可以突破輸入端多模態理解限制的大模型NExT-GPT。研究者表示,他們將大語言模型與多模態適配器和不同的擴散解碼器連接起來,使NExT-GPT 能夠感知不同的輸入形式,並以文本、圖像、視頻和音頻的任意組合方式生成輸出內容。通過利用現有訓練有素的高性能編碼器和解碼器,NExT-GPT 僅使用某些投影層的少量參數(1%)進行調整,這不僅有利於低成本訓練,而且有利於將該模型擴展到更多潛在模態。 NExT++ 的研究者表示,他們的研究展示了建立一個能夠模擬通用模態的人工智能代理的可能性。