位元組跳動與浙大聯合推多模態大語言模型Vista-LLaMA,可解讀影片內容

根據站長之家1 月8 日報道,位元組跳動與浙江大學合作推出了多模態大語言模型Vista-LLaMA,該模型專為視訊內容理解而設計,能夠輸出高品質視訊描述。透過創新的視覺與語言token 處理方式,Vista-LLaMA 解決了在影片內容中出現「幻覺」現象的問題。 Vista-LLaMA 在多個開放式視訊問答基準測試中表現卓越,尤其在NExT-QA 和MSRVTT-QA 測試中取得了突破性成績。其在零樣本NExT-QA 測試中實現了60.7% 的準確率,在MSRVTT-QA 測試中達到了60.5% 的準確率,超過了目前所有的SOTA 方法。這些結果證明了Vista-LLaMA 在影片內容理解和描述生成方面的高效性和精準性。

Total
0
Shares
Related Posts