華科阿里等人聯合打造TF-T2V 視訊方案,無需文字標註,把AI量產影片的成本打下來

據站長之家1 月7 日報道,與圖片生成相比,影片生成仍存在巨大挑戰。首先,視訊生成需要處理更高維度的數據,考慮額外時間維度帶來的時序建模問題,因此需要更多的視訊- 文字對數據來驅動時序動態的學習。然而,對影片進行準確的時序標註非常昂貴。這限制了影片- 文字資料集的規模,如現有WebVid10M 影片資料集包含10.7M 影片- 文字對,與LAION-5B 圖片資料集在資料規模上相差甚遠,嚴重限制了影片產生模型規模化的擴展。為解決上述問題,華中科技大學、阿里巴巴集團、浙江大學和螞蟻集團聯合研究團隊於近期發布了TF-T2V視訊方案。該方案另闢蹊徑,提出了基於大規模無文字標註視訊資料進行視訊生成,能夠學習豐富的運動動態。

Total
0
Shares
Related Posts