谷歌研究人員宣布開發Imagen Video,這是一種人工智能係統,能夠根據口頭請求生成分辨率為1280 × 768 像素和每秒24 幀的視頻。
該工具基於Imagen 算法,類似於DALL-E 2 和穩定擴散。圖像生成器使用大型預訓練語言神經網絡和級聯漫反射模型,並結合了“深層次的單詞理解和前所未有的逼真度”。
Imagen 生成的圖像。數據:谷歌。
正如穀歌研究人員解釋的那樣,Imagen Video 採用文本描述並創建一個16 幀的視頻,分辨率為24×48 像素,頻率為3 FPS。然後系統會縮放並“預測”其他圖像。
因此,該算法生成了一個128 幀的動畫,分辨率為1280×768 像素,頻率為24 FPS。
視頻生成的第一階段是Imagen Video。數據:谷歌。
視頻生成的中間階段Imagen Video。數據:谷歌。
Imagen Video 生成的成品視頻。數據:谷歌。
為了訓練Imagen Video,開發人員使用了1400 萬個視頻描述和6000 萬個圖像-文本對,以及公開可用的LAION-400M 數據集,這使得該模型能夠應用許多美學方面。
Imagen Video 生成的視頻。數據:谷歌。
在測試過程中,研究人員發現該算法可以創建“水彩”視頻或繼承梵高的風格。據他們介紹,Imagen Video 展示了對深度和三維度的理解,這使其能夠生成視頻,就好像它們是由無人機錄製的一樣。
Imagen Video 生成的視頻。數據:谷歌。
此外,系統能夠正確顯示文本。
“與Stable Diffusion 和DALL-E 2 不同,它們試圖將“logo for Diffusion”之類的查詢轉換為可讀的單詞,Imagen Video 可以毫無問題地複制它,”項目文件說。
根據阿爾伯塔大學的人工智能研究員Matthew Guzdial 的說法,將文本轉換為視頻的問題尚未解決。
“就質量而言,我們不太可能很快達到DALL-E 2 或Midjourney 之類的水平。 [создания роликов]“, 他說。
為了消除視頻中的抖動並消除失真,Imagen Video 團隊計劃與Phenaki 的開發人員合作。這是Google 的另一款生成器,可將冗長的詳細提示轉換為兩分鐘質量低劣的視頻。
谷歌還指出,用於訓練的數據包含不適當的內容,這就是Imagen Video 有時會創建描述暴力或性行為的剪輯的原因。因此,該公司不打算在問題得到解決之前發布模型或其源代碼。
回想一下,9 月份,一位愛好者開發了基於文本的穩定擴散視頻動畫生成器。
8 月,TikTok 推出了基於文字的視頻背景工具。
6 月,中國研究人員開發了一種具有90 億參數的CogVideo 轉換器,用於將文本轉換為動畫。
在Telegram 上訂閱ForkLog 新聞:ForkLog AI – 來自AI 世界的所有新聞
在文本中發現錯誤?選擇它並按CTRL+ENTER
資訊來源:由0x資訊編譯自FORKLOG。版權歸作者Марина Глайборода所有,未經許可,不得轉載