谷歌推出基於圖像的視頻到文本生成器

谷歌研究人員宣布開發Imagen Video，這是一種人工智能係統，能夠根據口頭請求生成分辨率為1280 × 768 像素和每秒24 幀的視頻。

該工具基於Imagen 算法，類似於DALL-E 2 和穩定擴散。圖像生成器使用大型預訓練語言神經網絡和級聯漫反射模型，並結合了“深層次的單詞理解和前所未有的逼真度”。

Imagen 生成的圖像。數據：谷歌。

正如穀歌研究人員解釋的那樣，Imagen Video 採用文本描述並創建一個16 幀的視頻，分辨率為24×48 像素，頻率為3 FPS。然後系統會縮放並“預測”其他圖像。

因此，該算法生成了一個128 幀的動畫，分辨率為1280×768 像素，頻率為24 FPS。

視頻生成的第一階段是Imagen Video。數據：谷歌。

視頻生成的中間階段Imagen Video。數據：谷歌。

Imagen Video 生成的成品視頻。數據：谷歌。

為了訓練Imagen Video，開發人員使用了1400 萬個視頻描述和6000 萬個圖像-文本對，以及公開可用的LAION-400M 數據集，這使得該模型能夠應用許多美學方面。

Imagen Video 生成的視頻。數據：谷歌。

在測試過程中，研究人員發現該算法可以創建“水彩”視頻或繼承梵高的風格。據他們介紹，Imagen Video 展示了對深度和三維度的理解，這使其能夠生成視頻，就好像它們是由無人機錄製的一樣。

Imagen Video 生成的視頻。數據：谷歌。

此外，系統能夠正確顯示文本。

“與Stable Diffusion 和DALL-E 2 不同，它們試圖將“logo for Diffusion”之類的查詢轉換為可讀的單詞，Imagen Video 可以毫無問題地複制它，”項目文件說。

根據阿爾伯塔大學的人工智能研究員Matthew Guzdial 的說法，將文本轉換為視頻的問題尚未解決。

“就質量而言，我們不太可能很快達到DALL-E 2 或Midjourney 之類的水平。 [создания роликов]“，他說。

為了消除視頻中的抖動並消除失真，Imagen Video 團隊計劃與Phenaki 的開發人員合作。這是Google 的另一款生成器，可將冗長的詳細提示轉換為兩分鐘質量低劣的視頻。

谷歌還指出，用於訓練的數據包含不適當的內容，這就是Imagen Video 有時會創建描述暴力或性行為的剪輯的原因。因此，該公司不打算在問題得到解決之前發布模型或其源代碼。

回想一下，9 月份，一位愛好者開發了基於文本的穩定擴散視頻動畫生成器。

8 月，TikTok 推出了基於文字的視頻背景工具。

6 月，中國研究人員開發了一種具有90 億參數的CogVideo 轉換器，用於將文本轉換為動畫。

在Telegram 上訂閱ForkLog 新聞：ForkLog AI – 來自AI 世界的所有新聞

在文本中發現錯誤？選擇它並按CTRL+ENTER

資訊來源：由0x資訊編譯自FORKLOG。版權歸作者Марина Глайборода所有，未經許可，不得轉載