谷歌推出基於圖像的視頻到文本生成器


谷歌研究人員宣布開發Imagen Video,這是一種人工智能係統,能夠根據口頭請求生成分辨率為1280 × 768 像素和每秒24 幀的視頻。

該工具基於Imagen 算法,類似於DALL-E 2 和穩定擴散。圖像生成器使用大型預訓練語言神經網絡和級聯漫反射模型,並結合了“深層次的單詞理解和前所未有的逼真度”。

Imagen 生成的圖像。數據:谷歌。

正如穀歌研究人員解釋的那樣,Imagen Video 採用文本描述並創建一個16 幀的視頻,分辨率為24×48 像素,頻率為3 FPS。然後系統會縮放並“預測”其他圖像。

因此,該算法生成了一個128 幀的動畫,分辨率為1280×768 像素,頻率為24 FPS。

視頻生成的第一階段是Imagen Video。數據:谷歌。

視頻生成的中間階段Imagen Video。數據:谷歌。

Imagen Video 生成的成品視頻。數據:谷歌。

為了訓練Imagen Video,開發人員使用了1400 萬個視頻描述和6000 萬個圖像-文本對,以及公開可用的LAION-400M 數據集,這使得該模型能夠應用許多美學方面。

Imagen Video 生成的視頻。數據:谷歌。

在測試過程中,研究人員發現該算法可以創建“水彩”視頻或繼承梵高的風格。據他們介紹,Imagen Video 展示了對深度和三維度的理解,這使其能夠生成視頻,就好像它們是由無人機錄製的一樣。

Imagen Video 生成的視頻。數據:谷歌。

此外,系統能夠正確顯示文本。

“與Stable Diffusion 和DALL-E 2 不同,它們試圖將“logo for Diffusion”之類的查詢轉換為可讀的單詞,Imagen Video 可以毫無問題地複制它,”項目文件說。

根據阿爾伯塔大學的人工智能研究員Matthew Guzdial 的說法,將文本轉換為視頻的問題尚未解決。

“就質量而言,我們不太可能很快達到DALL-E 2 或Midjourney 之類的水平。 [создания роликов]“, 他說。

為了消除視頻中的抖動並消除失真,Imagen Video 團隊計劃與Phenaki 的開發人員合作。這是Google 的另一款生成器,可將冗長的詳細提示轉換為兩分鐘質量低劣的視頻。

谷歌還指出,用於訓練的數據包含不適當的內容,這就是Imagen Video 有時會創建描述暴力或性行為的剪輯的原因。因此,該公司不打算在問題得到解決之前發布模型或其源代碼。

回想一下,9 月份,一位愛好者開發了基於文本的穩定擴散視頻動畫生成器。

8 月,TikTok 推出了基於文字的視頻背景工具。

6 月,中國研究人員開發了一種具有90 億參數的CogVideo 轉換器,用於將文本轉換為動畫。

在Telegram 上訂閱ForkLog 新聞:ForkLog AI – 來自AI 世界的所有新聞

在文本中發現錯誤?選擇它並按CTRL+ENTER

資訊來源:由0x資訊編譯自FORKLOG。版權歸作者Марина Глайборода所有,未經許可,不得轉載

Total
0
Shares
Related Posts