實測《瞬息全Cosmos》幕後技術公司Runway AI 模型Gen-2:離生成電影質感的視頻還有很大距離


撰文:Kyle Wiggers

來源:TechCrunch

圖片來源:由無界AI工俱生成

在最近接受Collider 的採訪時,《復仇者聯盟:終局之戰》等漫威電影的導演喬・羅素預測,在兩年內,人工智能將能夠創造一部成熟的電影。對此,我想說這是一個相當樂觀的預估。但我們正逐漸接近。

本週,谷歌支持的人工智能初創公司Runway(幫助開發了AI 圖像生成器Stable Diffusion)發布了Gen-2,這是一款根據文本提示或現有圖像生成視頻的模型。 (Gen-2 之前只在有限的等候名單中使用。)作為Runway 於2 月推出的Gen-1 模型的後續產品,Gen-2 是首批商業化的文本轉視頻模型之一。

“商業可用”是一個重要的區別。文本到視頻是繼圖像和文本之後生成式人工智能的合理的下一個邏輯前沿,正在成為一個更大的關注領域,特別是在科技巨頭中,其中一些公司在過去一年中展示了文本到視頻模型。但這些模型仍處於研究階段,除了少數數據科學家和工程師外,其他人都無法接觸到。

當然,第一併不意味著更好。

出於個人的好奇心和對你的服務,親愛的讀者,我通過Gen-2 運行了一些提示,以了解該模型能夠— 和不能— 完成什麼。 (Runway 目前提供約100 秒的免費視頻生成。)我的瘋狂並沒有太多的方法,但我試圖捕捉一系列無論是專業導演還是業餘導演都可能希望在銀幕或者在筆記本電腦上看到的角度、類型和風格。

Gen-2 的限制立即變得明顯,該模型生成的4 秒鐘長的視頻的幀率相當低,以至於在某些地方卡頓地就像幻燈片一樣。

目前還不清楚的是,這究竟是技術上的問題,還是Runway 試圖節省計算成本。但不管在何種情況下,這使得Gen-2 對於希望避免後期製作工作的編輯來說,都是一個相當沒有吸引力的提議。

除了幀率問題,我還發現Gen-2 生成的片段往往有著某種共同的顆粒感或模糊感,就像它們被應用了某種老式的Instagram 濾鏡。此外,其他地方也會出現假象,比如當“攝像機”(缺乏更好的詞)繞過物體或快速向它們放大時,物體周圍會出現像素化現象。

與許多生成模型一樣,Gen-2 在物理學或解剖學方面也不是特別一致。就像超現實主義者創造的東西,Gen-2 製作的視頻中人們的胳膊和腿融合在一起,然後又分開,而物體則融化在地板上並消失,影子也被扭曲變形。而且— 根據提示— 人臉可能會像洋娃娃一樣,有光澤、沒情感的眼睛和蒼白的皮膚,讓人想到廉價的塑料。

除此之外,還有內容問題。 Gen-2 似乎很難理解細微差別,堅持提示中的特定描述而忽略其他描述,顯得隨意。

我試過一個提示–“一個水下烏托邦的視頻,用一台舊相機拍攝,’found footage’電影風格”– 但Gen-2 沒有生成這樣的烏托邦,只有一個看起來像第一視角的潛水視頻,穿過一個匿名的珊瑚礁。在我其他的提示中,Gen-2 也未能為一個特別要求”慢速變焦“的提示生成一個放大的鏡頭,也沒有完全掌握普通宇航員的樣子。

這些問題是否與Gen-2 的訓練數據集有關?也許吧。

Gen-2 和Stable Diffusion 一樣,是一個擴散模型,這意味著它學會瞭如何從完全由噪聲構成的起始圖像中逐漸減去噪聲,使其一步一步地接近提示。擴散模型通過對數百萬到數十億的例子進行訓練來學習;在一篇詳細介紹Gen-2 架構的學術論文中,Runway 說該模型是在一個由2.4 億張圖片和640 萬個視頻片段組成的內部數據集上訓練的。

例子的多樣性是關鍵。如果數據集不包含很多動畫片段,那麼這個模型— 缺乏參考點— 將無法生成合理質量的動畫。 (當然,動畫是一個廣泛的領域,即使數據集確實有動漫或手繪動畫的片段,該模型也不一定能很好地推廣到所有類型的動畫)。

從好的方面來看,Gen-2 通過了表面的偏見測試。雖然像DALL-E 2 這樣的生成式AI 模型被發現強化了社會偏見,生成的權威職位圖像— 如“首席執行官或董事”– 大多描繪的是白人男子,但Gen-2 在生成的內容上更多樣化一些— 至少在我的測試中是這樣的。

根據提示“一個CEO 走進會議室的視頻”,Gen-2 生成了男性和女性(儘管男性多於女性)圍坐在類似會議桌旁的視頻。同時,根據“一個醫生在辦公室工作的視頻”這段描述,Gen-2 輸出了一個在辦公桌後的亞洲女醫生。

不過,任何包含“護士”一詞的提示結果都不太Optimism,始終顯示出年輕的白人女性。同理,“服務員”這個短語也是如此。顯而易見,Gen-2 還有很多工作要做。

對我來說,這一切的啟示是,Gen-2 更像是一個新奇的玩具,而不是任何視頻工作流程中真正有用的工具。這些輸出可以被編輯成更連貫的東西嗎?也許可以。但根據視頻的情況,這可能比一開始就拍攝素材需要更多的工作量。

這並不是對這項技術的輕視。 Runway 所做的一切令人印象深刻,它有效地擊敗了科技巨頭,取得了文字轉視頻的優勢。我敢肯定,一些用戶會發現Gen-2 的用途不需要真實感,也不需要大量的可定制性。 (Runway 首席執行官Cristóbal Valenzuela 最近告訴彭博社,他認為Gen-2 是為藝術家和設計師提供的一種工具,可以幫助他們的創作過程)。

我自己也進行了嘗試。 Gen-2 確實可以理解一系列的風格,如動漫和粘土動畫,這些風格適合較低的幀率。只要稍加修改和編輯,把幾個片段串起來創造一個敘事性的作品也不是不可能。

為了避免深層造假,Runway 表示它正在使用人工智能和人工審核的組合,防止用戶產出包括色情或暴力內容或違反版權的視頻。我可以確認Gen-2 設有內容過濾器— 事實上過濾的程度會有點過。這些並不是萬無一失的方法,我們必須看看它們在實踐中的效果如何。

但至少現在,電影製片人、動畫師、CGI 藝術家和倫理學家可以放心了。在Runway 的技術接近生成電影質感的視頻之前,至少還要經過幾次迭代— 假設它能達到這個目標的話。

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts