爆火「視頻版ControlNet」開源了靠提示詞精準換畫風,全華人團隊出品


來源:量子位

“視頻版ControlNet”來了

讓藍衣戰神秒變迪士尼公舉:

視頻處理前後,除了畫風以外,其他都不更改。

女孩說話的口型都保持一致。

正在插劍的薑文,也能“下一秒”變猩球崛起了。

這就是由全華人團隊打造的最新視頻處理算法CoDeF,發布才幾天,迅速在網上爆火。

網友們看了直呼:

這一天天的,虛實分辨越來越難了

只需要自己拍點東西,然後覆蓋上去,就能變成各種各樣的動畫了。

有人說,只需給它一年時間,就能被用在電影製作上了。

這馬上引來其他人的肯定:技術發展真的非常瘋狂、非常快。

目前,團隊已將這一方法在GitHub上開源。

姿勢不變,畫風“皮套”隨便換

之所以會被稱為是“視頻版ControlNet”,主要原因在於CoDeF能夠對原視頻做到精準控制。

(ControlNet實現了根據提示詞精準控製圖像元素改變,如人物動作、圖像結構等)

根據給到的提示詞,它僅改變視頻的畫風,而且是針對完整視頻。

比如輸入“Chinese ink painting”,風景紀錄片能秒變國風水墨大作。

包括水流也能很好跟踪,整個流體動向都沒有被改變。

甚至一大片穗子,在原視頻裡怎麼擺動,改變畫風後頻率和幅度也如出一轍。

在畫風改變上,CoDeF也做了很多細節處理,讓效果更加逼真合理。

“由春入冬”後,原本有瑞波幣的河流靜止了,天空中的雲彩被換成了太陽,更加符合冬日景象。

黴霉變成魔法少女後,耳環被換成了發光寶石,手裡的蘋果也換成了魔法球。

這樣一來,讓電影角色一鍵變老也簡單了許多。

皺紋可以“悄無聲息”上臉,其他一切都沒有變化。

所以,CoDeF是怎麼實現的呢?

可跟踪水和煙霧,跨幀一致性更強

CoDeF是英文“the content deformation field”的縮寫,即作者在此提出了一種叫做內容形變場的新方法,來用於視頻風格遷移任務。

比起靜態的圖像風格遷移,這種任務的複雜點在於時間序列上的一致性和流暢度。

比如處理水、煙霧這種元素,兩幀畫面之間的一致性非常重要。

在此,作者“靈機一動”,提出用圖片算法來直接解決視頻任務。

他們只在一張圖像上部署算法,再將圖像-圖像的轉換,提升為視頻-視頻的轉換,將關鍵點檢測提升為關鍵點跟踪,而且不需要任何訓練。

這樣一來,相較於傳統方法,能夠實現更好的跨幀一致性,甚至跟踪非剛性物體。

具體而言,CoDeF將輸入視頻分解為2D內容規範場(canonical content field)和3D時間形變場(temporal deformation field):

前者用於聚合整個視頻中的靜態內容;後者則負責記錄圖像沿時間軸的每個單獨幀的轉換過程。

利用MLP(多層感知器),每個場都用多分辨率2D或3D哈希表來表示。

在此,作者特意引入了正則化,來保證內容規範場能夠繼承原視頻中的語義信息(比如物體的形狀)。

如上圖所示,這一系列設計使得CoDeF可以自動支持各種圖像算法直接應用於視頻處理——

也就是只需利用相應算法提取出來一張規範圖像,然後通過時間形變場沿著時間軸傳播結果即可。

比如,給CoDeF“套上”本用於圖片處理的ControlNet,就可以完成視頻風格的“翻譯”(也就是我們開頭和第一段看的那一堆效果):

“套上”分割一切算法SAM,我們就能輕鬆做到視頻的對象跟踪,完成動態的分割任務:

“套上”Real-ESRGAN,則給視頻做超分也是信手拈來……

整個過程非常輕鬆,不需要對待操作視頻進行任何調整或處理。

不僅能處理,還能保證效果,即良好的時間一致性和合成質量。

如下圖所示,相比去年誕生的Layered neural atlas算法,CoDeF能夠呈現非常忠於原視頻的細節,既沒有變形也無破壞。

而在根據文本提示修改視頻風格的任務對比中,CoDeF全部表現突出,不僅最匹配所給要求,也有著更高的完成度。

跨幀一致性則如下圖所示:

一位一作剛本科畢業

這項研究由香港科技大學、螞蟻團隊、浙江大學CAD&CG實驗室共同帶來。

共同一作有三位,分別是歐陽豪、Yujun Shen和Yuxi Xiao。

其中歐陽豪為港科大博士,師從陳啟峰(本文通訊作者之一);本科導師為賈佳亞。曾在MSRA、商湯、騰訊優圖實驗室實習過,現在正在谷歌實習。

另一位是Yujun Shen,也是通訊作者之一。

他是螞蟻研究所的高級研究科學家,主管交互智能實驗室,研究方向為計算機視覺和深度學習,尤其對生成模型和3D視覺效果感興趣。

第三位一作為Yuxi Xiao才剛剛從武大本科畢業,今年9月開始在浙大CAD&CG實驗室讀博。

他以一作身份發表的論文Level-S2fM: Structure from Motion on Neural Level Set of Implicit Surfaces,被CVPR2023接收。

論文地址:
https://arxiv.org/abs/2308.07926

項目地址:
https://qiuyu96.github.io/CoDeF/

參考鏈接:
https://twitter.com/LinusEkenstam/status/1692492872392626284

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts