dark

區塊鏈

爆火「視頻版ControlNet」開源了靠提示詞精準換畫風，全華人團隊出品

2023-08-20

來源：量子位

“視頻版ControlNet”來了

讓藍衣戰神秒變迪士尼公舉：

視頻處理前後，除了畫風以外，其他都不更改。

女孩說話的口型都保持一致。

正在插劍的薑文，也能“下一秒”變猩球崛起了。

這就是由全華人團隊打造的最新視頻處理算法CoDeF，發布才幾天，迅速在網上爆火。

網友們看了直呼：

這一天天的，虛實分辨越來越難了

只需要自己拍點東西，然後覆蓋上去，就能變成各種各樣的動畫了。

有人說，只需給它一年時間，就能被用在電影製作上了。

這馬上引來其他人的肯定：技術發展真的非常瘋狂、非常快。

目前，團隊已將這一方法在GitHub上開源。

姿勢不變，畫風“皮套”隨便換

之所以會被稱為是“視頻版ControlNet”，主要原因在於CoDeF能夠對原視頻做到精準控制。

（ControlNet實現了根據提示詞精準控製圖像元素改變，如人物動作、圖像結構等）

根據給到的提示詞，它僅改變視頻的畫風，而且是針對完整視頻。

比如輸入“Chinese ink painting”，風景紀錄片能秒變國風水墨大作。

包括水流也能很好跟踪，整個流體動向都沒有被改變。

甚至一大片穗子，在原視頻裡怎麼擺動，改變畫風後頻率和幅度也如出一轍。

在畫風改變上，CoDeF也做了很多細節處理，讓效果更加逼真合理。

“由春入冬”後，原本有瑞波幣的河流靜止了，天空中的雲彩被換成了太陽，更加符合冬日景象。

黴霉變成魔法少女後，耳環被換成了發光寶石，手裡的蘋果也換成了魔法球。

這樣一來，讓電影角色一鍵變老也簡單了許多。

皺紋可以“悄無聲息”上臉，其他一切都沒有變化。

所以，CoDeF是怎麼實現的呢？

可跟踪水和煙霧，跨幀一致性更強

CoDeF是英文“the content deformation field”的縮寫，即作者在此提出了一種叫做內容形變場的新方法，來用於視頻風格遷移任務。

比起靜態的圖像風格遷移，這種任務的複雜點在於時間序列上的一致性和流暢度。

比如處理水、煙霧這種元素，兩幀畫面之間的一致性非常重要。

在此，作者“靈機一動”，提出用圖片算法來直接解決視頻任務。

他們只在一張圖像上部署算法，再將圖像-圖像的轉換，提升為視頻-視頻的轉換，將關鍵點檢測提升為關鍵點跟踪，而且不需要任何訓練。

這樣一來，相較於傳統方法，能夠實現更好的跨幀一致性，甚至跟踪非剛性物體。

具體而言，CoDeF將輸入視頻分解為2D內容規範場（canonical content field）和3D時間形變場（temporal deformation field）：

前者用於聚合整個視頻中的靜態內容；後者則負責記錄圖像沿時間軸的每個單獨幀的轉換過程。

利用MLP（多層感知器），每個場都用多分辨率2D或3D哈希表來表示。

在此，作者特意引入了正則化，來保證內容規範場能夠繼承原視頻中的語義信息（比如物體的形狀）。

如上圖所示，這一系列設計使得CoDeF可以自動支持各種圖像算法直接應用於視頻處理——

也就是只需利用相應算法提取出來一張規範圖像，然後通過時間形變場沿著時間軸傳播結果即可。

比如，給CoDeF“套上”本用於圖片處理的ControlNet，就可以完成視頻風格的“翻譯”（也就是我們開頭和第一段看的那一堆效果）：

“套上”分割一切算法SAM，我們就能輕鬆做到視頻的對象跟踪，完成動態的分割任務：

“套上”Real-ESRGAN，則給視頻做超分也是信手拈來……

整個過程非常輕鬆，不需要對待操作視頻進行任何調整或處理。

不僅能處理，還能保證效果，即良好的時間一致性和合成質量。

如下圖所示，相比去年誕生的Layered neural atlas算法，CoDeF能夠呈現非常忠於原視頻的細節，既沒有變形也無破壞。

而在根據文本提示修改視頻風格的任務對比中，CoDeF全部表現突出，不僅最匹配所給要求，也有著更高的完成度。

跨幀一致性則如下圖所示：

一位一作剛本科畢業

這項研究由香港科技大學、螞蟻團隊、浙江大學CAD&CG實驗室共同帶來。

共同一作有三位，分別是歐陽豪、Yujun Shen和Yuxi Xiao。

其中歐陽豪為港科大博士，師從陳啟峰（本文通訊作者之一）；本科導師為賈佳亞。曾在MSRA、商湯、騰訊優圖實驗室實習過，現在正在谷歌實習。

另一位是Yujun Shen，也是通訊作者之一。

他是螞蟻研究所的高級研究科學家，主管交互智能實驗室，研究方向為計算機視覺和深度學習，尤其對生成模型和3D視覺效果感興趣。

第三位一作為Yuxi Xiao才剛剛從武大本科畢業，今年9月開始在浙大CAD&CG實驗室讀博。

他以一作身份發表的論文Level-S2fM: Structure from Motion on Neural Level Set of Implicit Surfaces，被CVPR2023接收。

論文地址：
https://arxiv.org/abs/2308.07926

項目地址：
https://qiuyu96.github.io/CoDeF/

參考鏈接：
https://twitter.com/LinusEkenstam/status/1692492872392626284

資訊來源：由0x資訊編譯自8BTC。版權歸作者所有，未經許可，不得轉載