讓GAN再次偉大拽一拽關鍵點就能讓獅子張嘴&大象轉身,湯曉鷗弟子的DragGAN爆火,網友:RIP Photoshop


來源:量子位

這兩天,一段AI修圖視頻在國內外社交媒體上傳瘋了。

不僅直接躥升B站關鍵詞聯想搜索第一,視頻播放上百萬,微博推特也是火得一塌糊塗,轉發者紛紛直呼“PS已死”。

怎麼回事?

原來,現在P圖真的只需要“輕輕點兩下”,AI就能徹底理解你的想法

小到豎起狗子的耳朵:

大到讓整隻狗子蹲下來,甚至讓馬岔開腿“跑跑步”,都只需要設置一個起始點和結束點,外加拽一拽就能搞定:

不止是動物的調整,連像汽車這樣的“非生物”,也能一鍵拉升底座,甚至升級成“加長豪華車”:

這還只是AI修圖的“基操”。

要是想對圖像實現更精準的控制,只需畫個圈給指定區域“塗白”,就能讓狗子轉個頭看向你:

或是讓照片中的小姐姐“眨眨眼”:

甚至是讓獅子張大嘴,連牙齒都不需要作為素材放入,AI自動就能給它“安上”:

如此“有手就能做”的修圖神器,來自一個MIT、谷歌、馬普所等機構聯手打造的DragGAN新模型,論文已入選SIGGRAPH 2023。

沒錯,在擴散模型獨領風騷的時代,竟然還能有人把GAN玩出新花樣

目前這個項目在GitHub上已經有5k+ Star,熱度還在不斷上漲中(儘管一行代碼還沒發)。

所以,DragGAN模型究竟長啥樣?它又如何實現上述“神一般的操作”?

拽一拽關鍵點,就能修改圖像細節

這個名叫DragGAN的模型,本質上是為各種GAN開發的一種交互式圖像操作方法。

論文以StyleGAN2架構為基礎,實現了點點鼠標、拽一拽關鍵點就能P圖的效果。

具體而言,給定StyleGAN2生成的一張圖像,用戶只需要設置幾個控制點(紅點)和目標點(藍點),以及圈出將要移動的區域(比如狗轉頭,就圈狗頭)。

然後模型就將迭代執行運動監督和點跟踪這兩個步驟,其中運動監督會驅動紅色的控制點向藍色的目標點移動,點跟踪則用於更新控制點來跟踪圖像中的被修改對象。

這個過程一直持續到控制點到達它們對應的目標點。

不錯,運動監督和點跟踪就是我們今天要講的重點,它是DragGAN模型中最主要的兩個組件。

先說運動監督。在此之前,業界還沒有太多關於如何監督GAN生成圖像的點運動的研究。

在這項研究中,作者提出了一種不依賴於任何額外神經網絡的運動監督損失(loss)。

其關鍵思想是,生成器的中間特徵具有很強的鑑別能力,因此一個簡單的損失就足以監督運動。

所以,DragGAN的運動監督是通過生成器特徵圖上的偏移補丁損失(shifted patch loss)來實現的。

如下圖所示,要移動控制點p到目標點t,就要監督p點周圍的一小塊patch(紅圈)向前移動的一小步(藍圈)。

再看點跟踪。

先前的運動監督會產生一個新的latent code、一個新特徵圖和新圖像。

由於運動監督步驟不容易提供控制點的精確新位置,因此我們的目標是更新每個手柄點p使其跟踪上對像上的對應點。

此前,點跟踪通常通過光流估計模型或粒子視頻方法實現。

但同樣,這些額外的模型可能會嚴重影響效率,並且在GAN模型中存在偽影的情況下可能使模型遭受上漲誤差。

因此,作者提供了一種新方法,該方法通過最近鄰檢索在相同的特徵空間上進行點跟踪。

而這主要是因為GAN模型的判別特徵可以很好地捕捉到密集對應關係。

基於這以上兩大組件,DragGAN就能通過精確控制像素的位置,來操縱不同類別的對象完成姿勢、形狀、佈局等方面的變形。

作者表示,由於這些變形都是在GAN學習的圖像流形上進行的,它遵從底層的目標結構,因此面對一些複雜的任務(比如有遮擋),DragGAN也能產生逼真的輸出。

單張3090幾秒鐘出圖

所以,要實現幾秒鐘“精準控圖”的效果,是否需要巨大的算力?

nonono。大部分情況下,每一步拖拽修圖,單張RTX 3090 GPU在數秒鐘內就能搞定。

具體到生成圖像的效果上,實際評估(均方誤差MSE、感知損失LPIPS)也超越了一系列類似的“AI修圖”模型,包括RAFT和PIPs等等:

如果說文字的還不太直觀,具體到視覺效果上就能感受到差異了:

值得一提的是,DragGAN的“潛力”還不止於此。

一方面,如果增加關鍵點的數量,還能實現更加精細的AI修圖效果,用在人臉這類對修圖要求比較嚴格的照片上,也是完全沒問題:

另一方面,不止開頭展示的人物和動物,放在汽車、細胞、風景和天氣等不同類型的圖像上,DragGAN也都能精修搞定。

除了不同的照片類型,從站到坐、從直立到跑步、從跨站到併腿站立這種姿勢變動較大的圖像,也能通過DragGAN實現:

也難怪網友會調侃“遠古的PS段子成真”,把大象轉個身這種甲方需求也能實現了。

不過,也有網友指出了DragGAN目前面臨的一些問題。

例如,由於它是基於StyleGAN2生成的圖像進行P圖的,而後者訓練成本很高,因此距離真正商業落地可能還有一段距離。

除此之外,在論文中提到的“單卡幾秒鐘修圖”的效果,主要還是基於256×256分辨率圖像:

至於模型是否能擴展到256×256以外圖像,生成的效果又是如何,都還是未知數。

有網友表示“至少高分辨率圖像從生成時間來看,肯定還要更長”。

實際上手的效果究竟如何,我們可以等6月論文代碼開源後,一測見真章。

團隊介紹

DragGAN的作者一共6位,分別來自馬克斯・普朗克計算機科學研究,薩爾布呂肯視覺計算、交互與AI研究中心,MIT,幣安大學和谷歌AR/VR部門。

其中包括兩位華人:

一作潘新鋼,他本科畢業於清華大學(2016年),博士畢業於香港中文大學(2021年),師從湯曉鷗教授。

現在是馬普計算機科學研究所的博士後,今年6月,他將進入南洋理工大學擔任助理教授(正在招收博士學生)。

另一位是Liu Lingjie,香港大學博士畢業(2019年),後在馬普信息學研究所做博士後研究,現在是幣安大學助理教授(也在招學生),領導該校計算機圖形實驗室,也是通用機器人、自動化、傳感與感知(GRASP)實驗室成員。

值得一提的是,為了展示DragGAN的可控性,一作還親自上陣,演示了生髮、瘦臉和露齒笑的三連P圖效果:

是時候給自己的主頁照片“修修圖”了(手動狗頭)。

論文地址:
https://vcai.mpi-inf.mpg.de/projects/DragGAN/data/paper.pdf

項目地址(代碼6月開源):
https://github.com/XingangPan/DragGAN

參考鏈接:
[1]https://weibo.com/1727858283/N1iKl4zVG
[2]https://twitter.com/_akhaliq/status/1659424744490377217
[3]https://twitter.com/mrgreen/status/1659482594516377601

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts