英偉達入局AIGCMagic3D新模型力壓谷歌DreamFusion


來源:新智元

圖片來源:由無界版圖AI 工俱生成。

導讀:AIGC的賽道上,又多了一個實力派英偉達發布Magic3D生成模型,對標谷歌DreamFusion,直言解決了對家的兩大缺點。

從DALL·E到Stable Diffusion,最近,基於AIGC的技術和應用成為業界和學界的又一寵兒。

Stable Diffusion背後的公司Stability AI甚至憑藉這個模型獲得多家投資機構青睞,一躍成為獨角獸。

如果說資本的嗅覺是最敏銳的,那麼科技巨頭先後入場也就不足為奇了,這塊細分領域迅速地「成交量」起來了

大廠接連入局AIGC,怎能少了英偉達

9月,谷歌發布了基於文本提示生成3D模型的DreamFusion,聲稱不需要3D 訓練數據,也不需要修改圖像擴散模型,證明了預訓練圖像擴散模型作為先驗模型的有效性。

10月,Meta推出新模型Make-A-Video,可以從文本一鍵生成視頻,初步實現了「動動嘴,做視頻」。

單說文字直接生成視頻這個方面,Make-A-Video 甚至戰勝了不少專業的動畫設計專業的學生。

上週,英偉達也宣布入場

該公司研究人員發布了Magic3D,這是一個可以從文字描述中生成3D模型的AI模型。

在輸入諸如「一隻坐在睡蓮上的藍色毒鏢蛙」這樣的提示後,Magic3D在大約40分鐘內生成了一個3D網格模型,並配有彩色紋理。

在論文中,英偉達將Magic3D定位為對DreamFusion的回應。

論文鏈接:https://arxiv.org/pdf/2211.10440.pdf

與DreamFusion使用文本到圖像模型生成2D圖像,然後優化為成交量NeRF(神經輻射場)數據的方式類似,Magic3D同樣是將低分辨率生成的粗略模型優化為高分辨率的精細模型,由此產生的Magic3D方法,可以比DreamFusion更快地生成3D目標。

從上面Magic3D的架構示意圖可以看出,Magic3D以「由粗到細」的方式從輸入的文本提示中生成高分辨率的三維內容。

整個生成過程分為兩個階段。

第一階段,研究團隊使用eDiff-I作為低分辨率文本-圖像擴散先驗。通過優化Instant NGP獲得初始3D表示。

之後通過反复抽樣和渲染低分辨率圖像,不斷計算Score Distillation Sampling的損失來訓練Instant NGP。

優化後使用DMTet,從Instant NGP中提取一個粗略模型,並使用哈希網格和稀疏加速結構對其進行加速。

該擴散先驗用於計算場景的梯度,根據64×64的低分辨率圖像在渲染圖像上定義的損失進行建模。

第二階段,研究團隊使用高分辨率潛在擴散模型(LDM),不斷抽樣和渲染第一階段的粗略模型。通過交互渲染器進行優化,反向生成512×512的高分辨率渲染圖像。

Magic3D還可以對3D網格進行基於提示的實時編輯。想改變生成模型,只要改改文字提示,就能立即生成新的模型。

另外,Magic3D可以在幾代生成圖像中均保留相同的主題(一般稱為「一致性」),不會出現越畫越離譜的情況,並將2D圖像(如立體派繪畫)的風格應用於3D模型。

通過該模型,不僅可以獲得高分辨率的3D模型,還保證了降低了運算強度。

Magic3D模型中,運算時間主要與高分辨率渲染圖像和LDM編碼器的梯度相關,保證了運算強度的可控。

在生成和訓練速度方面,在使用8塊英偉達A100 GPU情況下,兩階段運行時間加起來共計40分鐘。

不過,英偉達此次沒有隨論文發布任何Magic3D的代碼。

谷歌DreamFusion要加油了

英偉達團隊指出,DreamFusion存在兩大缺陷。

首先,通過該模型,無法獲得3D模型的高分辨率幾何體或紋理,因為擴散模型僅對64×64的圖像生效。

其次,這種方法的擴展性表現並不好。 DreamFusion的場景渲染模型使基於Mip-NeRF 360的大型MLP。該模型在體渲染時需要海量樣本,這在計算上費時費力。

因此,DreamFusion生成高分辨率的圖像需要更大的計算成本,去評估每個樣本的神經網絡。

英偉達團隊使用Instant NGP的哈希特徵編碼,大大降低高分辨率圖像特徵表示的計算成本。

使用與DreamFusion相同的文本提示。對於每個3D模型,團隊從兩個視圖渲染它,每個視圖都有無紋理渲染,並刪除背景以專注於實際的3D 形狀。

可以發現,Magic3D生成的3D模型在整體和紋理上都更勝一籌。

作為對比,我們向用戶並排展示了兩個3D生成模型的視頻,這兩個視頻分別由谷歌的DreamFusion和Magic3D使用相同的文本提示從標準視圖中生成的,由用戶選擇更逼真的那個。

在總共1191個反饋意見中,有61.7%的用戶認為Magic3D生成的模型質量比DreamFusion更高。

研究人員表示,隨著模型的完善,所產生的技術可以加速遊戲和VR應用的開發,可能最終會在電影和電視的特效製作中實現落地應用。

「我們希望通過Magic3D,可以使3D合成技術進一步普及,並激發每個人在3D內容上的創造力。」

經過近十年的技術發展,人們對AIGC的探索已經進入了商業化、規模化的階段。

隨著越來越多的科技巨頭加入這個賽道,創造出令人驚嘆的AI生成作品,有理由相信,AIGC的大航海時代已經來臨。

參考資料:

https://arstechnica.com/information-technology/2022/11/nvidias-magic3d-creates-3d-models-from-written-descriptions-thanks-to-ai/

https://deepimagination.cc/Magic3D/

https://arxiv.org/pdf/2211.10440.pdf

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts