原文:Oxford University Researchers Introduce A Diffusion Model Called RealFusion That Can Generate 360-degree Reconstructions Of Objects From An Image
作者: Tanya Malhotra 由DeFi之道編譯
圖片來源:由Maze AI工俱生成
隨著各類大型語言模型(Large Language Models 簡稱LLMs)的日益普及,許多工作都得以藉此可以更加方便地完成。比如,OpenAI 開發的以文本生成圖像的DALL-E 模型,可以根據輸入的文本描述生成高質量的圖像,已經有超過百萬用戶使用。
這些LLMs 背後的Diffusion 模型使用戶能夠通過調整變量生成各種圖像,輕鬆地將文本轉換為圖像,除了這一功能外,一些模型還被用於以圖生圖,與文轉圖一樣,通過這些模型生成的圖像保持了大量的細節,以達到用戶的需求。
目前,以圖生圖已經成為了可能,但如何將二維圖像轉變為三維圖像任然是一個難題,難點所在是因為很難從一張二維圖像中提取出生成3D圖像所需的全部信息。而來自於牛津大學的一個研究小組開發了一種新的Diffusion 模型,攻克了這一難題,在這一模型下能將一張二維圖片中的物體構建成3D圖,該模型被稱為RealFusion,傳統方法認為如果不能獲得多個角度視圖,構建3D圖像是不可能的,而現在這一認知被打破了。
該團隊利用神經輻射場(Neural Radiance Field)的技術從已存的2D 模型中提取3D 信息,並表達出3D 的幾何形狀和圖像外觀,他們還通過以下兩個方面優化這一技術:
目標重建:已被用於確保輻射場模仿輸入的圖像。分數蒸餾採樣(SDS—Score Distillation Sampling) :這是一個基於SDS的先驗目標,它被用來確保Diffusion 模型產生的樣本及其他新的視角圖能模仿輻射場。
研究人員利用預先訓練的Diffusion 模型(如穩定擴散Stable Diffusion)的構成不同的視圖,並以此來創建3D圖像。
RealFusion 模型相關的創新主要有以下幾點: RealFusion 可以從單個圖像中提取構建3D 所需的360度信息,而無需考慮其他任何假設,諸如3D 監督(3D supervision)和圖像類型等。 RealFusion通過在現有數據集和原始圖像上顯示最先進的重建結果,超越了傳統方法。該團隊還引入了一些新的正則化程序,它們使用InstantNGP 進行了有效的實現。
RealFusion 通過在來自現有數據集和原生圖像的多個圖像上顯示最先進的重建結果,優於傳統方法。
RealFusion是圖像生成的一個突破,打破了維度領域的限制。與現有的方法相比,RealFusion 顯示出更好的圖像質量、更好的形狀和外觀特徵,毫無疑問是擴散模型範疇的一個重要的補充。
資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載