Stable Diffusion 團隊放大招新繪畫模型直出AI 海報,像素級生成


來源:量子位

開源AI繪畫扛把子,Stable Diffusion背後公司StabilityAI再放大招

全新開源模型DeepFloyd IF,一下獲星2千+並登上GitHub熱門榜。

DeepFloyd IF不光圖像質量是照片級的,還解決了文生圖的兩大難題:

準確繪製文字。 (霓虹燈招牌上寫著xxx)

以及準確理解空間關係。 (一隻貓照鏡子看見獅子的倒影)

網友表示,這可是個大事,之前想讓Midjourney v5在霓虹燈招牌上寫個字AI都是瞎划拉兩筆,對於鏡子理解的也不對。

使用DeepFloyd IF,可以把指定文字巧妙放置在畫面中任何地方。

霓虹燈招牌、街頭塗鴉、服飾、手繪插畫,文字都會以合適的字體、風格、排版出現在合理的地方。

這意味著,AI直出商品渲染圖、海報等實用工作流程又打通一環。

還在視頻特效上開闢了新方向。

目前DeepFloyd IF以非商用許可開源,不過團隊解釋這是暫時的,獲得足夠的用戶反饋後將轉向更寬鬆的協議。

有需求的小伙伴可以抓緊反饋起來了。

像素級圖像生成

DeepFloyd IF仍然基於擴散模型,但與之前的Stable Diffusion相比有兩大不同。

負責理解文字的部分從OpenAI的CLIP換成了谷歌T5-XXL,結合超分辨率模塊中額外的注意力層,獲得更準確的文本理解。

負責生成圖像的部分從潛擴散模型換成了像素級擴散模型。

也就是擴散過程不再作用於表示圖像編碼的潛空間,而是直接作用於像素。

官方還提供了一組DeepFloyd IF與其他AI繪畫模型的直觀對比。

可以看出,使用T5做文本理解的谷歌Parti和英偉達eDiff-1也都可以準確繪製文字,AI不會寫字這事就是CLIP的鍋。

不過英偉達eDiff-1不開源,谷歌的幾個模型更是連個Demo都不給,DeepFloyd IF就成了更實際的選擇。

具體生成圖像上DeepFloyd IF與之前模型一致,語言模型理解文本後先生成64×64分辨率的小圖,再經過不同層次的擴散模型和超分辨率模型放大。

在這種架構上,通過把指定圖像縮小回64×64再使用新的提示詞重新執行擴散,也實現以圖生圖並調整風格、內容和細節。

並且不需要對模型做微調就可直接實現。

另外,DeepFloyd IF的優勢還在於,IF-4.3B基礎模型是目前擴散模型中U-Net部分有效參數是最多的。

在實驗中,IF-4.3B取得了最好的FID分數,並達到SOTA(FID越低代表圖像質量越高、多樣性越好)。

誰是DeepFloyd

DeepFloyd AI Research是StabilityAI旗下的獨立研發團隊,深受搖滾樂隊平克弗洛伊德影響,自稱為一隻“研發樂隊”。

主要成員只有4人,從姓氏來看均為東歐背景。

這次除了開源代碼外,團隊在HuggingFace上還提供了DeepFloyd IF模型的在線試玩。

我們也試了試,很可惜的是目前對中文還不太支持。

原因可能是其訓練數據集LAION-A裡面中文內容不多,不過既然開源了,相信在中文數據集上訓練好的變體也不會太晚出現。

One More Thing

DeepFloyd IF並不是Stability AI昨晚在開源上的唯一動作

語言模型方面,他們也推出了首個開源並引入RLHF技術的聊天機器人StableVicuna,基於小羊駝Vicuna-13B模型實現。

目前代碼和模型權重已開放下載。

完整的桌面和移動界面也即將發布。

Deepfloyd IF在線試玩:

https://huggingface.co/spaces/DeepFloyd/IF

代碼:

https://github.com/deep-floyd/IF

StableVicuna在線試玩:

https://huggingface.co/spaces/CarperAI/StableVicuna

權重下載:

https://huggingface.co/CarperAI/stable-vicuna-13b-delta

參考鏈接:

[1]https://deepfloyd.ai/deepfloyd-if

[2]https://stability.ai/blog/deepfloyd-if-text-to-image-model

[3]https://stability.ai/blog/stablevicuna-open-source-rlhf-chatbot

[4]https://stable-diffusion-art.com/how-stable-diffusion-work/

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts