4G顯存低配暢玩AIGCControlNet作者新作登頂GitHub熱榜,小白點3次就出圖


文章來源:量子位

文:克雷西蕭簫

玩AI畫畫,現在終於不用擔心被老黃刀法“背刺”了

只需要一塊4年前的GTX 1650(顯存4GB),AI出圖效果堪比當前最好的開源模型SDXL。

△圖源:推特@ナビ

這是最近在GitHub上連續數日霸榜TOP 1的新項目Fooocus,三天標星破4k,ControlNet作者出品。

在它橫空出世之前,大夥兒要想順利跑Stable Diffusion最新的XL模型,怎麼也得上16G顯存的4060ti(12G顯存的原生3060跑起來非常勉強)。

與其他開源AI工具不同,Fooocus“聚焦於生成本身”,不僅硬件要求低,而且上手簡單,十分小白友好——

全過程無需調整任何參數,點點鼠標,3步就能生成一張圖像。

△圖源推特@Photogenic Weekend

有網友直呼“這簡直就是Stable Diffusion和Midjourney的集大成”:

跟手動調參說再見吧離線、開源且免費,只需提示詞和圖片,就能讓魔法湧現

還有網友感嘆:即使是小白,也能很好地發揮出Stable Diffusion XL模型的效果呢。

那麼,這個全新的圖像AI工具,實際生成效果如何?我們上手試了試。

Colab半分鐘出圖,效果比肩SD

從運行界面來看,Fooocus一共有一百多種內置風格可供選擇。

△圖源推特@camenduru

至於效率,Fooocus出圖也是非常快。在Colab中,速度優先模式下每畫一張圖大概只需半分鐘:

日誌顯示的時間是繪製時間,不過之前還有個文本解析的過程,總共耗時大約是40秒:

△畫面經過加速處理

那就先讓它畫個漫畫試試,來看看AI視角下的“馬扎大戰”會是什麼樣子。 (可不是這個馬扎哈)

由於用AI直接生成人像,手部的處理還是存在一些問題,所以我們乾脆讓馬斯克和扎克伯格都戴上了手套:

效果好像還不錯。不知道他們有沒有什麼質押,不過不妨讓輸的人來女裝一下。

(溫馨提示:打架沒有贏家)

最終兩人“握手言和”,這一珍貴畫面也被攝影師記錄了下來,整體畫面是不是有那味了?

“馬扎之戰”結束之後,老馬乖乖地回到公司,賣起了特斯拉。

忽略LOGO的話,海報的設計感也還蠻在線的。

其實Fooocus的每個內置風格都很有趣,所以不妨再來看看這些不同風格的整活圖片:

在模仿著名作品方面,有賽博朋克版、塞爾達版、Minecraft版,甚至是寶可夢版本的馬斯克可供觀賞。

至於其他的藝術形式,還有像素和Lowpoly風格,以及黏土人和剪紙版本……

當然例子是舉不完的,更多的風格讀者朋友們可以自己去體驗。

(不得不說,AI作圖裡的文字終於不是鬼畫符了)

各位大畫家是不是已經按耐不住想要試試了?我們馬上就來介紹Fooocus的玩法

Fooocus的界面是醬嬸兒的,可以說是十分有九分簡潔:

如果只是嘗個鮮,沒有特殊要求的話,這一個提示框完全足夠了。

因為作者已經把很多複雜技巧內化到了程序當中,調參這些操作不再需要手動完成。

直接在下面的框中輸入Prompt,點擊生成按鈕就可以坐等出圖了。

(默認一次出兩張圖,尺寸為1152×896,風格為cinematic default,速度優先)

如果需要高級設置,就把左下角的Advanced勾上,配置信息會出現在頁面右側,分為三個標籤:

可以調整的內容包括尺寸、數量、風格、性能等等。

如果你是專業級玩家,還可以選擇模型版本,甚至調整LoRA參數。

此外,還有調整銳利度這種高端玩法。

對於相同的內容,下面這張動圖展示了銳利度從2到10再到20的變化。可以看出,隨著銳利度增大,畫面的細節也越來越豐富:

不過,對於Fooocus是否支持中文,我們也試了一下,很遺憾現在還不行。

比如我們輸入提示詞“蘋果”,結果畫出來的是個妹子。

這……難道是想說“You’re the apple of my eyes”?

現在你大概已經知道Fooocus的玩法了,那麼又該怎麼配置呢?

如果你有帶英偉達顯卡的Windows設備,那麼可以用開箱即用的版本。 (大概這已經是老黃第114514次贏麻了)

同時,硬件需要滿足最低配置要求——4GB顯存+8GB內存。

先從這裡直接下載:
https://github.com/lllyasviel/Fooocus/releases/download/release/Fooocus_win64_1-1-10.7z

解壓好之後,雙擊run.bat運行,系統會自動下載模型並部署,等配置完成就可以用了。

Linux版本的配置要求和Windows一樣,不過配置流程要復雜些。

(如果有Jupyter,也可以參考Colab中用到的note文件)

首先要安裝好環境依賴:

git clone https://github.com/lllyasviel/Fooocus.git
cd Fooocus
conda env create -f environment.yaml
conda activate fooocus
pip install -r requirements_versions.txt

然後下載模型文件,存儲到指定目錄:

△具體請參見GitHub頁面

當然,也可以讓系統自動下載模型:

python launch.py

如果你在用Mac,或者硬件配置不滿足要求,也可以用Colab直接運行。

(傳送門:https://colab.research.google.com/github/lllyasviel/Fooocus/blob/main/colab.ipynb)

不過,還是要吐槽的是,Colab版本會時不時宕幾次機,不是自動停止就是內存溢出……

如果想在Mac或A卡電腦上更絲滑地運行Fooocus,可以再等等作者的更新。

整體來看,Fooocus的出圖效果不錯,如果提示詞選擇好的話,甚至可以當Stable Diffusion來用,關鍵是硬件配置要求也不高。

這究竟是怎麼實現的?

來自ControlNet作者最新項目

架構設計上,Fooocus主要分為兩部分:交互界面和AI模型。

其中,交互界面參考了兩個項目,分別是stable-diffusion-webui和ComfyUI。

stable-diffusion-webui主要是交互界面的前端設計:

ComfyUI則兼具Stable Diffusion的GUI和後端設計:

至於AI模型,能看出是用了Stable Diffusion新的SDXL模型:

這是也目前Stable Diffusion最好用的版本之一,生成效果相比之前的1.5版本有不少改進。

不過,雖然Fooocus的模型和UI設計都有參考現成Stable Diffusion開源項目,但作者在製作時,融入了不少自己的優化設計,使得模型跑起來更加絲滑。

例如,作者仔細在Fooocus中採用了自己設計的k擴散採樣(advanced k-diffusion sampling)方法,能提升採樣連續性,減少性能損失、提升採樣效率;

此外,作者還仔細調整了採樣器(Sampler)的參數,並在原版基礎上修改增加了一些包括電影風格在內的新設定。

之所以給Fooocus加上LoRA選項,是因為作者測試發現,加上LoRA(權重設置小於0.5)的SDXL模型,效果幾乎總是比不加LoRA的SDXL模型更好。

開發出Fooocus這個項目的作者名叫Lvmin Zhang,2021年本科畢業於東吳大學,目前在斯坦福大學讀博。

他做過的幾個項目,包括ControlNet和style2paints在內,幾乎個個都爆火:

現在,最新的這個項目Fooocus,看起來同樣很受歡迎。

在社交媒體上,已經有網友自發整出了Fooocus版不同風格的提示詞合集Excel。

如果不知道生成什麼樣的圖片,參考這個文檔內的提示詞就行:

你想好要用Fooocus生成什麼樣的圖像了嗎?

項目地址:
https://github.com/lllyasviel/Fooocus

參考鏈接:
[1]https://twitter.com/lvminzhang/status/1690118840326524928
[2]提示詞合集:https://docs.google.com/spreadsheets/d/1AF5bd-fALxlu0lguZQiQVn1yZwxUiBJGyh2eyJJWl74/edit
[3]https://twitter.com/narrativenavi/status/1691235126045552645
[4]https://twitter.com/kiyoshi_shin

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts