訓練一個媲美MJ 的文生圖模型,26K 美元就能實現了。
圖片來源:由無界AI生成
原文來源:機器之心
目前,最先進的文本到圖像(T2I)模型需要大量的訓練成本(例如,數百萬個GPU 小時),這嚴重阻礙了AIGC 社區的基礎創新,同時增加了二氧化碳排放。
現在,來自華為諾亞方舟實驗室等研究機構的研究者聯合提出了開創性的文本到圖像(T2I)模型PixArt-α, 只需要Stable Diffusion v1.5 訓練時間的10.8%(約675 vs 約6250 A100 GPU 天),省下近30 萬美元(26000 美元vs 320000 美元)。與更大的SOTA 模型RAPHAEL 相比,PixArt-α 的訓練成本僅為1%,且支援直接產生高達1024×1024 解析度的高解析度影像。
PixArt-α 模型不僅大幅降低了訓練成本,還顯著減少了二氧化碳排放,同時提供了接近商業應用標準的高品質影像產生。 PixArt-α 的出現,為AIGC 社群和新創公司提供了新的視角,以加速他們建立自己的高品質且低成本的生成模型。
論文網址:https://arxiv.org/abs/2310.00426 首頁:https://pixart-alpha.github.io/ 專案網址: https://github.com/PixArt-alpha/PixArt-alpha
總的來說,PixArt-α 是一種基於Transformer 的T2I 擴散模型,其圖像生成品質可以與最先進的圖像生成器(例如,Imagen [1],SDXL [2],甚至Midjourney [3])相媲美,達到接近商業應用的標準。此外,它支援高達1024×1024 解析度的高解析度影像的直接生成,訓練成本低,如下圖1 所示。
K線走勢圖1.PixArt-α 產生的樣本展示出了其卓越的質量,其特點是高精確度和準確性的圖像生成。
為了實現這個目標,研究提出了三個核心設計:
訓練策略分解:研究設計了三個獨特的訓練步驟,分別優化像素間依賴關係,文字影像對齊和影像美學品質; 高效的T2I Transformer 結構:該研究將跨注意力模組整合到Diffusion Transformer(DiT)[6] 中,以注入文字訊息並簡化計算複雜的類條件分支; 高資訊密度資料:該研究強調文字影像對中概念密度的重要性,並利用大視覺語言模型自動標記密集的偽文字標籤以協助文字影像對齊學習。
大量的實驗表明,PixArt-α 在影像品質、藝術性和語義控制方面表現出色。研究團隊希望PixArt-α 能為AIGC 社群和新創公司提供新的思路,以加速他們從頭開始建立自己的高品質且低成本的生成模式。
K線走勢圖2.T2I 方法之間的二氧化碳排放和訓練成本比較。 PixArt-α 實現了極低的訓練成本,僅26,000 美元。相較於RAPHAEL,PixArt-α 的二氧化碳排放和訓練成本分別僅為1.1% 和0.85%。
從現像看本質:從訓練流程和資料的角度重新檢視文生圖任務
從現有訓練流程出發:文字到圖像(T2I)生成任務可以分解為三個方面:建模像素間關係、文字與圖像的精確對齊以及高美學品質生成。然而,現有方法將這三個問題混合在一起,並直接使用大量資料從零開始訓練,導致訓練效率低。
從訓練資料出發:如圖3 所示,現有的文字– 影像對常常存在文字– 影像不對齊、描述不足、包含大量不常見詞彙以及包含低品質資料等問題。這些問題給訓練帶來了困難,導致需要數百萬次迭代才能實現文字和圖像之間的穩定對齊。為了解決這個挑戰,該研究引入了一個創新的自動標註流程來產生精確的圖像標題。
K線走勢圖3.LAION [6] 原生標題vs LLaVA 精細標題的對比。 LLaVA 提供了資訊密度更高的文本,幫助模型在每次迭代中掌握更多概念,提高了文本– 圖像對齊的效率。
解耦訓練策略:不同資料獲取、強化不同能力
1. 像素間依賴學習
當前class-condition 的方法 [7] 在生成語意連貫且像素邏輯合理的影像上展現了卓越的性能。訓練一個符合自然圖像分佈的class-condition 圖像生成模型,不僅訓練相對簡單,成本也較低。研究也發現,適當的初始化可以大幅提升影像生成模型的訓練效率。因此,PixArt 模型採用了一個ImageNet 預訓練模型作為基礎,來增強模型的效能。此外,該研究也提出了重參數化來相容於預訓練權重,以確保最佳的演算法效果。
2. 文字影像對齊
從預先訓練的class-condition 圖像生成模型過渡到基於文字的圖像生成模型的主要挑戰在於如何實現文字概念與圖像之間的精確對齊。這個對齊過程既耗時,也具有挑戰性。為了有效地促進這個過程,研究建構了一個高概念密度的由精確的文字– 圖像對組成的資料集。透過使用精確且資訊豐富的數據,幫助模型在單次訓練迭代中有效學習更多的概念,同時相較於先前的數據集,遇到的模糊性大大減少。這種策略性的方法賦予了 PixArt-α 有效地將文字描述與圖像對齊的能力。
3. 影像美學質量
在第三階段,研究對模型進行了微調,利用了高品質的美學數據並提高了模型的分辨率,使得模型具有生成高品質影像的能力。值得注意的是,研究團隊觀察到模型在該階段的收斂速度顯著加快,這主要歸功於前兩階段學習到的強大的先驗知識。
刪繁就簡:高效T2I Transformer 架構
PixArt-α 採用了Diffusion Transformer (DiT) 作為基礎架構,如圖4 所示,並創新地提出了以下幾個專門的設計方案來處理T2I 任務:
K線走勢圖4.PixArt-α 模型架構。
Cross-Attention layer 研究在DiT 模組中加入了一個多頭交叉注意力層。它位於自註意力層和前饋層之間,使得模型能夠靈活地與從語言模型中提取的文本特徵進行交互。為了利用預訓練權重,研究將交叉注意力層的輸出投影層權重初始化為零,有效地作為恆等映射來保留輸入供後續層使用。
AdaLN-single 研究發現在DiT 的自適應標準化層(adaLN)中,線性投影(MLP)佔據了大量(27%)的參數。研究團隊提出了adaLN-single 模組來降低模型的參數量,它只在噪聲進入模型第一層之前,僅使用時間特徵嵌入作為輸入進行獨立控制(如圖4 右側所示), 並在所有層中共享。研究團隊為每一層設定了層特定的可學習特徵嵌入,它可適應性地調整不同層中的尺度和位移參數。
重參數化 本研究提出了重參數化技巧來維持與預訓練權重的兼容性。
實驗表明,透過整合全域MLP 和層次嵌入來處理時間步訊息,以及採用跨注意力層處理文字訊息,可以在有效減小模型大小的同時,維持模型的生成能力。
資料建構:全新自動化圖文對標註工具
研究發現LAION 資料中心化存在大量簡單的商品樣圖,並選擇使用專為多樣性目標分割設計的SAM 資料集 [8],其影像中包含了豐富多樣的對象,即較高的資訊/ 概念密度,更貼合前文高資訊密度資料可以幫助圖文對齊的論述。標註流程如圖5 所示。
K線走勢圖5.為LAION(左圖)和SAM(右圖)進行自訂提示的自動標註功能。圖中綠色高亮的詞彙代表LAION 中的原始標題,而紅色標註的則是LLaVA 標註的詳細資訊。
研究團隊對LAION 和SAM 兩個資料集進行了名詞統計,如圖6 所示。 LAION 的名詞統計顯示,雖然其總的名詞種類多達2451K 種,但有效名詞的比例僅為8%,這意味著其中91% 以上的名詞是不常見的,這可能會導致模型訓練的不穩定。相較之下,LAION-LLaVA 的統計結果顯示,有效名詞的比例有所提升,總名詞數量和每張影像的平均名詞數量顯著增加。這表明,LLaVA 產生的標籤能夠盡量涵蓋每張圖片中更多的物體和概念。同樣的,在實際使用的SAM 資料以及內部資料中,各項指標都有較LAION-LLaVA 有更大的提升,這反映了更高的概念密度資料在訓練中的重要性。
K線走勢圖6.不同資料集的名詞概念統計。 VN:有效的不同名詞種類(出現次數超過10次);DN:總的不同名詞種類;Average:每張圖片的平均名詞數量。
量化指標驗證:指標下的能力
該研究最終在User study、T2ICompBench [9] 以及MSCOCO Zero-shot FID 三項指標上驗證了PixArt-α 的能力。更多評價結果與討論請參考原論文。
K線走勢圖7.根據對Ernie-vilg 2.0 [10] 的300 個固定提示的使用者體驗研究,比例值表示了偏好對應模型的使用者百分比。 PixArt-α 在品質和對齊度方面都表現出超越其他模型的優秀性能。
如下K線走勢圖8 所示,在T2I-CompBench 上進行的對齊評估中,PixArt-α 在屬性綁定、對象關係和複雜組合方面展示出卓越的性能,這表明PixArt-α 具有優越的組合生成能力。其中,以藍色高亮表示最好的數值,以綠色表示次優的值。基線資料來源於T2ICompBench。
K線走勢圖 8
研究全面比較了PixArt-α 和最近的T2I 模型,考慮了幾個關鍵因素:模型大小、訓練影像總量、COCO FID-30K 分數(Zero-shot)以及計算成本(GPU 天數),結果如下K線走勢圖9 所示。研究提出的高效方法 PixArt-α 顯著減少了資源消耗,包括訓練資料使用和訓練時間。基線數據來自GigaGAN [11]。
K線走勢圖 9
視覺化驗證:No cheery-pick battle
用於視覺化的圖像文字均取自其他方法中,本文中的圖片全部隨機生成,無需cheery-pick。
1. 與Midjourney 對比
K線走勢圖10 與Midjourney 的比較:此次比較使用的提示是從網路上隨機抽樣的。為了確保公平的比較,研究團隊選擇了兩種模型產生的第一個結果進行比較。
K線走勢圖10
2. 與更多文生圖方法的對比
K線走勢圖11 PixArt-α 與近期代表性的方法對比,如Stable Diffusion XL [2]、DeepFloyd [12]、DALL-E 2 [13]、ERNIE-ViLG 2.0 [10] 以及RAPHAEL [5]。所有方法都使用了與RAPHAEL 中相同的提示詞,其中人類藝術家希望在生成圖像中保留的詞語被用紅色高亮。各行的具體提示在圖示下方提供。
K線走勢圖11
3. 文字直接控制風格
K線走勢圖12 提示字混合:PixArt-α 能夠直接透過文字提示操控影像風格。利用風格控制物體,PixArt-α 產生了五個輸出樣本。例如,位於圖示左角的第一個例子的第二個圖片,使用的提示是「Pixel Art of the black hole in the space」。
K線走勢圖12
方法可拓展性:ControlNet & Dreambooth
如下K線走勢圖13 所示,PixArt-α 能夠與Dreambooth [14] 結合使用。只要給定幾張圖片和文字提示,PixArt-α 就能產生高保真度的圖像,這些圖像能展示與環境的自然互動(a)和精確的物體顏色修改(b)。這證明了PixArt-α 能產生具有卓越品質的影像,並且在客製化擴展方面具有強大的能力。
K線走勢圖 13
K線走勢圖14:PixArt-α+ControlNet [15] 客製化樣本。研究使用輸入圖片產生相應的HED 邊緣影像,並將它們作為PixArt-α ControlNet 的控制訊號。
K線走勢圖14
總結
總的來說,該研究提出了PixArt-α,這是一種基於Transformer 的文本到圖像(T2I)擴散模型,它在顯著降低訓練成本和二氧化碳排放的同時,實現了超強的圖像生成品質。 PixArt-α 的三大核心設計,包括訓練策略的分解、高效的T2I Transformer 架構和高資訊量的數據,都為PixArt-α 的成功做出了貢獻。透過大量的實驗,研究證明了PixArt-α 在影像生成品質上達到了接近商業應用的標準。有了以上的設計,PixArt-α 為AIGC 社群和新創公司提供了新的視角,使他們能夠建立自己的高品質且低成本的T2I 模型。研究團隊希望這項工作能激發這個領域的進一步創新和進步。
[1] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily L Denton, Kamyar Ghasemipour, Raphael Gontijo Lopes, Burcu Karagol Ayan, Tim Salimans, et al. Photorealistic text-to-image diffusion. NeurIPS, 2022.
[2] Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas Muller, Joe ¨ Penna, and Robin Rombach. Sdxl: Improving latent diffusion models for high-resolution image synthesis. In arXiv, 2023.
[3] Midjourney. Midjourney, 2023. URL https://www.midjourney.com.
[4] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bjorn Ommer. High-resolution image synthesis with latent diffusion models. In CVPR, 2022.
[5] Zeyue Xue, Guanglu Song, Qiushan Guo, Boxiao Liu, Zhuofan Zong, Yu Liu, and Ping Luo. Raphael: Text-to-image generation via large mixture of diffusion paths. In arXiv, 2023b.
[6] Christoph Schuhmann, Richard Vencu, Romain Beaumont, Robert Kaczmarczyk, Clayton Mullis, Aarush Katta, Theo Coombes, Jenia Jitsev, and Aran Komatsuzaki. Laion-400m: Open dataset of clip-filtered 400 million image-text pivs. 1021.
[7] William Peebles and Saining Xie. Scalable diffusion models with transformers. In ICCV, 2023.
[8] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C Berg, Wan-Yen Lo, et al. Segment anything. In ICCV, 2023.
[9] Kaiyi Huang, Kaiyue Sun, Enze Xie, Zhenguo Li, and Xihui Liu. T2i-compbench: A comprehensive benchmark for open-world compositional text-to-image generation. In ICCV, 2023.
[10] Zhida Feng, Zhenyu Zhang, Xintong Yu, Yewei Fang, Lanxin Li, Xuyi Chen, Yuxiang Lu, Jiaxiang Liu, Weichong Yin, Shikun Feng, et al. Ernie-vilg 2.0: Improving text-to-image diffusledgeion model mixture-of-denoising-experts. In CVPR, 2023.
[11] Minguk Kang, Jun-Yan Zhu, Richard Zhang, Jaesik Park, Eli Shechtman, Sylvain Paris, and Taesung Park. Scaling up gans for text-to-image synthesis. In CVPR, 2023.
[12] DeepFloyd. Deepfloyd, 2023. URL https://www.deepfloyd.ai/
[13] OpenAI. Dalle-2, 2023. URLhttps://openai.com/dall-e-2.
[14] Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, and Kfir Aberman. Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation. In arXiv, 2022.
[15] Lvmin Zhang, Anyi Rao, and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. In ICCV, 2023.
資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載