內測了下阿里的AI 畫圖,帶來了點大廠的震撼


作者:杜偉、澤南

要問今年的WAIC 世界人工智能大會,誰是主角? AI 大模型當之無愧。

大會一共三天,各家公司機構陸續要亮相30 多個大模型。

這場大模型的盛宴中少不了語言大模型,當然也有屢屢帶給人視覺感官震撼的繪畫大模型。這不,在AI 畫圖領域,又一個國內實力選手入場了。

繼發布大語言模型通義千問三個月後,阿里的AI 繪畫創作大模型也來了,而且是基於自研的組合式生成模型Composer。

7 月7 日的WAIC 大會上,阿里云通義大模型家族揭幕了旗下最新成員「通義萬相」。

WAIC 阿里雲《MaaS:以模型為中心的AI 開發新範式》主題論壇上,通義萬相登場。

它的文本生成圖像效果是這樣的,生成速度很快。

通義萬相還可以為一張原圖生成另一種指定風格的新圖。

更有一種套娃玩法,為一張原圖生成一些相似的圖片。

阿里表示,通義萬相擁有的文生圖和圖生圖能力,可以輔助人類進行圖片創作,大幅降低圖片設計門檻。未來還可應用於藝術設計、遊戲和文創等應用場景。

目前,該模型已開啟定向邀測。

在ChatGPT 火起來之前,AI 領域最出圈的話題就是AI 畫圖。擴散模型把生成式AI 向前帶進了一大步,一時間業內出現大量輸入文字、生成各種風格圖像的AI 模型。之後又出現了圖像生成圖像、圖像指定風格轉換的更多玩法,讓人們眼花繚亂的同時感嘆於生成式AI 的神奇。

在WAIC 這個大舞台上,阿里推出了這個既能文生圖又能圖生圖的AI 神器,可見對其生成效果非常有信心。

在拿到體驗資格後,機器之心當然要先試上一把。

通義萬相實測:玩法多樣、一出手就是大作

這個通義家族的新模型究竟有沒有給AI 畫圖領域帶來改變呢?我們用結果來說話。

目前,通義萬相上線了文本生成圖像、相似圖像生成和圖像風格遷移三大功能。

我們先從標準的文本生成圖像測起。在文生圖時,你可以在水彩、油畫、中國畫、扁平插畫、二次元、素描、3D 卡通等多種風格中進行選擇。在輸入文字描述並選定風格後,AI 便可自動生成創作圖片了。同時為了方便使用,輸出圖像的比例有現成的1:1、16:9 和9:16 三種可選。

我們先來點不那麼複雜的,選取元曲四大家之一馬致遠《天淨沙・秋思》中的一組文字描述「小橋、流水、人家」,風格則選擇「中國畫」。

結果出來,通義萬相完全向我們展示了一幅幅古韻十足的畫作,細節豐富,還添加了描述中沒有的一些元素,比如遠處的山、水里遊的鴨子等。

我們不妨再換兩種風格,這次選擇「素描」和「油畫」。通義萬相多種風格切換自如,生成的素描和油畫圖片同樣驚艷。不誇張地說,這些圖片完全是可以拿來直接用的水平。

再來另一組文字描述「穿宇航服的貓咪、太空、遨遊、星空」,這次風格上選擇「二次元」和「3D 卡通」。效果一目了然,尤其是3D 卡通風格這組,貓咪太可愛了。

圖上:二次元;圖下:3D 卡通

這裡突然想讓通義萬相與大名鼎鼎的Stable Diffusion 較量一下。同樣的文字描述翻譯成英文「cat in a spacesuit, space, travel, starry sky」,然後再加上「style of 3D carton」,生成的圖片是下面這樣的。

這波沒想到是通義萬相贏了,Stable Diffusion 生成的貓咪要么太抽象,要么太寫實了,沒有表現出3D 卡通風格。

既然簡單的文字描述難不倒通義萬相,那就給它上上難度。

這次來段更長的「一位日系女孩、棕色直發、白皙肌膚、身穿連衣裙、蕾絲和蝴蝶結、挎著小提包、面帶微笑」,風格選擇「二次元」。想問一下喜歡二次元的小伙伴,這些生成的圖片符合你們心目中的日系女孩嗎?

再來一組魔幻風格的描述「超現實主義、質感突出、4k 分辨率、賽博朋克、戰艦、氣勢磅礴、硝煙、金屬巨物、激光武器、辛烷渲染器」,風格選擇「油畫」。看著下面這些圖片,瞬間升起了一種末日之戰來襲的緊張氛圍感。

我們再次將相同的描述放進Stable Diffusion。在細節豐富度上,Stable Diffusion 更勝一籌,但其畫面風格看起來灰暗,給不了人強烈的色彩衝擊感。而且更偏寫實風格,與超現實主義略有出入。

看起來,至少在文生圖這個賽道,通義萬相似乎完全拿捏住了。讓人不由感嘆,生成式AI 在畫圖領域的能力一直在進化。

接下來講通義萬相的相似圖生成功能,用戶只要提供一張參考圖像,就能夠獲得內容、風格相似的AI 畫作。這裡要注意,上傳的圖像大小要在10M 以下,格式則支持常見的JPG、JPEG、PNG、BMP 等。

我們先放進去一張AI 畫圖世界的常客馬斯克,看看通義萬相眼中的馬斯克「分克」長什麼樣子。相較於馬斯克真身,生成的圖片偏老一些,但笑容同樣開朗。

再來一張風景圖,生成效果非常不錯。溪水潺潺流下,水中也點綴了更多落葉,跟原圖比毫不遜色。

在體驗中,機器之心還發現,通義萬相文本生成的圖片可以直接生成相似圖。這裡選取上文3D 卡通風格「穿宇航服的貓咪」的其中一張作為原圖,結果一出來,生成的貓咪更呆萌了,背景元素也更加豐富。

最後看風格遷移功能。你只要上傳想要變換風格的原圖和目標風格的示意圖,就可以很快將原圖處理為目標風格的創意圖了。與相似圖像生成一樣,原圖和風格圖的大小不得超過10M,格式相同。

我們首先選擇一張偏寫實的原圖、一張印象派的風格圖。結果來看,偏寫實的原圖完全變換了風格,成了一幅幅印象派畫作。

接著嘗試一張3D 卡通原圖、一張素描風格圖。從結果看得出來,兩種風格之間的切換游刃有餘。

最後選擇一張中國畫風格的原圖、一張水彩風格圖。生成結果同樣不錯。

一番體驗下來,無論是文生圖還是圖生圖,通義萬相從語義相關性、畫面完整性以及細節豐富度等方面來看,都給了我們很大的驚喜。尤其是風格遷移功能,不同風格的切換如此絲滑,生成的圖片幾乎沒有拼接感和塗抹感,就像本就屬於目標風格一樣。

作為阿里云通義大模型家族的新成員,阿里表示,通義萬相現有的能力只是牛刀小試,其能力仍在不斷進化中。未來也會逐步向行業客戶開放相關能力。

自研Composer 模型:50 億參數、登上頂會

此前很多公司的大模型都在立「多模態」的人設,帶有AI 畫圖能力。相比之下,阿里這個通義萬相有多少技術含量呢?看起來它不是簡單的模仿,而是有自己的獨門能力。

據了解,通義萬相基於阿里自研的組合式生成模型Composer,它擁有50 億參數,並在數十億個文本、圖像對上進行訓練。在業界都在考慮如何提升AI 繪畫模型的可控性這一點上,Composer 給出了它的創新性思路。

通過一個基於擴散模型的「組合式生成」框架,Composer 能夠對配色、佈局、風格等圖像設計元素進行拆解和組合,實現了高度可控性和極大自由度的圖像生成效果。

結果正如你我所見,僅需一個模型就能支持多類圖像生成類任務能力。阿里雲首席技術官周靖人了參與Composer 的研究,相關成果已被國際AI 頂會ICML 2023 收錄。

論文地址:https://arxiv.org/pdf/2302.09778v2.pdf GitHub 地址:https://github.com/damo-vilab/composer

所謂拆解– 組合,首先將圖像分解為不同的設計元素,比如配色、草圖、佈局、風格、語義、材質等。然後使用AI 模型將這些設計元素重新組合成新的圖像。這裡,拆解– 組合過程中允許對用到的元素自由修改編輯,如此一來可控性大大增強。

拆解– 組合圖像生成過程。

不僅如此,Composer 還可以通過「壓榨」拆解– 組合的潛力來實現更廣闊的創作空間。假設有100 張圖片,每張拆成8 種元素,則全部元素的組合方式有100 的8 次方種。這一指數級的數量增長被稱為組合爆炸現象,無疑為AI 模型創造了一個極大的生成空間。同時人類設計師在生成定制化圖片時也被賦予了極大的自由度和定制化能力。

圖像重組合過程。

正是基於Composer 框架,通義萬相才能讓我們體驗到相似圖生成和風格遷移這兩種圖生圖功能。一邊用圖像理解模型將圖像拆解為不同元素,一邊用擴散模型將這些元素重新組合成新圖像,雙管齊下,圖生圖水到渠成。

其中對於相似圖生成,保持圖像語義內容不變,僅僅改變圖像中的局部細節,就能生成相似圖片。過程中既可以較好地保持原圖主體一致性,還提升了生成圖的多樣性和質量。

對於風格遷移,一方面保留原圖的基本形態、結構,另一方面將目標風格圖片的風格、色彩、筆觸等個性化信息,最終實現風格遷移。

以大模型為核心,打造生成式AI 的統一底座

看起來,通義萬相超出預期的效果,來自於阿里自己的核心技術。

其實在國內,阿里是較早開始探索生成式AI 的大廠之一,其在2018 年就啟動了大模型技術的研發。 2019 年,達摩院提出的大語言訓練模型StructBERT 超越了谷歌、微軟和Facebook 的研究,登頂了當時NLP 權威基準測試榜單GLUE。

2021 年,阿里發布國內首個百億參數級多模態大模型M6 和被稱為「中文版GPT-3」的語言大模型PLUG。其中,M6 在多次迭代之後,實現了十萬億級別的參數規模,並且M6 和支付寶、淘寶的業務需求相結合。

在去年的WAIC 上,阿里發布通義大模型系列,為業界首次構建一個「基礎模型」,做到了模態表示、任務表示、模型結構統一。而且,相關核心模型向全球開發者開源開放。

有關生成式AI 落地,我們一直面臨著幾個挑戰:算力成本高、構建過程複雜、通用性有限。通義打造了業界首個AI 統一底座,並構建大小模型協同的層次化人工智能體系,其目標就是直面挑戰,讓AI 從感知邁向認知。

可以說,在超大模型、語言及多模態能力、低碳訓練、平台化服務、落地應用等方面,阿里為中文大模型的發展做了一些前沿性、引領性的貢獻。

在通義萬相之前,阿里已陸續發布了面向自然語言處理的「通義千問」和專攻音視頻生產力的「通義聽悟」。至此,AI 的三大主要方向已經全部打通。面對大模型及生成式AI 的巨大潛在需求,阿里云有著得天獨厚的優勢。

除了大模型技術積澱,強大的雲基礎設施能力至關重要。而在算力層面,阿里雲是亞洲第一、全球第三的雲計算服務商,自家大模型有了堅實的算力體系支撐。例如,阿里雲擁有國內最強的智能算力儲備,阿里雲的智算集群可支持最大十萬卡GPU 規模。

此外阿里國內首先提出「Model as a Service」理念,牽頭建設國內最大AI 模型服務社區「魔搭」,堅持開源開放,推動AI 普惠。此次在阿里雲《MaaS:以模型為中心的AI 開發新範式》主題論壇上,周靖人分享了對MaaS 的願景以及如何進一步賦能產品和合作夥伴。

阿里雲首席技術官周靖人。

在AI 2.0 的競爭中,比拼已經進入了新的階段,百模大戰之後必然是大浪淘沙,而阿里雲已經做好了準備。

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts