作者| 劉雨潔、王與桐
如果說人們對於效率性人工智能的定義是自動駕駛、數據分析、無人工廠等等,那麼創造性人工智能的邊界在哪裡?
在文字創作領域,彩雲小夢、Jasper、清華九歌等AI寫作服務早已給出過令人震撼的答案。為無數網文作者開拓了思路,也在將文字創作的門檻壓得更低的同時,收到了種種非議。而在美術創作領域,一直到今年上半年Disco Diffusion紅極一時,才引發熱議。
短短幾個月內,AI Art成為了全球VC都在追捧的賽道:符合目前最火的PLG模式、擁有底層壁壘的AI技術、是科技和人文完美的交叉點、大批體驗者蜂擁而至。
來源網絡
上圖為國內最大的平面設計師社區UISDC上首次出現關於Disco Diffusion的科普文章,設計師是對圖像創作工具最敏感的群體之一,彼時大多數C端用戶還並不知道這一“黑科技”的存在,即使知道,也會因為它複雜的調試環境失去參與測試的慾望。
不過五個月,Disco Diffusion的流行引發了一場從Google Colab Notebook發酵而來的共享式實驗革命。據知情人透露,解決了Disco Diffusion技術痛點的追隨者、上線於2022年8月22日的Stable Diffusion,目前正在以5-10億美元的估值接觸融資。上線一個月,就有望躋身全球獨角獸陣營,足以見得一級市場對於AI Art未來的看好。
網友十月十七用Disco Diffusion生成了24節氣。
AI Art即AI生成藝術,是AIGC裡面的一個分支。 AIGC(Artificial Intelligence Generated Content)是“繼專業生成內容(Professional Generated Content,PGC)和用戶生成內容(User Generated Content,UGC)之後,利用人工智能技術自動生成內容的新型生產方式”。在國際上對應的術語是“人工智能合成媒體(AI-generated Media或 Synthetic Media)”,其定義是“通過人工智能算法對數據或媒體進行生產、操控和修改的統稱”。
事實上,AI生成圖像與畫作,從技術和商業化角度,也已經分別擁有相當長的歷史,並非新興領域,而是一個不斷革新迭代的技術領域。
早在2015年,Google就發布並開源了DeepDream,通過算法生成迷幻和超現實的圖像。近十年的時間裡,大到數字化合成,小到曾經風靡互聯網的“一鍵生成新海誠風格照片”、“生成童年照片”等圖片效果等,都在體現著AI能力和算力基礎的不斷優化成熟。
Google DeepDream生成效果,生成痕跡非常明顯
AI Art今年以來的熱度,是因為一種呈現為文字轉圖像(Text-to-image)特性的嶄新交互方式,正在向大眾宣告AI Art正在進入一個“民主化”的時代。使用文字描述,或者基於畫面意象和故事,或者基於藝術家風格、構圖、色彩、透視方法等專業名詞,就能在數十秒內生成完整的繪畫作品,這讓藝術創作成為了一件像跑步一樣的事:人人都會跑步,只不過是專業的人跑得更快。
還原到底層技術方面,則是一場Diffusion對GAN的徹底革新。
傳統AI Art的的技術原理是生成對抗網絡(GAN)或VAE等,目前,GAN作為上一代AI Art工具與平台最主流的圖像生成模型,在模型訓練方面已經有了很大的突破,但在實際應用的過程中仍然擁有嚴重的結構性問題。
隨著熱度升溫,可能會取而代之的是Diffusion。 Denoising Diffusion Models(去躁擴散模型)作為一種基於分數的生成模型,是一種非常強大的新型生成模型。其工作原理就是通過反复地向訓練數據添加高斯噪聲來破壞訓練數據,然後通過反轉添加噪聲的過程來學習如何取回數據。 Diffusion還提供大量樣本多樣性和學習數據分佈的準確模式覆蓋,這意味著Diffusion適用於具有大量不同和復雜數據的學習模型,從而解決了GAN的問題。 Diffusion緩慢改變輸入數據將數據映射到噪聲的正向變換,通過學習的、參數化的反向過程來完成數據生成。該過程從隨機噪聲開始,一次一步地進行清理。
來源網絡
Diffusion對圖像生成效果的提升十分顯著,數字生成的痕跡也得到了有效削弱,用戶自己可選執行步數,步數越多圖像越精細的特點也激起了更多的“硬核”需求。
來源網絡
這也就是為什麼AI Art工具其實從很早之前就有了,但此前的圖像效果經常會有“太假”或者不夠完整等種種問題,甚至不如直接用Photoshop做一些風格化處理,因此這些作品也就失去瞭如今Diffusion時代作為藝術品的收藏與分享價值。
通過指數級爆發的帖子和作品展示,以Disco Diffusion、Stable Diffusion、DALL-E2、MidJourney這些算法和工具為代表的生成器,已經成為了AI生成向C端落地、以及更廣闊的元宇宙世界的先發力量。
上圖記錄了足以讓人們真正關注到AI Art領域的一起標誌性事件:一副AI生成藝術作品在科羅拉多州博覽會藝術比賽中獲得了第一名。
目前,AI Art工具主要也還在歐美等國家發展較快,國內起步稍晚,參與者主要是在AI 領域或者圖片編輯領域有較多增持的大廠,比如百度、美圖等。
本文,36氪梳理了全球範圍內正在流行的AI Art工具,分析其差異和共性,給國內有類似想法或者能力的創業公司、想要在AIGC方面做出投資的投資從業者以藉鑑。
由於目前市場上的AI Art工具和服務中仍然有相當一部分使用的底層算法是DeepDream或者GAN,而近期熱度主要來自Diffusion,因此我們把它們分成了兩類。
一、Diffusion
Stable Diffusion(https://stablediffusionweb.com/)
Stable Diffusion是時下最先鋒、也是最流行的AI繪畫機器學習模型,上線於2022年8月22日,由StabilityAI開發,Web演示版本搭載於AI開源社區Huggingface。 StabilityAI是一家創立於2019年的人工智能初創公司,總部位於倫敦,致力於構建以AI為技術載體的解決方案。目前,Stable Diffusion正在測試其商業版本DreamStudio,後者俱有更快的生成速度,同時即將上線API功能。據知情人士透露,StabilityAI正在被Coatue、Lightspeed等知名VC考慮以5-10億美元的估值進行投資。
開源,免費使用支持文本生成圖像、圖像生成圖像兩種模式Web演示版本生成速度非常快,預計生成圖像只需要1到15分鐘(生成時長與排隊有關)
來源:Stable Diffusion
Disco Diffusion(https://dreamingcomputers.com/disco-diffusion/)
Disco Diffusion具有一個強大的開源CLIP-Guided Diffusion 模型,基於谷歌技術架構,可以創建詳細、逼真的圖像。上線於2021年10月29日,由Accomplice開發,Accomplice是一家創立於2016年的公司,致力於幫助每個團隊和個人找到適合他們的AI 驅動的圖像工作流程。
開源,免費需要通過Google Colab生成,沒有更友好的用戶界面,有使用門檻用戶可以自己定制步數等高級選項
來源:Disco Diffusion
DALL-E2(https://openai.com/dall-e-2/)
DALLE2可以從自然語言的描述中創建逼真的圖像和藝術,上線於2022年4月6日,由OpenAI開發。 OpenAI由馬斯克、美國創業孵化器Y Combinator總裁阿爾特曼、全球在線支付平台PayPal聯合創始人彼得·蒂爾等矽谷科技大亨在2015年創立。此前,在DALLE2尚未正式發佈時,每週僅向1000名用戶發布,9 月29 日,OpenAI 已經取消了訪問其文本生成圖像系統DALL-E 2 的等待名單,任何人都可以立即註冊使用。 OpenAI 稱,大約150 萬DALL-E 用戶每天生成超過200 萬張圖像。
文本到圖像生成僅僅需要幾分鐘,生成的圖像的多次迭代編輯和修飾功能,可以自定義多層圖像渲染人臉方面,為了防止圖片造假,DALL-E2會故意生成歪七扭八的眼部,或是扭曲的嘴唇任何註冊訪問DALL-E 的人都將免費獲得50 個點數,此後每月可再獲得15 個點數,每個點數可用於生成一張圖片,點數可以購買,115 個售價15 美元
來源:DALLE2
Mid Journey(https://www.midjourney.com/)
Mid Journey是一個流行但尚未普遍可用的AI藝術生成器。 Midjourney 是一個獨立的研究實驗室,探索新的思想媒介並擴大人類的想像力。 Midjourney 是一個小型自籌資金團隊,專注於設計、人類基礎設施和人工智能。 Midjourney 是託管在Discord 服務器上的AI 文本到圖像擴散模型。目前已經有150萬用戶。
演示版易於使用,僅需要提供一個小文本輸入基於Discord,有良好的社區生態文檔詳盡,對開發者友好
Mid Journey
TIAMAT(https://tiamat.world/)
TIAMAT是由國內團隊研發的一款人工智能繪畫工具,於2022年7月22日上線,公司總部位於上海。目前還處於內測版本。
支持中文輸入主要面向中國用戶群體,更理解東亞藝術風格基於飛書社區,申請制內測
TIAMAT
Photosonic AI(https://photosonic.writesonic.com/)
Photosonic由AIGC公司Writesonic開發,位於美國舊金山,此前專注於AI文本創作。目前,Photosonic已經生成了超過一百萬張圖像。 Photosonic在Stable Diffusion上線後一周上線,據Stable Diffusion創始人形容,Photosonic AI是抄襲了Stable Diffusion的開源版本。
Photosonic AI
二、非Diffusion
DeepDream(https://deepdreamgenerator.com/)
DeepDream作為市場上最受歡迎的AI藝術生成器之一,上線於2015年6月,是由谷歌工程師Alexander Mordvintsev 創建的計算機視覺程序,可以探索不同的AI 算法。目前,市場上大量藝術效果生成應用都基於這一開源技術
NightCafe(https://nightcafe.studio/)
NightCafe上線於2019年11月,由Reddit開發。 Reddit是一個娛樂、社交及新聞網站,創立於2005年2月3日,總部位於舊金山,致力於為世界上每個人帶來社區和歸屬感。通過NightCafe,用戶可以獲得所生成藝術作品的所有權,也可以購買作品的打印版本。
Artbreeder(https://www.artbreeder.com/)
Artbreeder上線於2019年5月,由Joel和Studio Morphogen創建。 Artbreeder旨在成為一種新型的創意工具,通過讓協作和探索變得更容易來賦予用戶創造力。 Artbreeder 使用BigGAN和StyleGAN 模型。其中一個使用BigGAN的最小開源版本。
Big Sleep(https://github.com/lucidrains/big-sleep)
Big Sleep是一個基於Python的AI藝術生成器。由谷歌開發,其使用BigGAN 和OpenAI 的CLIP 通過Google Colab 筆記本從Twitter 用戶Adverb 生成文本到圖像。需要通過Python編程語言生成,處理圖像需要一段時間和大量內存,有可能無法在計算機上運行腳本。
StarryAI(https://www.starryai.com/)
StarryAI是一個AI藝術生成器App,目前在Google play上已經有超過50萬的下載量。作為移動應用,有iOS和Android版本,可以在移動端使用,支持創建NFT,同時支持生成步數等進階選項。
WOMBO Dream(https://www.wombo.art/)
Wombo是一家總部位於多倫多的合成媒體公司,曾於2021年3月推出了一款由AI驅動的對口型App,允許用戶上傳任何靜止的肖像並對其進行動畫處理,以唱出他們選擇的歌曲,該產品引發了爆發式裂變。目前,WOMBO Dream算法應用的是OpenAI開發的CLIP所引導的方法。
DeepAI
於2017年成立於舊金山,曾於2019年獲得種子輪融資。 DeepAI使用HTML5、Google Analytics和jQuery等12項技術產品和服務。 DeepAI的技術包括ViewportMeta、iPhone/Mobile兼容和GoogleFontAPI等。最初其功能是將黑白照片自動上色為彩色。
三、大廠進展
Imagen
2022年5月,Google Research發布了Imagen。此次谷歌的Imagen拋棄了從文本特徵映射到圖像特徵再用GAN或擴散模型生成圖像的常規思路,而是使用純語言模型只負責編碼文本特徵,把文本到圖像轉換的工作丟給了圖像生成模型。這裡的圖像生成模型,依然是擴散模型,是一系列的擴散模型。這就意味著其純文本數據獲取方面和全面性方面比獲取圖文對數據容易,其文本理解能力上比圖文對數據的理解能力強。
Parti
2022年6月,Google公佈了其Parti文本到圖像的計算機模型,該模型通過研究數百億個參數來渲染超現實圖像。 Parti 全稱為“Pathways Autoregressive Text-to-Image”(路徑自回歸文本轉圖像)。隨著可使用參數數量的增長,其輸出的圖像也能夠更加逼真。該模型在生成最終圖像之前研究了200億個參數。
Parti與Imagen不同,Imagen是一種文本到圖像生成器,谷歌設計用於擴散學習。該過程通過在圖像中添加“噪聲”來訓練計算機模型,使其變得模糊。然後,該模型學習對靜態圖像進行解碼,以重新創建原始圖像。隨著模型的改進,它可以將看起來像一系列隨機點的東西變成一幅圖像。
目前,谷歌沒有向公眾發布Parti或Imagen。
Facebook/Meta Make-A-Scene
Meta於2022年7月官宣Make-A-Scene的存在,目前,該團隊正在測試並收集Meta 員工的反饋,Make-A-Scene 正在Meta內部開放使用權限。 Make-A-Scene可以捕捉預先設置的場景佈局,使草圖也成為輸入內容的一部分,然後用戶通過文本輸入來對框架進行填充。該模型還可以通過輸入文本來創建自己的佈局,但這意味著用戶放棄了部分控制權。
Microsoft NUWA
2022年3月,微軟亞洲研究院最新推出的多模態模型NÜWA。 NÜWA 支持八大視覺生成和編輯任務。其中,支持圖像的四類任務包括:文本到圖像,草圖到圖像,圖像補全,圖像編輯;支持視頻的四類任務包括:文本到視頻,視頻草圖到視頻,視頻預測,視頻編輯。 7月,微軟亞洲研究院公開發表了新的研究成果:NUWA 的升級版——無限視覺生成模型NUWA-Infinity,可生成任意大小的高分辨率圖像或長時間視頻。
文心·一格( https://wenxin.baidu.com/)
文心·一格是基於文心大模型的文生圖系統實現的產品化創新。上線於2022年8月19日。這是百度依托飛槳、文心大模型的技術創新推出的“AI 作畫”首款產品。百度的AI-飛槳文心大模型,是產業級知識增強大模型。文生圖領域的大模型服務,支持輸入一段文本描述,並選擇生成風格和分辨率,模型就會根據輸入的內容自動創作出符合要求的圖像。
涵蓋了國潮,國風等風格依靠百度的算力,出圖快,完成度高操作簡單的同時也可以高級自定義
美圖AI開放平台(https://ai.meitu.com/index)
美圖AI開放平台是美圖公司推出的AI服務平台,專注於人臉技術、人體技術、圖像識別、圖像處理、圖像生成等核心領域,為客戶提供經市場驗證的專業AI算法服務和解決方案。
美圖在人臉技術、圖像分割、圖像增強、圖像生成等多個方向存在優勢擁有長期的審美增持,能夠把握美的趨勢,實現藝術與技術的有機結合前沿技術能快速與產品結合,日調用量逾億次,兼具穩定性與實用性
AI生成在社交媒體上的氾濫討論一直帶有科學倫理方面的色彩和偏見,而關於圖像生成技術的討論則始終由藝術愛好者、設計師、藝術家這類人群在推動,因此,AI Art所帶來的關於藝術設計生產效率、知識產權、圖像數據復用等方面的延展和保護性服務可能會是下一個市場風向。
另外值得一提的事,近期在全球最大的產品社區Product Hunt上,已經出現了針對AI Art的藝術作品交易市場。這可能是自NFT流行以來又一個新興的垂類版權交易賽道。
AI Art交易市場
如果優質的AI Art可以賣出一個好價錢,那無疑將會出現一個“全民藝術家”的時代。
當然,任何新興的技術,在開始都會經歷萬眾矚目的階段,之後不免會被市場“失望”之音淹沒。 AI Art現在正在早期繁榮期,未來,的確也還有一些難點需要攻克。
最重要的問題是,比起AIGC其他賽道,現在的AI Art多了幾分性感,卻好像少了幾分“實用價值”。
首先,隨著技術從算法模型下沉到用戶的手裡,如何精準找到客戶群體,進行商業化?作為一項黑科技,儘管目前看來比較吸引人眼球,但是目前AI Art具體的使用者可能仍然停留在:藝術家的靈感工具、設計師的素材工具、普羅大眾的獵奇工具。對風格各異的藝術圖片有消費需求的個人用戶和B端企業究竟有多少?目前還尚未可知。
不過,根據36氪判斷,在可以想像到的範圍內,AI Art可落地的商業場景主要有以下幾類:
最直接的是場景用於toC端美圖秀秀等消費級修圖應用、to設計師端的即時設計等生產工具,為這些產品增加場景豐富度,提高用戶黏性,事實上,根據了解,這類廠商也都已經在進行相關的佈局;
即時設計已經推出AI設計插件
革新專業創作人員的生產方式,比如作為提效工具為插畫師、動畫師、電影創作者等實現能力補充,解放生產力。未來,大量創造性工作的主要職業能力會體現在生產和粘合數字化素材的能力,而不再是原始的手工工藝(就像想吃米飯需要從種水稻開始); AI Art背靠的是廣闊的UGC和用戶個性化空間,當下能夠很好地貼合全民自媒體、低門檻內容製作的潮流,未來也會在元宇宙市場中有更深層次的發揮空間。基於這一點考慮,國內主要內容生產分發的平台、電商平台、互聯網大廠等很可能會先後在自有產品生態中孵化AI Art的功能,幫助用戶快速生產符合平台調性的藝術內容,同時服務自己的用戶和企業客戶; 由於AIGC這一大領域本身符合無代碼潮流,因此AI Art也非常可能具有高潛力的企服價值,最直接的目標企業是廣告公司、影視創作公司、建築事務所等對於藝術效果圖有大量需求的企業客戶,單是這幾類企業就有不低的市場天花板,另外,品牌商家的廣告和創意部門也是有力的受眾之一;
用Mid Journey生成的品牌廣告
不過,不同的用戶群體,其具體的需求點又大相徑庭,產品後續的迭代也會根據不同的需求進行調整,因此,現在還停留在算法、測試版生成工具、平台社區的AI Art存在形式,也很有可能會因此而分化出不同的價值和服務類型。畢竟,底層技術的革新和賽道的開拓,只是“AI代替人類”萬里長征的第一步。
商業化之外,另一機遇與威脅並存的點是,目前的產品多以英語自然語言理解為基礎,而漢語、西班牙語、法語、德語、日語等其他主要語言毫無疑問也有相當大的市場需求尚未被滿足。在滿足不同語言的需求過程中,又會出現更多難題,比如中文的AI學習難度是英文的指數級,這或許也是國內暫時落後於歐美的原因之一。
但挑戰也預示著藍海和機會。比如國內已經出現了第一家以中文自然語言理解為亮點的AI Art公司TIAMAT。再比如在AICG行業發達的日本,第一家能夠做到支持日語輸入的企業服務級AI Art廠商,勢必會有很大的市場空間能夠去開拓。
儘管困難重重,但是,歐美VC依然願意為充滿風險的未來機遇買單。
首先,AI Art在目前看來,是比較符合現在海內外認可的PLG/CLG模式,產品能夠有效提高生產力,足夠從個人使用者逐漸擴展至團隊乃至企業使用。在國內,PLG/CLG也都出現了頭部公司,比如藍湖、PingCAP等。
其次,AI 近年來一直被視為未來的方向,只不過落地場景仍需摸索。此刻,AI Art乃至AIGC是AI成熟期裡已有明確需求的場景,值得被看好。畢竟,文化和社區正在初步形成。比如Mid Journey基於Discord的服務已經使之成為了Discord上的第二大社群,目前處於內測階段的國產先發者TIAMAT每天也都會收到成百上千份理由翔實的申請表。一個開放共享的社區對於AI Art領域來說至關重要,也是考核一個AI Art公司的重要標準之一。其貢獻還體現在,互聯網邏輯下的思維方式,能夠快速將AI Art變成一門“數字化技能”。
網友發起了Disco Diffusion詞庫共享計劃
為了更好地進行AI Art創作,網友發起了Disco Diffusion詞庫共享計劃。 (因為Disco Diffusion在Google Colab Notebook上的測試版本仍然有一定的理解和生成門檻,但現在不少工具已經加入了關於藝術風格的引導和篩選功能。)
2022年,可稱為被Diffusion開啟的AI Art元年。接下來的三至五年內,AI Art將會往更加自由的方向發展,比如展現出更強的耦合性,可被用戶定制的空間更大,也就是說更貼近“主觀創作”的過程,藝術作品中也會分化和體現出越來越細緻的用戶想法。 Google近期上線的DreamBooth AI已經展現出了這一特點。
DreamBooth AI
同時,全球範圍內元宇宙、Web3概念的盛行,也給AI Art提供了一個結合思路。搭上了AI 和Web3的雙重熱門概念,AI Art有可能斬獲一批相信未來的投資者。
追風口無錯,不過,放眼國內,越加謹慎的投資氛圍,有可能對AI Art創業公司的底層能力考核嚴格。靠新概念融資的時代過去了,未來,能在國內掀起波瀾的AI Art創業公司,至少一定能夠具備:更深厚的AI算法技術儲備、更開放的社區和可觀的數據訓練壁壘、更貼合東亞使用習慣的產品落地場景、更長期主義理想的創業者。
*實習分析師古振興對本文亦有貢獻
資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載