來源:錦秋集
作者:錦秋基金
圖片來源:由無界AI生成
TL;DR
1.從2017年至今3D經歷過了3D視覺、元宇宙還有當前的大模型+MR驅動的三波熱潮,軟件(AI)和硬件(Vision Pro)共振帶來的新一波熱潮有望帶來更持續的3D創新;
2.文字和圖像的大模型都已經有了各自的基石模型並進入到應用爆發期,3D生成模型仍處在模型迭代階段,尚無行業領導者,但創新速度明顯加快,市場在等待屬於3D的“Midjourney時刻”;
3.現有3D管線研發成本高、製作週期長,AI+3D正在通過以下幾種方式大幅優化3D生產管線:生成式3D建模、紋理生成及綁定、服裝布料生成及驅動、Text to action動畫驅動、基於大模型的新交互方式(LUI、拖拉拽式交互)、3D資產庫+LLM,其中生成式3D最具有變革性;
4.現有3D生成模型可以劃分成“原生3D”和“2D升維”路線,目前都面臨著生成速度、質量、豐富性的“不可能三角”:“原生3D”通常在生成速度和質量上佔優,但由於3D數據的匱乏導致生成的豐富性上仍是短板,“2D升維”則繼承2D圖像生成的豐富性,同時在生成速度和質量上快速追趕;
5.“3D原生”的生成式模型更接近商業化要求,會在特定場景下先行商業化,“2D升維”的生成式模型預期未來一年內有機會在元宇宙等對生成質量要求不高的場景落地,真正的3D應用市場爆發尚待XR的成熟滲透,我們認為五年內AI+3D TAM市場的下限是3D資產交易市場的27億美元,Optimism能看到數百億美元的市場(單遊戲的3D研發投入就超過百億美元)
6.當前階段有底層技術能力的公司會有顯著的競爭優勢,而3D應用的爆發仍需至少一年以上的時間,屆時競爭要素才會逐漸往產品端傾斜,但優秀的AIGC公司應當是擁有底層技術的同時有自己的爆款C端應用。
目錄
引子:三看3D,我們在期待什麼?
一、AI+3D=?
二、生成式3D的加速狂奔與“不可能三角”
三、生成式3D的商業化路徑和市場潛力
四、誰能成為3D的“Midjourney”?
引子:三看3D,我們在期待什麼?
最近3D借AI的光又被廣泛地討論起來了。
第一次記憶中的“3D熱”始於2017年iPhone發布了帶3D結構光的iPhone X,三年後又發布了基於3D dTOF的Lidar。那是少數蘋果沒有帶起來的“時髦”的新技術,因為友商們最後發現增加了數十美金的BOM成本死磕技術帶來的體驗提升似乎有點雞肋,智能手機上遲遲沒有等來那個3D的Killer app,第一次“3D熱”隨即進入冷靜期。
第二次是在2021年,Roblox“元宇宙”第一股、Quest銷量突破千萬“奇點”、Meta加入萬億俱樂部,智能手機接不住的“3D熱”用XR可還行?結果VR始終沒能突破“遊戲主機”的敘事,而下行的經濟環境下一台399美元的笨重的遊戲主機又難免有些奢侈,22年VR出貨量跌破千萬、Meta股價打到骨折, 3D再次無人問津。
而今年開始的這波“3D熱”主要是受LLM和Text to image為代表的大模型驅動,疊加6月WWDC中千呼萬喚始出來的蘋果的Vision pro,似乎在軟件和硬件層面又開始有了一些新的變化。
圖:近三次3D熱潮
3D的體驗和交互是人自然而然的需求,制約3D的從來都是供給端,而供給端的瓶頸主要有兩個:1)適應3D的體驗優異的硬件終端;2)豐富且高質量的3D內容。
“之前兩次熱潮都由硬件引領,而Vision pro又給硬件創新帶來了新的期待。此外,這次大模型創新之於3D則主要是在內容創作門檻的降低。生成式3D、3D copilot等都在日新月異地迭代,期待在硬件和軟件共振的創新周期中的新一輪3D熱潮能夠有更強和持續的生命力。”
我們看到文本和圖像的大模型都已經有了各自的無論開源還是閉源的基石模型,基於LLM已經誕生了Character AI、Inflection、Jasper等AI native的獨角獸,LUI(基於LLM的用戶交互)正在席成交量和重塑軟件行業,而圖片生成領域除了Midjourney以外也出現了基於Stable Diffusion等開源模型的Lensa、妙鴨相機等“輕”而爆火出圈的應用。我們不禁想問,3D的“Midjourney時刻”何時到來?
圖:文字、圖像、3D大模型發展脈絡
一、AI+3D=?
1)現有的3D管線週期長、高度依賴人工
現有的3D資產生產管線大致包括概念設計、原畫製作、3D建模、紋理貼圖、動畫驅動、還有渲染。
其中3D相關的環節製作週期長、高度依賴人工,往往是研發投入的大頭。以最大的遊戲市場為例,全球市場來看3D遊戲約佔全部遊戲的60%以上,而在3D遊戲中3D美術相關的支出通常會占到研發成本的60%-70%以上,包括3D建模、紋理貼圖、驅動動畫等,一款頂尖3D遊戲在3D研發上的投入可以高達數億美元,整個遊戲行業每年在3D相關的研發投入~75億美元。
以3D遊戲中的人物建模舉例,一個十萬面以上的3D高模資源,廠商如果要委託外包團隊生產該模型,則價格至少需要3萬元起步,時間為30-45天。即便是通過3D資產庫購買的方式,除了面臨可選的資產有限的問題以外,通常也需要花5-10人*天進行清洗才可以使用。全球最大3D內容公司Sketchfab顯示,3D模型生產週期在數小時到數天,生產成本平均高達千元以上。
圖:全球生產3D模型的費用 數據來源:Sketchfab
除了3D模型資產以外,模型的動作、表情驅動也是耗時耗力的環節,特別在影視動畫、數字人領域動畫驅動的投入佔比更高,都是有機會通過AI大幅提效的環節。
2)基於生成式AI的3D管線可實現效率飛躍
生成式AI幾乎可以在所有3D管線的環節中發揮作用,提高生產效率、縮短製作週期。
上圖的管線中目前應用最廣泛的還是文生圖在原畫製作環節,很多遊戲工作室目前已經是美術人手一個Midjourney再加一些特定風格微調的Stable Diffusion,LLM能夠在概念設計環節幫助編劇提升一定效率但更多還是創意輔助。相比之下3D與大模型結合則仍處在非常早期的探索階段,但以5年維度來看,我們認為整個3D管線能夠做到70%以上的成本、時間優化,意味著3-4倍的效率提升。
目前我們關注到的AI+3D主要包括以下幾種方式:
1.生成式3D建模:類似Midjourney的文生圖或圖生圖模式,以一段文字或者圖片作為prompt輸入,由生成式模型生成所需的3D資產,包括3D的虛擬人、物品、場景等,將原本高門檻、長周期的3D建模環節簡化成只需要一句“咒語”或者一張“原畫”就能夠完成3D建模,生產效率有質的飛躍。由於3D生成模型對3D管線效率的極大提升,也是目前3D創新最為活躍的領域,下文將會展開重點介紹。
2.紋理生成及綁定:目前基於NeRF(Neural Radiance Fields,神經輻射場)的3D生成模型通常是一步到位生成帶貼圖的3D資產,而沒有單獨進行紋理的生成和綁定,而非NeRF路線的生成模型通常會對幾何和紋理進行分別生成,再進行綁定和驅動,比如英偉達的GET3D,上海科大的影眸科技提出的Dreamface,以及來自美國的Synthesis AI等。
圖:英偉達GET3D模型
圖:Dreamface模型中的紋理材質生成環節
3.Text to action動畫驅動:類似OpenAI在圖像領域提出的CLIP模型,通過大量的文本動作數據對進行預訓練,形成大模型對於動作表情的理解和生成的能力,例如在虛擬人場景中根據對話文本生成合適的肢體動作和表情。
在action方面,字節旗下的朝夕光年在今年3月的遊戲開發者大會(GDC)上介紹了將文本轉化成全身動畫的技術,並將應用在即將推出的遊戲《星球:重啟》;騰訊聯合復旦於今年6月在Arxiv上發布了MotionGPT模型的研究;北京大學團隊在7月份提出GestureDiffuCLIP用於語音語義到手勢的生成;國內初創企業中科深智也基於多年文本動作對數據集的增持推出了CLLAP模型。
而表情驅動上比較有代表性的是英偉達的Audio2Face和多倫多大學的JALI模型,嘗試通過對輸入文本的理解生成恰當的口型和表情。目前在嘴型匹配上有比較好的進展,但整體表情生成上仍有待突破。
圖:朝夕光年於GDC介紹Text to action技術
圖:復旦聯合騰訊發布的MotionGPT
4.服裝布料生成及驅動:服裝布料生成也是3D模型裡比較重要的環節,在3D場景下不同布料工藝的服裝如何生成、如何適配avatar體型、怎麼解算服裝的動畫都是服裝布料生成需要回答的問題。目前這塊的相關研究尚處在早期。
我們看到有凌迪科技Style3D通過diffusion+圖形學仿真來實現生成和動畫驅動,也關注到米哈遊和倫敦大學等在2019年的Siggraph上聯合發布了關於服裝動畫半自動生成的研究,而在米哈遊的虛擬人鹿鳴新近的直播中我們看到其服裝動畫的實時解算渲染已經達到了較高的水平。
圖:凌迪科技Style3D模型
圖:米哈遊、倫敦大學等半自動生成服裝動畫的研究
5.基於大模型的新交互方式降低使用門檻
a.LUI:基於LLM,融入對話式的交互,實現類似微軟office copilot式的軟件交互,大幅降低3D建模軟件的使用門檻,比如Unity在6月發布的Unity Muse。 LUI已經在逐漸成為各類軟件的標配,3D軟件也不例外。
圖:Unity發布的Unity Muse工具
b.拖拉拽式交互:3D作為基於視覺的內容,很多時候通過Chat來進行微調不如通過拖拉拽的所見即所得來得高效,5月份的DragGAN模型實現了通過拖拉拽把圖片中的大象P轉身驚艷了整個行業,緊接著也馬上有人基於DragGAN和3D生成模型Get3D縫合出了Drag3D模型,可以通過拖拉拽的方式對3D資產的幾何形狀和紋理進行編輯,也是有意思的探索方向。
圖:DragGAN模型效果
6.3D資產庫+LLM:3D資產庫可以基於LLM進行3D資產的快速匹配、參數調整,從而在資產庫的範圍內實現“Text to 3D”。美國老牌的3D資產庫Tafi在6月份發布了驚豔的Text to 3D引擎demo,可以幫助用戶在極短時間內“生成”想要的3D資產,並可導入到Unity等引擎進行後續的編輯和商用。
二、生成式3D的加速狂奔與“不可能三角”
儘管大模型正在以多種不同的方式在改變著3D管線,但通過生成式3D模型實現3D資產的生成是本文的關注重點,包括3D建模和紋理貼圖。
一方面是3D資產建模和貼圖研發投入佔比最高,而生成式3D有望帶來真正的生產力變革,另一方面是生成式3D是一個更加“3D native”的事情,相比之下LUI或者檢索匹配已經在2D圖像等領域快速滲透。
生成式3D建模可以從“遠古”的3D-GAN(2016)說起,而奠基最近一波3D生成的基礎是NeRF模型(2020)和diffusion模型(關鍵成果~2020年),催生了到2022年底前誕生的Dreamfield、Dreamfusion、Get3D、Magic3D、Point-E等經典的3D生成模型。
而進入2023年,隨著大模型進一步成為顯學,3D生成領域也開始進入了新的加速車道,半年多時間我們看到了包括Shap-E、DreamFace、ProlificDreamer、One-2-3-45等在生成質量或者速度上表現驚豔的模型。
NeRF模型:NeRF(Neural Radiance Fields,神經輻射場),利用深度學習技術從多個視角的圖像中提取出對象的幾何形狀和紋理信息,然後使用這些信息生成一個連續的三維輻射場,從而可以在任意角度和距離下呈現出高度逼真的三維模型。
Diffusion模型:在深度學習中,Diffusion模型是一種以Markov鍊和噪聲驅動的逆過程為基礎的生成模型。該模型通過模擬噪聲的慢慢消散過程,逐步形成想要的數據分佈,常用於生成高質量的圖像和其他數據類型。
從實現路徑上,生成式3D可以粗略劃分為“原生3D”和“2D升維”兩種不同技術路線。核心區別在於是直接文字到3D,還是先到2D圖像再進一步通過擴散模型或者NeRF生成3D。兩種路徑的選擇對於模型的生成質量、速度和豐富性有決定性的影響。
圖:3D生成技術路線及典型模型
1.原生3D派:原生3D 路線主要特點是使用3D數據集進行訓練,從訓練到推理都基於3D 數據,通常也是基於diffusion模型和transformer模型的方法進行訓練,實現從文字/圖片輸入直接到3D資產的生成。
圖:Get3D(Nvidia)模型原理圖
a.優勢:
i.生成速度快:2D升維通常利用2D 擴散生成模型來指導3D 表示(如NeRF)的優化,需要很多步迭代導致非常耗時,而3D原生的生成通常可以在1min以內完成,類似2D的文生圖;
ii.生成質量高:在特定範圍內能夠生成質量較高的3D資產,比如通過高質量的3D人臉數據可以訓練出4k以上高質量的3D人臉,同時避免了2D升維的多面等問題;
iii.兼容性好:通常有幾何和紋理的分別生成,可以直接在標準圖形引擎中進行後續編輯。
b.劣勢:
i.豐富性不足:原生3D生成的問題在於缺乏高質量、大規模的3D數據集,目前比較大的3D數據集基本在百萬級別,相比於十億級別的圖像數據集有三個數量級的差距,並且數據質量和一致性較差,制約了模型的“想像力”,比如沒有見過的物品或者組合,對目前的原生3D模型往往比較挑戰。
c.典型模型:Get3D(Nvidia)、Shap-E(OpenAI)、Dreamface(影眸科技)
2.2D升維派:通過2D 生成模型(如Imagen、diffusion model)生成多個視角的3D 視圖,然後用NeRF 重建。背後核心邏輯是3D數據集的匱乏難以滿足豐富的3D生成需求,在2D的文生圖紅紅火火的背景下開始越來越多的研究者試圖基於海量的2D圖像數據來實現3D的生成,並取得了飛速的進展。
圖:Dreamfusion(Google)模型原理圖
a.優勢:可以利用大量的2D圖像數據進行預訓練,數據的豐富性使生成的3D模型複雜度提高,富有“想像力”;
b.劣勢:
i.生成速度慢:NeRF的訓練和推理過程都需要大量的計算資源。因為需要對3D空間進行密集的採樣,這也導致了生成速度較慢,不過最近的One-2-3-45模型提出了“2D 多視角預測+ 3D 可泛化重建”將生成時間縮短到了45s ,生成速度上在追趕3D原生派;
ii.生成質量較低:NeRF更擅長合成視角而非精確重建,受限於採樣數量、視角數量及計算資源的平衡,目前2D升維生成3D在分辨率、紋理細節都還比較粗糙,以及2D升維3D過程中的一些非理想效應的存在,導致整體的生成質量還有較大提升空間;
iii.兼容性問題:NeRF格式無法直接在Unity等3D引擎中進行後續的編輯,也可以通過Matching cubes等方法轉換成3D網格再到3D引擎中進行編輯,也有一些2D升維3D模型已經可以實現Mesh格式的導出,兼容現有3D管線,整體兼容性有所改善;
c.典型模型:Dreamfield、Dreamfusion(Google)、Point-E(OpenAI)、Magic3D(Nvidia)、ProlificDreamer(生數科技)、One-2–3–45
我們按照生成速度、生成質量以及豐富性來對典型的模型進行大致坐標系排列,大概能得到如下的圖:
我們發現,目前的3D生成模型存在一個明顯的在生成質量、速度、豐富性之間的“不可能三角”:
•“3D原生派”基本上保證了質量和速度,但是在豐富性上由於3D數據的匱乏導致了明顯的短板,後續的重點發展方向就是通過自主採集或者開源共享的方式,在更多的場景、類型上豐富3D數據,逐步提高豐富性;
•“2D升維派”繼承了2D圖像生成的豐富性,而在第二個角上,我們看到既有ProlificDreamer這樣生成質量讓人亮眼的,也有One-2–3–45這樣在生成速度上追求極致的模型出現,生成質量和速度都在不斷提升。
三、生成式3D的商業化路徑
和市場潛力
當前的生成式3D存在的問題好比一年前的文生圖,V1、V2的Midjourney的生圖質量、可控性和可編輯性離商業化看似遙不可及,而短短一年多時間設計師們就要開始驚呼“失業”了。錦秋基金認為,上述“不可能三角”的問題同樣有機會在未來一年內逐漸取得突破,並開始生成式3D的商業化之路。
圖:Midjourney在短短一年時間就從“玩具式”的v1迭代到了生產力工具v5
“3D原生”的生成式模型由於生成速度和質量可以達到或接近商業化的要求,將會在特定場景下的先行商業化。
例如影眸科技的Dreamface已經可以在遊戲領域替代一部分前期建模的工作,例如Get3D正在一些元宇宙類場景裡進行簡單物品生成的測試。隨著越來越多人加入“3D原生”生成的研究,預計將會出現越來越多大規模、高質量的3D資產數據集,以及改進模型架構以降低對數據依賴,共同推動原生3D在更多的場景逐步落地。
“2D升維”的生成式模型相比之下離商業化稍微遠一些,但得益於NeRF和diffusion的快速發展,能看到今年以來“2D升維”的新的學術成果較“3D原生”要多很多,在生成質量、生成速度上都有不同程度的顯著提升。可以預期未來一年內,2D升維的3D生成有機會在一些對生成質量要求不苛刻的場景初步落地,比如元宇宙(UGC到AIGC的升級)、VR家裝等。
“短期來看,3D生成的應用場景還是以遊戲、影視為主,但我們也留意到像虛擬人這樣的3D內容場景的增長;
長遠來看(5-10年),隨著XR將成為下一代智能終端,3D的內容和交互將成為比圖片更為普遍的需求,而3D生成則會是一件和圖片生成至少一樣重要的事情。 ”
圖:Vision Pro發佈時Character AI的官方P圖,MR時代3D內容會在C端進一步打開市場每個ChatBot都可以是ChatAvatar進行更好的3D交互
我們嘗試以保守和Optimism兩種思路簡單測算生成式3D五年內的全球市場潛力:
1)測算邏輯一(保守):假設完全替代3D資產交易市場,對應22年3D資產交易市場~12億美元,28年預計27億美元
•生成相比於購買在成本、效率上都能有很好的提升,技術成熟的情況下基本可以做到完全的替代,一如文生圖對圖庫市場發起的進攻。假設五年時間做到技術成熟水平,可替代的3D資產交易市場規模~27億美元。
2)測算邏輯二(Optimism):參考遊戲3D資產的研發成本進行Optimism測算,到2028年可觸達的市場將超過百億美金。
遊戲是目前3D資產需求的大頭,以數據完整度較高的遊戲市場進行測算:
•通過公開數據和行業調研,我們大致假設:1)3D遊戲佔遊戲類型的60%;2)美術佔3D遊戲研發成本70%(3D遊戲美術成本通常比2D高);3)3D美術在3D遊戲美術費用中佔60%
可以得到遊戲在3D相關的研發投入當前大約在75億美金,到2028年將會超過100億美金,是AI+3D有機會觸及的市場。除了遊戲以外還有影視以及未來的XR都有大量的3D內容需求,綜合來看AI+3D有機會觸及的市場將達到數百億美元。
“Optimism預計,到2028年,除了遊戲以外還有影視以及未來的XR都有大量的3D內容需求,綜合來看AI+3D有機會觸及的市場將達到數百億美元。”
我們認為Midjourney的出現不會幹掉Photoshop,我們看到的是Photoshop也在拿起AI的武器升級自己,同樣的未來生成式3D的數百億美金市場力裡也少不了現有的Unity、Unreal、3ds Max等的身影,但我們更期待3D領域的“Midjourney”出現。
四、誰能成為3D的“Midjourney”?
大模型的創新下文字和圖片的生成都已經進入到應用蓬勃創新的階段,也出現了很多從收入和融資上都很優秀的公司,即便是尚未大規模商業化有PMF的視頻生成領域,也有Runway這樣受到市場高度認可的獨角獸企業。但反觀生成式3D從商業化和市場認可角度這樣的公司市場仍舊在虛位以待。
“我們認為,當前階段有底層技術能力的公司會有顯著的競爭優勢,而生成式3D應用的爆發仍需至少一年以上的時間,屆時競爭要素才會逐漸往產品端傾斜,但優秀的AIGC公司應當是擁有底層技術的同時有自己的爆款C端應用。”
•技術:當前仍處在3D生成的技術創新周期,技術上的創新能夠帶來產品上的極強競爭力。我們觀察到目前跑出來的或者得到資本市場認可的AIGC應用幾乎都是具備較強底層技術能力的團隊,包括ChatGPT(OpenAI)、Midjourney(自研模型)、Runway(stable diffusion共同作者)、Character AI (Attention is All You Need 的核心作者)等,技術在生成式3D的當前階段仍然是核心競爭要素,缺乏底層技術能力的公司有可能會在未來出現Jasper AI的窘境;
•產品能力:Midjourney在11人的情況下通過discord做到千萬級用戶、過億美金年收入是被津津樂道的成功產品案例,Lensa、妙鴨也都是並不復雜的技術+成功的產品定義而在短時間成為爆款應用,面對一個新的技術物種,怎麼去做好產品定義對於團隊來說也是重要考驗。
AIGC的產品面臨幾個重要的產品決策:
1)如何設計User in the loop的數據反饋迴路;
2)自研模型的公司是選擇閉源還是開源,產品型公司選擇什麼樣的大模型底座;
3)做生產工具還是做內容平台。
讓人興奮的是,過去半年多時間,我們已經看到越來越多在移動互聯網時代操刀過千萬甚至億級DAU產品的產品經理也開始加入AIGC浪潮,讓筆者對接下來的AIGC產品創新充滿了期待。
最後一個繞不開的商業化問題是:對於3D生成的企業,2C or 2B?
to C依然是AIGC最理想的商業模式,大家都希望像ChatGPT、Midjourney用自己的C端應用、有數據飛輪、再反哺底層模型的快速迭代。但受限於硬件終端,C端消費者能夠直接消費3D的場景非常少,不像Midjourney用戶會生成圖片再到社交媒體進行展示,3D的內容消費需要通過遊戲、影視等內容載體。
因而短期來看更容易的路徑是2B2C,通過遊戲、元宇宙等B端場景觸達C端,但往往數據迴路在B端應用這裡就被切斷了;或者選擇自研C端泛遊戲類應用,比如“AIGC版roblox”、“3D版抖音”等,確保了對用戶、數據的掌控,但對團隊的產品及運營能力提出了比較高的要求。
還是那個觀點,隨著XR的發展,會有越來越多的遊戲影視以外的3D native的應用可以被大眾直接消費,而生成式3D將會從大幅降低3D內容生產門檻的角度,一起助推3D成為The next big thing。
作為多年XR投資人和果粉,最後再放兩張圖帶大家一起憧憬下不遠處的3D數字世界👇🏻
圖:Vision Pro演示的3D交互畫面
圖:Vision Pro為每個用戶無感創建3D虛擬化身Persona
參考資料:
《DreamFusion: Text-to-3D using 2D Diffusion》
《GET3D: A Generative Model of High Quality 3D Textured Shapes Learned from Images》
《Magic3D: High-Resolution Text-to-3D Content Creation》
《Shap-E: Generating Conditional 3D Implicit Functions》
《Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold》
《Drag3D: DragGAN meets GET3D》
《MotionGPT: Human Motion as a Foreign Language》
《GestureDiffuCLIP: Gesture Diffusion Model with CLIP Latents》
《無需任何3D數據,直接文本生成高質量3D內容,清華朱軍團隊帶來重大進展》機器之心
《遊族稱AI讓2D美術降本25%、明年發布三體遊戲,上市公司密集談AI》GameLook
《次世代3D遊戲角色的製作流程》遊鯊遊戲
《一句話實現3D內容製作,Unity上線AI工具「Muse Chat」,美股飆升15%》機器之心
《驚艷全球首個文本生成高質量3D模型,效果媲美瑪雅、C4D》AIGC開放社區
《生成式AI對於遊戲的研髮變革以及產業要義》廣發證券
《AI+遊戲會議紀要》騰訊手游助手
《凌迪科技Style3D:讓AIGC走上秀場背後,是打造服裝產業模型的決心》
資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載