研究種類:AIGC, Web3
貢獻者:Roy Dong@THUBA Core Member
審核者:Yofu@DAOrayaki
摘要
AIGC是Web3.0時代的生產力工具,AIGC提供大量的生產力,而Web3.0與區塊鏈的應用則決定生產關係與用戶主權。
但我們必須認識到AIGC和Web3是兩個不同的方向。 AIGC作為使用AI技術的生產工具,既可以應用於Web2世界,也可以應用於Web3世界。到目前為止,大多數已經開發的項目仍然在Web2領域。把兩者放在一起談話是不合適的。而Web3希望藉助區塊鍊和智能合約技術,讓用戶擁有虛擬資產的主權。它與創建模式之間本沒有直接聯繫。
本文將從以下四個方面解密AIGC的發展與現狀進行:
-
內容創造形式的演變
-
技術測概況
-
AIGC的行業應用
-
AIGC與Web3
第一部分:內容創造形式的演變
可以分成三個階段:
第一個階段是PGC(Professionally-Generated Content),專家生成內容,由擁有內容相關領域資質的專業團隊進行創作,門檻與成本較高,質量有一定保障,追求電視劇電影等商業化渠道的收益,代表項目就是以愛優騰為首的視頻平台。在這些平台上,用戶更多地是去接收和搜索視頻資源來收看,類似於Web1.0的概念。
但這一階段創作權掌握在少數專業人士手中,普通創作者的成果很難被大眾看見。在第二階段衍生出了一系列的UGC平台(User-generated Content,用戶生產內容),如Twitter,YouTube,國內愛優騰等視頻平台。在這些平台上用戶不僅是接收者,也可以是內容的提供方,內容生產的規模極大地擴張了,但用戶生產的內容質量則參差不齊,可以將它看作是Web2.0時代的內容創作。
那麼Web3.0時代的內容創作生態是? AIGC和web3的關聯在哪裡?
AIGC(AI generated Content,人工智能生成內容),指由人工智能幫助甚至取代人類進行內容創作,可以作為強大的生產力工具,幫助解決Web3.0和元宇宙中的一些實際問題。它生產頻率更快,並且可以定制風格,滿足每個人的需求。它擁有無限規模的內容創作靈感,效果也不會太差。
第二部分:技術測概況
AIGC技術的快速發展始於GAN(生成對抗網絡,2014)模型的發表。它由兩個模型組成:生成模型和判別模型。生成器生成“假”數據並試圖欺騙鑑別器;鑑別器驗證生成的數據,並嘗試正確識別所有“假”數據。在訓練迭代的過程中,兩個網絡對抗中提升,直到達到平衡狀態。
AIGC技術的快速發展始於GAN(生成對抗網絡,2014)模型的發表。它由兩個模型組成:生成模型和判別模型。生成器生成“假”數據並試圖欺騙鑑別器;鑑別器驗證生成的數據,並嘗試正確識別所有“假”數據。在訓練迭代的過程中,兩個網絡對抗中提升,直到達到平衡狀態。
在GAN發表後的兩三年時間裡,業內對GAN模型進行了各種改造和應用。 2016年和2017年,在語音合成、情緒檢測、換臉等領域產生了一大批實際應用。
谷歌在2017年開發的Transformer模型逐漸取代了Long and Short Term memory (LSTM)等傳統RNN模型,成為NLP問題的首選模型。
作為Seq2seq模型,它提出了注意力機制,計算每個單詞與其上下文的相關性,以確定哪些信息對手頭的任務最重要。與其他模型相比,Transformer速度更快,並且可以更長時間地保留有效信息。
BERT(來自Transformer的雙向編碼器表示,2018)使用Transformer構建了一個用於自然語言處理的完整模型框架。它在處理一系列自然語言處理任務上超越了現有的模型。
BERT(來自Transformer的雙向編碼器表示,2018)使用Transformer構建了一個用於自然語言處理的完整模型框架。它在處理一系列自然語言處理任務上超越了現有的模型。
從那時起,模型的大小不斷增加,在最近兩年出現了GPT-3、InstructGPT和ChatGPT等一批大模型,其成本也呈幾何級數上升。
現今的語言模型有三個特點:大模型、大數據、大計算能力。在上方的圖中可以看到模型參數的數量增加得有多快。有人甚至提出了語言模型的摩爾定律,——一年增長十倍。最新發布的ChatGPT模型有1750億個參數,很難想像在這之後GPT-4中還有多少參數。
ChatGPT的優勢:
-
引入了HFRL(Human Feedback RL, 2022.03)技術,在訓練數據集中增加了人的反饋,基於人的反饋進行優化,但由於需要大量的人的註釋,成本進一步擴大。
-
第二點是模型在回答問題時會有自己的原則。之前的聊天機器人在與用戶聊天時會將一些負面和敏感的內容一併學習,最後學會謾罵,發表歧視言論。與之前的模型不同,ChatGPT可以識別惡意消息,然後拒絕給出答案。
-
有記憶:ChatGPT支持連續對話,並能記住與用戶之前對話的內容,因此經過多輪對話用戶會發現它的答案在不斷提升。
第三部分:AIGC的行業應用
在參加2022年奇績創壇秋季營的55家公司中,有19家AI主題公司、15家元宇宙主題公司和16家大型模型主題公司。與AIGC相關的項目有十餘個,其中一半以上是與圖像相關的。每個項目的詳細信息附在下面的鏈接中:
Link:https://new.qq.com/rain/a/20221121A04ZNE00
當下AIGC最火的細分賽道當屬圖像領域,歸功於Stable Diffusion的行業應用,圖像AIGC在2022年迎來了爆發式的增長。具體地,圖像AIGC賽道具有以下優勢:
-
與自然語言處理中的大模型相比,CV領域的模型尺寸相對較小,與Web3的契合度也更高,可以與NFT、元宇宙緊密聯繫在一起。
-
與文字相比,人們對圖片的閱讀成本更低,一直是一種更直觀和更容易被接受的表達形式。
-
圖片的趣味性和多樣性更高,且該部分技術目前趨於成熟,正在快速迭代。
在參加2022年奇績創壇秋季營的55家公司中,有19家AI主題公司、15家元宇宙主題公司和16家大型模型主題公司。與AIGC相關的項目有十餘個,其中一半以上是與圖像相關的。每個項目的詳細信息附在下面的鏈接中:
擴散模型
2022年CVPR的論文《High-Resolution Image Synthesis with Latent Diffusion Models》
通過向圖像中添加噪聲,可以將一張圖片變成隨機的噪聲圖片,擴散模型與之相反,學習如何去除噪聲。然後,該模型將這種去噪過程應用於隨機的噪聲圖片,最終生成逼真的圖像。
當前圖像AIGC領域也存在一些局限性,具體有下面幾點:
-
模型需要在效果和效率之間做權衡,在秒級別還是難以生成準確的,用戶期待的定制效果。
-
這些公司的運營和維護成本很高,需要大量的圖形顯卡設備來帶動他們的模型。
-
賽道中近期湧現大量初創公司,競爭激烈,但缺乏殺手級應用程序。
接下來再來討論下3D-AIGC,這是一個潛力較大的賽道,目前模型尚不成熟,但未來會成為元宇宙中的剛需的基礎設施。
類似於2D圖像的生成,3D-AIGC項目能夠生成三維物品,進而甚至自動地渲染與構建三維場景。當未來元宇宙得到普及之後,會對虛擬的三位資產有大量的需求。當用戶處於三維場景中時,用戶需要的不再是二維的圖片,而是三維的物體和場景。
相比於生成二維圖像,在三維上生成虛擬資產需要考慮更多的東西。一個三維的虛擬物體由兩部分組成,一個是三維形狀,另一個是物體表面的花紋和圖案,我們稱之為紋理。
因此一個模型需要選取三維虛擬資產可以分兩步生成。在我們獲得了一個3D對象的幾何圖形後,我們就可以通過紋理映射,環境貼圖等多種方法來賦予它表面的紋理。
而在描述三維物體的幾何形狀時也需要考慮多種的表達方式有顯式的表達形式,比如網格和點雲;也有代數、NeRF(神經輻射場)等隱式的表達方式。具體需要選取適配模型的方式。
總之我們最終需要將所有的這些過程都集成到一起,組成一個文本到3D圖像的流程管線,管線比較長,在當下也尚未有成熟的應用端模型出現。但擴散模型的流行會促使許多研究者進一步研究三維圖像生成技術。目前這一方向的技術模型也在快速迭代。
相對於VR、XR等需要與人互動、對實時性有嚴格要求的技術。 3D AIGC推的實時性要求更低低,應用門檻和速度會更快一些。
第四部分:AIGC與Web3
都說AIGC是web3.0時代的生產力工具,AIGC提供大量的生產力,而web3.0與區塊鏈的應用則決定生產關係與用戶主權。
但我們必須認識到AIGC和Web3是兩個不同的方向。 AIGC作為使用AI技術的生產工具,既可以應用於web2世界,也可以應用於Web3世界。到目前為止,大多數已經開發的項目仍然在Web2領域。把兩者放在一起談話是不合適的。而Web3希望藉助區塊鍊和智能合約技術,讓用戶擁有虛擬資產的主權。它與創建模式之間本沒有直接聯繫。
但兩者之間確實又有很多趨同之處:
-
一方面,它們都依靠程序來優化現有的生產和創作模型。 AIGC用AI取代人類進行創造,Web3用智能合約、區塊鍊等去中心化程序取代人工中心化機構。用機器代替人,不會有主觀的誤差和偏差,效率也會顯著提高。
-
另一方面,Web3和元宇宙將對二維的圖片和音頻,三維的虛擬物體和場景有很大的需求,而AIGC是一個很好的滿足方式。
但在web3.0的概念尚未普及到普羅大眾的當下,我們能看到湧現出的項目幾乎還是Web2的項目,在web3領域的應用目前大量地還是停留在圖像生成的AIGC上,用於NFT的創作。
其實在應用端,AIGC和web3.0的聯繫不能僅僅依靠“生產力”和“生產關係”之間的聯繫,因為AIGC同樣也能給web2項目帶來生產力的提升,而web3項目的優勢是不明顯的。
所以,為了抓住AIGC發展的機遇,我認為當前web3項目需要在以下兩個方面進行優化:
一是尋求AIGC加持下的Web3.0原生項目,即只在Web3端能夠應用的項目。或者換句話說,去思考如何用AIGC解決Web3項目目前面臨的困境,這樣的解決方案也是Web3原生的。例如ReadOn用AIGC去生成文章quiz,開闢了Proof of Read的新模式,解決了ReadFi一直以來存在的刷幣問題,為真正閱讀的用戶提供代幣獎勵。這很難做到,但web3需要這樣的模式創新。
二是用AIGC優化現存Web3應用的效率和用戶體驗。目前AIGC的應用主要存在於圖像和NFT上,但其實創作是一個很寬泛的概念,除圖片外還有很多種其他的創作方式。上文提到的3D-AIGC是元宇宙中可供思考的應用渠道,quiz生成也是一個眼前一亮的idea。 eduDAO和開發者平台可以思考用AIGC來賦能教育,用於出題或者修改模塊化的代碼、生成單測等等;GameFi可以思考是否能用AIGC來充當遊戲裡的NPC;甚至能否借助AIGC的coding能力生成智能合約。