摘要
在我們《元宇宙(七):虛擬人的“靈魂”是什麼? 》的報告中,提到了虛擬人的靈魂並不僅是逼真的外表,而是來自於AI自主生成的內容。同時,元宇宙更傾向於開放世界遊戲,AIGC內容生成方式的創新將成為Web3時代全新的生產力工具。
AIGC(AI-Generated Content 人工智能生成內容)代表新一輪範式轉移的開始。近期,矽谷的眾多一線VC們開始將目光瞄準AI初創公司,尤其是生成式AI藝術這一領域。今年有兩家獨角獸Stability和Jasper均獲得了超過一億美元的融資,估值突破十億美元。 AIGC賽道火爆不僅得益於技術進步、商業應用廣泛和需求增長,還歸功於該賽道還處於早期。雖然大型科技公司捕獲了大量價值,初創企業仍有機會突破。
AIGC將是Web3時代的生產力工具。當我們邁入Web3.0時代,人工智能、關聯數據和語義網絡構建,形成人與網絡的全新鏈接,內容消費需求飛速增長。 UGC\PGC這樣的內容生成方式將難以匹配擴張的需求。 AIGC將是新的元宇宙內容生成解決方案。 AIGC的生成利用人工智能學習知識圖譜、自動生成,在內容的創作為人類提供協助或是完全由AI產生內容。不僅能幫助提高內容生成的效率,還能提高內容的多樣性。隨著NLP(Natural Language Processing,自然語言處理)技術和擴散模型(Diffusion Model)的發展,AI不再僅作為內容創造的輔助工具,創造生成內容成為了可能。由此,將來文字生成、圖片繪製、視頻剪輯、遊戲內容生成皆可由AI替代。
AIGC技術主要涉及兩個方面:自然語言處理NLP和AIGC生成算法。自然語言處理是實現人與計算機之間如何通過自然語言進行交互的手段。 AIGC生成算法主流的有生成對抗網絡GAN和擴散模型。擴散模型已經擁有了成為下一代圖像生成模型的代表的潛力。它具有精度更高、可擴展性和並行性,無論是質量還是效率均有所提升,其快速發展成為AIGC增長的拐點性因素。同時,在機器學習的過程中,需要通過大量的訓練來實現更準確的結果,目前以英偉達A100為主,對於底層算力需求將有飛速增長。
AIGC在文字、圖像、音頻、遊戲和代碼生成中商業模型漸顯。近期我們研究了國內外數十家AIGC相關企業,尤其在一些具備高重複性的任務、對於精度要求並不那麼高的領域應用已逐步成熟,並在探索商業模式中。目前圖片生產、文字生成較為常見,這類AIGC服務大多數時候會以提供SaaS服務的形式變現。
AIGC未來發展核心:大模型、大數據與大算力。結合自然語言的大模型與數據集已成為AIGC發展的軟件基礎,OpenAI的Clip模型基於4億組高質量的英文圖文對應數據訓練而成;算力即權力將在AIGC數字時代更加凸顯, Stable Diffusion目前依賴於4000 個英偉達A100的GPU集群,運營成本超5000萬美金。為了讓功能更加精確,未來還將更多地基於語種去開發垂直類的應用,便於更有目的性地為特定功能進行訓練。
AIGC投資框架:軟硬件與數據集。生成算法、NLP與算力決定AIGC能否運行,而高質量的數據集決定了AIGC質量與商業模式。
軟件層面主要包括自然語言處理技術:谷歌、微軟、科大訊飛、拓爾思;
AIGC生成算法模型及數據集:英偉達、Meta、百度、藍色光標、視覺中國、崑崙萬維;
算力層包括:瀾起科技、中興通訊、新易盛、天孚通信、寶信軟件、中際旭創等。
風險提示:技術創新不及預期:AIGC的技術發展不及預期。以及底層硬件技術,如:超級計算機、算力的發展不及預期。政策監管風險:目前AIGC還處於相對早期,後續是否會出台AIGC作品相關知識版權或其他法律監管條款尚不明確。
1. 2022:AIGC的崛起之年
近期,矽谷的眾多一線VC們開始將目光瞄準AI初創公司,尤其是生成式AI藝術這一領域。今年9月23日,紅杉美國官網發表了一篇名為《生成式AI:一個創造性的新世界》的文章,認為AIGC(AI-Generated Content 人工智能生成內容)會代表新一輪範式轉移的開始。
2022年10月,英國開源人工智能公司Stability AI 宣布獲得1.01 億美元融資,估值高達10 億美元,躋身獨角獸行列,由Coatue、Lightspeed Venture Partners 和O’Shaughnessy Ventures LLC 參與投資。 Stability AI今年發布了Stable Diffusion的模型,主要用於根據用戶輸入的文字描述自動生成圖像。 Stable Diffusion的誕生讓AI 繪畫這個領域愈發火爆。最近,巴比特正式對外宣布,全面擁抱AIGC,開始規模化採用AI配圖,其中頭條圖片,全面由AI創作。包括但不限於巴比特網站和APP,微信公眾號、百家號、網易號等自媒體平台,以及微博等社交媒體賬號。
除了繪畫以外,文字、音頻、視頻均可通過AI來生成。
文字:以Jasper為例,以AI文字生成為主打產品,通過其文字生成功能,用戶可以生成Instagram 標題,編寫TikTok視頻腳本、廣告營銷文本、電子郵件內容等工作。截止2021年,Japer已擁有超過70000位客戶,並創造了4000萬美元的收入。
音頻:以Podcast.ai為例,作為一個由AI生成的博客,每週都會探討一個話題。在第一期節目中,其通過喬布斯的傳記和收集網絡上關於他的所有錄音,Play.ht的語言模型大量訓練,最終生成了一段假Joe Rogan採訪喬布斯的播客內容。
視頻:目前的AI技術不僅可以生成圖片,也能夠生成序列幀,如:《幻覺東京》。經過160小時,完成3萬多張獨立插畫,再進行手動微調。雖然目前還只是在原腳本和視頻的基礎上,通過AI逐幀完成圖片生成的,但看到了AIGC參與到視頻創作中的可能。而在諸多垂直類應用中,如體育、財經等,已經可以通過文字直接生成相應的短視頻,如果配上虛擬人則可以實現自動播報。相比於單一的虛擬人讀稿,基於AIGC生產的內容在鏡頭轉換、表情動作結合方面更加逼真、自然。
隨著NLP(Natural Language Processing,自然語言處理)技術和擴散模型(Diffusion Model)的發展,AI創造生成內容成為了可能。此前,內容生成主要運用GAN(Generative Adversarial Network,生成對抗網絡)來實現的,GAN不同於擴散模型依賴於超大規模語言模型,因此難以實現通過文字的描述,自主理解內容並創造出圖像、視頻等。近年來,隨著擴散模型的成熟,生成方式更接近於人腦的聯想,AIGC完成了內容創造輔助工具到內容創作主體的角色轉變。
2. AIGC是什麼?
AIGC是通過人工智能技術自動生成內容的生產方式。從Web 1.0的單向信息傳遞的“只讀”模式到Web 2.0的人與人通過網絡雙向溝通交流的“交互”模式,內容的需求在不斷增加。為了滿足這一需求,同時也因為互聯網的發展,內容的生成從單一的PGC演變到了現在的UGC並佔據了主要市場。 Youtube、Instagram、抖音、快手、B站上有大量的內容來自於UGC創作者。當我們邁入Web3.0時代,人工智能、關聯數據和語義網絡構建,形成人與機器網絡的全面鏈接,內容消費需求飛速增長,UGC\PGC這樣的內容生成方式將難以匹配擴張的需求。
我們認為,AIGC將是Web3時代全新的內容生成工具,同樣,將對現有的短視頻、遊戲及廣告行業帶來巨大的影響。 AIGC的生成利用人工智能學習知識圖譜、自動生成,在內容的創作為人類提供協助或是完全由AI產生內容。不僅能幫助提高內容生成的效率,還能提高內容的多樣性。
2.1 AIGC發展簡史
AIGC的發展可以大致分為以下三個階段:
-
早期萌芽階段:20世紀50年代—90年代中期,受限於科技水平,AIGC僅限於小範圍實驗
-
沉積積累階段:20世紀90年代中期—21世紀10年代中期,AIGC從實驗向實用轉變,受限於算法,無法直接進行內容生成
-
快速發展階段:21世紀10年代中期—現在,深度學習算法不斷迭代,AI生成內容種類多樣豐富且效果逼真
近年來,AIGC的發展迅速,從原來作為邊緣側服務於企業、機構的角色變為了現在C端零基礎用戶都可以使用的創作工具。開發側重點上,AIGC也從原先用於翻譯、語音合成以及重複性工作轉變為了更注重應用層面,用戶能夠便捷操作的方向。
2.2 技術
隨著NLP(Natural Language Processing,自然語言處理)技術和擴散模型(Diffusion Model)的發展,AI不再僅作為內容創造的輔助工具,創造生成內容成為了可能。
自然語言處理技術NLP
自然語言處理是實現人與計算機之間如何通過自然語言進行交互的手段。融合了語言學、計算機學、數學,使得計算機可以理解自然語言,提取信息並自動翻譯、分析和處理。在自然語言處理技術發展之前,人類只能通過一些固定模式的指令來與計算機進行溝通,這對於人工智能的發展是一個重大的突破。
自然語言處理最早可以追溯到1950年,圖靈發表論文“計算機器與智能”,提出“圖靈測試”的概念作為判斷智能的條件。這一測試包含了自動語意翻譯和自然語言生成。
自然語言處理技術可以分為兩個核心任務:
自然語言理解NLU:希望計算機能夠和人一樣,具備正常人的語言理解能力。過去,計算機只能處理結構化的數據,NLU使得計算機能夠識別和提取語言中的意圖來實現對於自然語言的理解。由於自然語言的多樣性、歧義性、知識依賴性和上下文,計算機在理解上有很多難點,所以NLU 至今還遠不如人類的表現。
自然語言理解跟整個人工智能的發展歷史類似,一共經歷了3次迭代:基於規則的方法、基於統計的方法和基於深度學習的方法。
自然語言生成NLG:將非語言格式的數據轉換成人類可以理解的語言格式,如文章、報告等。 NLG的發展經歷了三個階段,從早期的簡單的數據合併到模板驅動模式再到現在的高級NLG,使得計算機能夠像人類一樣理解意圖,考慮上下文,並將結果呈現在用戶可以輕鬆閱讀和理解的敘述中。自然語言生成可以分為以下六個步驟:內容確定、文本結構、句子聚合、語法化、參考表達式生成和語言實現。
NLP主要被應用在四個方面:
-
情感分析:互聯網上存在大量的信息,表達的內容都是多種多樣的,但抒發的感情大致可以分為正面和負面的,可以被用來快速了解用戶的輿情情況。
-
聊天機器人:近年來,智能家居的發展和普及使得聊天機器人的價值擴大。
-
語音識別:微信中可以通過語音進行輸入或直接將語音轉化為文字,汽車導航可以直接說目的地,大大提升了便利性。
-
機器翻譯:機器翻譯的準確率在近年大幅提高,youtube和netflix甚至可以做到視頻機器翻譯。
商業上,NLP主要被應用在一下領域:
-
用於處理財務、醫療保健、零售、政府和其他部門手寫或機器建立檔案
-
文字處理工作,如:名稱實體辨識(NER)、分類、摘要和關聯擷取。這能將擷取、識別和分析文檔資訊的流程自動化。
-
語意搜尋和資訊擷取和知識圖表建立
-
跨零售、財務、旅遊和其他產業客戶的交互AI系統等。
神經網絡,尤其是循環神經網絡(RNN)是當前NLP的主要方法的核心。其中,2017年由Google開發的Transformer模型現已逐步取代長短期記憶(LSTM)等RNN模型成為了NLP問題的首選模型。 Transformer的並行化優勢允許其在更大的數據集上進行訓練。這也促成了BERT、GPT等預訓練模型的發展。這些系統使用了維基百科、Common Crawl等大型語料庫進行訓練,並可以針對特定任務進行微調。
Transformer模型是一種採用自註意力機制的深度學習模型,這一機制可以按輸入數據各部分重要性的不同而分配不同的權重。除了NLP以外,也被用於計算機視覺領域。與循環神經網絡(RNN)一樣,Transformer模型旨在處理自然語言等順序輸入數據,可應用於翻譯、文本摘要等任務。而與RNN不同的是,Transformer模型能夠一次性處理所有輸入數據。注意力機制可以為輸入序列中的任意位置提供上下文。如果輸入數據是自然語言,則Transformer不必像RNN一樣一次只處理一個單詞,這種架構允許更多的並行計算,並以此減少訓練時間。
AIGC生成模型
近年來,AIGC的快速發展歸功於生成算法領域的技術積累,其中包含了:生成對抗網絡(GAN)、變微分自動編碼器(VAE)、標準化流模型(NFs)、自回歸模型(AR)、能量模型和擴散模型(Diffusion Model)。可以看到,大模型、大數據、大算力是未來的發展趨勢。我們認為,算法模型的突破是近年來AIGC得以快速突破的催化劑,下面將展開介紹一下兩個非常常用的模型,分別是生成對抗網絡和擴散模型。
l 生成對抗網絡GAN(Generative Adversarial Networks)
2014年,Ian J.Goodfellow提出了GAN,是一種深度神經網絡架構,由一個生成網絡和一個判別網絡組成。生成網絡產生“假”數據,並試圖欺騙判別網絡;判別網絡對生成數據進行真偽鑑別,試圖正確識別所有“假”數據。在訓練迭代的過程中,兩個網絡持續地進化和對抗,直到達到平衡狀態,判別網絡無法再識別“假”數據,訓練結束。
GAN 被廣泛應用於廣告、遊戲、娛樂、媒體、製藥等行業,可以用來創造虛構的人物、場景,模擬人臉老化,圖像風格變換,以及產生化學分子式等等。
其優點在於:
-
能更好建模數據分佈
-
無需利用馬爾科夫鏈反复採樣,無需在學習過程中進行推斷,沒有復雜的變分下界,避開近似計算棘手的概率的難題
缺點:
-
難訓練,不穩定。生成器和判別器之間需要很好的同步,但是在實際訓練中很容易判別器收斂,生成器發散。兩者的訓練需要精心的設計。
-
模式缺失(Mode Collapse)問題。 GANs 的學習過程可能出現模式缺失,生成器開始退化,總是生成同樣的樣本點,無法繼續學習。
擴散模型Diffusion Model
擴散模型是一種新型的生成模型,可生成各種高分辨率圖像。在OpenAI,Nvidia和Google 設法訓練大模型之後,它們已經引起了很多關注。基於擴散模型的示例架構包括GLIDE,DALLE-2,Imagen 和完全開源的穩定擴散。擴散模型已經擁有了成為下一代圖像生成模型的代表的潛力。以DALL-E 為例,能夠直接通過文本描述生成圖像,讓計算機也擁有了人的創造力。
擴散模型的生成邏輯相比其他的模型更接近人的思維模式,也是為什麼近期AIGC擁有了開放性的創造力。本質上,擴散模型的工作原理是通過連續添加高斯噪聲來破壞訓練數據,然後通過反轉這個噪聲過程來學習恢復數據。訓練後,我們可以通過簡單地將隨機採樣的噪聲傳遞給學習的去噪過程來生成數據。
從下圖可以看到,擴散模型是一個潛在變量(latentvariable)模型,通過馬爾科夫鏈映射到潛在空間。馬爾可夫鍊是狀態空間中經過從一個狀態到另一個狀態的轉換的隨機過程,下一狀態的概率分佈只由當前狀態決定。在這一過程中逐步添加高斯噪聲來獲得近似的後驗概率q(? ! |?!”#),其中? # ……? ! 均是潛在變量,並且它們的維度與原圖?$ 一致。
從上圖中我們可以看到,圖片?$最終會變為純高斯噪聲的圖片? ! 。而訓練擴散模型的目標則是反向這一過程,也就是訓練圖中所示的轉移概率?% (?!”#|? ! )。通過沿著這條線向後遍歷,我們可以生成新的數據。
相比於其他模型,擴散模型的優勢在於生成的圖像質量更高,且無需通過對抗性訓練,這使得其訓練的效率有所提升。同時,擴散模型還具有可擴展性和並行性。
擴散模型中添加的高斯噪聲是一種概率密度函數符合正態分佈的函數,當AIGC 運用擴散模型來生成內容的時候,是通過在一副純白的畫布(隨機白噪聲)上逐步去噪來生成最終的目標畫作。即用戶給出的文本描述形容詞,來從一個模糊的概念逐步具象。我們可以簡化為多個正態分佈函數的疊加,模型選擇其中重疊的區間輸出,這也是一個逐步縮小範圍的過程。這與人類的思維模式很類似。
簡言之,在AI 訓練階段,我們將數據集中上億組圖文對進行訓練,提取特徵值;生產過程中,通過添加文字描述,引入不同的特徵值進行去噪,從而生產一副AI 理解下的內容作品。例如,在當我們在腦海中想像一個畫面的時候,比如:一隻柯基通過一個小號玩火焰。我們的思維模式也是先有一隻柯基,再去想像小號和火焰,最後將這些元素疊加在柯基身上。
簡述完原理以後,我們可以通過目前非常先進的AI圖像生成應用DALL-E2來舉例闡述具體的工作過程:
-
將文本提示輸入到一個經過訓練能夠將提示映射到表示空間的文本編碼器中;
-
通過一個被稱為“先驗”(Prior)的模型,將文本編碼映射到圖像編碼器中。這一圖像編碼器會捕獲文本編碼包含的信息和語義;
-
圖像編碼器隨機生成一個圖像,這一圖像是該語義信息的視覺表現。
這一個過程和人類的思維模式相似。在生成的過程中,涉及到了文本編碼器這一概念,目前主流的文本編碼器是來自於OpenAI的Clip模型,其通過4億組文字-圖片對進行訓練。當然,其中的模型訓練都是基於英文實現,語言的區別又會給AIGC帶來另一重挑戰。
除了上述提到的自然語言處理技術和AIGC生成算法模型以外,超級計算機和算力這些硬件作為基礎設施也是不可或缺的。在機器學習的過程中,需要通過大量的訓練來實現更準確的結果,這樣的計算量普通的電腦是無法完成的,目前主要由英偉達A100構建的計算集群完成,而國內外的初創企業也會通過雲實現。
2.3 當我們開始用AIGC——商業模式的探索
AIGC已被廣泛應用在文字、圖像、音頻、遊戲和代碼的生成當中,一些較早創立的企業已經實現了較好的商業化。尤其在一些具備高重複性的任務、對於精度要求並不那麼高的領域應用較為成熟。隨著AIGC技術的發展,其適用面將會逐漸擴大。這類AIGC服務的提供商大多數時候會以提供SaaS服務的形式變現。
文字創作
AIGC生成文字目前主要被應用於新聞的撰寫、給定格式的撰寫以及風格改寫。其中,有一家成立還不滿兩年的獨角獸企業Jasper在最新一輪的融資裡獲得了1.25億美元資金,目前估值為15億美元。 Jasper成立於2021年,是一個AI內容平台,允許個人和團隊利用AI來創作內容,多用於商業。用戶可以在藉助Jasper生成具有豐富關鍵詞、搜索引擎優化的原創博客,可以通過文字描述讓Jasper幫助完成文章的創作、創建廣告話術。通過Jasper用戶可以尋找創作思路、高效完成文案、突破語言壁壘,而不會存在抄襲的嫌疑。目前,Jasper擁有7萬多名客戶,包括Airbnb、Ibm等企業。僅2021年一年便創造了4000萬美元的收入,今年預估收入為9000萬美元。
用戶可以通過輸入一段對於目標文章的描述或者要求,系統會自動抓取數據,根據我們描述的指令進行創作。作者本人進行如下實驗,輸入的描述為【寫一篇關於AIGC的文章,其中要包含AIGC的定義、發展史、應用、現階段發展情況和對於未來發展趨勢的看法,同時,要包含細節和舉例】。同時,在風格上我選擇了“專業性”。 Jasper很快就生成了一篇AIGC撰寫的AIGC文章(如下圖所示),可以看到這篇文章語義通順,按照我們給出的描述逐段闡述,並且包含了一些舉例,這個生成效果無疑會大幅度提升人類的寫作效率。
並且,在Jasper的網頁版APP上,還給出了數百種模板,可以根據需求更好的完成作品。
圖像創作
MidJourney降低了藝術繪畫創作的門檻,用戶只需要通過輸入文字描述,計算機將會自動生成一張作品。其背後的邏輯在於計算機通過NLP識別語意並翻譯成計算機語言,結合後台的數據集(這些數據集主要通過自有素材或機器人爬取公開版權的內容獲得),創作出一副全新的作品。這樣產生的作品原則上屬於AI創作,因此,在新聞媒體等平台被廣泛使用,不僅減少了成本,同時避免了潛在的版權糾紛風險。除此以外,在抖音、微信等社交平台上,已經有一些數據集圖庫博主通過AIGC創造素材並結合自己的私域流量進行商業變現。
近期,OpenAI已經與全球最大的版權圖片供應商之一的Shutterstock達成深度合作,Shutterstock將開始出售利用OpenAI的DALL-E生成的圖片,並禁止銷售非DALL-E生成的圖片,完成深度獨家綁定。
AIGC除了大家熟知的生成繪畫以外,還可以利用這一功能完成文字和圖片的互相轉換,這在寫專利時可以被用到。
視頻創作
除了繪畫以外,AIGC也能夠被運用在視頻創作中。 Google推出了AI視頻生成模型Phenaki能夠根據文本內容生成可變時長視頻的技術,在公佈的DEMO中,Phenaki基於幾百個單詞組成一段前後邏輯連貫的視頻只需兩分鐘。相比原有的Imagen基礎上衍生的Imagen Video瞄準短視頻,Phenaki瞄準的是長視頻。 AIGC視頻中的運用,讓我們看到了未來虛擬人也能夠作為演員在影視劇中扮演不同的角色以提高內容產出的效率和多樣性。
音頻剪輯
AIGC生成音頻早被應用於我們的日常生活當中。我們常用的手機導航,可以切換不同明星甚至於卡通人物的語音提示。這是通過提前請明星或卡通人物的配音朗讀完成一個語音庫,再通過反复的訓練學習使得可以用指定的聲音說出任何話。我們自己也可以通過高德地圖錄製自己的語音導航包。而更深層次的應用將會是虛擬人領域,AIGC不僅可以生成虛擬人的聲音,並可以創造出說的內容。虛擬人在未來有望和我們一樣表達自己的想法,靈魂逐步顯現。
遊戲開發
AIGC在遊戲當中的應用可以分為兩方面,一方面是用於場景和故事的搭建。開放世界遊戲越來越受歡迎,通過AIGC來創建場景和NPC都將會大幅度提升效率和降低成本。另一方面,玩家可以通過AIGC的平台工具來創建自己的虛擬人,可以用於遊戲中的打金等活動。有一家叫做Delysium的遊戲已經開始引入這一功能。或許在未來的開放世界遊戲中,不同的玩家將對應不同的遊戲劇情和副本,這無疑將是令人興奮的應用。
代碼生成
GitHub Copilot是一個GitHub和OpenAI合作產生的AI代碼生成工具,可根據命名或者正在編輯的代碼上下文為開發者提供代碼建議。官方介紹其已經接受了來自GitHub 上公開可用存儲庫的數十億行代碼的訓練,支持大多數編程語言。
3. AIGC的未來發展趨勢
AIGC是PGC、UGC之後,全新的內容生產方式。不僅能提升內容生產的效率以滿足我們飛速增長的內容需求,也能夠豐富內容的多樣性。在2022年百度世界大會上,李彥宏提到了:“AIGC將走過三個發展階段:第一個階段是“助手階段”,AIGC用來輔助人類進行內容生產;第二個階段是“協作階段”,AIGC以虛實並存的虛擬人形態出現,形成人機共生的局面;第三個階段是“原創階段”,AIGC將獨立完成內容創作。未來十年,AIGC將顛覆現有內容生產模式,可以實現以十分之一的成本,以百倍千倍的生產速度,去生成AI原創內容。”
3.1 AIGC面臨的挑戰
技術上來看,雖然當前生成的圖片、文字已經可以用以商業用途,但還存在一些問題使得無法滿足較高的質量要求。我們可以發現在二次元或抽象的圖片生成中,AIGC的表現較好。但對於比較具體和細節的內容,生成的效果不盡如人意。
下圖是筆者通過AIGC生成的一副“美女與布偶貓”的圖片,從這一張圖片我們可以發現有兩個問題:
-
其中有兩幅圖片的貓咪眼睛很奇怪,在這些細節描繪上還無法和真人畫師媲美。
-
輸入的關鍵詞是“美女”與“布偶貓”,但是生成的“美女”均長著一張貓臉,從這裡反映出AIGC繪畫會出現一些空間位置以及數量上的偏差。產生的原因主要還是來源於語義理解和處理上的問題。
與此同時,參考上文中的圖表23,我們可以發現不同的應用平台,輸入幾乎一致信息點的文本,生成的圖片的質量和內容差距是巨大的。
那麼造成以上的這些問題和差距的原因在哪裡呢?我們依舊可以從AIGC的工作原理上來分析:
自然語義的理解在處理一些空間關係上還存在一定的誤差,這也是為什麼在空間位置、數量上存在不精確的問題。
目前文本生成圖像時,需要用到文本編碼器將文字映射到圖像上。當前主流的、訓練完善的是來自與OpenAI的Clip模型,其函數是開源的,但訓練的數據集是封閉的。 AIGC需要大量的良好畫質的文本-圖片對才能訓練到Clip這樣的程度。從Clip本身公開的信息來看,它使用了超4億個文本-圖片對來完成訓練,這些都是基於英文的。那麼存在以下幾個問題:1、億級別的高質量的文本-圖片對在於其他的語言上獲得的難度大幅提高,這也是為什麼目前大多除英語外的其他語言的AIGC都是需要在整個流程前增加一步翻譯。這一步不但涉及語義理解,還包含了文化、語言習慣等潛在的因素,很難被精確翻譯,對於翻譯模型的挑戰很大。 2、Clip的模式很難復刻,即使運用Clip開源的函數,基於不同的數據庫訓練出的結果不同。據我們了解,海外有團隊運用了20億的文本-圖片對才接近復刻了Clip;
-
運用的AIGC生成算法不同也會導致產生的內容的差距;
-
數據集的質量、合規性、風格偏向都會決定生成的內容質量。
以上,我們可以看到若要使得AIGC生成的內容真正高效地被運用在商業層面,那麼自然語言處理、翻譯模型、生成算法和數據集這些細分賽道都還有很大的進步空間。
3.2 未來的發展方向
在上文中,我們了解到從應用軟件方面,自然語言處理、翻譯模型、生成算法和數據集這些細分賽道都還有很大的進步空間。更深入地來看,以上這些的發展需要依託於算力、數據的支持。所以未來的發展重點將更著力於大模型、大數據和大算力的方向去發展。同時,為了讓功能更加精確,將會更多地去開發一些垂直類的應用,畢竟垂直類的應用可以更有針對性地為特定功能進行訓練,成本相對較低。
投資策略:AIGC的軟硬件與數據集
從PGC到UGC再到AIGC,AIGC能讓人類突破內容生產力枷鎖,高效率生成高質量內容,讓人類進入到真正的元宇宙之中。若要AIGC能夠滿足元宇宙的需求,獨立完成高質量、高精度的內容,AIGC技術層面還需要一定的發展,我們可以分為軟硬件兩個維度看,軟件層面主要包括自然語言處理技術、AIGC生成算法模型和數據集,硬件層面主要是算力、通信網絡。
從業務層面看,結合國內外發展情況,目前在AIGC的知識產權歸屬方面尚有法律空缺,且創作倫理問題也未得到有效解決,因此無論是技術還是商業層面,高質、乾淨的數據集對於模型訓練及內容生成均有至關重要的影響。同時,隨著AIGC逐步落地,其算力需求將大增,未來相關企業除用雲計算之外,或組建自有算力集群,考慮到英偉達A100、H100出口受限,相關國產算力芯片將有機會獲得增量市場。
從主題投資的角度看,區塊鏈、元宇宙、Web3均描述了數字經濟時代中宏大的應用場景,而去年被資本市場關注的虛擬人、NFT等只是其中的具體應用之一。我們認為,AIGC將是推動數字經濟從Web2向Web3升級的重要生產力工具:一方面,其對現有的殺手級應用——短視頻、遊戲等具有顛覆式影響,或進一步擴大內容量、提高成癮性,同時對社交和廣告提供新的工具;另一方面,Web3開放、共建的價值觀下,UGC、AIGC的內容會更具吸引力,二次創作、開放想像的浪潮將來臨。目前AIGC已成為矽谷最新熱門方向,國內一級市場、互聯網大廠等對AIGC應用關注度也在快速提升中。
風險提示
技術創新不及預期:AIGC的技術發展不及預期。以及底層硬件技術,如:超級計算機、算力的發展不及預期。
政策監管風險:目前AIGC還處於相對早期,後續是否會出台AIGC作品相關知識版權或其他法律監管條款尚不明確。