AIGC:Web3 時代的生產力工具


原創宋嘉吉、金鬱欣吉時通信

摘要

在我們《元宇宙(七):虛擬人的“靈魂”是什麼? 》的報告中,提到了虛擬人的靈魂並不僅是逼真的外表,而是來自於AI 自主生成的內容。同時,元宇宙更傾向於開放世界遊戲,AIGC 內容生成方式的創新將成為Web3 時代全新的生產力工具。

AIGC(AI-Generated Content 人工智能生成內容)代表新一輪範式轉移的開始。近期,矽谷的眾多一線VC 們開始將目光瞄準AI 初創公司,尤其是生成式AI 藝術這一領域。今年有兩家獨角獸Stability 和Jasper 均獲得了超過一億美元的融資,估值突破十億美元。 AIGC 賽道火爆不僅得益於技術進步、商業應用廣泛和需求增長,還歸功於該賽道還處於早期。雖然大型科技公司捕獲了大量價值,初創企業仍有機會突破。

AIGC 將是Web3 時代的生產力工具。當我們邁入Web3.0 時代,人工智能、關聯數據和語義網絡構建,形成人與網絡的全新鏈接,內容消費需求飛速增長。 UGC\PGC 這樣的內容生成方式將難以匹配擴張的需求。 AIGC 將是新的元宇宙內容生成解決方案。 AIGC 的生成利用人工智能學習知識圖譜、自動生成,在內容的創作為人類提供協助或是完全由AI 產生內容。不僅能幫助提高內容生成的效率,還能提高內容的多樣性。隨著NLP(Natural Language Processing,自然語言處理)技術和擴散模型(Diffusion Model)的發展,AI 不再僅作為內容創造的輔助工具,創造生成內容成為了可能。由此,將來文字生成、圖片繪製、視頻剪輯、遊戲內容生成皆可由AI 替代。

AIGC 技術主要涉及兩個方面:自然語言處理NLP 和AIGC 生成算法。自然語言處理是實現人與計算機之間如何通過自然語言進行交互的手段。 AIGC 生成算法主流的有生成對抗網絡GAN 和擴散模型。擴散模型已經擁有了成為下一代圖像生成模型的代表的潛力。它具有精度更高、可擴展性和並行性,無論是質量還是效率均有所提升,其快速發展成為AIGC 增長的拐點性因素。同時,在機器學習的過程中,需要通過大量的訓練來實現更準確的結果,目前以英偉達A100 為主,對於底層算力需求將有飛速增長。

AIGC 在文字、圖像、音頻、遊戲和代碼生成中商業模型漸顯。近期我們研究了國內外數十家AIGC 相關企業,尤其在一些具備高重複性的任務、對於精度要求並不那麼高的領域應用已逐步成熟,並在探索商業模式中。目前圖片生產、文字生成較為常見,這類AIGC 服務大多數時候會以提供SaaS 服務的形式變現。

AIGC 未來發展核心:大模型、大數據與大算力。結合自然語言的大模型與數據集已成為AIGC 發展的軟件基礎,OpenAI 的Clip 模型基於4 億組高質量的英文圖文對應數據訓練而成;算力即權力將在AIGC 數字時代更加凸顯,Stable Diffusion 目前依賴於4000 個英偉達A100 的GPU 集群,運營成本超5000 萬美金。為了讓功能更加精確,未來還將更多地基於語種去開發垂直類的應用,便於更有目的性地為特定功能進行訓練。

AIGC 投資框架:軟硬件與數據集。生成算法、NLP 與算力決定AIGC 能否運行,而高質量的數據集決定了AIGC 質量與商業模式。

軟件層面主要包括自然語言處理技術:谷歌、微軟、科大訊飛、拓爾思;

AIGC 生成算法模型及數據集:英偉達、Meta、百度、藍色光標、視覺中國、崑崙萬維;

算力層包括:瀾起科技、中興通訊、新易盛、天孚通信、寶信軟件、中際旭創等。

風險提示:技術創新不及預期:AIGC 的技術發展不及預期。以及底層硬件技術,如:超級計算機、算力的發展不及預期。政策監管風險:目前AIGC 還處於相對早期,後續是否會出台AIGC 作品相關知識版權或其他法律監管條款尚不明確。

1. 2022:AIGC 的崛起之年

近期,矽谷的眾多一線VC 們開始將目光瞄準AI 初創公司,尤其是生成式AI 藝術這一領域。今年9 月23 日,紅杉美國官網發表了一篇名為《生成式AI:一個創造性的新世界》的文章,認為AIGC(AI-Generated Content 人工智能生成內容)會代表新一輪範式轉移的開始。

2022 年10 月,英國開源人工智能公司Stability AI 宣布獲得1.01 億美元融資,估值高達10 億美元,躋身獨角獸行列,由Coatue、Lightspeed Venture Partners 和O’Shaughnessy Ventures LLC 參與投資。 Stability AI 今年發布了Stable Diffusion 的模型,主要用於根據用戶輸入的文字描述自動生成圖像。 Stable Diffusion 的誕生讓AI 繪畫這個領域愈發火爆。最近,巴比特正式對外宣布,全面擁抱AIGC,開始規模化採用AI 配圖,其中頭條圖片,全面由AI 創作。包括但不限於巴比特網站和App,微信公眾號、百家號、網易號等自媒體平台,以及微博等社交媒體賬號。

除了繪畫以外,文字、音頻、視頻均可通過AI 來生成。

l 文字:以Jasper 為例,以AI 文字生成為主打產品,通過其文字生成功能,用戶可以生成Instagram 標題,編寫TikTok 視頻腳本、廣告營銷文本、電子郵件內容等工作。截止2021 年,Japer 已擁有超過70000 位客戶,並創造了4000 萬美元的收入。

l 音頻:以Podcast.ai 為例,作為一個由AI 生成的博客,每週都會探討一個話題。在第一期節目中,其通過喬布斯的傳記和收集網絡上關於他的所有錄音,Play.ht 的語言模型大量訓練,最終生成了一段假Joe Rogan 採訪喬布斯的播客內容。

l 視頻:目前的AI 技術不僅可以生成圖片,也能夠生成序列幀,如:《幻覺東京》。經過160 小時,完成3 萬多張獨立插畫,再進行手動微調。雖然目前還只是在原腳本和視頻的基礎上,通過AI 逐幀完成圖片生成的,但看到了AIGC 參與到視頻創作中的可能。而在諸多垂直類應用中,如體育、財經等,已經可以通過文字直接生成相應的短視頻,如果配上虛擬人則可以實現自動播報。相比於單一的虛擬人讀稿,基於AIGC 生產的內容在鏡頭轉換、表情動作結合方面更加逼真、自然。

隨著NLP(Natural Language Processing,自然語言處理)技術和擴散模型(Diffusion Model)的發展,AI 創造生成內容成為了可能。此前,內容生成主要運用GAN(Generative Adversarial Network,生成對抗網絡)來實現的,GAN 不同於擴散模型依賴於超大規模語言模型,因此難以實現通過文字的描述,自主理解內容並創造出圖像、視頻等。近年來,隨著擴散模型的成熟,生成方式更接近於人腦的聯想,AIGC 完成了內容創造輔助工具到內容創作主體的角色轉變。

2. AIGC 是什麼?

AIGC 是通過人工智能技術自動生成內容的生產方式。從Web 1.0 的單向信息傳遞的“只讀”模式到Web 2.0 的人與人通過網絡雙向溝通交易所的“交互”模式,內容的需求在不斷增加。為了滿足這一需求,同時也因為互聯網的發展,內容的生成從單一的PGC 演變到了現在的UGC 並佔據了主要市場。 YouTube、Instagram、抖音、快手、B 站上有大量的內容來自於UGC 創作者。當我們邁入Web3.0 時代,人工智能、關聯數據和語義網絡構建,形成人與機器網絡的全面鏈接,內容消費需求飛速增長,UGC\PGC 這樣的內容生成方式將難以匹配擴張的需求。

我們認為,AIGC 將是Web3 時代全新的內容生成工具,同樣,將對現有的短視頻、遊戲及廣告行業帶來巨大的影響。 AIGC 的生成利用人工智能學習知識圖譜、自動生成,在內容的創作為人類提供協助或是完全由AI 產生內容。不僅能幫助提高內容生成的效率,還能提高內容的多樣性。

2.1 AIGC 發展簡史

AIGC 的發展可以大致分為以下三個階段:

l 早期萌芽階段:20 世紀50 年代—90 年代中期,受限於科技水平,AIGC 僅限於小範圍實驗

l 沉積增持階段:20 世紀90 年代中期—21 世紀10 年代中期,AIGC 從實驗向實用轉變,受限於算法,無法直接進行內容生成

l 快速發展階段:21 世紀10 年代中期—現在,深度學習算法不斷迭代,AI 生成內容種類多樣豐富且效果逼真

近年來,AIGC 的發展迅速,從原來作為邊緣側服務於企業、機構的角色變為了現在C 端零基礎用戶都可以使用的創作工具。開發側重點上,AIGC 也從原先用於翻譯、語音合成以及重複性工作轉變為了更注重應用層面,用戶能夠便捷操作的方向。

2.2 技術

隨著NLP(Natural Language Processing,自然語言處理)技術和擴散模型(Diffusion Model)的發展,AI 不再僅作為內容創造的輔助工具,創造生成內容成為了可能。

自然語言處理技術NLP

自然語言處理是實現人與計算機之間如何通過自然語言進行交互的手段。融合了語言學、計算機學、數學,使得計算機可以理解自然語言,提取信息並自動翻譯、分析和處理。在自然語言處理技術發展之前,人類只能通過一些固定模式的指令來與計算機進行溝通,這對於人工智能的發展是一個重大的突破。

自然語言處理最早可以追溯到1950 年,圖靈發表論文“計算機器與智能”,提出“圖靈測試”的概念作為判斷智能的條件。這一測試包含了自動語意翻譯和自然語言生成。

自然語言處理技術可以分為兩個核心任務:

l 自然語言理解NLU:希望計算機能夠和人一樣,具備正常人的語言理解能力。過去,計算機只能處理結構化的數據,NLU 使得計算機能夠識別和提取語言中的意圖來實現對於自然語言的理解。由於自然語言的多樣性、歧義性、知識依賴性和上下文,計算機在理解上有很多難點,所以NLU 至今還遠不如人類的表現。

自然語言理解跟整個人工智能的發展歷史類似,一共經歷了3 次迭代:基於規則的方法、基於統計的方法和基於深度學習的方法。

l 自然語言生成NLG:將非語言格式的數據轉換成人類可以理解的語言格式,如文章、報告等。 NLG 的發展經歷了三個階段,從早期的簡單的數據合併到模板驅動模式再到現在的高級NLG,使得計算機能夠像人類一樣理解意圖,考慮上下文,並將結果呈現在用戶可以輕鬆閱讀和理解的敘述中。自然語言生成可以分為以下六個步驟:內容確定、文本結構、句子聚合、語法化、參考表達式生成和語言實現。

NLP 主要被應用在四個方面:

l 情感分析:互聯網上存在大量的信息,表達的內容都是多種多樣的,但抒發的感情大致可以分為正面和負面的,可以被用來快速了解用戶的輿情情況。

l 聊天機器人:近年來,智能家居的發展和普及使得聊天機器人的價值擴大。

l 語音識別:微信中可以通過語音進行輸入或直接將語音轉化為文字,汽車導航可以直接說目的地,大大提升了便利性。

l 機器翻譯:機器翻譯的準確率在近年大幅提高,YouTube 和netflix 甚至可以做到視頻機器翻譯。

商業上,NLP 主要被應用在一下領域:

l 用於處理財務、醫療保健、零售、政府和其他部門手寫或機器建立檔案

l 文字處理工作,如:名稱實體辨識(NER)、分類、摘要和關聯擷取。這能將擷取、識別和分析文檔資訊的流程自動化。

l 語意搜尋和資訊擷取和知識K線走勢圖建立

l 跨零售、財務、旅遊和其他產業客戶的交互AI 系統等。

神經網絡,尤其是循環神經網絡(RNN)是當前NLP 的主要方法的核心。其中,2017 年由Google 開發的Transformer 模型現已逐步取代長短期記憶(LSTM)等RNN 模型成為了NLP 問題的首選模型。 Transformer 的並行化優勢允許其在更大的數據集上進行訓練。這也促成了BERT、GPT 等預訓練模型的發展。這些系統使用了維基百科、Common Crawl 等大型語料庫進行訓練,並可以針對特定任務進行微調。

Transformer 模型是一種採用自註意力機制的深度學習模型,這一機制可以按輸入數據各部分重要性的不同而分配不同的權重。除了NLP 以外,也被用於計算機視覺領域。與循環神經網絡(RNN)一樣,Transformer 模型旨在處理自然語言等順序輸入數據,可應用於翻譯、文本摘要等任務。而與RNN 不同的是,Transformer 模型能夠一次性處理所有輸入數據。注意力機制可以為輸入序列中的任意位置提供上下文。如果輸入數據是自然語言,則Transformer 不必像RNN 一樣一次只處理一個單詞,這種架構允許更多的並行計算,並以此減少訓練時間。

AIGC 生成模型

近年來,AIGC 的快速發展歸功於生成算法領域的技術增持,其中包含了:生成對抗網絡(GAN)、變微分自動編碼器(VAE)、標準化流模型(NFs)、自回歸模型(AR)、能量模型和擴散模型(Diffusion Model)。可以看到,大模型、大數據、大算力是未來的發展趨勢。我們認為,算法模型的突破是近年來AIGC 得以快速突破的催化劑,下面將展開介紹一下兩個非常常用的模型,分別是生成對抗網絡和擴散模型。

l 生成對抗網絡GAN(Generative Adversarial Networks)

2014 年,Ian J.Goodfellow 提出了GAN,是一種深度神經網絡架構,由一個生成網絡和一個判別網絡組成。生成網絡產生“假”數據,並試圖欺騙判別網絡;判別網絡對生成數據進行真偽鑑別,試圖正確識別所有“假”數據。在訓練迭代的過程中,兩個網絡持續地進化和對抗,直到達到平衡狀態,判別網絡無法再識別“假”數據,訓練結束。

GAN 被廣泛應用於廣告、遊戲、娛樂、媒體、製藥等行業,可以用來創造虛構的人物、場景,模擬人臉老化,圖像風格變換,以及產生化學分子式等等。

其優點在於:

n 能更好建模數據分佈

n 無需利用馬爾科夫鏈反复採樣,無需在學習過程中進行推斷,沒有復雜的變分下界,避開近似計算棘手的概率的難題

缺點:

n 難訓練,不穩定。生成器和判別器之間需要很好的同步,但是在實際訓練中很容易判別器收斂,生成器發散。兩者的訓練需要精心的設計。

n 模式缺失(Mode Collapse)問題。 GANs 的學習過程可能出現模式缺失,生成器開始退化,總是生成同樣的樣本點,無法繼續學習。

l 擴散模型Diffusion Model

擴散模型是一種新型的生成模型,可生成各種高分辨率圖像。在OpenAI,Nvidia 和Google 設法訓練大模型之後,它們已經引起了很多關注。基於擴散模型的示例架構包括GLIDE,DALLE-2,Imagen 和完全開源的穩定擴散。擴散模型已經擁有了成為下一代圖像生成模型的代表的潛力。以DALL-E 為例,能夠直接通過文本描述生成圖像,讓計算機也擁有了人的創造力。

擴散模型的生成邏輯相比其他的模型更接近人的思維模式,也是為什麼近期AIGC 擁有了開放性的創造力。本質上,擴散模型的工作原理是通過連續添加高斯噪聲來破壞訓練數據,然後通過反轉這個噪聲過程來學習恢復數據。訓練後,我們可以通過簡單地將隨機採樣的噪聲傳遞給學習的去噪過程來生成數據。

從下圖可以看到,擴散模型是一個潛在變量(latentvariable)模型,通過馬爾科夫鏈映射到潛在空間。馬爾可夫鍊是狀態空間中經過從一個狀態到另一個狀態的轉換的隨機過程,下一狀態的概率分佈只由當前狀態決定。在這一過程中逐步添加高斯噪聲來獲得近似的後驗概率q (𝑥 ! |𝑥!”#),其中𝑥 # ……𝑥 ! 均是潛在變量,並且它們的維度與原圖𝑥$一致。

從上圖中我們可以看到,圖片𝑥$最終會變為純高斯噪聲的圖片𝑥 !。而訓練擴散模型的目標則是反向這一過程,也就是訓練圖中所示的轉移概率𝑝% (𝑥!”#|𝑥 ! )。通過沿著這條線向後遍歷,我們可以生成新的數據。

相比於其他模型,擴散模型的優勢在於生成的圖像質量更高,且無需通過對抗性訓練,這使得其訓練的效率有所提升。同時,擴散模型還具有可擴展性和並行性。

擴散模型中添加的高斯噪聲是一種概率密度函數符合正態分佈的函數,當AIGC 運用擴散模型來生成內容的時候,是通過在一副純白的畫布(隨機白噪聲)上逐步去噪來生成最終的目標畫作。即用戶給出的文本描述形容詞,來從一個模糊的概念逐步具象。我們可以簡化為多個正態分佈函數的疊加,模型選擇其中重疊的區間輸出,這也是一個逐步縮小範圍的過程。這與人類的思維模式很類似。

簡言之,在AI 訓練階段,我們將數據中心化上億組圖文對進行訓練,提取特徵值;生產過程中,通過添加文字描述,引入不同的特徵值進行去噪,從而生產一副AI 理解下的內容作品。例如,在當我們在腦海中想像一個畫面的時候,比如:一隻柯基通過一個小號玩火焰。我們的思維模式也是先有一隻柯基,再去想像小號和火焰,最後將這些元素疊加在柯基身上。

簡述完原理以後,我們可以通過目前非常先進的AI 圖像生成應用DALL-E2 來舉例闡述具體的工作過程:

l 將文本提示輸入到一個經過訓練能夠將提示映射到表示空間的文本編碼器中;

l 通過一個被稱為“先驗”(Prior)的模型,將文本編碼映射到圖像編碼器中。這一圖像編碼器會捕獲文本編碼包含的信息和語義;

l 圖像編碼器隨機生成一個圖像,這一圖像是該語義信息的視覺表現。

這一個過程和人類的思維模式相似。在生成的過程中,涉及到了文本編碼器這一概念,目前主流的文本編碼器是來自於OpenAI 的Clip 模型,其通過4 億組文字– 圖片對進行訓練。當然,其中的模型訓練都是基於英文實現,語言的區別又會給AIGC 帶來另一重挑戰。

除了上述提到的自然語言處理技術和AIGC 生成算法模型以外,超級計算機和算力這些硬件作為基礎設施也是不可或缺的。在機器學習的過程中,需要通過大量的訓練來實現更準確的結果,這樣的計算量普通的電腦是無法完成的,目前主要由英偉達A100 構建的計算集群完成,而國內外的初創企業也會通過雲實現。

2.3 當我們開始用AIGC——商業模式的探索

AIGC 已被廣泛應用在文字、圖像、音頻、遊戲和代碼的生成當中,一些較早創立的企業已經實現了較好的商業化。尤其在一些具備高重複性的任務、對於精度要求並不那麼高的領域應用較為成熟。隨著AIGC 技術的發展,其適用面將會逐漸擴大。這類AIGC 服務的提供商大多數時候會以提供SaaS 服務的形式變現。

l 文字創作

AIGC 生成文字目前主要被應用於新聞的撰寫、給定格式的撰寫以及風格改寫。其中,有一家成立還不滿兩年的獨角獸企業Jasper 在最新一輪的融資裡獲得了1.25 億美元資金,目前估值為15 億美元。 Jasper 成立於2021 年,是一個AI 內容平台,允許個人和團隊利用AI 來創作內容,多用於商業。用戶可以在藉助Jasper 生成具有豐富關鍵詞、搜索引擎優化的原創博客,可以通過文字描述讓Jasper 幫助完成文章的創作、創建廣告話術。通過Jasper 用戶可以尋找創作思路、高效完成文案、突破語言壁壘,而不會存在抄襲的嫌疑。目前,Jasper 擁有7 萬多名客戶,包括Airbnb、Ibm 等企業。僅2021 年一年便創造了4000 萬美元的收入,今年預估收入為9000 萬美元。

用戶可以通過輸入一段對於目標文章的描述或者要求,系統會自動抓取數據,根據我們描述的指令進行創作。作者本人進行如下實驗,輸入的描述為【寫一篇關於AIGC 的文章,其中要包含AIGC 的定義、發展史、應用、現階段發展情況和對於未來發展趨勢的看法,同時,要包含細節和舉例】。同時,在風格上我選擇了“專業性”。 Jasper 很快就生成了一篇AIGC 撰寫的AIGC 文章(如下圖所示),可以看到這篇文章語義通順,按照我們給出的描述逐段闡述,並且包含了一些舉例,這個生成效果無疑會大幅度提升人類的寫作效率。

並且,在Jasper 的網頁版App 上,還給出了數百種模板,可以根據需求更好的完成作品。

l 圖像創作

MidJourney 降低了藝術繪畫創作的門檻,用戶只需要通過輸入文字描述,計算機將會自動生成一張作品。其背後的邏輯在於計算機通過NLP 識別語意並翻譯成計算機語言,結合後台的數據集(這些數據集主要通過自有素材或機器人爬取公開版權的內容獲得),創作出一副全新的作品。這樣產生的作品原則上屬於AI 創作,因此,在新聞媒體等平台被廣泛使用,不僅減少了成本,同時避免了潛在的版權糾紛風險。除此以外,在抖音、微信等社交平台上,已經有一些數據集圖庫博主通過AIGC 創造素材並結合自己的私域流量進行商業變現。

近期,OpenAI 已經與全球最大的版權圖片供應商之一的Shutterstock 達成深度合作,Shutterstock 將開始出售利用OpenAI 的DALL-E 生成的圖片,並禁止銷售非DALL-E 生成的圖片,完成深度獨家綁定。

AIGC 除了大家熟知的生成繪畫以外,還可以利用這一功能完成文字和圖片的互相轉換,這在寫專利時可以被用到。

l 視頻創作

除了繪畫以外,AIGC 也能夠被運用在視頻創作中。 Google 推出了AI 視頻生成模型Phenaki 能夠根據文本內容生成可變時長視頻的技術,在公佈的DEMO 中,Phenaki 基於幾百個單詞組成一段前後邏輯連貫的視頻只需兩分鐘。相比原有的Imagen 基礎上衍生的Imagen Video 瞄準短視頻,Phenaki 瞄準的是長視頻。 AIGC 視頻中的運用,讓我們看到了未來虛擬人也能夠作為演員在影視劇中扮演不同的角色以提高內容產出的效率和多樣性。

l 音頻剪輯

AIGC 生成音頻早被應用於我們的日常生活當中。我們常用的手機導航,可以切換不同明星甚至於卡通人物的語音提示。這是通過提前請明星或卡通人物的配音朗讀完成一個語音庫,再通過反复的訓練學習使得可以用指定的聲音說出任何話。我們自己也可以通過高德地圖錄製自己的語音導航包。而更深層次的應用將會是虛擬人領域,AIGC 不僅可以生成虛擬人的聲音,並可以創造出說的內容。虛擬人在未來有望和我們一樣表達自己的想法,靈魂逐步顯現。

l 遊戲開發

AIGC 在遊戲當中的應用可以分為兩方面,一方面是用於場景和故事的搭建。開放世界遊戲越來越受歡迎,通過AIGC 來創建場景和NPC 都將會大幅度提升效率和降低成本。另一方面,玩家可以通過AIGC 的平台工具來創建自己的虛擬人,可以用於遊戲中的打金等活動。有一家叫做Delysium 的遊戲已經開始引入這一功能。或許在未來的開放世界遊戲中,不同的玩家將對應不同的遊戲劇情和副本,這無疑將是令人興奮的應用。

l 代碼生成

GitHub Copilot 是一個GitHub 和OpenAI 合作產生的AI 代碼生成工具,可根據命名或者正在編輯的代碼上下文為開發者提供代碼建議。官方介紹其已經接受了來自GitHub 上公開可用存儲庫的數十億行代碼的訓練,支持大多數編程語言。

3. AIGC 的未來發展趨勢

AIGC 是PGC、UGC 之後,全新的內容生產方式。不僅能提升內容生產的效率以滿足我們飛速增長的內容需求,也能夠豐富內容的多樣性。在2022 年百度世界大會上,李彥宏提到了:“AIGC 將走過三個發展階段:第一個階段是“助手階段”,AIGC 用來輔助人類進行內容生產;第二個階段是“協作階段”,AIGC 以虛實並存的虛擬人形態出現,形成人機共生的局面;第三個階段是“原創階段”,AIGC 將獨立完成內容創作。未來十年,AIGC 將顛覆現有內容生產模式,可以實現以十分之一的成本,以百倍千倍的生產速度,去生成AI 原創內容。”

3.1 AIGC 面臨的挑戰

技術上來看,雖然當前生成的圖片、文字已經可以用以商業用途,但還存在一些問題使得無法滿足較高的質量要求。我們可以發現在二次元或抽象的圖片生成中,AIGC 的表現較好。但對於比較具體和細節的內容,生成的效果不盡如人意。

下圖是筆者通過AIGC 生成的一副“美女與布偶貓”的圖片,從這一張圖片我們可以發現有兩個問題:

l 其中有兩幅圖片的貓咪眼睛很奇怪,在這些細節描繪上還無法和真人畫師媲美。

l 輸入的關鍵詞是“美女”與“布偶貓”,但是生成的“美女”均長著一張貓臉,從這裡反映出AIGC 繪畫會出現一些空間位置以及數量上的偏差。產生的原因主要還是來源於語義理解和處理上的問題。

與此同時,參考上文中的K線走勢圖23,我們可以發現不同的應用平台,輸入幾乎一致信息點的文本,生成的圖片的質量和內容差距是巨大的。

那麼造成以上的這些問題和差距的原因在哪裡呢?我們依舊可以從AIGC 的工作原理上來分析:

l 自然語義的理解在處理一些空間關係上還存在一定的誤差,這也是為什麼在空間位置、數量上存在不精確的問題。

l 目前文本生成圖像時,需要用到文本編碼器將文字映射到圖像上。當前主流的、訓練完善的是來自與OpenAI 的Clip 模型,其函數是開源的,但訓練的數據集是封閉的。 AIGC 需要大量的良好畫質的文本– 圖片對才能訓練到Clip 這樣的程度。從Clip 本身公開的信息來看,它使用了超4 億個文本– 圖片對來完成訓練,這些都是基於英文的。那麼存在以下幾個問題:1、億級別的高質量的文本– 圖片對在於其他的語言上獲得的難度大幅提高,這也是為什麼目前大多除英語外的其他語言的AIGC 都是需要在整個流程前增加一步翻譯。這一步不但涉及語義理解,還包含了文化、語言習慣等潛在的因素,很難被精確翻譯,對於翻譯模型的挑戰很大。 2、Clip 的模式很難復刻,即使運用Clip 開源的函數,基於不同的數據庫訓練出的結果不同。據我們了解,海外有團隊運用了20 億的文本– 圖片對才接近復刻了Clip;

l 運用的AIGC 生成算法不同也會導致產生的內容的差距;

l 數據集的質量、合規性、風格偏向都會決定生成的內容質量。

以上,我們可以看到若要使得AIGC 生成的內容真正高效地被運用在商業層面,那麼自然語言處理、翻譯模型、生成算法和數據集這些細分賽道都還有很大的進步空間。

3.2 未來的發展方向

在上文中,我們了解到從應用軟件方面,自然語言處理、翻譯模型、生成算法和數據集這些細分賽道都還有很大的進步空間。更深入地來看,以上這些的發展需要依託於算力、數據的支持。所以未來的發展重點將更著力於大模型、大數據和大算力的方向去發展。同時,為了讓功能更加精確,將會更多地去開發一些垂直類的應用,畢竟垂直類的應用可以更有針對性地為特定功能進行訓練,成本相對較低。

投資策略:AIGC 的軟硬件與數據集

從PGC 到UGC 再到AIGC,AIGC 能讓人類突破內容生產力枷鎖,高效率生成高質量內容,讓人類進入到真正的元宇宙之中。若要AIGC 能夠滿足元宇宙的需求,獨立完成高質量、高精度的內容,AIGC 技術層面還需要一定的發展,我們可以分為軟硬件兩個維度看,軟件層面主要包括自然語言處理技術、AIGC 生成算法模型和數據集,硬件層面主要是算力、通信網絡。

從業務層面看,結合國內外發展情況,目前在AIGC 的知識產權歸屬方面尚有法律空缺,且創作倫理問題也未得到有效解決,因此無論是技術還是商業層面,高質、乾淨的數據集對於模型訓練及內容生成均有至關重要的影響。同時,隨著AIGC 逐步落地,其算力需求將大增,未來相關企業除用雲計算之外,或組建自有算力集群,考慮到英偉達A100、H100 出口受限,相關國產算力芯片將有機會獲得增量市場。

從主題投資的角度看,區塊鏈、元宇宙、Web3 均描述了數字經濟時代中宏大的應用場景,而去年被資本市場關注的虛擬人、NFT 等只是其中的具體應用之一。我們認為,AIGC 將是推動數字經濟從Web2 向Web3 升級的重要生產力工具:一方面,其對現有的殺手級應用——短視頻、遊戲等具有顛覆式影響,或進一步擴大內容量、提高成癮性,同時對社交和廣告提供新的工具;另一方面,Web3 開放、共建的價值觀下,UGC、AIGC 的內容會更具吸引力,二次創作、開放想像的浪潮將來臨。目前AIGC 已成為矽谷最新熱門方向,國內一級市場、互聯網大廠等對AIGC 應用關注度也在快速提升中。

風險提示

技術創新不及預期:AIGC 的技術發展不及預期。以及底層硬件技術,如:超級計算機、算力的發展不及預期。

政策監管風險:目前AIGC 還處於相對早期,後續是否會出台AIGC 作品相關知識版權或其他法律監管條款尚不明確。

本文節選自國盛證券研究所已於2022 年11 月13 日發布的報告《國盛區塊鏈| AIGC__Web3 時代的生產力工具》,具體內容請詳見相關報告。

宋嘉吉S0680519010002 songjiaji@gszq.com

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts