AIGC 最大獨角獸：下一個目標是席捲10 億用戶

Stability AI CTO Tom Mason 認為，AIGC 的下一波浪潮將是音視頻和3D

整理| 凌梓郡

整整一年，AI 繪畫的話題熱度不減。人們驚異於大模型做起了「畫師」，這讓AIGC（AI 生成內容）成為了熱門的資本賽道。「下一波浪潮肯定是視頻、音頻和3D 內容，」Stability AI 的CTO Tom Mason 堅定地認為，他們目前正在全力研究生成視頻和音頻的相關模型。

將AI 繪畫推向高潮的是Stable Diffusion，一個前所未有的開源模型，對所有人開放、能夠又快又好地生成圖畫。它的誕生路徑也與眾不同：源於開源社區，而非大公司。它的主要推動者是Stability AI。公司將自己作為社區的貢獻者之一，並希望探索出一條開源、AI 模型、社區共同前進的道路。

Stability AI 成立於2019 年，不到三年已經成為估值超10 億美元的獨角獸。 Stability AI 專注於生成模型，認為它在未來會成為互聯網的重要組成部分。如果說上一代AI 算法帶來的是廣告推薦，那麼「生成式AI 正在做的，就是讓消費者成為創作者，給他們創作他們自己消費的媒體內容的能力」。

今年的IF 2023，極客公園邀請了Stability AI 的CTO（首席技術官）Tom Mason，他以自己的視角分享了AIGC 從默默無聞到突然爆發的全過程，並對AIGC 未來影響世界的方式給出了自己的預測。以下是他在大會上的分享實錄，經極客公園整理髮布。

（在極客公園創新大會IF 2023 現場，極客公園創新業務總監Ashley 對Tom Mason 的訪談視頻進行解讀。）

01開源是Stability AI的根基所在

極客公園：請簡單介紹一下，在來到Stability AI 之前，你都有怎樣的經歷？

Tom Mason：我之前有15 年的時間都在倫敦經營著一家科技公司，為大型汽車公司開發了很多不同的平台，也為很多創業公司提供技術支持。在接觸AI 和Stability AI 之前，我從事過很多領域。

大概2 年前，我開始和一個開源社區一起，開發一個叫做Disco Diffusion 的Python Notebook，用來生成動畫和圖像。那是一個很棒的社區，我和他們共事了好幾個月，一起打造了給非技術用戶使用的新工具。 Python Notebook 和一個同時開發的產品，後來成為了Dream Studio，通過這段經歷，我發現了Stability AI，也就是現在我所在的公司。

極客公園：Stability AI 是一個怎樣的公司？

Tom Mason：Stability AI 非常堅持開源，某種程度上也是我們的根基所在。我們協助支持了大概8 個開源社區，共計超過10 萬名成員，他們專攻不同的模態，從語言到圖像、到音頻、視頻和3D。

我們會提供算力支持，並會資助一部分研究人員，我們擁有非常大的計算集群，現在我們在AWS 上有4000 個A100 節點，在其他地方還有1500 個節點。這些計算集群正在以非常快的速度增加，我們會將資源開放給研究員們，以便他們訓練模型，這些模型最終會開源。所以可以說Stability AI 是一個基礎平台，它的支柱其實是這些開源社區。

同時我們內部有團隊也會給他們提供支持，建設HPC 超算、管理這些計算集群；數據團隊會提供數據上的幫助；跨職能團隊（負責）跨社區的一些協助工作。

另外我們還有一個非常大的基礎設施部門，他們的工作主要是開發API 和產品。我們會通過平台網站向全世界發布API 和我們自己打造的產品。

極客公園：開源為什麼至關重要？

Tom Mason：我因為開源AI 技術開啟了這段旅程。於我而言，開源AI 令人驚喜到難以置信。從我自己的家裡，我可以登陸開源社區，與一個包含了所有完整信息的模型交互，並使用它做一些更酷的事，在它的基礎上創建工具，這就像一次飛躍。所有這些推進了人類歷史的進程，我們正生活在這樣一個無比奇妙的時刻。這些（開源）賜予人類的，讓我們能夠去創造更美好、更偉大的事業，我也真的非常榮幸能參與到這個進程裡，成為這個公司的一員，見證這個時刻的發生。

比如Stable Diffusion 的發布，我覺得開放一個如此大規模如此復雜的模型，並不是那麼一件容易想到、做到的事情，（但它真的發生了）並且帶來了創造力的爆發。

每天早上醒來，我都可以在網上看到10 個不同的新項目，有很多人都在做一些了不起的事情，每一個小項目都有可能成為一家新公司，成為一個新的開源社區。

極客公園：Stability AI會成為像OpenAI 一樣的機構嗎？

Tom Mason：Open AI 非常專注於AGI（通用人工智能）。但這絕對不是我們的目標，我們想建立好的生成模型。因為生成式AI 很有可能會產生更大的影響力。目前已經有很多理論在討論它將如何實現，特別是通過語言模型和視頻模型，以及其他的帶有時序信息的模型。

現在AGI 不是我們關注的重點。我們只專注於構建不同模態的、好用的生成模型，用大型數據集支持這些模型的定制化，以及支持開源。這就是我們和OpenAI 的主要區別。我們絕對百分百地致力於讓我們的模型開源，並將這項技術公開，讓全世界的人都可以不受任何限制地使用它。這絕對是一件非常重要的事情，因為這項技術是如此具有革命性。

Stable Diffusion 最新的版本公開｜來源：stability AI 官網

02AIGC 讓費者成為創作者

極客公園：AIGC 在這一年受到了前所未有的關注，在你看來，爆發前有哪些重要的時刻？

Tom Mason：我認為AI 領域其中一個重要轉折點是2017 年關於Transformer 的論文，《Attention Is All You Need》發表。論文介紹了注意力機制的概念，這使得神經網絡變得更加普及；緊接著，基於Transformer 網絡，圖像生成領域出現了很多研究，其中出現了擴散模型。最開始是Latent Diffusion，現在有了Stable Diffusion，它最初是由CompVis 團隊開發的。

極客公園：在這個過程中，Stable Diffusion 是怎麼誕生的？

Tom Mason：接下來兩個重要的轉折點，分別是數據集和算力。我們支持的其中一個項目LAION，就專注於收集和建立海量的數據集，他們現在有50 億圖文匹配的多語種數據集，其中20 億是有英文標註的圖片。

在這20 億的基礎上，我們篩選出大約10 億數據集用於Stable Diffusion，數據集的工作開始於2、3 年前，每年規模都在增長，數據集的規模是非常重要的。除了LAION 以外，並沒有其他可用的數據集擁有這樣的規模。所以當CompVis 團隊和LAION 團隊開始合作，這個神經網絡就誕生了。

第三個關鍵要素是算力的滿足，在這之前，學術研究人員，開源研究者們必須通過大學的網絡，或者其他提供算力資源的公司，申請算力資源。而目前Stability AI 擁有世界上第十或第十一大的自用的超算。我們將這些資源提供給有需要的開源研究員，所以他們現在有能力訓練世界上最大的模型，與任何其他公司相競爭。這對社區的幫助非常大。讓他們能夠有資源去做研究和開發，

也因此帶來了現在發布的這些超棒的模型，我相信這個趨勢還會增長。隨著來到2023 年，這裡會涉及更多其他模態，比如視頻，模型會越來越大，數據集會越來越大，所以這個趨勢大概率會持續下去。

（Tom Mason 在IF 2023 大會現場的分享。）

極客公園：今年，通過文字生成圖像非常引人注目，在這之後，內容生產領域還會有怎樣的變化？

Tom Mason：下一波浪潮肯定是視頻、音頻和3D。語言模型和圖像模型的爆發和流行，實際上源於數據集的開放。我們能夠從互聯網上提取大量的文字，用它來訓練圖像模型。這其實是過去幾年，圖像和語言模型能夠爆發性發展的一個重要原因。視頻模型已經開始出現，它們同樣依賴於大規模、有標註的整潔數據集，這樣模型才能進行高效的訓練。

這是我們現在主攻的領域，音頻也是類似的。我們有一個叫Harmonai 的團隊，正在主攻文字和音頻。現階段通過訓練的模型輸出的結果已經非常出色，且是能夠通過文字輸入生成的，所以這是一個非常令人興奮的領域，我個人的熱情在於視頻和動畫，我在加入Stability 之前就一直在做這方面的事情。

互聯網上並沒有足夠大量的視頻數據集和音頻數據集，這是我們的當務之急。我們應該會通過合作的形式來完成（數據集搭建）。語言模型和圖像模型的爆發和流行，實際上源於數據集的開放。我們能夠從互聯網上提取大量的文字，用它來訓練圖像模型。這其實是過去幾年，圖像和語言模型能夠爆發性發展的一個重要原因。

極客公園：視頻內容的生成的模型什麼時候會發布？

Tom Mason：毫無疑問是明年。我們現在已經有正在訓練的視頻模型了，我們也跟那些我前面提到的大數據集所有者建立了合作關係，我覺得模型的架構還需要優化，不過我們已經有了一些有趣的可選方案。

我非常期待明年年中，我們能夠做出一個不錯的視頻模型，當然是短視頻，然後慢慢向長視頻（發展），這可能需要用到多模型組合。同時，還要優化好場景融合和其他的相關技術。

我們的一個工具Dream Studio，就是用來編輯和製作動畫的，我們其實正在研究動畫生成的API，讓人們只用一張圖片就可以生成動畫，使用一種2D 轉3D 的深度估計方法。這是一個非常酷的技術，跟視頻擴散有一點區別，我們會在明年早些時候發布，讓用戶體驗。視頻擴散則會在明年晚些時候發布。

我非常期待有一天，我們能夠打造出動畫和視頻擴散（模型）的工具。 3D 也是，明年會成為一個熱門領域。我們已經看到很多包含NeRF（注：一種將2D 圖像轉3D 模型）的管線，允許我們創建3D 模型和資產。通過文本管線、文生圖、2D 轉3D，或者攝影作品裡的環境通過NeRF 轉換成3D 模型。這些管線目前（生成速度）還非常慢，但他們正在快速地提升效率。

極客公園：視頻、3D 的生產模型會給人們帶來怎樣的全新體驗？

Tom Mason：用戶應該很快就可以通過這些生成式管線，在VR 或遊戲場景裡創建3D 資產了。這會是一件很重要的事情，它幾乎會立刻讓你想到元宇宙。在裡面可以創建你自己的環境，玩家只要口述他們希望沉浸在什麼樣的遊戲資產或環境中就可以了。這會非常令人興奮。

我想我們中很多人都想像過。在VR 裡，圍繞我們的整個環境都是（自動）生成的。玩家能夠完全掌控音樂、3D 資產和環境氛圍，這樣你就能完全掌控你的體驗。這與當下行業裡生成式AI 取得的進展非常契合。生成式AI 正在做的，就是讓消費者成為創作者，給他們創作他們自己消費的媒體內容的能力。它會是一個非常令人興奮的時刻。

極客公園：目前，生成3D 內容有哪些挑戰？

Tom Mason：就當下的3D（內容生成）而言，我覺得挑戰主要是生成的時間，以及分辨率。這二者是相關聯的，NeRF 模型越精確，跑起來就越慢，如果考慮什麼是圖像模型最令人驚豔的進展，就是生成時間（縮短）。

一年前，生成一張高分辨率的圖片可能會需要幾分鐘，2、3 分鐘或者4 分鐘才能生成完成。但比如通過跑在我們API 上的Stable Diffusion，只需要差不多2-3 秒的時間，所以在性能表現上有成數量級的進步。這也就是為什麼，這個模型可以如此成功，因為它足夠小，生成得可以足夠快。因此它能夠跑在本地的GPU 上，同時速度也更快。

所以我們需要看到，在3D 內容生成領域也需要有類似這樣的突破，通過一張照片生成一個還不錯的網格模型，現在大概需要10 分鐘左右，對想要將其嵌入創作體驗的普通用戶來說太慢了，人們想要的是能夠快速響應的創作工具。

所以我覺得我們需要專註解決這個問題。

極客公園：那視頻生成模型的技術成熟度如何？

Tom Mason：我有信心它的進展會快很多。我們已經看到一些新的採樣技術和模型架構，能大大縮短推理時間。圖像模型構成了視頻模型的核心。某種程度上，視頻模型是在圖像模型基礎上增加了時序信息，所以只要我們把圖像模型做得更小，那麼視頻模型也可以變得更高效，這是視頻領域研究比較明確的方向。

我覺得我們有挺大概率在明年年底實現視頻實時（生成）。我能看到視頻的圖像推理時間在明年很快就可以達到至少1 秒1 幀的速度，然後到年底的時候達到實時輸出的流暢度，3D 就會相對遙遠一些，這取決於技術的迭代情況。但毫無疑問，我們會與包括英偉達在內的很多公司，共同在3D 內容生成領域持續堅定地投入。

Stability AI 官網

03Stability AI是社區的一員

極客公園：你提到Stability AI堅持開源，支持了8 個開源社區，開源社區的運作是怎樣的？

Tom Mason：我們開源社區的運作模式，與Linux 以及其他大家熟悉的開源項目是類似的，唯才是用。通過Git 管理（社區成員）對代碼庫的貢獻，社區成員互相審核代碼，一旦審核通過，就可以合併到主幹。

對於我們支持的開源社區，我們資助了一些能夠帶領社區的研究人員，這也使他們能夠全職地參與到項目裡。許多從事這些項目的人都是利用業餘時間做的，又或者是在攻讀大學學位或博士學位時做的。他們中的許多人即使想全職投入項目的工作，但現實也無法讓他們做到。我們資助了一些項目核心研究人員，讓他們能夠完全把精力投入到這個項目中。

當然，我們也是在非常確定這個人是對社區至關重要的情況下才這麼做。這些人要么是在創造社區方面發揮了重要作用，要么他們能夠將社員聚集在一起，總有一部分人在組織裡不可或缺，扮演著粘合劑的角色。對於這些人，我們會去盡力地支持他們。

極客公園：StabilityAI 在社區裡扮演怎樣的角色？

Tom Mason：我認為關鍵是，我們與社區裡的其他成員並無區別。作為一家企業，我們只是社區中的一員。我們並沒有掌控它，我們只是一個貢獻者。

我想我們所有人都是這樣認為的。除此之外，我們並不想扮演其他更多的角色。作為一家企業，我們只想以積極開放的方式做出貢獻，並推動生態的改善。我想大家都很認同這一點。並且我們也希望自己能做出更多積極的貢獻。

極客公園：你們希望自己的模型能夠影響10 億人，這會怎樣發生？

Tom Mason：一個令人激動的事實是，我們正在用大量不同的語言來訓練模型。現在並沒有大規模的多語言生成模型，但多語言數據集出現後就不一樣了。

當下大家對於這項技術的認知並不多。我們看到模型覆蓋範圍的統計數據，它在全球的覆蓋範圍依然非常小。所以在未來的一兩年裡，我們將用不同的語言來訓練模型，並讓Stable Diffusion 兼容更多語言。我們希望可以與全球的合作夥伴一起，對我們而言與不同國家的機構合作非常重要。我們可以一起用不同語言訓練這些模型。

這並不需要把技術重新開發一遍，這實際上是對現有程序的重新應用。既然我們擁有了這些架構，我們就應該快速地將它們推廣出去。我們希望將整個模型培訓的過程和知識都分享出去，讓各個國家的合作夥伴和供應商都能掌握。這樣，在未來12 個月內，圖像生成或許在全球各地還會再一次掀起浪潮，視頻和音頻領域也是如此。 10 億這個數字可能還遠遠不夠，但這是我們當前的目標。

展開全文打開碳鏈價值APP 查看更多精彩資訊

AIGC 最大獨角獸：下一個目標是席捲10 億用戶

XRP預計將通過QR錢包在偏遠農村社區實現採用

8月14日隔夜重要動態一覽

Ondo、SPX、PEPD與ETH：頂級以太坊分析師推薦的四種讓你成為百萬富翁的加密貨幣與Pepe Dollar購買指南

距離歷史高點一步之遙，業內深入分析以太坊未來發展走勢

屈服邊緣隨漂移而變化

2025年Casinopunkz賭場獎金與VIP福利概述

隨著Altcoin Season Signals的建設，比特幣達到12萬美元–

湯姆·李預測以太坊將於未來達到12,000美元的時間表

AIGC 最大獨角獸：下一個目標是席捲10 億用戶

Related Posts