Stability AI CTO Tom Mason 認為,AIGC 的下一波浪潮將是音視頻和3D
整理| 凌梓郡
整整一年,AI 繪畫的話題熱度不減。人們驚異於大模型做起了「畫師」,這讓AIGC(AI 生成內容)成為了熱門的資本賽道。 「下一波浪潮肯定是視頻、音頻和3D 內容,」Stability AI 的CTO Tom Mason 堅定地認為,他們目前正在全力研究生成視頻和音頻的相關模型。
將AI 繪畫推向高潮的是Stable Diffusion,一個前所未有的開源模型,對所有人開放、能夠又快又好地生成圖畫。它的誕生路徑也與眾不同:源於開源社區,而非大公司。它的主要推動者是Stability AI。公司將自己作為社區的貢獻者之一,並希望探索出一條開源、AI 模型、社區共同前進的道路。
Stability AI 成立於2019 年,不到三年已經成為估值超10 億美元的獨角獸。 Stability AI 專注於生成模型,認為它在未來會成為互聯網的重要組成部分。如果說上一代AI 算法帶來的是廣告推薦,那麼「生成式AI 正在做的,就是讓消費者成為創作者,給他們創作他們自己消費的媒體內容的能力」。
今年的IF 2023,極客公園邀請了Stability AI 的CTO(首席技術官)Tom Mason,他以自己的視角分享了AIGC 從默默無聞到突然爆發的全過程,並對AIGC 未來影響世界的方式給出了自己的預測。以下是他在大會上的分享實錄,經極客公園整理髮布。
(在極客公園創新大會IF 2023 現場,極客公園創新業務總監Ashley 對Tom Mason 的訪談視頻進行解讀。)
01開源是Stability AI的根基所在
極客公園:請簡單介紹一下,在來到Stability AI 之前,你都有怎樣的經歷?
Tom Mason:我之前有15 年的時間都在倫敦經營著一家科技公司,為大型汽車公司開發了很多不同的平台,也為很多創業公司提供技術支持。在接觸AI 和Stability AI 之前,我從事過很多領域。
大概2 年前,我開始和一個開源社區一起,開發一個叫做Disco Diffusion 的Python Notebook,用來生成動畫和圖像。那是一個很棒的社區,我和他們共事了好幾個月,一起打造了給非技術用戶使用的新工具。 Python Notebook 和一個同時開發的產品,後來成為了Dream Studio,通過這段經歷,我發現了Stability AI,也就是現在我所在的公司。
極客公園:Stability AI 是一個怎樣的公司?
Tom Mason:Stability AI 非常堅持開源,某種程度上也是我們的根基所在。我們協助支持了大概8 個開源社區,共計超過10 萬名成員,他們專攻不同的模態,從語言到圖像、到音頻、視頻和3D。
我們會提供算力支持,並會資助一部分研究人員,我們擁有非常大的計算集群,現在我們在AWS 上有4000 個A100 節點,在其他地方還有1500 個節點。這些計算集群正在以非常快的速度增加,我們會將資源開放給研究員們,以便他們訓練模型,這些模型最終會開源。所以可以說Stability AI 是一個基礎平台,它的支柱其實是這些開源社區。
同時我們內部有團隊也會給他們提供支持,建設HPC 超算、管理這些計算集群;數據團隊會提供數據上的幫助;跨職能團隊(負責)跨社區的一些協助工作。
另外我們還有一個非常大的基礎設施部門,他們的工作主要是開發API 和產品。我們會通過平台網站向全世界發布API 和我們自己打造的產品。
極客公園:開源為什麼至關重要?
Tom Mason:我因為開源AI 技術開啟了這段旅程。於我而言,開源AI 令人驚喜到難以置信。從我自己的家裡,我可以登陸開源社區,與一個包含了所有完整信息的模型交互,並使用它做一些更酷的事,在它的基礎上創建工具,這就像一次飛躍。所有這些推進了人類歷史的進程,我們正生活在這樣一個無比奇妙的時刻。這些(開源)賜予人類的,讓我們能夠去創造更美好、更偉大的事業,我也真的非常榮幸能參與到這個進程裡,成為這個公司的一員,見證這個時刻的發生。
比如Stable Diffusion 的發布,我覺得開放一個如此大規模如此復雜的模型,並不是那麼一件容易想到、做到的事情,(但它真的發生了)並且帶來了創造力的爆發。
每天早上醒來,我都可以在網上看到10 個不同的新項目,有很多人都在做一些了不起的事情,每一個小項目都有可能成為一家新公司,成為一個新的開源社區。
極客公園:Stability AI會成為像OpenAI 一樣的機構嗎?
Tom Mason:Open AI 非常專注於AGI(通用人工智能)。但這絕對不是我們的目標,我們想建立好的生成模型。因為生成式AI 很有可能會產生更大的影響力。目前已經有很多理論在討論它將如何實現,特別是通過語言模型和視頻模型,以及其他的帶有時序信息的模型。
現在AGI 不是我們關注的重點。我們只專注於構建不同模態的、好用的生成模型,用大型數據集支持這些模型的定制化,以及支持開源。這就是我們和OpenAI 的主要區別。我們絕對百分百地致力於讓我們的模型開源,並將這項技術公開,讓全世界的人都可以不受任何限制地使用它。這絕對是一件非常重要的事情,因為這項技術是如此具有革命性。
Stable Diffusion 最新的版本公開|來源:stability AI 官網
02AIGC 讓費者成為創作者
極客公園:AIGC 在這一年受到了前所未有的關注,在你看來,爆發前有哪些重要的時刻?
Tom Mason:我認為AI 領域其中一個重要轉折點是2017 年關於Transformer 的論文,《Attention Is All You Need》發表。論文介紹了注意力機制的概念,這使得神經網絡變得更加普及;緊接著,基於Transformer 網絡,圖像生成領域出現了很多研究,其中出現了擴散模型。最開始是Latent Diffusion,現在有了Stable Diffusion,它最初是由CompVis 團隊開發的。
極客公園:在這個過程中,Stable Diffusion 是怎麼誕生的?
Tom Mason:接下來兩個重要的轉折點,分別是數據集和算力。我們支持的其中一個項目LAION,就專注於收集和建立海量的數據集,他們現在有50 億圖文匹配的多語種數據集,其中20 億是有英文標註的圖片。
在這20 億的基礎上,我們篩選出大約10 億數據集用於Stable Diffusion,數據集的工作開始於2、3 年前,每年規模都在增長,數據集的規模是非常重要的。除了LAION 以外,並沒有其他可用的數據集擁有這樣的規模。所以當CompVis 團隊和LAION 團隊開始合作,這個神經網絡就誕生了。
第三個關鍵要素是算力的滿足,在這之前,學術研究人員,開源研究者們必須通過大學的網絡,或者其他提供算力資源的公司,申請算力資源。而目前Stability AI 擁有世界上第十或第十一大的自用的超算。我們將這些資源提供給有需要的開源研究員,所以他們現在有能力訓練世界上最大的模型,與任何其他公司相競爭。這對社區的幫助非常大。讓他們能夠有資源去做研究和開發,
也因此帶來了現在發布的這些超棒的模型,我相信這個趨勢還會增長。隨著來到2023 年,這裡會涉及更多其他模態,比如視頻,模型會越來越大,數據集會越來越大,所以這個趨勢大概率會持續下去。
(Tom Mason 在IF 2023 大會現場的分享。)
極客公園:今年,通過文字生成圖像非常引人注目,在這之後,內容生產領域還會有怎樣的變化?
Tom Mason:下一波浪潮肯定是視頻、音頻和3D。語言模型和圖像模型的爆發和流行,實際上源於數據集的開放。我們能夠從互聯網上提取大量的文字,用它來訓練圖像模型。這其實是過去幾年,圖像和語言模型能夠爆發性發展的一個重要原因。視頻模型已經開始出現,它們同樣依賴於大規模、有標註的整潔數據集,這樣模型才能進行高效的訓練。
這是我們現在主攻的領域,音頻也是類似的。我們有一個叫Harmonai 的團隊,正在主攻文字和音頻。現階段通過訓練的模型輸出的結果已經非常出色,且是能夠通過文字輸入生成的,所以這是一個非常令人興奮的領域,我個人的熱情在於視頻和動畫,我在加入Stability 之前就一直在做這方面的事情。
互聯網上並沒有足夠大量的視頻數據集和音頻數據集,這是我們的當務之急。我們應該會通過合作的形式來完成(數據集搭建)。語言模型和圖像模型的爆發和流行,實際上源於數據集的開放。我們能夠從互聯網上提取大量的文字,用它來訓練圖像模型。這其實是過去幾年,圖像和語言模型能夠爆發性發展的一個重要原因。
大量的視頻內容,是被大型電影公司和流媒體公司版權所有的,所以幫助那些公司使用他們的數據集,開發新的視頻模型,對我們來說很重要,這是我們的核心策略之一,就是讓數據變得更智能,去更好地利用好那些大多時候沒有被妥善使用的大型數據集。
極客公園:視頻內容的生成的模型什麼時候會發布?
Tom Mason:毫無疑問是明年。我們現在已經有正在訓練的視頻模型了,我們也跟那些我前面提到的大數據集所有者建立了合作關係,我覺得模型的架構還需要優化,不過我們已經有了一些有趣的可選方案。
我非常期待明年年中,我們能夠做出一個不錯的視頻模型,當然是短視頻,然後慢慢向長視頻(發展),這可能需要用到多模型組合。同時,還要優化好場景融合和其他的相關技術。
我們的一個工具Dream Studio,就是用來編輯和製作動畫的,我們其實正在研究動畫生成的API,讓人們只用一張圖片就可以生成動畫,使用一種2D 轉3D 的深度估計方法。這是一個非常酷的技術,跟視頻擴散有一點區別,我們會在明年早些時候發布,讓用戶體驗。視頻擴散則會在明年晚些時候發布。
我非常期待有一天,我們能夠打造出動畫和視頻擴散(模型)的工具。 3D 也是,明年會成為一個熱門領域。我們已經看到很多包含NeRF(注:一種將2D 圖像轉3D 模型)的管線,允許我們創建3D 模型和資產。通過文本管線、文生圖、2D 轉3D,或者攝影作品裡的環境通過NeRF 轉換成3D 模型。這些管線目前(生成速度)還非常慢,但他們正在快速地提升效率。
極客公園:視頻、3D 的生產模型會給人們帶來怎樣的全新體驗?
Tom Mason:用戶應該很快就可以通過這些生成式管線,在VR 或遊戲場景裡創建3D 資產了。這會是一件很重要的事情,它幾乎會立刻讓你想到元宇宙。在裡面可以創建你自己的環境,玩家只要口述他們希望沉浸在什麼樣的遊戲資產或環境中就可以了。這會非常令人興奮。
我想我們中很多人都想像過。在VR 裡,圍繞我們的整個環境都是(自動)生成的。玩家能夠完全掌控音樂、3D 資產和環境氛圍,這樣你就能完全掌控你的體驗。這與當下行業裡生成式AI 取得的進展非常契合。生成式AI 正在做的,就是讓消費者成為創作者,給他們創作他們自己消費的媒體內容的能力。它會是一個非常令人興奮的時刻。
極客公園:目前,生成3D 內容有哪些挑戰?
Tom Mason:就當下的3D(內容生成)而言,我覺得挑戰主要是生成的時間,以及分辨率。這二者是相關聯的,NeRF 模型越精確,跑起來就越慢,如果考慮什麼是圖像模型最令人驚豔的進展,就是生成時間(縮短)。
一年前,生成一張高分辨率的圖片可能會需要幾分鐘,2、3 分鐘或者4 分鐘才能生成完成。但比如通過跑在我們API 上的Stable Diffusion,只需要差不多2-3 秒的時間,所以在性能表現上有成數量級的進步。這也就是為什麼,這個模型可以如此成功,因為它足夠小,生成得可以足夠快。因此它能夠跑在本地的GPU 上,同時速度也更快。
所以我們需要看到,在3D 內容生成領域也需要有類似這樣的突破,通過一張照片生成一個還不錯的網格模型,現在大概需要10 分鐘左右,對想要將其嵌入創作體驗的普通用戶來說太慢了,人們想要的是能夠快速響應的創作工具。
所以我覺得我們需要專註解決這個問題。
極客公園:那視頻生成模型的技術成熟度如何?
Tom Mason:我有信心它的進展會快很多。我們已經看到一些新的採樣技術和模型架構,能大大縮短推理時間。圖像模型構成了視頻模型的核心。某種程度上,視頻模型是在圖像模型基礎上增加了時序信息,所以只要我們把圖像模型做得更小,那麼視頻模型也可以變得更高效,這是視頻領域研究比較明確的方向。
我覺得我們有挺大概率在明年年底實現視頻實時(生成)。我能看到視頻的圖像推理時間在明年很快就可以達到至少1 秒1 幀的速度,然後到年底的時候達到實時輸出的流暢度,3D 就會相對遙遠一些,這取決於技術的迭代情況。但毫無疑問,我們會與包括英偉達在內的很多公司,共同在3D 內容生成領域持續堅定地投入。
Stability AI 官網
03Stability AI是社區的一員
極客公園:你提到Stability AI堅持開源,支持了8 個開源社區,開源社區的運作是怎樣的?
Tom Mason:我們開源社區的運作模式,與Linux 以及其他大家熟悉的開源項目是類似的,唯才是用。通過Git 管理(社區成員)對代碼庫的貢獻,社區成員互相審核代碼,一旦審核通過,就可以合併到主幹。
對於我們支持的開源社區,我們資助了一些能夠帶領社區的研究人員,這也使他們能夠全職地參與到項目裡。許多從事這些項目的人都是利用業餘時間做的,又或者是在攻讀大學學位或博士學位時做的。他們中的許多人即使想全職投入項目的工作,但現實也無法讓他們做到。我們資助了一些項目核心研究人員,讓他們能夠完全把精力投入到這個項目中。
當然,我們也是在非常確定這個人是對社區至關重要的情況下才這麼做。這些人要么是在創造社區方面發揮了重要作用,要么他們能夠將社員聚集在一起,總有一部分人在組織裡不可或缺,扮演著粘合劑的角色。對於這些人,我們會去盡力地支持他們。
極客公園:StabilityAI 在社區裡扮演怎樣的角色?
Tom Mason:我認為關鍵是,我們與社區裡的其他成員並無區別。作為一家企業,我們只是社區中的一員。我們並沒有掌控它,我們只是一個貢獻者。
我想我們所有人都是這樣認為的。除此之外,我們並不想扮演其他更多的角色。作為一家企業,我們只想以積極開放的方式做出貢獻,並推動生態的改善。我想大家都很認同這一點。並且我們也希望自己能做出更多積極的貢獻。
極客公園:你們希望自己的模型能夠影響10 億人,這會怎樣發生?
Tom Mason:一個令人激動的事實是,我們正在用大量不同的語言來訓練模型。現在並沒有大規模的多語言生成模型,但多語言數據集出現後就不一樣了。
當下大家對於這項技術的認知並不多。我們看到模型覆蓋範圍的統計數據,它在全球的覆蓋範圍依然非常小。所以在未來的一兩年裡,我們將用不同的語言來訓練模型,並讓Stable Diffusion 兼容更多語言。我們希望可以與全球的合作夥伴一起,對我們而言與不同國家的機構合作非常重要。我們可以一起用不同語言訓練這些模型。
這並不需要把技術重新開發一遍,這實際上是對現有程序的重新應用。既然我們擁有了這些架構,我們就應該快速地將它們推廣出去。我們希望將整個模型培訓的過程和知識都分享出去,讓各個國家的合作夥伴和供應商都能掌握。這樣,在未來12 個月內,圖像生成或許在全球各地還會再一次掀起浪潮,視頻和音頻領域也是如此。 10 億這個數字可能還遠遠不夠,但這是我們當前的目標。
展開全文打開碳鏈價值APP 查看更多精彩資訊