Sora湧現:OpenAI又一次暴力美學的勝利

作者:趙健‍‍

年前的1 月27 日,「甲子光年」參加了一場AI 生成視頻主題的沙龍,會上有一個有趣的互動:AI 視頻生成多快迎來“Midjourney 時刻”?

選項分別是半年內、一年內、1-2 年或更長。

昨天,OpenAI 公佈了準確答案:20 天。

OpenAI 昨天發布了全新的AI 生成視頻模型Sora,憑藉肉眼可見的性能優勢與長達60s 的視頻生成時長,繼文本(GPT-4)和圖像(DALL·E 3)之後,也在視頻生成領域取得了「遙遙領先」。我們距離AGI(通用人工智慧)又更近了一步。

值得一提的是,明星AI 公司Stability AI 昨天原本發布了一個新的視頻模型SVD1.1,但由於與Sora 撞車,其官方推文已被火速刪除。

AI 影片生成的領頭羊之一Runway 的聯合創始人、CEO Cristóbal Valenzuela 發推文說:“比賽開始了(game on)。”

OpenAI 昨天也發布了一份技術文檔,但無論從模型架構還是訓練方法,都未發布什麼天才級的創新技術,更多是現有技術路線的優化。

但跟一年多前橫空出世的ChatGPT 一樣,OpenAI 的秘訣都是屢試不爽的Scaling Law(縮放定律)——當視頻模型足夠“大”,就會產生智能湧現的能力。

問題在於,大模型訓練的「暴力美學」幾乎已經人盡皆知,為什麼這次又是OpenAI ?

1.數據的秘密:從token 到patch

生成影片的技術路線主要經歷了四個階段:循環網路(recurrent networks,RNN)、生成對抗網路(generative adversarial networks,GAN)、自迴歸模型(autoregressive transformers)、擴散模型(diffusion models)。

今天,領先的視訊模型大多數是擴散模型,例如Runway、Pika 等。自迴歸模型由於更好的多​​模態能力與擴展性也成為熱門的研究方向,例如Google在2023 年12 月發布的VideoPoet。

Sora 則是新的diffusion transformer 模型。從名字就可以看出,它融合了擴散模型與自迴歸模型的雙重特性。 Diffusion transformer 架構由加州大學柏克萊分校的William Peebles 與紐約大學的Saining Xie 在2023 年提出。

如何訓練這種新的模型?在技​​術文件中,OpenAI 提出了一種以patch(視覺補丁)作為視訊資料來訓練視訊模型的方式,這是從大語言模型的token 汲取的靈感。 Token 優雅地統一了文字的多種模式——程式碼、數學和各種自然語言,而patch 則統一了圖像與視訊。

OpenAI 訓練了一個網路來降低視覺資料的維度。這個網路接收原始視訊作為輸入,並輸出一個在時間和空間上都被壓縮的潛在表示(latent representation)。 Sora 在這個壓縮的潛在空間上進行訓練,並隨後產生影片。 OpenAI 還訓練了一個對應的解碼器模型,將產生的潛在表示映射回像素空間。

OpenAI 表示,過去的影像和影片生成方法通常會將影片調整大小、裁剪或修剪為標準尺寸,而這損耗了影片生成的質量,例如解析度為256×256 的4 秒影片。而將圖片與影片資料patch 化之後,無需對資料進行壓縮,就能夠對不同解析度、持續時間和長寬比的影片和影像的原始資料進行訓練。

這種資料處理方式為模型訓練帶來了兩個優勢:

第一,取樣靈活性。 Sora 可以採樣寬屏1920x1080p 視頻、垂直1080×1920 視頻以及介於兩者之間的所有視頻,直接以其原生寬高比為不同設備創建內容,並且能夠在以全分辨率生成視頻之前,快速地以較低尺寸製作原型內容。這些都使用相同的模型。

第二,改進框架與構圖。 OpenAI 根據經驗發現,以原始長寬比對影片進行訓練可以改善構圖和取景。例如,常見的將所有訓練影片裁切為正方形的模型,有時會產生僅部分可見主體的影片。相比之下,Sora 的視訊取景有所改善。

在方形作物上訓練的模型(左),Sora 的模型(右)

在語言理解層面,OpenAI 發現,對高度描述性視訊字幕進行訓練可以提高文字保真度以及影片的整體品質。

為此,OpenAI 應用了DALL·E 3 中引入的「重新字幕技術」(re-captioning technique)——首先訓練一個高度描述性的字幕生成器模型,然後使用它為訓練資料集中的影片生成文字字幕。

此外,與DALL·E 3 類似,OpenAI 也利用GPT 將簡短的使用者提示轉換為較長的詳細字幕,然後傳送到視訊模型。這使得Sora 能夠產生準確遵循用戶提示的高品質影片。

提示詞:a woman wearing blue jeans and a white t-shirt,taking a pleasant stroll in Mumbai India during a colorful festival.

除了文字生成影片之外,Sora 還支援「圖像生成影片」與「影片生成影片」。

提示詞:In an ornate, historical hall, a massive tidal wave peaks and begins to crash. Two surfers, seizing the moment, skillfully navigate the face of the wave.

此功能使Sora 能夠執行各種圖像和影片編輯任務,創建完美的循環影片、動畫靜態圖像、及時向前或向後擴展影片等。

2.計算的秘密:依舊是“暴力美學”

在Sora 的技術文件裡,OpenAI 並沒有透露模型的技術細節(馬斯克曾經抨擊OpenAI 不再像它成立時的初衷一樣「open」),而只是表達了一個核心理念——scale。

OpenAI 在2020 年首次提出了模型訓練的秘訣—Scaling Law。根據Scaling Law,模型效能會在大算力、大參數、大數據的基礎上像摩爾定律一樣持續提升,不僅適用於語言模型,也適用於多模態模型。

OpenAI 就是遵循這套「暴力美學」發現了大語言模型的湧現能力,並最終研發出劃時代的ChatGPT 。

Sora 模型也是如此,憑藉Scaling Law,它毫無預警地在2024 年2 月就打響了影片的「Midjourney 時刻」。

OpenAI 表示,transformer 在各個領域都表現出了卓越的擴展特性,包括語言建模、電腦視覺、圖像生成以及視訊生成。下圖展示了訓練過程中,在相同的樣本下,隨著訓練計算規模的增加,影片品質顯著提高。

OpenAI 發現,視訊模型在大規模訓練時表現出許多有趣的新興功能,使Sora 能夠模擬現實世界中人類、動物和環境的某些方面。這些屬性的出現對3D、物體等沒有任何明確的歸納偏差──純粹是模型縮放現象。

因此,OpenAI 將視訊生成模型,命名為「世界模擬器」(world simulators),或稱為「世界模型」——可以理解為讓機器像人類理解世界的方式一樣學習。

英偉達科學家Jim Fan 如此評論道:「如果您認為OpenAI Sora 是像DALL·E 一樣的創意玩具……再想一想。Sora 是一個數據驅動的物理引擎。它是對許多世界的模擬,無論是真實的還是幻想的。模擬器通過一些去噪和梯度數學來學習複雜的渲染、’直觀’物理、長期推理和語義基礎。”

Meta 首席科學家楊立昆(Yann LeCun)曾在2023 年6 月提出世界模型的概念。 2023 年12 月,Runway 官員宣下場通用世界模型,宣稱要用生成式AI 來模擬整個世界。

而OpenAI 僅僅透過早就熟稔於心的Scaling Law,讓Sora 具備了世界模式的能力。 OpenAI 表示:“我們的結果表明,擴展視頻生成模型是構建物理世界通用模擬器的一條有前途的途徑。”

具體來看,Sora 世界模型有三個特點:

3D 一致性。 Sora 可以產生具有動態攝影機運動的影片。隨著攝影機的移動和旋轉,人和場景元素在三維空間中一致移動。

遠程相關性和物體持久性。視訊生成系統面臨的一個重大挑戰是在採樣長視訊時保持時間一致性。 OpenAI 發現Sora 通常(儘管並非總是)能夠有效地對短期和長期依賴關係進行建模。例如,模型可以保留人、動物和物體,即使它們被遮蔽或離開框架。同樣,它可以在單個樣本中生成同一角色的多個鏡頭,並在整個影片中保持其外觀。

與世界互動。 Sora 有時可以用簡單的方式模擬影響世界狀況的動作。例如,畫家可以在畫布上留下新的筆觸,並隨著時間的推移而持續存在。

類比數位世界。 Sora 也能夠模擬人工過程——一個例子是視頻遊戲。 Sora 可以同時透過基本策略控制《我的世界》中的玩家,同時以高保真度渲染世界及其動態。這些能力可以透過提及「我的世界」的標題提示Sora 來實現零射擊。

不過,跟所有的大模型一樣,Sora 還不是一個完美的模型。 OpenAI 承認,Sora 還有許多局限性,它不能準確地模擬許多基本相互作用的物理過程,例如玻璃破碎。其他互動(例如吃食物)並不總是會產生物件狀態的正確變化。

3.算力才是核心競爭力?

為什麼OpenAI 能夠依靠「Scaling Law」屢試不爽,其他公司卻沒有呢?

我們或許能找到很多原因,例如對AGI 的信念、對科技的堅持等。但一個現實因素是,Scaling Law 需要高額的算力支出來支撐,而這正是OpenAI 比較擅長的。

如此一來,視訊模型的競爭點就有點類似語言模型,先是拼團隊的工程化調參能力,拼到最後就是拼字力。

歸根到底,這顯然又是英偉達的機會。在這一輪AI 熱潮的驅動下, 英偉達的市值已經節節攀升,一舉超越了亞馬遜與谷歌。

視訊模型的訓練會比語言模型更耗費算力。在算力全球緊縮的狀況下,OpenAI 如何解決算力問題?如果結合先前關於OpenAI 的造芯傳聞,似乎一切都順理成章了。

去年起,OpenAI CEO 薩姆·奧爾特曼(Sam Altman)就在與為代號「Tigris」的晶片製造項目籌集80 億至100 億美元的資金,希望生產出類似谷歌TPU,能與英偉達競爭的AI 晶片,來幫助OpenAI 降低運作和服務成本。

2024 年1 月,奧特曼也曾到訪韓國,會見韓國三星電子和SK 海力士高層尋求晶片領域的合作。

近期,根據外媒報道,奧爾特曼正在推動一個旨在提高全球晶片製造能力的項目,並在與包括阿聯酋政府在內的不同投資者進行談判。這項計畫籌集的資金,達到了誇張的5 兆~ 7 兆美元。

OpenAI 發言人表示:「OpenAI 就增加晶片、能源和資料中心的全球基礎設施和供應鏈進行了富有成效的討論,這對於人工智慧和相關產業至關重要。鑑於國家優先事項的重要性,我們將繼續向美國政府通報情況,並期待稍後分享更多細節。”

英偉達創始人兼CEO 黃仁勳對此略顯諷刺地回應道:「如果你認為電腦無法發展得更快,可能會得出這樣的結論:我們需要14 顆行星、 3 個星系和4 個太陽來為這一切提供燃料。但是,計算機架構其實在不斷地進步。”

到底是大模型的發展速度更快,還是算力成本的降低速度更快?它會成為百模大戰的勝負手嗎?

2024 年,答案會逐漸揭曉。

Total
0
Shares
Related Posts