OpenAI正式發布Sora 一文看懂它的文生影片功能到底強在哪?

來源:極客公園

正如外界猜測的那樣,在為期12 天直播的第三天,OpenAI 正式發布了文生視訊產品Sora。

北京時間12 月10 日凌晨兩點,Sam Altman 和幾位OpenAI 內部員工透過直播,展示了Sora 的功能和實際用例。繼今年2 月釋出影片樣片後,Sora 引發了全球人工智慧界熱潮,此後國內外人工智慧公司紛紛推出文生視訊產品。而作為這條賽道的開創者,今天Sora 終於揭開了神秘面紗。

整體來說,Sora 展示的一系列產品功能,顯示其在影片生成的品質、功能的獨創性、技術的複雜度等方面,超越了目前的文生影片產品。

在文、圖生影片的基礎功能之上,它加入了分鏡(相當於透過分鏡創作自己的故事)、用文字調整原影片、不同場景影片的融合等功能(相當於直接加特效),整個產品功能設計似乎都在讓影片更接近創作者的自我表達、幫助他們完成一個理想的鏡頭故事。

當地時間12 月9 日晚些時候,美國、以及大多數其他國家的用戶,可以訪問官網體驗Sora。它被包含在ChatGPT Plus、ChatGPT Pro 的會員訂閱中,無需額外付費。其中,Plus 能產生最多50 個進階影片、影片解析度最高達720p、長度為5 秒,而Pro 則能產生最多500 個進階影片、解析度高達1080p、時長為20 秒、還能去浮水印。

Sam Altman 介紹做Sora 有三大原因:

一是從工具性角度,OpenAI 喜歡為創意人員製作工具,這對公司的文化很重要;

二是從使用者交互角度,人工智慧系統不能只透過文字交互,也應該理解並產生視頻,幫助人類使用人工智慧。這類似於國內大模型公司談到的,「模型每擴展一次模態,用戶滲透率就會上升。」

三則是從技術角度,這對OpenAI 的AGI 路線圖至關重要,人工智慧應該學到更多關於世界的規律,這正是所謂理解物理規律的「世界模型」。

既要用科技改變世界,也要用產品促進人類創造,這就是Sora 在做的事。

01 生成影片之外,還能分鏡、加特效、無限創作

Sora 最基本的,首先是文生影片、圖生影片功能。

開啟主介面,使用者可以查看和管理所有的影片生成內容,並且切換網格視圖、清單視圖,以及建立資料夾和收藏夾,查看書籤等。研究人員稱這個主介面設計,是為了更好地幫助使用者創作故事。

在主頁面的中間底部,是Sora 的文生影片、圖生影片功能。

例如,Sam Altman 先給到文字輸入,「長毛猛獁像在沙漠中行走,廣角鏡頭拍攝」。接著,需要選擇影片的畫面比、解析度、時長(5-20​​ 秒)、以及最終產生的影片數量(最多可產生四段以供挑選)等,才能獲得產生的影片。

最終,可以看到產生的影片效果非常真實、有質感,且基本上遵照了輸入的指令。對於Sora 視訊生成效果的出色表現,或許人們是不意外的。

輸入「長毛猛獁像在沙漠中行走,廣角鏡頭拍攝」的文字後,Sora 生成了四段影片| 圖片來源:OpenAI

但此次,Sora 也發表了一系列獨有的、進階的產品功能。在極客公園看來,這些功能基本上圍繞著影片的更準確表達,也就是透過分鏡、加特效等等方式,讓人們能透過影片創作出一個自己想要的故事。

首先是故事板(storyboard),它被研究人員稱為是一種「全新的創意工具」。

從產品設計來看,它相當於按時間軸的方式,把一段故事(影片)切成了多個不同的故事卡(影片畫面)。使用者只需要設計和調整每張故事卡(視訊畫面),Sora 會自動把它們補成一段流暢的故事(影片)——這很像電影裡的分鏡、動畫的手稿,當導演畫好分鏡、一個片子就拍出來了,一個漫畫師寫好手稿、一個動畫就設計出來了。

例如研究人員設想的第一個分鏡是,「美麗的白鶴站在小溪中,擁有一條黃色的尾巴。」第二個分鏡是,「鶴將頭探入水中,並抓出一條魚」 。那他做的工作就是,分別創建這兩張故事卡(視頻幀),並在兩者之間設置大約五秒鐘的間隔。這個間隔對Sora 很重要,給了它把兩組動作連起來的發揮空間。

最終,他得到了一個完整的視頻鏡頭,「美麗的白鶴站在小溪中,它擁有一條黃色的尾巴。接著鶴將頭探入水中,並捉出一條魚。」

透過兩張故事卡(影片畫面),Sora 產生了一個完整的故事(影片) | 圖片來源:OpenAI

更奇妙的是,在這個故事板上,創作要素不只是故事卡,也可以是直接的圖片、影片。也就是說,可以將任意的圖片、影片拉到故事板上,結合故事卡,對它進行創作。

以影片為例,研究人員將上述白鶴的影片切下來導入故事板,進行了剪切,這就給影片的前方和後方留出了繼續創作的間隙,也就是說可以有新的開頭和結尾。

這帶來的想像是,故事板可以無限的創作下去。也就是說Sora 生成的20 秒視頻,可以被不斷地創造、剪切、創造……直至完全達到心目中理想的鏡頭。這個過程就像一個剪輯師、導演,透過對分鏡設計和鏡頭素材的不斷產生剪輯,慢慢剪出自己心中的片子。

和真實世界中不同,Sora 提供的素材是無限的。而和其他的文生視訊產品不同,Sora 的影片是可以修改加工的。這使得它產生的影片一定會更符合用戶心中的想像、創意。

這似乎正是Sora 這次產品的核心思維:盡可能地,讓生成的影片符合用戶心中想要的創意。

這樣可以更好理解Sora 的其他功能,例如可以透過文字直接修改影片、可以無縫融合兩段不同的影片、可以給影片改變畫風等,這相當於直接給影片加「特效」了。而一般的文生影片產品,可能需要不斷調整prompt(提示詞)、不斷重新產生影片。

透過調整文字,使用者可以直接調整影片| 圖片來源:OpenAI

Sora 能將兩個兩段影片合併為一段無縫剪輯| 圖片來源:OpenAI

總的來說,Sora 除了在生成影片上不出意料的出色表現之外,它還帶來了更獨特的影片創作產品功能,相當於為影片加分鏡、剪輯、特效。這意味著,每個人都有機會創造出自己真正想要的表達,離當導演也更近了。

「如果你帶著期望進入Sora,認為你只需要點擊一個按鈕就可以生成一部電影,那麼我認為你的期望是錯誤的。」OpenAI 研究人員說。

他表示,Sora 是一種工具,允許人們同時在多個地方、嘗試多個想法,嘗試以前完全不可能的事情,「實際上我們認為這是創作者的超級特殊延伸。」

02 服務大眾還不單獨收費,還是靠底層模型的能力

作為文生視頻賽道的開創者,Sora 的推出時間算是最晚的。對此,OpenAI 研究團隊表示,為了對Sora 進行廣泛的部署,需要找到讓模型更快、更便宜的方法。為此,研究團隊做了大量的工作。

在直播中,OpenAI 宣布推出Sora turbo,這是原始Sora 型號的新高端加速版本。它具有今年早些時候OpenAI 在“世界模擬技術”報告中談到的所有功能,此外還增加了從文字生成影片、動畫圖像和混合影片等功能。這是此次Sora 產品功能背後的技術基礎。

看起來相比文字,影片的推理成本更高,但此次OpenAI 並沒有單獨針對Sora 收費。 20 美元/月的ChatGPT Plus 會員、以及200 美元/月的ChatGPT Pro 會員,都可以使用Sora。

前者的權益包括最多50 個高級視頻、分辨率達720p,時長為5 秒,後者的權益包括最多500 個高級視頻、無限普通視頻,分辨率高達1080p、持續時間為20 秒、並且下載無水印。

不同會員對Sora 的使用額度| 圖片來源:OpenAI

Sora 對OpenAI 的意義不止於此。團隊發現,視訊模型在大規模訓練時會展現出許多有趣的新能力,使得Sora 能夠模擬現實世界中人、動物和環境的某些方面。 「我們的結果表明,擴展視頻生成模型是構建物理世界通用模擬器的一條有希望的道路。」

或許正是因此,讓Sora 盡快被大眾用起來、用數據更好地訓練世界模型,對於OpenAI 最終的AGI 夢想如此重要。

在迭代技術的路上,也順帶推動了人類的創造。

「這個版本的Sora 會犯錯誤,它並不完美,但它已經到了我們認為它將對增強人類創造力非常有用的地步。我們迫不及待地想看看世界將用它來做什麼。」締造它的OpenAI 如此說道。

Total
0
Shares
Related Posts