OpenAI正式發布Sora 一文看懂它的文生影片功能到底強在哪？

來源：極客公園

正如外界猜測的那樣，在為期12 天直播的第三天，OpenAI 正式發布了文生視訊產品Sora。

北京時間12 月10 日凌晨兩點，Sam Altman 和幾位OpenAI 內部員工透過直播，展示了Sora 的功能和實際用例。繼今年2 月釋出影片樣片後，Sora 引發了全球人工智慧界熱潮，此後國內外人工智慧公司紛紛推出文生視訊產品。而作為這條賽道的開創者，今天Sora 終於揭開了神秘面紗。

整體來說，Sora 展示的一系列產品功能，顯示其在影片生成的品質、功能的獨創性、技術的複雜度等方面，超越了目前的文生影片產品。

在文、圖生影片的基礎功能之上，它加入了分鏡（相當於透過分鏡創作自己的故事）、用文字調整原影片、不同場景影片的融合等功能（相當於直接加特效），整個產品功能設計似乎都在讓影片更接近創作者的自我表達、幫助他們完成一個理想的鏡頭故事。

當地時間12 月9 日晚些時候，美國、以及大多數其他國家的用戶，可以訪問官網體驗Sora。它被包含在ChatGPT Plus、ChatGPT Pro 的會員訂閱中，無需額外付費。其中，Plus 能產生最多50 個進階影片、影片解析度最高達720p、長度為5 秒，而Pro 則能產生最多500 個進階影片、解析度高達1080p、時長為20 秒、還能去浮水印。

Sam Altman 介紹做Sora 有三大原因：

一是從工具性角度，OpenAI 喜歡為創意人員製作工具，這對公司的文化很重要；

二是從使用者交互角度，人工智慧系統不能只透過文字交互，也應該理解並產生視頻，幫助人類使用人工智慧。這類似於國內大模型公司談到的，「模型每擴展一次模態，用戶滲透率就會上升。」

三則是從技術角度，這對OpenAI 的AGI 路線圖至關重要，人工智慧應該學到更多關於世界的規律，這正是所謂理解物理規律的「世界模型」。

既要用科技改變世界，也要用產品促進人類創造，這就是Sora 在做的事。

01 生成影片之外，還能分鏡、加特效、無限創作

Sora 最基本的，首先是文生影片、圖生影片功能。

開啟主介面，使用者可以查看和管理所有的影片生成內容，並且切換網格視圖、清單視圖，以及建立資料夾和收藏夾，查看書籤等。研究人員稱這個主介面設計，是為了更好地幫助使用者創作故事。

在主頁面的中間底部，是Sora 的文生影片、圖生影片功能。

例如，Sam Altman 先給到文字輸入，「長毛猛獁像在沙漠中行走，廣角鏡頭拍攝」。接著，需要選擇影片的畫面比、解析度、時長（5-20 秒）、以及最終產生的影片數量（最多可產生四段以供挑選）等，才能獲得產生的影片。

最終，可以看到產生的影片效果非常真實、有質感，且基本上遵照了輸入的指令。對於Sora 視訊生成效果的出色表現，或許人們是不意外的。

輸入「長毛猛獁像在沙漠中行走，廣角鏡頭拍攝」的文字後，Sora 生成了四段影片| 圖片來源：OpenAI

但此次，Sora 也發表了一系列獨有的、進階的產品功能。在極客公園看來，這些功能基本上圍繞著影片的更準確表達，也就是透過分鏡、加特效等等方式，讓人們能透過影片創作出一個自己想要的故事。

首先是故事板（storyboard），它被研究人員稱為是一種「全新的創意工具」。

從產品設計來看，它相當於按時間軸的方式，把一段故事（影片）切成了多個不同的故事卡（影片畫面)。使用者只需要設計和調整每張故事卡（視訊畫面)，Sora 會自動把它們補成一段流暢的故事（影片）——這很像電影裡的分鏡、動畫的手稿，當導演畫好分鏡、一個片子就拍出來了，一個漫畫師寫好手稿、一個動畫就設計出來了。

例如研究人員設想的第一個分鏡是，「美麗的白鶴站在小溪中，擁有一條黃色的尾巴。」第二個分鏡是，「鶴將頭探入水中，並抓出一條魚」。那他做的工作就是，分別創建這兩張故事卡（視頻幀)，並在兩者之間設置大約五秒鐘的間隔。這個間隔對Sora 很重要，給了它把兩組動作連起來的發揮空間。

最終，他得到了一個完整的視頻鏡頭，「美麗的白鶴站在小溪中，它擁有一條黃色的尾巴。接著鶴將頭探入水中，並捉出一條魚。」

透過兩張故事卡（影片畫面)，Sora 產生了一個完整的故事（影片) | 圖片來源：OpenAI

更奇妙的是，在這個故事板上，創作要素不只是故事卡，也可以是直接的圖片、影片。也就是說，可以將任意的圖片、影片拉到故事板上，結合故事卡，對它進行創作。

以影片為例，研究人員將上述白鶴的影片切下來導入故事板，進行了剪切，這就給影片的前方和後方留出了繼續創作的間隙，也就是說可以有新的開頭和結尾。

這帶來的想像是，故事板可以無限的創作下去。也就是說Sora 生成的20 秒視頻，可以被不斷地創造、剪切、創造……直至完全達到心目中理想的鏡頭。這個過程就像一個剪輯師、導演，透過對分鏡設計和鏡頭素材的不斷產生剪輯，慢慢剪出自己心中的片子。

和真實世界中不同，Sora 提供的素材是無限的。而和其他的文生視訊產品不同，Sora 的影片是可以修改加工的。這使得它產生的影片一定會更符合用戶心中的想像、創意。

這似乎正是Sora 這次產品的核心思維：盡可能地，讓生成的影片符合用戶心中想要的創意。

這樣可以更好理解Sora 的其他功能，例如可以透過文字直接修改影片、可以無縫融合兩段不同的影片、可以給影片改變畫風等，這相當於直接給影片加「特效」了。而一般的文生影片產品，可能需要不斷調整prompt（提示詞）、不斷重新產生影片。

透過調整文字，使用者可以直接調整影片| 圖片來源：OpenAI

Sora 能將兩個兩段影片合併為一段無縫剪輯| 圖片來源：OpenAI

總的來說，Sora 除了在生成影片上不出意料的出色表現之外，它還帶來了更獨特的影片創作產品功能，相當於為影片加分鏡、剪輯、特效。這意味著，每個人都有機會創造出自己真正想要的表達，離當導演也更近了。

「如果你帶著期望進入Sora，認為你只需要點擊一個按鈕就可以生成一部電影，那麼我認為你的期望是錯誤的。」OpenAI 研究人員說。

他表示，Sora 是一種工具，允許人們同時在多個地方、嘗試多個想法，嘗試以前完全不可能的事情，「實際上我們認為這是創作者的超級特殊延伸。」

02 服務大眾還不單獨收費，還是靠底層模型的能力

作為文生視頻賽道的開創者，Sora 的推出時間算是最晚的。對此，OpenAI 研究團隊表示，為了對Sora 進行廣泛的部署，需要找到讓模型更快、更便宜的方法。為此，研究團隊做了大量的工作。

在直播中，OpenAI 宣布推出Sora turbo，這是原始Sora 型號的新高端加速版本。它具有今年早些時候OpenAI 在“世界模擬技術”報告中談到的所有功能，此外還增加了從文字生成影片、動畫圖像和混合影片等功能。這是此次Sora 產品功能背後的技術基礎。

看起來相比文字，影片的推理成本更高，但此次OpenAI 並沒有單獨針對Sora 收費。 20 美元/月的ChatGPT Plus 會員、以及200 美元/月的ChatGPT Pro 會員，都可以使用Sora。

前者的權益包括最多50 個高級視頻、分辨率達720p，時長為5 秒，後者的權益包括最多500 個高級視頻、無限普通視頻，分辨率高達1080p、持續時間為20 秒、並且下載無水印。

不同會員對Sora 的使用額度｜圖片來源：OpenAI

Sora 對OpenAI 的意義不止於此。團隊發現，視訊模型在大規模訓練時會展現出許多有趣的新能力，使得Sora 能夠模擬現實世界中人、動物和環境的某些方面。「我們的結果表明，擴展視頻生成模型是構建物理世界通用模擬器的一條有希望的道路。」

或許正是因此，讓Sora 盡快被大眾用起來、用數據更好地訓練世界模型，對於OpenAI 最終的AGI 夢想如此重要。

在迭代技術的路上，也順帶推動了人類的創造。

「這個版本的Sora 會犯錯誤，它並不完美，但它已經到了我們認為它將對增強人類創造力非常有用的地步。我們迫不及待地想看看世界將用它來做什麼。」締造它的OpenAI 如此說道。

OpenAI正式發布Sora 一文看懂它的文生影片功能到底強在哪？

01 生成影片之外，還能分鏡、加特效、無限創作

02 服務大眾還不單獨收費，還是靠底層模型的能力

傑克遜霍爾會議前夕，交易員押注美聯儲激進降息

以太坊模因幣Pepeto上市時預售金額突破62億美元

社會排名情況

Google投資用於挖礦

R0AR發布節點銷售：推動第二層基礎設施的民主化，回饋社區參與

拉丁美洲加密貨幣市場在三年內大幅上漲800％，達到270億美元

資深分析師預測Shiba INU價格將在$0.00017到$0.00032之間快速上漲

加密貨幣市場在大幣下跌時呈現混合信號

OpenAI正式發布Sora 一文看懂它的文生影片功能到底強在哪？

01 生成影片之外，還能分鏡、加特效、無限創作

02 服務大眾還不單獨收費，還是靠底層模型的能力

Related Posts