一類強大的新型語言模型正在使機器有可能以可信的、甚至有時是超人類的結果來書寫、編碼、繪畫和創造。
原文標題:《Generative AI: A Creative New World》
撰文:SEQUOIA
編譯:Evelyn W3.Hitchhiker
人類善於分析事物。但機器可能做的更好。機器可以分析一組數據,並在其中找到模式,用於多種用途,無論是欺詐或是垃圾郵件的檢測,預測你的快遞的ETA,還是預測下一步該給你看哪個TikTok 視頻,等待。它們在這些工作上變得越來越聰明。這樣的機器被稱為「分析型AI」,或傳統AI。
但人類不僅擅長分析事物,也擅長創造。我們寫詩、設計產品、製作遊戲以及編寫代碼。直到最近,機器還沒有機會在創造性工作方面與人類競爭(因為它們的行為被歸為分析和死記硬背的認知勞動)。但是,機器才剛剛開始善於創造有意義和美麗的東西。這一新類別被稱為「生成型AI」,意味著機器正在生成新的東西,而不是分析已經存在的東西。
生成型AI 正在不斷改變,不僅只是更快、更便宜,同時也在某些情況下創造的東西可能比人類手工創造的更好。每一個需要人類創造原創作品的行業(從社交媒體到遊戲,從廣告到建築,從編碼到平面設計,從產品設計到法律,從營銷到銷售)都有可能被它們重新來過。某些功能可能會被生成型AI 完全取代,而其他功能則更有可能在人類和機器之間緊密的迭代創造週期中茁壯成長,但生成型AI 應該在廣泛的終端市場中釋放出更好、更快、更便宜的創造力。我們對此的夢想是,生成型AI 將創造和知識工作的邊際成本降至零,產生巨大的勞動生產率和經濟價值,以及相應的市場容量。
生成型AI 所涉及的領域(知識工作和創造性工作)覆蓋著數十億的工人。生成型AI 可以使這些工人的效率和/ 或創造性至少提高10%:他們不僅變得更快、更有效,而且比以前有更強的能力。因此,生成型AI 有可能產生數万億美元的經濟價值。
為什麼是現在?
生成型AI 與更廣泛的AI 都有著相同的「為什麼是現在」的疑慮:更好的模型,更多的數據,更大的計算。這個類別的變化比我們所能捕捉到的要快,但也值得我們來概括性地回顧一下最近的歷史,以便把當前的時刻也放在背景中。
浪潮1:小型模型至上(2015 年之前)
5 年多以前,小型模型被認為是理解語言的「最先進的技術」。這些小型模型擅長分析任務,並被部署在從預測交付時間到欺詐分類的工作中。然而,對於普遍的生成任務來說,它們的表達能力還不夠強。生成人類水平的寫作或代碼仍然只能是一個夢想。
浪潮2:規模競賽(2015 – 今天)
谷歌研究院有一篇里程碑式的論文(Attention is All You Need),描述了一種用於自然語言理解的新型神經網絡架構,稱為transformers,它不僅可以生成質量上乘的語言模型,同時還具有更高的可並行性,需要的訓練時間也大大減少。這些模型是少數的學習者,因此可以相對容易地針對特定領域進行定制。
(隨著AI 模型逐漸變大,它們已經開始超越人類的主要性能基準。SOURCES: © THE ECONOMIST NEWSPAPER LIMITED, LONDON, JUNE 11TH 2022. ALL RIGHTS RESERVED; SCIENCE.ORG/CONTENT/ARTICLE/COMPUTERS-ACE-IQ-TESTS-STILL-MAKE-DUMB-MISTAKES-CAN-DIFFERENT-TESTS-HELP)
當然,隨著模型越來越大,它們開始提供與人類相當的水平能力,然後是超人類的成果。從2015 年到2020 年,用於訓練這些模型的計算量增加了6 個數量級,其成果在手寫、語音和圖像識別、閱讀理解和語言理解方面超過了人類性能的基準。 OpenAI 的GPT-3 脫穎而出:該模型的性能不僅比GPT-2 有了巨大的飛躍,並且在他們提供的充滿吸引力的Twitter 演示中也能看出,不管是在代碼生成還是冷笑話寫作等任務上,它的表現都令人大開眼界。
儘管所有的基礎研究都取得了進展,但這些模型並未得到普遍應用。它們體積龐大,難以運行(需要GPU 協調),不能廣泛使用(不可公用或僅有封閉測試版),而且作為雲服務使用的費用昂貴。儘管有這些限制,但最初的生成型AI 應用也開始進入「戰場」。
浪潮3:更好、更快、更便宜(2022 +)
計算變得更便宜。新技術,如擴散模型,縮減了訓練和運行推理所需的成本。研究界也在繼續開發更好的算法和更大的模型。同時開發者的權限也從封閉測試版擴大到開放測試版,甚至在某些情況下,還開放了源代碼。
對於那些一直對大型語言模型(LLM)的使用較少的開發者來說,那麼現在就是探索和應用開發的閘門大大開放的時候,各色應用也開始綻放。
(用midjourney 生成的插圖)
浪潮4:殺手級應用的出現(現在)
隨著平台層開始鞏固,模型繼續變得更好、更快、更便宜,以及模型的訪問/ 使用趨向於免費和開源,應用層的創造力爆發的時機已經成熟。
正如移動通信通過GPS、相機和隨身連接等新功能催生出了新類型的應用,我們預計這些大型模型將激勵新一波生成型AI 應用的誕生。正如十年前移動通信的拐點為少數幾個殺手級應用創造了一個市場缺口一樣,我們預計殺手級應用也將出現在生成型AI 當中。如今,比賽正在激烈進行當中。
市場格局
下面是一個示意圖,描述了將為每個類別提供動力的平台層,以及將建立在其上的潛在應用類型。
模型
- 文本:文本是最先進的領域。然而,語言表達自然流利卻是很難做好的,而且質量也很重要。今天,這些模型在普遍的短篇/ 中篇寫作方面還算不錯(但即便如此,它們通常也被用於迭代完善或生成初稿)。隨著時間的推移,隨著模型變得更好,我們應該期望看到更高質量以及更長篇的內容輸出,除此外,針對各垂直領域能夠更好的進行優化調整。
- 代碼生成:如GitHub CoPilot 所示,代碼生成很可能在短期內對開發者的生產力產生很大影響。它也將使非開發者更容易獲得對代碼的創造性使用。
- 圖像:圖像是一個較新的現象,但它們已經開始像病毒一樣的瘋狂傳播:在Twitter 上分享生成的圖像比文字要有趣得多。我們也看到許多具有不同審美風格的圖像模型的出現,以及編輯和修改生成圖像的不同技術。
- 語音合成:語音合成已經存在了一段時間(比如:你好,Siri!),但消費者和企業應用才剛剛起步。對於像電影和播客這樣的高端應用來說,要想一次性獲得聽起來不那麼機械的人類質量的語音,其標準是相當高的。但就像圖像一樣,今天的模型為進一步完善或為實用性應用的最終輸出提供了一個起點。
- 視頻和3D 模型:視頻3D 模型領域正在迅速崛起。人們對這些模型在這一創意市場中具有的無限潛力而感到興奮,如電影、遊戲、VR、建築和物理產品設計。研究機構也正在發布基礎的3D 和視頻模型。
- 其他領域:許多領域都在進行基礎模型的研發,從音頻和音樂到生物和化學(任何人都可以生成蛋白質和分子?)
下面的圖表說明了我們可能期望看到的基礎模型的進展和相關的應用成為可能的時間表。 2025 年及以後只是一個猜測。
應用
以下文字描述的是一些令我們感到興奮的應用場景。這一頁上的應用遠比我們所記錄的要多,我們對創始人和開發者所夢想的創造性應用感到興奮。
- 文案寫作:對個性化網絡和電子郵件內容的需求日益增長,進一步促進銷售和營銷策略以及客戶支持,這些都是語言模型的完美應用。簡短的形式和風格化的言語,加上這些團隊的時間和成本壓力,應該推動對自動化和增強型解決方案的需求。
- 垂直特定領域的寫作助手:今天的大多數寫作助手是橫向的;我們相信有機會為特定的終端市場建立更好的生成型應用,從法律合同寫作到編劇。這裡的產品差異化在於對特定工作流程的模型和用戶體驗模式進行微調。
- 代碼生成:目前的應用為開發者提供了極大的動力,使他們的工作效率大大提升。 GitHub Copilot 現在在安裝它的項目中生成了近40% 的代碼。但更大的機會可能是為普通消費者打開了編碼的通道。提示學習(Learning to prompt)可能成為最終的高級編程語言。
- 藝術生成:整個世界的藝術史和流行文化現在被編碼在這些大型模型中,允許任何人隨意探索以前需要用一生才能掌握的主題和風格。
- 遊戲:理想的模式是使用自然語言來創建複雜的場景或可操縱的模型;這種最終狀態可能還很遙遠,但有一些更直接的選擇在短期內更可操作,如生成紋理和天空盒(skybox)藝術。
- 媒體/ 廣告:想像一下將代理工作自動化的潛力,並為消費者優化廣告文案和創意。在這裡,多模式生成的機會很大,可以將銷售信息與互補的視覺效果配對。
- 設計:數字和實物產品的原型設計是一個勞動密集型且不斷反复的過程。從粗略的草圖和文字提示中來實現高保真渲染圖已經成為現實。隨著3-D 模型的出現,生成設計的過程將朝著製造和生產(從文字到物體)方向延伸。在未來,你的下一個iPhone 應用或運動鞋可能是由機器設計的。
- 社會媒體和數字社區:是否會有人借助AI 生成的新方式來自我表達呢?像Midjourney 這樣的新應用正在創造新的社交體驗,因為消費者能夠學習使用這項工具在公共場合進行創作和表達。
(用midjourney 生成的插圖)
生成型AI 應用的剖析
生成型AI 應用會是什麼樣子?這裡有一些預測。
智能化和模型微調
生成型AI 應用是建立在GPT-3 或Stable Diffusion 等大型模型之上的。隨著這些應用不斷獲得更多的用戶數據,他們可以對模型進行微調,從而:1)為他們的特定問題領域提高模型質量/ 性能;2)減少模型尺寸/ 成本。
我們可以把生成型AI 應用看作是一個UI 層和「小腦」,它位於大型通用AI 模型這個「大腦」之上。
形式因素
今天,生成型AI 應用程序在很大程度上是作為現有軟件生態系統的插件存在的。代碼完成運行在你的IDE 中;圖像生成發生在Figma 或Photoshop 中;甚至Discord 機器人也是將生成型AI 注入數字/ 社交社區的一個理想容器。
還有少數獨立的生成型AI 網絡應用,如用於文案寫作的Jasper 和Copy.ai,用於視頻編輯的Runway,以及用於筆記的Mem。
插件可能是一個有效的楔子,一方面可以引導你使用自己的應用程序而不需要引入新的應用,另一方面它也以一種聰明的方式來避免了用戶數據和模型質量的雞和蛋的問題(你需要獲得足夠的使用量數據來改善你的模型;你需要好的模型來吸引用戶)。我們已經看到這種分銷策略在其他市場類別中得到了回報,如消費者/ 社會。
交互範式
今天,大多數生成型AI 演示都是「一勞永逸」的:你提供一個輸入,機器吐出一個輸出,你可以保留它,或者把它扔掉再試。越來越多的模型在不斷迭代,也在變得更加強大,未來,你可以對輸出的作品進行修改、完善、提升和產生變化等操作。
今天,生成型AI 的產出能力被用作生產原型或初稿。應用程序很擅長吐出多個不同的想法,讓人們的創意過程也得以進行(例如,標誌或建築設計的不同選項),它們也很擅長提出需要用戶微調才能達到最終狀態的初稿(例如,博客文章或代碼自動完成)。隨著模型變得更加智能,其中部分也需要依靠用戶數據,我們可以期待這些初稿會變得越來越好,直到它們好到可以作為最終產品使用。
持續的類別領先
最好的生成型AI 公司可以通過在用戶參與、更多數據和模型性能之間的飛輪而產生持續的競爭優勢。要想獲勝,團隊必須通過以下方式讓這個飛輪運轉起來:1)擁有卓越的用戶參與度→ 2)將更多的用戶參與度轉化為更好的模型性能(提示改進、模型微調、用戶行為作為標記的訓練數據)→ 3)利用優秀的模型性能來推動更多的用戶增長和留存。他們可能會進入特定的問題領域(例如,代碼、設計、遊戲)來發展,而不是試圖成為覆蓋所有人的一切。他們可能會首先深入整合到目前人們的應用程序中,從而實現分發和利用自己的程序,然後嘗試用AI 原生工作流程取代現有的應用程序。用正確的方式建立這些應用程序來積累用戶和數據需要時間,但我們相信最好的應用程序將是持久的,並有機會成為大規模的。
障礙和風險
儘管生成型AI 潛力無限,但在商業模式和技術方面仍有許多問題需要解決。有關版權、信任、安全以及成本等重要問題還遠未解決。
開闊視野
生成型AI 仍然是非常早期的。平台層剛剛有了起色,而且應用空間也剛剛開始起步。
說白了,我們不需要大型語言模型的生成型AI 來寫一部托爾斯泰的小說。這些模型今天已經足夠好,可以寫出博客文章的初稿,並生成標識和產品界面的原型。有大量的價值創造將在近期至中期內發生。
第一波生成型AI 應用類似於iPhone 剛問世時的移動應用景觀(有些噱頭和單薄,競爭差異化和商業模式不明確)。然而,這些應用中有一些提供了對未來可能出現的有趣一瞥,讓我們有了方向。一旦你看到機器產生復雜的功能代碼或出色的圖像,就很難想像未來機器不會在我們的工作和創造中發揮根本作用。
如果我們允許自己做幾十年的夢,那麼就很容易想像出這樣一個未來:生成型AI 已經深入到我們的工作、創造和娛樂中:備忘錄可以自己寫;3D 打印能打印出任何你能想像到的東西;從文字到皮克斯電影;類似Roblox 的遊戲體驗,在我們能想像出它們的時候就能快速生成豐富的世界。雖然這些體驗在今天看起來像科幻小說,但科技進步的速度是令人難以置信的,我們在幾年內從渺小的語言模型到代碼自動完成,如果我們繼續沿著這種變化的速度並遵循「大型模型摩爾定律」,那麼這些遙不可及的場景可能會變的觸手可及。
展開全文打開碳鏈價值APP 查看更多精彩資訊