西湖大學教授藍振忠:關於大模型的幾個認知

2023年9月19日,「2023上海區塊鏈國際週·第九屆區塊鏈全球高峰會」在上海開幕。西湖心辰創辦人;西湖大學教授藍振忠進行以《關於大模​​型的幾個認知》為題的現場演講。

更多資訊請點擊:《「2023上海區塊鏈國際週」精彩內容直擊(持續更新中)》

金色財經對本次會議進行全程現場追蹤報道。以下是演講內容整理。

大家早安!

今天我主要講大模型和人工智慧,後面會講一些與Web3的結合及在做的工作。

我從2007年開始做人工智慧,至今已經十幾年,從CPU時代到GPU時代,從小模型到大模型,做了很久,也做過一些比較具代表性的內容。 2019年,我在Google的時候做的大模型是世界上最好的大模型,比GPT2好很多,所以我們當時是比較看不起GPT系列的,結果現在他們做得很好。

2020年回國的時候做了第一個中文的大模型測評,算是大模型的深度參與者,現在有一個實驗室和公司都在做大模型相關的研究。

過去,我很少回看大模型的發展史,也很少進行深度思考。直到ChatGPT火了,大家來問我各種問題,我總結一下大概有幾個問題:

一是大家希望模型越來越大還是越來越小?

二是現在都在講通用大模型,那麼到底是通用大模型有機會,還是產業大模型有機會?

三是我應該投資英偉達還是投資大模型公司、應用公司?

四是對大眾來說,大模型如何改變我的工作?我應該如何選擇職業。

這些問題讓我們回顧過往歷史,我主要呈現一些過去的數據,希望給大家參考。

首先,第一個問題,大模型會不會越來越大?拉長歷史,從一九五幾年電腦剛開始發展的時候,其實模型是變得越來越大的,一直在變大。可以說,模型變大基本上是模型變智能的第一要素,所以模型會變得越來越大。

一直到2018年,我們發現一種方法可以使得模型急劇膨脹,現在膨脹得非常快,從2018年到2021年初,基本上每18個月漲了幾百倍,現在速度慢下來了,但也在快速膨脹。

(如圖)這張圖是GPT4的圖,縱軸講的是智能程度,越往下智能程度越高,橫軸講的是模型大小、訓練多少。隨著模型變大、訓練變多,智能程度越來越高。綠色的點是GPT4,在那個點上,仍然有斜率,仍然會往下降。所以可以預見的是當你把模型放得更大,它仍然能變得更有智慧。人類總是追求極限,我們一定會把它放大。

只是現在大家擔心的問題是GPT4已經是萬億級模型了,推理成本特別貴,訓練又特別貴,放大到底有沒有用?

再看另外一個數據我們就知道這種擔心不太必要,因為訓練和推理成本是在急劇下降的。 2020年GPT3訓練出來的時候,單次訓練成本是400萬美金。 2022年已經降到40萬美金了,成本降低的速度是非常快的。

主要來自於幾方面:

一是GPU performance(GPU效能)急遽上升和成本下降,是遠超摩爾定律的。從2016年到2022年,按摩爾定律CPU的performance提升8倍,GPU提升26倍,提升非常明顯。

二是軟體上的提升,隨著軟體帶來的訓練效率提升,大概每年訓練成本降低47%,兩者疊加起來是非常可怕的下降,一個是硬件,一個是軟體。

三是我們在大規模地舖算力,在ChatGPT沒有出來之前,大概每年全球算力提升20%-40%之間,ChatGPT出來之後算力提升可能是翻倍的。當你的算力大規模提升,GPU大量生產的時候,營運成本也在下降。綜合下來,訓練和推理的成本在急劇下降,所以可以看到兩年降了10倍的速度。

接下來過幾年,像GPT4這樣的萬億級模型會變得相對便宜,大家都可以用起來。

總結一下,我預測模型會持續變大,而且能力會持續變強,訓練和推理成本會持續下降,而且迭代速度會很快。

(如圖)這張圖講的是GPT1,我當時還不怎麼看得起的GPT1,現在回看我犯了一個很大的錯誤,GPT1做了非常大的貢獻,把人工智慧從專用人工智慧轉變為通用人工智慧。

自然語言處理任務以前有幾百個,每個任務會設計各種模型,所以有大量論文。但GPT1出來以後說你們別用各種模型了,我用單一模型把你們大部分(任務)給處理掉了。

後面一篇文章是我當時在Google的同事的文章,把各種任務整合在同樣的模型裡,所以這波主要的貢獻在於通用性,通用不只體現在文本上,還體現在圖片、聲音、蛋白質序列等各種資料上,只要能把資料轉換成序列,基本上都能處理。

把圖片切成很多塊拉長了,就是現在Transformer(轉換器)模型可以處理的任務,基本上可以涵蓋各種各樣的任務,通用性非常強。

雖然現在大模型無法處理很多複雜任務,但你只要稍微幫他做一點點,只要稍微把任務分解一點點就能做了。雖然大家覺得GPT4很強,但直接做24點的準確度是7.3%,但如果稍微分解一下,就能提高到74%,很多看似複雜的任務,如果有專業人士幫他拆解的話,現在的GPT系列模型或通用大模型可以幫你解決很多任務,做到自動化。

一個是模型會變大,一個是通用性稍微拆解一下就會解決很多複雜人物,所以落地性非常強。在國外有很多已經落地成功的,像Duolingo是匹茲堡的一家公司,2023年第一季營收成長42%,因為加入了ChatGPT的應用。

現在很多程式設計師都在用Copilot ,OpenAI今年的營收估計能達到12億美金,這對一家新創公司來說是非常不容易的營收規模。

這波人工智慧和之前的不同在於替代了腦力勞動工作者,右邊的圖展示的是在沒有這波通用人工智慧之前各個行業的智慧程度(自動化程度),最下是沒有學位的,隨後是從Master到PHD,越往上可替代化的程度越來越低。現在不同了,通用人工智慧出來之後,腦力勞動工作者也很容易被取代掉。

總結一下,大模型的落地會比我們想像的快,當然比很多金融工作者想像的要慢一些,因為股市的反應總是比技術快的,起碼比我們想像的要快一些,而且能賦能各行各業。你要拆解各個任務是有難度的,如果大模型公司深入到業界是有很大的機會。

現在大部分人在關注模型的智慧程度,比較少關注到模型「情緒智商」跟人互動的程度,例如我問了我愛人會問的問題,ChatGPT給了我這樣的回答,這個回答有方法但沒有情感,顯得我們跟模型的互動是冷冰冰的,缺乏對使用者的關注,這是產業發展初期的體現。

大家可以對照一下搜尋引擎,剛推出的時候個人化很少見,但是發展到現在,大家用的百度、Google都是不同的,因為會有很多資訊做個人化處理,讓搜尋更加精準,但大模型現在還做不到這一點。

也有人開做了,例如一家叫Character.ai的公司,也是我Google同事創建的,他把個人化加到模型中,能顯著提升模型與人的互動時間。 5月的數據:OpenAI平均互動時間是4分鐘,這家公司的平均互動時間是28分鐘,是幾倍的互動時長。頁面是這樣的,相當於我把大模型分成各個Capital及Agent(代理人),做到個人化的方向,更有情感,人家也願意跟他互動。大模型發展到現在,接下來人機互動會有大突破。

我們公司和實驗室主要在研究高智商、高情商的一般大模型,主要是多模態大模型。過去為了提升模型情緒智商,做了一系列加強記憶、加強個人化、加強情感感知的能力。

模型推出比較早,因為我很早就在Google做通用大模型了,2020年中ChatGPT出來之前我們就有自己的通用大模型,當時模型的寫作能力和3.5是齊平的,做了substantial profession。

上線一年多,有200多位C端用戶,包括星巴克、支付寶在內的100多家B端用戶。

其中比較典型的應用是跟湯姆貓的合作,湯姆貓是陪伴類產品,在全球有4億月活,之前主要是複製人的說話,透過變聲把話複製出來。我們把它加上多模態的互動能力、對話能力。

下面回到跟大會相關的Web3,這是我的粗淺認識,我認為大模型和Web3分別對應生產力跟生產關係,大模型極大地提升了生產力水平,但是它要發揮好的話肯定要有相應的生產關係去匹配。我總結下來,大模型落地現在有幾個問題:

一是訓練成本非常高,新創公司沒有把模型開源出來的incentive(激勵),花幾百萬美金訓練的模型開源出來,但之後就跟我無關了,他很難開源。但開源對模型非常重要,現在模型很多是黑盒的,很多研究機構負擔不起自己訓練模型的費用,如果大家都在訓練,那大家都在重複造輪子,所以開源非常重要,但需要相應的激勵機制。

二是推理成本高,現在GPT4單一對話的推理成本是6毛錢,比我講話貴多了,推理成本非常高,落地非常困難。 GPT4可以用在很多地方,但是成本負擔不起。

第三是數據敏感,之前三星數據被OpenAI洩漏鬧得沸沸揚揚,我們現在上傳到大模型的數據都是敏感數據,很多公司不願意把自己的數據上傳上去,如何處理這些問題?希望Web3可以幫我們解決這些問題。

剛才聽曹老師講還有很多困難,但我們希望透過研究可以幫忙解決這些問題,比如我們有一條公鏈,大家可以上傳開源的模型,即使你開源出來上到公鏈上也有相應的激勵機制,比如說用戶上傳數據,如果能允許我們訓練的話,也有相應的激勵。

還有計算問題,現在每個人手機上都有非常強大的顯示卡,如果每個人手機都可以貢獻出來做推理,那我們可以把推理成本降低非常多。希望透過Web3力量能真正實現我們的理想,希望大模型能賦能各行各業,陪伴每個人,真正成為每個人的助理或伴侶。

謝謝大家!

Total
0
Shares
Related Posts