大模型是不是有點太多了？

原文來源：遠川科技評測

圖片來源：由無界AI生成

上個月，AI業界爆發了一場「動物戰爭」。

一方是Meta推出的Llama（美洲駝），由於其開源的特性，歷來深受開發者社群的歡迎。 NEC（日本電機）在仔細鑽研了Llama論文和原始碼後，迅速「自主研發」出了日文版ChatGPT，幫日本解決了AI卡脖子難題。

另一方則是名為Falcon（獵鷹）的大模型。今年5月，Falcon-40B問世，力壓美洲駝登頂了「開源LLM（大語言模型）排行榜」。

該名單由開源模型社群Hugging face製作，提供了一套計算LLM能力的標準，並進行排名。排行榜基本上就是Llama和Falcon輪流刷榜。

Llama 2推出後，美洲駝家族扳回一城；可到了9月初，Falcon推出了180B版本，又一次取得了更高的排名。

Falcon以68.74分力壓Llama 2

有趣的是，「獵鷹」的開發者不是哪家科技公司，而是位於阿聯酋首都阿布達比的科技創新研究所。政府人士表示，“我們參與這個遊戲是為了顛覆核心玩家”[4]。

180B版本發布第二天，阿聯酋人工智慧部長奧馬爾就入選了《時代周刊》評選的“AI領域最具影響力的100人”；與這張中東面孔一同入選的，還有“AI教父”辛頓、OpenAI的阿爾特曼，以及李彥宏。

阿聯酋人工智慧部長

現今，AI領域早已步入了「群魔亂舞」的階段：但凡有點財力的國家和企業，或多或少都有打造「XX國版ChatGPT」的計畫。光是在海灣國家的圈子內，已不只一個玩家——8月，沙烏地阿拉伯剛剛幫國內大學購買了3000多塊H100，用於訓練LLM。

金沙江創投朱嘯虎曾在朋友圈吐槽道：「當年看不起（網路的）商業模式創新，覺得沒有壁壘：百團大戰、百車大戰、百播大戰；沒想到硬科技大模型創業，依然是百模大戰…”

說好的高難度硬科技，怎麼就搞成一國一模畝產十萬公斤了？

Transformer吞噬世界

美國的新創公司、中國的科技巨擘、中東的石油大亨能夠逐夢大模型，都得感謝那篇著名的論文：《Attention Is All You Need》。

2017年，8位谷歌的電腦科學家在這篇論文中，向全世界公開了Transformer演算法。這篇論文目前是人工智慧史上被引數量第三高的論文，Transformer的出現則扣動了此輪人工智慧熱潮的板機。

無論目前的大模型是什麼國籍，包括轟動世界的GPT系列，都是站在了Transformer的肩膀上。

在此之前，「教機器讀書」曾是個公認的學術難題。不同於圖像識別，人類在閱讀文字時，不僅會關注當前看到的詞句，更會結合上下文來理解。

例如“Transformer”一詞其實可翻譯成“變形金剛”，但本文讀者肯定不會這麼理解，因為大家都知道這不是一篇講好萊塢電影的文章。

但早年神經網路的輸入都彼此獨立，並不具備理解一大段文字、甚至整篇文章的能力，所以才會出現把「開水間」翻譯成「open water room」這種問題。

直到2014年，在Google工作、後來跳槽去了OpenAI的電腦科學家伊利亞（Ilya Sutskever）率先出了成果。他使用循環神經網路（RNN）來處理自然語言，使Google翻譯的表現迅速與競品拉開了差距。

RNN提出了“循環設計”，讓每個神經元既接受當前時刻輸入訊息，也接受上一時刻的輸入訊息，進而使神經網路具備了“結合上下文”的能力。

循環神經網絡

RNN的出現點燃了學術圈的研究熱情，日後Transformer的論文作者沙澤爾（Noam Shazeer）也一度沉迷其中。然而開發者很快就意識到，RNN有一個嚴重缺陷：

演算法使用了順序計算，它固然能解決上下文的問題，但運作效率並不高，很難處理大量的參數。

RNN的繁瑣設計，很快就讓沙澤爾感到厭煩。因此從2015年開始，沙澤爾和7位同好便著手開發RNN的替代品，其成果便是Transformer[8]。

Noam Shazeer

相較於RNN，Transformer的變革有兩點：

一是用位置編碼的方式取代了RNN的循環設計，從而實現了平行計算——這一改變大大提升了Transformer的訓練效率，從而變得能夠處理大數據，將AI推向了大模型時代；二是進一步加強了上下文的能力。

隨著Transformer一口氣解決了眾多缺陷，它漸漸發展成了NLP（自然語言處理）的唯一解，頗有種「天不生Transformer，NLP萬古如長夜」的既視感。連伊利亞都拋棄了親手捧上神壇的RNN，轉投Transformer。

換句話說，Transformer是如今所有大模型的祖師爺，因為他讓大模型從一個理論研究問題，變成了一個純粹的工程問題。

LLM技術發展樹狀圖，灰色的樹根就是Transformer[9]

2019年，OpenAI基於Transformer開發了GPT-2，一度驚艷了學術圈。作為回應，Google迅速推出了一個性能更強的AI，名叫Meena。

和GPT-2相比，Meena沒有底層演算法上的革新，只是比GPT-2多了8.5倍的訓練參數、14倍的算力。 Transformer論文作者沙澤爾對「暴力堆砌」大受震撼，當場寫了篇「Meena吞噬世界」的備忘錄。

Transformer的問世，讓學術界的底層演算法創新速度大為放緩。資料工程、算力規模、模型架構等工程要素，日漸成為AI競賽的重要勝負手，只要有點技術能力的科技公司，都能手搓一個大模型出來。

因此，電腦科學家吳恩達在史丹佛大學演講時，便提到一個觀點：「AI是一系列工具的集合，包括監督學習、無監督學習、強化學習以及現在的生成式人工智慧。所有這些都是通用技術，與電力和互聯網等其他通用技術類似。[10]」

OpenAI固然仍是LLM的風向標，但半導體分析機構Semi Analysis認為，GPT-4的競爭力源自於工程解決方案——如果開源，任何競爭對手都能迅速復現。

該分析師預計，或許用不了太久，其他大型科技公司也能打造出同等於GPT-4效能的大模型[11]。

建在玻璃上的護城河

當下，「百模大戰」已不再是修辭手法，而是客觀現實。

相關報告顯示，截止至今年7月，國內大模型數量已達130個，高於美國的114個，成功實現彎道超車，各種神話傳說已經快不夠國內科技公司取名的了[12]。

而在中美之外，一眾較為富裕的國家也初步實現了「一國一模」：除了日本與阿聯酋，還有印度政府主導的大模型Bhashini、韓國網路公司Naver打造的HyperClova X等等。

眼前這陣仗，彷彿回到了那個漫天泡沫、「鈔能力」對轟的網路拓荒時代。

如前文所說，Transformer讓大模型變成了純粹的工程問題，只要有人有錢有顯示卡，剩下的就丟給參數。但入場券雖不難搞，也不代表人人都有機會成為AI時代的BAT。

開頭提到的「動物戰爭」就是個典型案例：Falcon雖然在排名上力壓美洲駝，但很難說對Meta造成了多少衝擊。

眾所周知，企業開源自身的科學研究成果，既是為了與社會大眾分享科技的福祉，同樣也希望能調動起人民群眾的智慧。隨著各大學教授、研究機構、中小企業不斷深入使用、改進Llama，Meta可以將這些成果應用於自己的產品之中。

對開源大模型而言，活躍的開發者社群才是其核心競爭力。

而早在2015年組成AI實驗室時，Meta已定下了開源的主基調；祖克柏又是靠社群媒體生意發的家，更是深諳於「搞好群眾關係」這件事。

譬如在10月，Meta就專程搞了個「AI版創作者激勵」活動：使用Llama 2來解決教育、環境等社會問題的開發者，將有機會獲得50萬美金的資助。

時至今日，Meta的Llama系列儼然已是開源LLM的風向標。

截至10月初，Hugging face的開源LLM排行榜Top 10中，共有8個都是基於Llama 2所打造的，均使用了它的開源協定。光是在Hugging face上，使用了Llama 2開源協定的LLM已經超過了1500個[13]。

截止至10月初，Hugging face上排名第一的LLM，基於Llama 2打造

當然，像Falcon一樣提高性能也未嘗不可，但時至今日，市面上大多數LLM仍和GPT-4有著肉眼可見的性能差距。

例如前些日子，GPT-4就以4.41分的成績問鼎AgentBench測驗頭名。 AgentBench標準由清華大學與俄亥俄州立大學、加州大學柏克萊分校共同推出，用於評估LLM在多維度開放式生成環境中的推理能力和決策能力，測試內容包括了操作系統、數據庫、知識圖譜、卡牌對戰等8個不同環境的任務。

測試結果顯示，第二名的Claude僅2.77分，差距仍較明顯。至於那些聲勢浩大的開源LLM，其測驗成績多在1分上下徘徊，還不到GPT-4的1/4[14]。

AgentBench測試結果

要知道，GPT-4發佈於今年3月，這還是全球同業追趕了大半年後的成績。而造成這種差距的，是OpenAI「智商密度」極高的科學家團隊與長期研究LLM增持下來的經驗，因此可以始終遙遙領先。

也就是說，大模型的核心能力並不是參數，而是生態的建構（開源）或純粹的推理能力（閉源）。

隨著開源社群日漸活躍，各個LLM的效能可能會趨同，因為大家都在使用相似的模型架構與相似的資料集。

另一個比較直覺的難題是：除了Midjourney，好像還沒有哪個大模型能賺到錢。

價值的錨點

今年8月，一篇題為「OpenAI可能會在2024年底破產」的奇文引起了不少關注[16]。文章主旨幾乎能用一句話概括：OpenAI的燒錢速度太快了。

文中提到，自從開發ChatGPT之後，OpenAI的虧損正快速擴大，光是2022年就虧損了約5.4億美元，只能等微軟投資人買單。

文章標題雖聳人聽聞，卻也講出了一眾大模型提供者的現況：成本與收入嚴重失衡。

過於高昂的成本，導致目前靠人工智慧賺了大錢的只有英偉達，頂多再加個博通。

根據顧問公司Omdia預估，英偉達在今年第二季賣出了超30萬塊H100。這是一款AI晶片，訓練AI的效率奇高無比，全世界的科技公司、科研機構都在搶購。如果將賣出的這30萬塊H100疊在一起，其重量相當於4.5架波音747飛機[18]。

英偉達的業績也順勢起飛，年比營收暴漲854%，一度驚掉了華爾街的下巴。順帶一提，目前H100在二手市場的價格已被炒到4-5萬美金，但其物料成本僅有約3000美金出頭。

高昂的算力成本已經在某種程度上成為了產業發展的阻力。紅杉資本曾做過一筆計算：全球的科技公司每年預計將花費2000億美金，用於大模型基礎建設；相較之下，大模型每年最多只能產生750億美金的收入，中間存在著至少1250億美金的缺口[17]。

黃仁勳與H100

另外，除了Midjourney等少數個例，大部分軟體公司在付出了龐大的成本後，還沒想清楚怎麼賺錢。尤其是業界的兩位帶頭大哥——微軟和Adobe都走的有些踉蹌。

微軟和OpenAI曾合作開發了一個AI程式碼產生工具GitHub Copilot，雖然每個月要收10美元月費，但由於設施成本，微軟反而要倒虧20美元，重度用戶甚至能讓微軟每月倒貼80美元。依此推測，定價30美元的Microsoft 365 Copilot，搞不好虧的更多。

無獨有偶，剛發布了Firefly AI工具的Adobe，也迅速上線了一個配套的積分系統，防止用戶重度使用造成公司虧損。一旦有用戶使用了超過每月分配的積分，Adobe就會為服務減速。

要知道微軟和Adobe已經是業務場景清晰，擁有大量現成付費用戶的軟體巨頭。而大部分參數堆上天的大模型，最大的應用場景還是聊天。

不可否認的是，如果沒有OpenAI和ChatGPT的橫空出世，這場AI革命或許壓根不會發生；但在當下，訓練大模型所帶來的價值恐怕得打一個問號。

而且，隨著同質化競爭加劇，以及市面上的開源模型越來越多，留給單純的大模型供應商的空間或許更少。

iPhone 4的火爆不是因為45nm製程的A4處理器，而是它可以玩植物大戰殭屍和憤怒的小鳥。

大模型是不是有點太多了？

資深分析師預測Shiba INU價格將在$0.00017到$0.00032之間快速上漲

加密貨幣市場在大幣下跌時呈現混合信號

德銀：貝森特的降息觀點與美聯儲模型相悖

扎克伯格計劃再次重組Meta的人工智能業務

現在XRP錢包94%被出售，但這或許會有所不同的原因在於此

失去上漲趨勢後，比特幣攤位超過$112,000

索拉納新聞：Solana 達到100,000 TP

《社交網絡》中的不幸雙子兄弟，成功炒幣與上市

大模型是不是有點太多了？

Related Posts