微軟不想被OpenAI架空


扎克伯格同學最近心情很不錯。

與馬斯克在線激情互噴垃圾話後,對標“元宇宙版推特”的Threads僅用了不到五天的時間完成了1個億用戶的增持,成為了全球用戶總數破億速度最快的新社交平台。 Threads,成為小扎打在馬斯克臉上的一擊力拳。

但商場的拳台上沒有裁判叫停,扎克伯格說Threads的用戶規模目標是10億。而只有達到10億目標以後,Meta才會認真考慮Threads賺錢的問題。這一數字相當於推特目前規模的兩倍。

扎克是認真的。無論是反感馬斯克版推特的憤怒用戶,還是Meta帝國多年沈淀下的龐大商業機構關係網,都在極短的時間內湧入了Threads平台。而在無數游牧遷徙的用戶中,夾雜著一個矽谷最有權勢的光頭——微軟首席執行官薩蒂亞·納德拉(Satya Nadella)。

納德拉過去是尊貴的推特藍V,擁有307萬的用戶,每天像AI一樣毫無感情地轉推各種微軟的新聞公關稿。不過這次他專門註冊了一個Threads賬號,熱情洋溢地宣布了微軟將與Meta的“大模型婚姻”:

微軟雲Azure將幫Meta訓練和推廣Llama大模型,而Llama也將上線Azure庫和適配Windows系統。

而如雙方官宣文件所言,Azure從設備、硬件和軟件(facility, hardware and software)層面進行了針對性的設計,從而支持世界領先的AI訓練。而在本次合作後,Llama的開發者則可以利用Azure AI的工具進行訓練、微調、推理和安全方面的功能開發。

巨頭之間的雲合作屢見不鮮。但全世界都知道,Azure可是OpenAI的御用雲平台。

在2019年微軟掏出10億美元投資OpenAI後,Azure就一直是OpenAI的獨家云服務商。而Azure為了更好地為大模型提供算力和對外服務,重新進行了部分架構設計。甚至在一些觀察者眼中,當年微軟拍板投資OpenAI的核心原因,其實就是Azure的發展——

畢竟彼時Transformer還沒有完全驗證,但微軟已經多年下注AI並開始將雲業務的未來願景視作是“為AI服務的超級計算設施”。無論是算力支持,還是OpenAI開放全球的chatbot測試,Azure都功不可沒。

Altman本人甚至還曾經專門發推對Azure團隊的給力支持表示感謝,高度評價微軟是“世界上最好的AI基礎設施”。

如今Sam前腳剛燒了兩炷香,納德拉轉手就把這個“世界上最好的AI基礎設施”租給了扎克伯格。

不知道倆人是不是提前商量好的。又或許對納德拉來說,這大概都是計劃的一部分。總之扎克伯格表現得很高興。

在扎克伯格的Instagram賬號裡,他貼出了一張與納德拉的親密合影以“感謝納德拉”,扎克伯格表示:

“(Meta)將Llama2開源給了微軟,而(這次開源)將成為下一代大模型建設工作的基礎。”

微軟與Meta的確是相互需要的。

Meta正在走向大模型的“深水區”,在70B參數的Llama2已經達到了GPT3.0的水平,幾乎已經成為了目前口碑最好的大模型底座。對於閉源大模型陣營來說,Llama2成功帶來的壓力一點不亞於Threads對於Twitter的震懾。

閉源公司花幾千萬搞不出來的東西,開源社區可以直接用,相當於將未來全球開源大模型社區的起跑線提升到了3.0的水平。

最近登頂HuggingFace開源大模型榜單的Stability的Freewilly大模型,被認為接近3.5的水平,正是基於Llama2.0調教優化後的產品。

對於Meta來說,參數規模的提升帶來計算量的攀升、模型的逐步成熟也讓看到更好的商用潛質。但如果要戰勝這些困難、落實這些潛力,扎克伯格需要一個更高效的合作夥伴。而那些Azure已經有的、但Meta沒有的東西,對於Llama來說就顯得更重要了,比如Azure的算力經驗、Azure的AI工具箱、以及Azure的雲本身……

Meta是為數不多沒有公有云服務的互聯網巨頭。

在過去,Meta與亞馬遜都互為對方的超級大客戶,包括Meta的一些AI研發算力,也都是採購的AWS。而微軟這次撬牆角的方案,除了開放Windows場景以外,還開放了Azure的企業渠道能力,將Llama2加入到自己的產品名錄中。

Azure雖然在整體市場份額中依然落後AWS,但是在SaaS銷售領域卻顯著領先於同類競爭對手。而隨著雲與SaaS的融合,微軟在渠道層面有顯著的差異化優勢。通過Azure,Meta和它的生態追隨者們可以直接通過雲端來銷售和使用Llama2的產品。

對於微軟來說,大模型的挑戰則更加多元的。

微軟過去在大模型應用層面幾乎是all in OpenAI的產品。無論是最早接入的Bing,還是基於Windows生態的Copilot\面向開發者的工俱生態AI Studio、甚至是新的AI雲服務品牌OpenAI Azure,背後都是OpenAI的影子。

OpenAI是全球最好的大模型公司,Windows依然是全球最重要的生產力軟件生態。但在大模型全球軍備競賽中,這兩者的結合併不意味著絕對的勝券在握。

與Meta和微軟結合幾乎同時“官宣”的,則是蘋果的大模型計劃。

據海外媒體報導,蘋果已經完成了名為“Ajax”的大預言模型基礎框架,將開發類似ChatGPT的對話式AI。而消費級產品的推出時間則計劃在明年發布。

蘋果的入場被認為是矽谷大模型競賽中的重要變量。

相比於公有云之類的互聯網風口,AI是被蘋果管理層高度認可的科技方向,近期管理層口風也有朝著AI加碼的趨勢。

除了長期關注AI科技外,蘋果是全球最有錢、最有場景的公司。蘋果每年淨利潤接近1000億美元、經營淨現金流超過1200億美元,相當於微軟與Meta的總和。蘋果生態已經超過微軟成為全球最大的封閉操作系統,活躍設備數量超過20億,而微軟只有15億。

而相比於賬面實力外,蘋果更具想像力的是它的半導體能力。它或許是全球參與大模型競賽的科技企業中,為數不多將來可以不用外採GPU與CPU的廠商。不僅如此,蘋果的芯片效率似乎更有想像力。

在2023年WWDC上,蘋果推出的M2 Ultra芯片。相比於普通廠商CPU、GPU分離的部署方式,M2 Ultra統一內存架構以及隨之帶來的超高內存帶寬,甚至可以讓開發者在一張卡上就能跑大模型。

儘管類似的消費級芯片還無法和英偉達的專業芯片相媲美,但類似小秀肌肉,也讓外界對蘋果未來的GPU算力延展能力產生了興趣。

以OpenAI為例,外界預估其大概同時動用了兩萬張顯卡進行計算。但王小川近期對媒體表示,OpenAI正在測試1000萬張顯卡同時計算的模型,相當於英偉達目前10年的產能,“完全是登月計劃(級別)”。

除了蘋果以外,微軟、谷歌、Meta、亞馬遜等巨頭都有自研AI芯片的計劃,但已經有頂尖半導體開發能力的蘋果依然是最有資格“大力出奇蹟”的人。

Apple將兩枚M2 Max 的芯片連接在一起打造出M2 Ultra

谷歌兇猛、蘋果虎視眈眈,微軟和Meta選擇結盟。

對於納德拉來說,與Meta隊形站位可以讓微軟在大模型的生態戰爭中更加穩固。

首先,微軟依然需要開源,開源在未來的大模型競爭中將持續扮演重要的角色。

開源天然具有人才參與眾多、迭代速度快、垂類覆蓋效率更高的生態能力。雖然OpenAI拿下頭籌,但開源社區的進步速度依然很可觀。比如Llama只用了大半年的時間、使用參數70B,已經趕上了175B、耗時2年的GPT3。

尤其是如果未來開源路線成為了行業解決方案的主流,Llama與Azure深度結合,或許真的可以幫助微軟雲業務完成對AWS的彎道超車(2022年底Azure市佔率23%、AWS為32%)。畢竟相比於Windows和Office,Azure才是微軟最賺錢、最有潛力的業務。

其次,開源大模型的不斷發展,必然讓願意砸錢做封閉系統的廠家也自然會越來越少。

比如Bard在Llama2之後就受到了不小的壓力。除了許多好事者在晚上討論bard未來長期發展的壓力外,有媒體報導稱谷歌內部人士也曾撰文稱bard在對抗開源社區時優點吃力,後者進步神速且成本更少、場景更豐富。

在大模型超級投入的產業結構沒有變化的情況下,封閉式大模型依然會有其存在的合理性,但可能將僅僅限於極少數領先者,而其中大概率會有OpenAI。

如果OpenAI有護城河,那它的名字可能叫Llama2。

圖源:valasys

當然,OpenAI其實也並不是微軟的“親兒子”。

在100億美元投資後,微軟雖然擁有75%的分紅權,但實際上也只佔有OpenAI 49%的股權。換言之,微軟雖然手握大量的OpenAI資源,但並不完全擁有OpenAI絕對的控制權。

但與llama合作像是一個標誌,手握OpenAI的微軟其實正在成為遊戲規則的製定者:

它既有最具潛力的AI基礎設施Azure,也有最前沿的商業化變現接口Windows copilot。而當最核心的基礎設施和渠道能力在微軟手上時,OpenAI也只是微軟的“超級程序員”。

當Meta等平台成熟後,微軟可以再引入更多的“程序員”,甚至開放更多的系統級場景給開源生態、從而讓Windows系統的生產力進一步提升。

實際上,OpenAI原本就只是納德拉重註AI和語言大模型的一個選項。

在ChatGPT之前,微軟甚至和英偉達合作開發過5300億參數的大語言模型威震天-圖靈Megatron-Turing,是當年最大的基於transformer的模型,參數比GPT3多了好幾倍,講究的是絕對的大力出奇蹟。

可最後威震天還是輸給了奧特曼,於是威震天才選擇了買下奧特曼。

但微軟內部其實一直沒有放棄大模型的相關技術路線開發。

例如6月時,微軟就發布了13億參數的“小型”大語言模型phi-1。有OpenAI作為核心資產,微軟不走“大力奇蹟”模式,而是改用號稱“教科書等級”的高品質資料集訓練模型,讓實際效果勝於千億參數的GPT 3.5。7月時,微軟還提出了新的大模型架構RetNet,稱其可以在更大數據維度基礎上,比transformer更優。

圖源:arxiv.org

大模型的戰事還遠沒到中場,威震天與奧特曼們的遊戲或許才剛剛開始。

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts