GPT-4太燒錢，微軟想甩掉OpenAI？曝出Plan B：千塊GPU專訓「小模型」，開啟必應內測

來源：新智元

導讀：GPT-4太吃算力，微軟被爆內部製定了Plan B，訓練更小、成本更低的模型，進而擺脫OpenAI。

GPT-4太吃算力，連微軟也頂不住了

今年，無數場微軟AI大會上，CEO納德拉台前激動地官宣，將GPT-4、DALL·E 3整合到微軟「全家桶」。

微軟全系產品已被OpenAI的模型重塑，願景是讓AI成為每個人的生活伴侶。

然而在幕後，因GPT-4運作成本太高，微軟卻悄悄地搞起了plan B。

The Information獨家爆料稱，為了擺脫對OpenAI的依賴，由Peter Lee領導的1500人研究團隊中，一部分人轉向研發全新對話式AI。

據稱，研發的模型性能可能不如GPT-4，但參數規模小，研究成本更低，運行速度更快。

目前，微軟已經在必應聊天等產品中，開啟了內測。

不僅是微軟，包括Google在內的其他科技巨頭，正在另闢蹊徑，在AI聊天軟體和晶片兩方面節省成本。

而Llama 2宣發時微軟與Meta的合作，也不啻是一種擺脫完全依賴OpenAI的手段。

這是微軟帝國繼續向前成長、突破當前局限，注定要走的路。

更“精煉”的模型，必應先嚐鮮

今年2月，微軟正式發布新必應（New Bing），其中結合了ChatGPT和自家的普羅米修斯（Prometheus）模型。

在GPT-4公佈後，微軟緊接著宣布，GPT-4整合到必應中，將搜尋體驗帶了一個新台階。

微軟搜尋主管Mikhail Parakhin近日表示，Bing Chat目前在「創意」和「精準」模式下使用的是100%的GPT-4。

而在平衡模式下（多數用戶選擇的模式），微軟用普羅米修斯模型，以及圖靈語言模型（Turing language models）作為補充。

普羅米修斯模型是技能和技術的集合體。而圖靈模型不如GPT-4強大，旨在識別和回答簡單的問題，並將更難的問題傳遞給GPT-4。

微軟內部，已經將其手頭上的2000塊GPU中的大部分，都投入了“小模型”的訓練當中。當然，這與微軟提供給OpenAI的晶片數量相比，只能說是小巫見大巫了。

不過，這些模型可以執行比GPT-4更簡單的任務，也是微軟為破冰所做的努力。

打破OpenAI束縛

多年來，微軟與OpenAI這兩家公司，保持著千絲萬縷的聯繫。

但是，隨著ChatGPT，微軟必應等全家桶競相推出，微軟與OpenAI也開始秘密展開市場角逐戰。

儘管微軟的努力仍處於早期階段，但納德拉正帶領微軟，為自家AI產品開闢一條不完全依賴OpenAI的路。

「這終究還是要發生的」，Databricks的高階主管Naveen Rao在談到微軟內部的AI工作時說。

「微軟是一家精明的企業，當你部署產品使用GPT-4巨型模型時，他們要的是高效。這就好比說，我們並不需要一個擁有3個博士學位的人，來當電話接線員，這在經濟上是行不通的。」

然而，納德拉和研究主管Peter Lee希望在沒有OpenAI的情況下，開發出複雜的AI，這大概只是一廂情願。

自從微軟投資OpenAI後，這家巨頭的研究部門把大部分時間，都用來調整OpenAI的模型，以便使其適用微軟的產品，而不是開發自己的模型。

微軟的研究團隊，也沒有幻想自己能開發出像GPT-4這樣強大的AI。

他們清楚知道，自身沒有OpenAI的計算資源，也沒有大量的人類審查員來回饋LLM回答的問題，以便工程師可以改進模型。

過去一年裡，隨著幾波研究人員的離職，包括一些轉入微軟內部的產品團隊，研究部門的人才也不斷流失。

對微軟本身來說，在沒有OpenAI幫助的情況下，開發高品質的LLM，可以在未來幾年，兩家公司討論續簽合作關係時贏得更多談判籌碼。

微軟AI研究主管Peter Lee

目前，兩者交易對雙方都有好處。

微軟投資OpenAI一百多億美元，作為回報，能夠在微軟產品中永久使用OpenAI 現有智慧財產權的獨家權利。

此外，微軟還將獲得OpenAI 75%的理論營運收益，直到其初始投資償還為止，並將獲得利潤的49%，直到達到一定上限為止。

現在，微軟希望透過與OpenAI，以及其他AI企業的現有聯盟，在一個不確定的時期內增加至少100億美元的新收入。

Oﬃce 365全家桶在得到GPT-4能力加持，已經出現了早期的收入成長跡象。

微軟也在7月表示，已有超過2.7萬家公司為程式碼編寫工具GitHub Copilot付費了。

Statista統計，2023年除了微軟雲端服務比例最大，加速生產力商業流程的軟體產品收入佔比也逐漸增加。

然鵝，諷刺的是，微軟與OpenAI的交易條款，也間接幫助微軟努力擺脫對OpenAI的依賴。

當使用者使用必應時，微軟可以存取OpenAI模型輸出的結果。

目前，微軟正在利用這些數據，創建更「精煉」的模型。內部研究人員的研究結果表明，這些模型可以用更少的計算資源產生類似的結果。

「小模型」的探索

在OpenAI的陰影下度過一年後，微軟的一些研究人員找到了全新的目標——製造一個模仿GPT-4的「蒸餾」模型。

今年6月，微軟訓練了一個算力消耗只有GPT-4十分之一的模型－Orca。

為了創建這個Orca，微軟將GPT-4產生的數百萬個答案輸入到了一個更為基本的開源模型之中，並以此教它模仿GPT-4。

論文網址：https://arxiv.org/abs/2306.02707

結果顯示，Orca不僅超過了其他的SOTA指令微調模型，而且在BigBench Hard（BBH）等複雜的零樣本推理基準中，實現了比Vicuna-13B翻倍的性能表現。

此外，Orca在BBH基準上還實現了與ChatGPT持平的性能，在SAT、LSAT、GRE和GMAT等專業和學術考試中只有4%的性能差距，並且都是在沒有思維鏈的零樣本設置下測量的。

甚至，在某些情況下，Orca的表現與OpenAI的免費版ChatGPT不相上下。

類似的，微軟也公佈了一個參數量不到GPT-4千分之一的模型－phi-1。

由於採用了「教科書級」的高品質訓練數據，phi-1在數學和邏輯問題上的熟練程度，完全不亞於5倍於它的開源模型。

論文網址：https://arxiv.org/abs/2306.11644

隨後，微軟在研究「一個LLM有多小，才能達到一定的能力」上更進了一步，推出了只有13億參數的車型phi-1.5。

論文網址：https://arxiv.org/abs/2309.05463

phi-1.5展現出了許多大模型具備的能力，能夠進行「一步一步地思考」，或者進行一些基本上下文學習。

結果顯示，phi-1.5在常識推理和語言技能上的表現，與規模10倍於它的模型旗鼓相當。

同時，在多步驟推理上，也遠遠超過了其他大模型。

雖然目前還不清楚，像Orca和Phi這樣的「小模型」是否真的能與更大的SOTA模型（如GPT-4）相提並論。但它們龐大的成本優勢，加強了微軟持續推動相關研究的動力。

據一位知情人士透露，團隊在發布Phi之後，首要任務就是驗證此類模型的品質。

在即將發表的論文中，研究人員又提出了一種基於對比學習的方法，讓工程師可以教導模型區分高品質和低品質的回應，從而改進Orca。

同時，微軟其他的團隊也正在緊鑼密鼓地開發全新的多模態大模型，也就是一種既能解釋又能產生文字和影像的LLM。

GPT-4V

顯然，像Orca和Phi這樣的模型，可以幫助微軟降低為客戶提供AI功能時所需的運算成本。

根據一位在職員工透露，微軟的產品經理已經在測試如何使用Orca和Phi而不是OpenAI的模型，來處理必應聊天機器人的查詢了。例如，總結小段文字、答案是或否，這種相對簡單的問題。

此外，微軟也正在權衡是否向Azure雲端客戶提供Orca模式。

知情人士透露，Orca論文一發表，就有客戶來詢問何時能用上了。

但問題在於，如果真要這樣操作的話，微軟是不是還需要找Meta拿個授權。畢竟後者對哪些公司可以將其開源LLM進行商業化，還是有所限制的。

參考資料：

https://www.theinformation.com/articles/how-microsoft-is-trying-to-lessen-its-addiction-to-openai-as-ai-costs-soar?rc=epv9gi

https://the-decoder.com/microsoft-seeks-plan-b-for-more-cost-effective-ai-sidestepping-openais-gpt-4/

GPT-4太燒錢，微軟想甩掉OpenAI？曝出Plan B：千塊GPU專訓「小模型」，開啟必應內測

8月12日午間重要動態一覽

加密AI興衰啟示錄：泡沫褪去，留下哪些火種？

Speciale Invest在INR 600億上支持DeepTech創業公司，專注於III類投資

FTX用戶加強訴訟，稱律師事務所Fenwick & West是其欺詐案的“關鍵”推手

跨鏈橋安全隱患剖析：28億美元損失揭示Web3基礎設施的致命弱點

特朗普一家為全球自由令牌推出15億美元的寶藏公司

XRP今日價格預測（8月12日）

策略性購買BTC火箭推動比特幣清算失衡至17,300%

GPT-4太燒錢，微軟想甩掉OpenAI？曝出Plan B：千塊GPU專訓「小模型」，開啟必應內測

Related Posts