根據The Information報道,微軟這廂高調將GPT-4融入自家各種招牌產品裡,那廂背地裡卻已經開始密謀Plan B,想要透過自研對話式AI(人工智慧)大語言模型,來做到媲美OpenAI模型的表現。
據一名現任員工和另一位最近離開微軟的人透露,最近幾週,領導微軟1500名研究人員的Peter Lee指示他們中的許多人開發對話式AI。這些AI可能表現不如OpenAI的大模型那麼好,但勝在規模較小,營運成本也低得多。
這些知情人士說,微軟旗下搜尋引擎必應(Bing)的產品組正試圖將微軟的自研模型整合到必應聊天(Bing Chat)中。
一位微軟現任員工稱,微軟研究人員正在分配他們大約2000個GPU中的大部分,用於製作更低成本、規模更小的模型。
01.GPT-4太燒錢,微軟正在製定Plan B
微軟將AI納入其軟體的推動幾乎完全取決於OpenAI,以換取使用其頂尖技術的權利。但隨著運行先進AI模型的成本上升,The Information報告稱,微軟研究人員和產品團隊正在製定Plan B。
隨著AI成本的飆升,微軟和谷歌等其他大型AI開發人員正想辦法從對話式AI軟體和運行它的伺服器晶片中省錢。先前微軟已經承諾向OpenAI投資100多億美元,部分用於取得其智慧財產權。
儘管有這項投資,但微軟在推出OpenAI支援的功能時仍然必須控製成本,包括自動產生PowerPoint簡報、轉錄Teams會議以及根據客戶告訴他們想要查看的應用程式建立Excel電子表格的功能。如果超過10億人最終使用這些功能,微軟將不得不縮小其規模和複雜性,以避免破產。
微軟也希望這樣做將釋放更多供不應求的AI伺服器晶片資源。
儘管微軟的努力仍處於早期階段,但這展示了微軟CEO薩提亞·納德拉(Satya Nadella)如何為微軟的AI產品開闢一條不完全通過OpenAI運行的道路。多年來,這兩家公司將保持密不可分的聯繫,但隨著它們越來越多地競爭向相同的企業客戶出售AI軟體,它們之間的關係日益緊張。
「這最終必鬚髮生,」企業軟體公司Databricks的高管Naveen Rao在談到微軟的內部AI工作時說。
他談道:「微軟是一家智慧企業公司,他們需要高效,當你部署使用這些大型型號的產品時,如(OpenAI的)GPT-4……這就像說,「我需要一個有醫學博士和兩個博士學位的人來接聽Nerf槍支公司的客戶服務熱線。」這不是可行的經濟學。 」
02.不指望開發GPT-4,想增加更多談判籌碼
微軟的研究團隊對開發像GPT-4這樣的大型AI沒有幻想。團隊沒有與OpenAI相同的計算資源,也沒有大批人類評論員來回饋他們的大語言模型如何回答問題,以便工程師可以改進這些問題。
不可否認,OpenAI、Google以及週一從亞馬遜雲端科技(AWS)獲得40億美元投資的另一家明星大語言模式創企Anthropic,在開發先進大語言模型方面都領先於微軟。
但微軟可能能夠以成本的一小部分,在構建模仿OpenAI軟體品質的AI模型的競賽中競爭,正如微軟在6月份發布的一個稱為Orca的內部模型時所表明的那樣。
大語言模型是ChatGPT等對話式AI的基礎。對於微軟來說,在沒有OpenAI直接幫助的情況下開發高品質的大語言模型,可以在公司討論在未來幾年更新合作夥伴關係時為其提供更多的談判籌碼。
目前的交易似乎是互惠互利的:作為對OpenAI資金的回報,微軟獲得了永久使用OpenAI在微軟產品中現有智慧財產權的獨家權利。在償還初始投資之前,它還獲得OpenAI理論營運利潤的75%,並在達到一定上限之前獲得49%的利潤。
微軟指望其與OpenAI以及其他AI企業的現有聯盟,在未指定時期內增加至少100億美元的新收入。 Office 365生產力應用程式中新的AI功能出現了收入牽引的早期跡象。其雲端運算競爭對手AWS的至少一個主要客戶在Azure OpenAI雲端服務上花費了大量資金。微軟也在7月透露稱,超過27,000家公司已經為程式碼程式設計工具GitHub Copilot支付了費用,該工具由OpenAI軟體提供支援。
不過,納德拉或微軟研究主管的任何願望,在沒有OpenAI的情況下開發複雜的AI,都可能是一廂情願的想法。
自從全力以赴地使用OpenAI以來,微軟的研究部門在很大程度上被降級為調整OpenAI的模型以用於微軟產品,而不是開發自己的模型。過去一年,隨著幾波研究人員的離開,以及一些人進入微軟內部產品團隊,該部門失去了一些人才。
03.投入上千塊GPU,開發更低成本的「精簡」模型
但在OpenAI的陰影下待了一年後,一些微軟研究人員發現了一個新的目的:製作AI工程師所謂的「精簡(distilled)」模型,這些模型模仿GPT-4等大型模型,但規模更小,操作成本低很多。
諷刺的是,微軟與OpenAI的交易條款,正在幫助微軟努力打破對OpenAI的依賴。當微軟客戶使用必應聊天機器人時,微軟可以對OpenAI模型產生的結果擁有獨特的存取權。
微軟現在正在使用這些數據來創建更小的模型。其研究人員發現,這些模型可以用更少的計算資源產生類似的結果。 Google、Databricks等許多其他AI開發人員也專注於開發較小的模型來處理特定任務。
為了創建其Orca模型,微軟研究人員將GPT-4產生的數百萬個答案輸入一個更基本的開源模型,以教它模仿GPT-4。
最後,研究人員表示,Orca模型在一系列任務上的表現,比他們訓練的開源模型基本版Meta Llama 2要好得多,幾乎和GPT-4一樣,例如解釋如何解決數學問題或總結會議記錄。
他們稱,在某些情況下,Orca與OpenAI的ChatGPT的免費版一樣好。 Orca能夠用不到GPT-4所使用的1/10的運算能力做到這一點。
在本月發表的另一篇論文中,微軟研究人員公佈了Phi,他們完全根據「教科書品質」資訊對其進行了訓練。 Phi的參數量不到GPT-4參數量的1%。研究表明,由於高品質的訓練數據,Phi在數學和邏輯問題上精通的開源模型是其規模的5倍。
目前還不清楚像Orca和Phi這樣的精簡模型在長期內是否有用,微軟之外的研究人員激烈辯論,這些論文是否真的證明了較小的精簡模型以任何方式與GPT-4等更大的先進模型具有可比性。但他們的成本優勢給了微軟一個繼續前進的動力。
一位微軟現任員工說,在公佈Phi後,Peter Lee本月稍早告訴員工,驗證此類模式的品質將是團隊的首要任務。他還談道,研究人員正在分配他們大約2000個GPU中的大部分,用於製作精簡模型。
當然了,與微軟提供給OpenAI的運算資源相比,這點晶片叢集規模可以說是微不足道。
一篇即將發表的論文將重點放在一種稱為對比學習的方法,其中工程師教授模型以區分高品質和低品質的回應,如何改善Orca。這個人談道,其他微軟研究人員正在開發一個可以解釋和產生圖文的多模態大語言模型。
微軟和OpenAI的發言人拒絕對這篇論文發表評論,微軟不會讓Lee或Orca背後的研究人員接受採訪。
像Orca和Phi這樣的模型可以幫助微軟降低與它為客戶提供的AI功能相關的運算成本。一位現任員工稱,微軟產品經理已經在測試如何處理一些用戶的必應聊天機器人對Orca和Phi的查詢,而不是使用OpenAI的模型。這些方法包括使用更簡單的查詢來總結小段文字或回答是或否的問題,不需要多步驟推理的更長查詢。
微軟也正在權衡是否向Azure雲端客戶提供Orca版本。對它的需求可能已經實現了。
據知情人士透露,在微軟發布Orca論文後,微軟研究院的經理告訴同事,一些Azure客戶詢問了他們何時可以使用它。鑑於Meta對公司將其開源大語言模式商業化的限制,目前還不清楚微軟是否需要Meta的授權。
04.結論:微軟與OpenAI裂痕漸顯,正積極接納其他大模型夥伴
華盛頓大學教授、向AI開發人員銷售軟體的Snorkel AI的聯合創始人Alex Ratner談道:「越來越多的企業正在運行小模型。」GPT-4是「吸引眼球的東西,可以作為你開始的基礎……但當涉及到微軟為其產品提供動力所需的專業用例時,我們將繼續看到這種多樣化。”
微軟也透過Azure提供其他大語言模型,包括Meta的Llama 2,對沖了對OpenAI的賭注。根據The Information先前報導,微軟正在與Databricks合作,向Azure客戶銷售軟體,以便他們可以使用開源大語言模型而不是OpenAI的閉源應用程式來建立應用程式。