大模型的「成本瘦身」運動


原文來源:腦極體

圖片來源:由無界AI生成

數據大、參數量大、算力大,大模型的某些能力才會“湧現”,這一點在科技圈廣為流傳。

做大模型的主流思想是:不要輕易說模型“不行”,如果“它還沒行”,那就做得更大一點。

所以,不到一年的時間,大模型的參數規模成長100倍,如今已經突破了兆級,資源消耗量龐大,也帶來了越來越高的儲存成本、推理成本、維運成本、落地成本…以及社會成本。

目前,大模型仍處於商業化的黎明,如何回收大模型的投入,還存在很多未知數與不確定,而大模型一直在變大,成了一門極其燒錢的生意,背靠微軟的Open AI ,2022年就虧損了5.4 億美元左右。

不斷膨脹的成本,就是一張張真金白銀的帳單,壓在大模型企業身上的一根「稻草」。 Anthropic的執行長Dario Amodei最近預測,在未來兩年內,他們的模式成本將達到100億美元。

除了企業自身,社會也同樣在承擔大模型的隱形成本。谷歌就曾報告稱,訓練PaLM 在大約兩個月內耗費了大約3.4 千瓦時的電量,相當於300 個家庭每年的能源消耗總量。大模型高能耗對環境帶來的負擔和成本,最終由整個社會來買單的。

顯然,無論是商業上、環境上,比拼模型量體都是不可持續的。

一味求大的時代,已經過去了。

問題是,怎麼給大模型「減負」呢?

事實上,通用大模型的頭部廠商,一直積極地進行「成本瘦身」運動。

例如微軟在Microsoft Build 2020 上曾公開了為GPT-3提供支援的AI supercomputing超級計算機,可以讓AI模型的訓練效率比其他平台高16倍,更快的訓練可以降低時間成本與風險成本。

國產大模型也不例外。

盤古大模型早在2.0版本中,就嘗試採用稀疏+稠密架構,降低訓練成本。文心一言推出一個月以後,也透過技術手段將大模型的推理性能提升近10倍,推理成本降到原來的十分之一。

避免走向臃腫沉重,成為人人都能使用的工具,大模型的“成本瘦身運動”,勢在必行。具體怎麼實現?本文就來談談這個問題。

一口吃不成胖子

大模型的哪些成本可以優化,哪些成本無法削減,哪些成本還要再增加投入?搞清楚這些之前,首先得知道是怎麼胖的。才能在確保大模型的效能表現和使用者體驗(健康)的前提下,合理且精準地進行「成本瘦身」。

簡單來說,AI三要素-資料、算力、演算法,仍是決定大模型成本的最關鍵因素。

先說數據。 Garbage in, garbage out,在大模型時代依然適用。

數據品質會直接決定大模型的能力。 OpenAI招募了多位博士來處理各行業的專業數據,並找了獨角獸企業Scale AI等多家數據標註公司,給GPT-3進行大規模的數據集投餵。同時,演算法模型會不斷迭代升級,對資料量的需求會隨著使用量的上漲和效能最佳化而持續不短的時間。

中文大模型的成本高,一個主要原因就是,中文資料量和質量,與英文還存在差距,訓練中文大模型,需要採集和處理的中文語言資料更多。另一方面,英語文法結構相比中文更簡單,中文文本的複雜性和多樣性,有的中文詞彙可以表達多種意義,語境豐富,上下文理解的歧義多、難度大,也增加了中文模型的訓練難度,需要額外的資源來支撐中文大模型的訓練。

再說算力。

大模型的訓練、運作、服務、迭代等一整個全週期,都要計算和儲存資源。

大模型的訓練,主打一個“暴力美學”,參數越大,訓練所使用的計算資源就越多。 GPT-3所使用的超級計算機,包含了一萬個GPU、285,000個處理器核心。國內的文心4.0,也是基於飛槳平台在萬卡集群訓練出來的。

這還不算完。大模型在部署後開放服務,隨著使用量的增加,要完成的推理任務也越來越多。 24小時進行大量的“思考”和“輸出”,這個推理過程,也會持續消耗計算資源,就像人腦在處理大量複雜任務時,需要消耗糖原,很容易感到飢餓,得大吃一頓來補充能量。所以,大模型的推理成本也是很高的。

175B的GPT-3部署後的推理至少需要五個A100 GPU,而國內面向全社會開放服務的大模型,例如文心一言,據說推理成本也是上一代的8-10倍。

最後說說演算法。

降低大模型對運算資源的巨大依賴,一個主流方案是最佳化模型,在效能不變的基礎上,以更快的推理速度、更小的延遲、更低的資源需求來運行,相當於ROI投入產出比更高了,訓練、推理環節所需的算力資源,單位成本更低。

有多少人工,就有多少智能,沒有人才不可能搞出真正能打的大模型。演算法開發、測試、迭代、產品化等,都需要大量技術人才。人力成本究竟高不高,還要看大模型的商業模式是否穩健。

學歷拉滿的人才隊伍,在研發階段,是相當有競爭力的。問題在於,怎麼賺錢呢? API呼叫或使用量收費,一個token不到一美分,回本盈利可能遙遙無期;付費訂閱(專業版),頭部大模型具有虹吸效應,大家都會選擇OpenAI或B新高等大廠,自家大模型能否被用戶接受並願意付費,是未知數;給行業客戶定制開發,ToB要深入了解行業,調查開發測試迭代,讓年薪幾十上百萬的算法工程師,在工地礦山農場一待幾個月,專案的毛利率估計不會太好看。

所以,一個大模型能不能成功,不只是靠演算法本身的能力,還要看從開發到落地的商業循環是否可持續。

管住嘴,邁開腿

如果我們把大模型的成本“瘦身”,比作一個希望減去多餘贅肉的人,那麼這個目標,可以拆解為兩種基本途徑:

一是製造「熱差」。就是管住嘴邁開腿,控制投入,減去多餘的成本,加速商業化提高收入,自然就瘦了。

二是變成「易瘦體質」。充分了解大模型的機理,用新的架構來解決Transformer注意力機制的問題,擁有「怎麼吃都不胖」的體質。

聽起來,第二種是不是非常有誘惑力呢?

不用苦哈哈的控製成本、吸引用戶、客製化服務,輕輕鬆鬆躺著賺錢,還有這種好事?確實。

目前,所有的大語言模型都用的Transformer架構,而這種架構難以處理長文本及高分辨率圖像,邏輯推理、知識歸納等就靠“大力出奇蹟”,成本高昂。許多基礎原理仍然不清楚,這導致許多現存問題束手無策,例如「幻覺」的產生,推理能力有限等。

圖靈獎得主Yann LeCun就不止一次批評過大語言模型的技術範式,認為“LLM 對世界的理解非常膚淺”,他希望構建一個“世界模型”,先學習世界運作方式,而後形成一個內部模型,再透過這個內部模型來完成各種任務。除此之外,關於AGI通用智能還有許多科學家從各自的研究領域去探討。

總結一下,目前的大語言模型,許多原理尚不清晰,技術仍在變化中。未來可能會出現其他技術範式,顛覆目前一味求大的模型,那時可能就不需要過高的成本,也就不用痛苦地「瘦身」了。

可能你已經發現了,研究底層的原理、找到更強大的AGI技術,這事兒雖然聽起來很酷,但實在沒譜,目前還沒有一個清晰的時間表。而這一輪大語言模型的技術範式,在工程實務上是可行的,在產業中能work的,有提質增效的明確效果的。先用起來,把握住現在,才是科技企業的當務之急。

所以,大模型企業只能管住嘴巴、邁開腿,盡快控製成本、加速商業化,製造良性永續發展的「熱差」。

製造「熱差」的四化運動

那麼,究竟該怎麼製造「熱量差」呢?綜合目前市面上的主流手段,我們將其總結為「四化運動」:資料規模化、模型壓縮化、計算高效化、商業分層化。

資料規模化,是透過規模效應,來提高資料的邊際效益,獲得最佳性價比。規模效應主要透過三種方式來實現,一是產業中心化的規模化,國家層面已經明確提出,要“加快培育數據要素市場”,涉及數據生產、採集、存儲、加工、分析、服務等多個環節,產業化有助於減少大模型企業的數據成本。二是AI工具的應用,減少資料工程各環節的人工參與,加速預訓練資料的處理,為模型訓練降本提效。三是反饋數據的規模化。大模型對微調資料(SFT/RLHF)的需求和品質要求很高,一些更早向全社會開放服務的大模型,如百度文心一言、商湯「商量SenseChat」、百川智慧「百川大模型」、科大訊飛「星火大模型」等,「資料飛輪」更早開始轉動,可望更快一步達到邊際效益最優的資料規模。

數據是有邊際效益的。 OpenAl 已經可以讓使用者來決定,是否允許其使用聊天資料進行訓練,也就是說,可以不再依賴使用者回饋資料了,那麼資料的儲存和運算成本自然就能控制住了。

模型壓縮化,就是提高模型的效能,以更少的資源實現更高效能,將資源密集的大模型,透過壓縮技術,轉化為更緊湊高效的版本。類似於將脂肪轉化為肌肉,肌肉的密度更大,體重(表現)不變,人卻變瘦(更小)了。

目前,大模型壓縮的常見手段,主要有三種:量化、剪枝、知識蒸餾。

量化,相當於抽脂,簡單粗暴但是有效。模型的精度越高,所需的儲存空間就越大。但在推理時,其實並不需要捕捉複雜模型中十分微小的梯度變化,所以量化可以直接降低模型的參數精度,「抽」去一部分細節性信息,從而減少佔用空間,同時也不過於降低推理能力。例如以問生圖的生成式AI 模型Stable Diffusion,先前只能在雲端運行,高通AI Research使用量化技術,讓模型可以在更低精度水平保持準確性,首次實現了在Android 智慧型手機上部署Stable Diffusion 。量化技術,也在文心、盤古等國產大模型中有所應用。

剪枝,類似“切除手術”,直接減去一些對效果沒什麼影響的旁枝,比如大量冗餘的結構、神經元,這些權重較小的部分刪減掉,對模型效果的影響不大,也減少了模型的大小。當然,剪枝是一門“手藝活兒”,剪枝越精確,給模型準確率的損失就越小,壓縮效果越好。

知識蒸餾,就是讓大模型“蒸餾桑拿”,千億模型一通蒸餾,產出若干個性能接近、結構更簡的小模型,落地成本更低。挑戰在於,千億規模的模型蒸餾,也要消耗極高的計算資源,而且,從千億蒸餾到幾千萬,數據量差距過大,容易影響蒸餾的效果。無損蒸餾,是各大廠商的技術賽點之一。

既然模型壓縮技術,也會消耗運算資源,那麼提高算力基礎架構的運算效率,就變得格外重要了。

計算高效化,是大模型廠商能夠以更高效益來提供模型服務的前提。

晶片和計算集群的性能,是研究和優化的重點。微軟雲端azure專門為OpenAI打造了適用於AI運算的超級電腦。國內廠商,百度、華為都擁有自研晶片、深度學習框架,可透過端對端優化來提升運算效率,提升大模型的訓練速度和推理速度,進而降低訓練時間和成本。

而對於產業大模型、產業大模型等非通用大模型來說,規模經濟和硬體最佳化技術有限,自行建置和維護基礎架構的成本是非常高的,使用雲端服務來訓練和部署服務,是成本更優的選擇。

歸根究底,大模型要提升商業收入,達到最佳化ROI、回收成本的目的。目前,各類大模型的商業化,反映出了明顯的分層化特徵。

簡單來說,就是不同體量、不同功能、不同方向的大模型,商業化路徑也開始涇渭分明。

通用大模型,以規模效益、高價值市場,為主要目標。 OpenAI的用戶量龐大,發展API經濟具有規模效應,前期投入可以隨著業務量成長而被均攤。 B新高(百度、阿里、騰訊、華為)等都有各自的雲端業務,增持了較為豐富的產業服務經驗,尤其是金融、礦場、政務等大型政企的客戶觸達能力,具備較大的商業轉換潛力,因此除了面向大眾服務的訂閱模式、商業版付費模式等,也可以進行高價值的ToB專案客製化開發。 ToB客戶的高要求推動模型體驗與效果提升,也可以服務ToC市場,透過規模化進一步攤平成本。

產業大模型,則在主動收束產品和業務邊界,圍繞核心業務和功能,以更少的資源來開發專精的小模型,在投入和商業化之間取得一個很好ROI平衡。例如金融領域,度小滿的「軒轅70B」融入了大量的專業金融語料,提高對金融知識的理解能力,可控性、安全性上滿足金融客戶的特別要求,獲得了上百家金融機構申請試用。

總而言之,大模型並不是只有通用、泛化一條路,千行百業的私有化、個人化部署,會產生價格、隱私、安全等多面向的決策因素,也帶來大量的細分商機。通用大模型與產業大模型、專有小模型,分層+合力開啟商業化之路。和而不同,考驗著產業鏈上每個角色的智慧。

為了長遠、永續的服務,管住嘴、邁開腿,大模型的「成本瘦身」是必經之路。

這個過程或許痛苦,卻會凝練出一條護城河,守護整個產業的健康發展。

1940年代,電腦剛誕生的時候,人們驚嘆於這座「機器怪獸」的龐大身軀,但隨後開啟了資訊時代的飛躍。智慧型手機剛誕生時,功能機廠商曾對它極盡諷刺,沒想到這種人人皆可觸網的普惠聯接,推起了行動互聯網的繁榮。

隨著大模型越來越好、成本越來越低,“人人皆可AI”,也將不再是一個遙遠的夢。

資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載

Total
0
Shares
Related Posts