原文來源:量子位元
圖片來源:由無界AI生成
大模式風暴刮了大半年,AIGC市場開始起了新的變化:
酷炫的技術Demo,正被完整的產品體驗所取代。
例如,OpenAI最新AI繪畫模型DALL· E 3剛一登場,就跟ChatGPT強強聯合,成為ChatGPT Plus裡最令人期待的新生產力工具。
△DALL·E3準確還原文字輸入的每一個細節
又例如,微軟基於GPT-4打造的Copilot,已經全線入駐Win11,正式取代Cortana成為作業系統裡的新一代AI助理。
△使用Copilot一鍵總結部落格文章
再例如,國產汽車如極越01,已經在座艙中正式搭載大模型,而且是完全離線的那種…
如果說,「大模型重塑一切」在2023年的3月份還只是一句技術先行者的Optimism預言,到了今天,仍舊激烈的百模大戰、以及實際的應用進展,已經讓這一觀點在行業內外激發越來越多的共鳴。
換言之,大到整個互聯網的生產方式,小到每一輛車中的智慧座艙,一個以大模型為技術力底座、驅動千行百業自我革新的時代正在來臨。
依照蒸氣時代、電力時代的命名方式,或許能將之命名為「模力時代」。
而在「模力時代」中,最受關注的場景之一,就是智慧終端。
原因很簡單:以智慧型手機、PC、智慧型汽車甚至XR設備等為代表的智慧終端產業,是與當代人生活最緊密相關的科技產業之一,自然也就成為了檢驗前沿技術成熟度的一個金標準。
所以,當科技熱潮帶來的第一波炒作逐漸冷靜,以智慧終端場景為一個錨點,「模力時代」新的機會和挑戰該如何看待和解讀?
現在,是時候掰開揉碎,好好梳理一番了。
智慧終端,大模型新戰場
在具體分析挑戰和機會之前,還是先回到一個本質的問題上:大模型為代表的生成式AI為何會如此火爆,甚至被認為是「第四次工業革命」?
針對此現象,已經有不少機構在進行研究,試圖預測或總結生成式AI在不同場景下的發展規律,如紅杉資本的《Generative AI: A Creative New World》。
在這其中,也有不少產業頭公司,基於自身經驗分析了生成式AI在特定產業中的落地場景和潛在變革方向。
如終端側AI代表玩家高通,就在前段時間發布了關於生成式AI發展現狀和趨勢的白皮書《混合AI是AI的未來》。
從中,或許能解讀出生成式AI在業界火熱的三大原因。
首先,是技術本身夠硬核。
無論是智慧湧現的大模型,還是生成品質以假亂真的AI繪畫,無不是用效果說話,實打實在幾乎所有與文字、圖像、視頻和自動化相關的工作領域,展現出了顛覆傳統工作流的驚人能力。
其次,是潛在落地場景豐富。大模型所帶來的AI代際式的突破,從一開始就帶給了人們無窮的想像空間:最早的一批體驗者,很快就感知到了生成式AI為工作帶來的助益。
用戶面龐大的需求,從ChatGPT等代表性應用的用戶成長速度,就可見一斑。
△ChatGPT打破熱門應用程式註冊用戶破億速度紀錄,圖源紅杉資本
從最開始網路的搜尋、程式設計、辦公,到現在湧現的文旅、法律、醫藥、工業、交通等等場景應用,乘生成式AI之風而起的,遠不止能夠提供基礎大模型的公司,更是有一大批新創企業正順勢繁榮生長。
有不少業內專家認為:對於創業者而言,大模型所帶來的應用層的機會更大。
底層有技術的代際式突破,上層有應用需求的蓬勃爆發,生態效應由此被激發。
根據彭博社Intelligence預測,2032年生成式AI市場規模將從400億美元爆炸式增加到1.3兆美元,廣泛涵蓋生態鏈的各個參與者,包括基礎設施、基礎模型、開發者工具、應用產品、終端產品等等。
這種生態鏈的形成,推動了產業新的變革,有望讓AI進一步成為底層核心生產力。
基於這樣的背景,我們再來看智慧產業當下正在發生的事。
一方面,以大模式為代表的AIGC應用風暴,正以天為單位的迭代節奏中迅速從雲端走向終端。
ChatGPT率先在行動端更新了「視聽說」的多模態功能,用戶們拍照上傳,就能針對照片內容與ChatGPT進行對話。
例如,「如何調整自行車座椅高度」:
△和GPT-4圖文對話,秒給5點建議
高通也快速實現了在終端側運行十數十億參數的Stable Diffusion和ControlNet大模型,在手機上產生高品質AI影像只需十幾秒。
不少手機廠商也已經宣布,要為自家語音助理裝上大型模型這個「大腦」。
還不僅僅是手機。
在上海車展、成都車展、慕尼黑車展等國內外大型展會上,基礎模型廠商和車廠的合作越來越常見,大模型「上車」已然成為智慧座艙領域新的競爭點。
△一句話就能讓車上大模型在APP裡加購食材,回家就能做上飯
另一方面,應用的爆發加劇了算力供不應求的情況。
可以預見的是,模型的推理成本將會隨著日活用戶數量及其使用頻率的增加而增加,僅僅只依靠雲端算力,是不足以快速推進生成式AI規模化的。
從各行各業都在提升對終端側AI算力的重視程度,也能看出這一點。
例如終端側AI玩家高通,針對PC端晶片效能提升發布了新一代PC運算平台,採用高通自研的Oryon CPU,尤其搭載的NPU將面向生成式AI提供更強大的效能,被命名為驍龍X系列平台。
預計會在2023驍龍峰會上,這新的運算平台就會發表。
顯然,無論從應用或算力來看,智慧終端都已經成為AIGC落地潛力最大的場景之一。
AIGC潮湧下的暗礁
事物通常具有兩面性,大模型從快速發展到落地亦是如此。
當生成式AI一路狂飆到今天,智慧終端產業巨大潛力下的現實瓶頸,已經浮出水面。
最大的掣肘之一,是最底層的硬體。
正如紅杉兩位投資人Sonya Huang和Pat Grady最新一篇生成式AI分析文章《Generative AI’s Act Two》中所提到的,AIGC發展得很快,然而預料之中的瓶頸不在於客戶需求,而在於供應端的算力。
這裡的算力,主要指AI和機器學習硬體加速器,從部署場景來看又可以被分成五大類:
資料中心級系統、伺服器級加速器、輔助駕駛&自動駕駛場景下的加速器、邊緣運算和超低功耗加速器。
△5類AI加速器,圖源MIT論文「AI and ML Accelerator Survey and Trends」
隨著ChatGPT爆火,大模型帶動AIGC現象級出圈,使得資料中心、伺服器級處理器等「雲端算力」短期受到大量關注,甚至出現供不應求的情況。
然而,隨著生成式AI迎來第二階段,關於算力的一些問題也日漸凸顯。
首先也是最大的問題,在於成本。如高通《混合AI是AI的未來》白皮書所言,如今大半年過去,隨著大模型從技術追逐轉向應用落地,各公司的基礎模型訓練逐漸塵埃落定,算力的大部頭落到大模型的推理上。
短期內推理成本還可以接受,但隨著大模型的APP越來越多、應用場景越來越廣泛,在伺服器等加速器上推理的成本也會急劇增加,最終導致調用大模型的成本比訓練大模型本身還高。
換言之,大模型進入第二階段後,推理對算力的長期需求將會遠遠高於單次訓練,僅依靠數據中心和伺服器級處理器組成的“雲端算力”,完全不足以將推理打到用戶能夠接受的成本。
根據高通在白皮書中統計,以加持大模型的搜尋引擎為例,每一次搜尋查詢的成本,可以達到傳統方法的10倍,每年光是這方面的開銷就可能增加數十億美元。
這注定會成為大模型落地的關鍵掣肘。
隨之而來的,還有時延、隱私和個人化問題。高通在《混合AI是AI的未來》中也提到,大模型直接部署在雲端,除了用戶量大幅上漲帶來的伺服器運算量不夠,需要「排隊使用」等bug,還勢必需要解決用戶隱私和個性化問題。
如果用戶不希望上傳資料到雲端,大模型的使用場景如辦公室、智慧助理等,就會受到不少限制,而這些場景多數分佈在終端側;而如果需要進一步追求更好的效果,如客製化大模型為己用,更是需要直接將個人資訊用於大模型訓練。
種種因素之下,在推理上能發揮作用的“終端算力”,也就是包括自動駕駛&輔助駕駛、邊緣運算(嵌入式)和超低功耗加速器在內的幾大類處理器,開始進入人們的視野。
終端潛藏著巨大的運算能力。根據IDC預測,2025年全球物聯網設備數將超過400億台,產生資料量接近80ZB,超過一半的資料需要依賴終端或邊緣的運算能力來處理。
但終端同樣存在功耗散熱受限導致算力受限等問題。
在這種情況下,如何利用潛藏在終端的巨大算力,來突破雲端算力發展面臨的瓶頸,正成為「模力時代」下的最普遍的技術難題之一。
更別提除了算力以外,大模型落地還面臨演算法、數據和市場競爭等挑戰。
對演算法而言,基礎模型的架構依舊未知。 ChatGPT固然已經取得了很好的成果,但其堅持的技術路線並非就是下一代模型的架構方向。
對於數據而言,其他公司要想取得ChatGPT一般的大模型成果,高品質數據不可或缺,但《Generative AI’s Act Two》同樣指出,目前應用公司產生的數據並沒有創造一個真正的障礙。
靠數據建立起來的優勢是脆弱且無法持續的,下一代基礎模型很可能就能直接摧毀這堵“城牆”,相比之下,持續而穩定的用戶才能真正構建數據來源。
對市場而言,目前大模型產品尚未出現多個殺手級應用,它究竟適配於何種場景仍舊未可知。
在這個時代將它用於哪類產品之中、做出哪種應用能發揮它最大的價值,目前市場還沒能給出一套能夠沿襲的方法論或標準答案。
針對這一系列問題,業界目前主要有兩種解題方向。
一種是改善大模型本身的演算法,在不改變模型「精華」的基礎上,更好地改進它的大小,提升它在更多設備上的部署能力;
以Transformer演算法為例,這類參數量龐大的模型要運行在端側,勢必要在結構上做出調整,因此,這段時間來也誕生了不少MobileViT等輕量級演算法。
這類演算法力圖在結構和參數量上進行不影響輸出效果的改進,從而以更小的模型在更多設備上運行。
另一種是提升硬體本身的AI算力,讓大模型能更好地在端側落地。
這類方法又包括硬體上的多核心設計、以及開發軟體堆疊等,分別用於提升硬體運算效能和模型在不同裝置上的通用性,以增強大模型在端側落地的可能性。
前一種可以稱為軟體對硬體的適配,後者則是硬體廠商順應時代浪潮的改變。但無論哪個方向,單獨押注都存在著被追趕的風險。
「模力時代」下,科技日新月異,新的突破可能從軟硬體任何一方出現,一旦缺少必要的技術儲備,就可能落於人後。
所以是否就該盲目跟進、或乾脆錯過這波科技浪潮的發展?並非如此。
對於已經在網路和AI時代發掘出自身價值的公司而言,或許同樣能基於自身所處場景和技術積累,在AIGC時代開掘出第三種解題思路。
以軟硬體技術兼備的AI公司高通為例。
面對大模型技術在不同場景下的挑戰,高通已經跳脫出一家晶片公司的身份,早早擁抱了AIGC的浪潮。
除了不斷提升終端側晶片AI算力的同時,高通也在佈局基礎的AI技術,試圖作為一家賦能型企業,加速整個智慧終端產業擁抱AIGC的速度。
然而,這樣的思路同樣也存在著種種可預見的困難:
針對更大更複雜的AI模型,如何在確保效能的同時,讓它也能在終端機上順利運作?
何時使用不同的模型,才能最好分配終端與雲端的算力?
即使解決了大模型部署在終端側的問題,又應該讓哪一部分部署在雲端、哪一部分部署在終端,以及如何確保大模型不同部分之間的連接和功能不受影響?
終端側效能優勢不足的話,又要如何解決?
……
這些問題並非出現在某個單獨案例中,而是已經切實存在於每個受AIGC影響的產業或場景。
無論是破局方法還是實際落地經驗,都要從具體的場景和產業案例中才能摸索出答案。
如何破局「模力時代」的迷霧?
AIGC進入第二階段,大模型日漸普及,產業也開始探索落地之道。
高通《混合AI是AI的未來》白皮書中提到,以智慧型手機和PC為例,新戰場智慧終端產業,已經有不少AIGC的落地場景的案例。
目前,已經有公司將較小的大模型部署到終端側,用於處理更個人化的問題,包括查找郵件、產生回覆訊息、修改日曆事件和一鍵導航等。
像是“預定喜歡的餐廳座位”,就可以基於大模型,根據用戶數據分析喜歡的餐廳和空閒的日程表,給出安排推薦,並將結果添加到日曆中。
高通認為,由於終端部署的大模型參數量受限、且不聯網,因此回答時可能出現“AI幻覺”,這時候就能基於編排器(orchestrator)技術,在大模型缺乏信息時設置護欄,防止上述問題出現。
如果對於大模型產生的內容不滿意,還能一鍵將問題傳送到雲端執行,再將回答效果更好的大模型生成結果回饋到終端側。
如此一來,既能降低大模型在雲端運作的算力壓力,又能確保大模型在最大程度上保障用戶隱私的同時,實現個人化使用。
至於終端側算力、演算法等本身需要突破的技術瓶頸,也已經有玩家研究出了一些「破局之道」。
高通在白皮書中以前段時間大火的投機採樣(Speculative Decoding)為例,介紹了一類目前已被廣泛應用的新技術。
這是Google和DeepMind同時發現的一種加速大模型推理的方法,可以應用一個較小的大模型,來加速大模型的生成速度。
簡單來說,就是訓練一個更小的模型,給大模型提前生成一批“候選詞”,相比於讓大模型自己“思考”生成,直接做“選擇”就好。
由於小模型生成速度比大模型快好幾倍,一旦大模型覺得小模型已有的詞可用,就直接拿來,不用自己再緩慢生成一遍。
這種方法,主要利用了相比計算量的增加,大模型推理速度更容易受到記憶體頻寬影響的特性。
大模型由於參數量龐大、遠超快取容量,推理時相比計算硬體效能,更容易受記憶體頻寬限制。例如GPT-3每產生一個單詞,都需要讀取一次全部1750億參數,這個過程中在等待來自DRAM的記憶體資料時,計算硬體往往處於閒置狀態。
換言之,模型做批次推理(batch inference)時,一次處理100個tokens和一個tokens時間上差別不大。
因此,利用投機採樣,不僅能輕鬆跑幾百億參數的大模型,還能將部分算力放到終端側進行,在確保推理速度的同時也能保留大模型的生成效果。
……
但無論是場景或技術,最終都要找到彼此的適配點,才能產生實質的應用價值,就像軟體和硬體的關係密不可分:
像生成式AI這樣的軟體演算法突破,在尋找智慧終端落地場景時,終究必然會面臨與高通等行動裝置AI硬體結合的技術需求。
包括智慧型手機、PC、XR、汽車和物聯網在內,智慧終端產業下的各細分領域,如何基於AIGC熱點找到自身的打法和價值?
各企業又要如何抓住這次時代浪潮,來激發出這一類技術的應用價值,不錯過全產業的生產力變革機會?
資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載