AI的大模型時代≠ 只有大模型的AI時代


作者丨金磊

來源丨量子位元QbitAI

什麼樣的技術能經歷時間洗禮還歷久彌新?

答案或許可以歸納為一個「三部曲」般的規律──興起、發展和大規模應用,外加這個過程再一次演進式的迭代。

以史為鑑,引領第一次工業革命的是蒸汽機,當它演進成為內燃機並開始普及時,第二次工業革命的顛覆者——電能本身以及與它相關的各種設備正處於初創期,而在電力當設備走向微電子的迭代革新時,各種燃油引擎仍在持續改良和普及中。

從這個規律來看,大語言模型(簡稱LLM)出現後雖然霸占了所有與AI相關的關鍵字,吸引了所有人的注意力,但這並不代表「LLM之前無AI」。

在大模型出盡風頭的同時,先前以決策為特長的老一代機器學習應用,以及側重感知能力的「傳統」深度學習應用也沒閒著,它們正走過喧囂的青春期,步入穩紮穩打的實戰階段。

何以為證?

某晶片大廠就推出了一連串的AI實戰手冊,分別鎖定製造與能源、醫藥、金融、交通與物流,以及教育產業的AI實務。

在今年更新的物流交通和醫療健康AI實戰手冊中,就記錄了很多已經或正在落地的AI應用,及如何將它們順利部署和充分釋放其性能加速潛力,當然還有它們在一些耳熟能詳的頭部企業深入一線的應用實例。

所以,AI不是只有大模型。 AI的大模型時代也≠ 只有大模型的AI時代。

成熟的AI,早就已經上崗了

或許你還不敢相信,現在就算小小的快遞背後,都已經有AI技術在加持了。

沒錯,而且幾乎涉足了物流全流程:下單、發貨、分揀、轉運、配送……AI現在統統都要「管一管」。

以經典的OCR(光學字元辨識)技術為例,它在物流「技術界」的地位可謂是舉足輕重,大幅提高了工作效率。

例如發貨時的寄件人填報地址、身份信息,電商倉庫核對出貨的貨品信息,都可以藉助OCR,“啪地一下”,實現一鍵錄入。

隨著AI技術的愈發完善和應用的加深,這種速度做到了「沒有最快只有更快」。

我們熟知的韻達快遞就是如此,在三段碼OCR辨識過程中,它原本希望AI能將OCR辨識的準確率達到95%。

結果現在的AI卻給韻達“上了一課”,不僅準確率直接飆升到接近98%,甚至時間也給“打了下去”:從130ms降至114ms。

△性能測試結果是基於韻達2022年10月進行的測試

而且OCR識別還只是AI涉足物流行業的小小一隅,一張圖來看感受下它現在所起到的power:

嗯,AI如此all in,怪不得國內物流的速度都要起飛了呢。

不過朋友,這還只是AI加速千行百業的一個案例,其實我們現在每天的出行,同樣也是充斥著AI的「味道」。

例如AI視訊分析技術,可以針對高速公路上的路況做到即時分析。

不論是車流流量監控、車輛車牌識別,亦或是事故預警等等,AI可謂是將一切盡收眼底。

如此一來,便可以有效且精準地對路面狀況做到把控。

再如機場,在AI技術加持下的攝像頭,也可以細粒度識別航空器、車輛、人員,以及違邊等情況,這樣便對飛行區域的安全提供了一定的保障。

……

從以上幾個小小用例中不難看出,「成熟」的AI,或者說幾年前那些當紅明星類的AI應用看似風光不在,但它們實則已深入到我們生活中的方方面面,並且主打的就是一個「節支增效」。

那麼如此「節支增效」背後,到底是怎麼做到的呢?

不賣關子,直接上答案——

提供協助的正是英特爾的平台,特別是至強®️ 可擴充處理器。同樣,我們前文所指的某晶片大廠也是英特爾,給出多個產業AI實戰手冊的還是它。

但解鎖如此能力的,可不僅僅是一顆CPU這麼簡單,而是有英特爾軟體層面上的優化加成;換言之,就是「軟硬一體」後的結果。

簡單歸結:至強®️ 可擴展處理器及其內建的AI加速器,以及OpenVINO™️ ,oneAPI等一系列AI框架和優化軟體打輔助。

目前影響AI應用效能的要素無非兩個:算力和資料存取速度。

目前最新的第四代至強®️ 可擴充處理器的單顆CPU核數已成長到最高60核心。而在資料存取速度上,各級快取大小、記憶體通道數、記憶體存取速度等都有一定程度的最佳化,另外在CPU Max系列中也整合了HBM高頻寬記憶體技術。

此外,在CPU指令集上也做了優化,內建了英特爾®️ 高級矩陣擴展(英特爾®️ AMX)等硬體加速器,負責矩陣計算,加速深度學習工作負載,堪稱CPU加速AI應用的C位。

它有點類似GPU裡的張量核心(Tensor Core)。

AMX由兩個部分組成,一部分是1kb大小的2D暫存器文件,另一部分是TMUL模組,用來執行矩陣乘法指令。它可同時支援INT8和BF16資料型,且BF16相較於FP32計算效能更優。

有了AMX指令集加持,效能比前一代至強®️ 可擴充處理器內建的向量神經網路指令集VNNI提升達8倍,甚至更高。

除了核心硬體平台外,實際情況中幫助這些產業實戰AI應用落地的,還有一系列英特爾「親生」但不「私享」的AI軟體工具。

例如前面提到的OCR加速就離不開OpenVINO™️ 的優化,它刪除了許多訓練部分所需的冗餘計算,主要支援推理部分。

而且也是專門針對英特爾硬體打造的最佳化框架,只要5行程式碼就可以完成原有框架的替換。

使用者可以針對不同業務場景,來最佳化OpenVINO™️ 運行參數。

這樣一套軟硬體組合拳打下來,英特爾不僅充分釋放了CPU運算潛力,而且在實際的推理場景中也實現了近乎GPU的效能,同時還有成本低、門檻低、易上手等附加優勢。

然而,這些僅僅是已經成熟上崗的AI技術在英特爾®️ 平台得到的優化,英特爾的能力遠不止如此。

這就要說回大模型了。

當紅大模型,也在被加速

目前大語言模型正被全球各大科技公司競相追逐,畢竟現在科技圈都將它視為未來發展的趨勢。

雖然相比那些成熟的AI技術和應用,它距大規模落地還有段距離,但其技術領先性不容置疑,乃至“老一輩”的AI應用也有望在與它結合,或被它改造後重煥新生。

英特爾作為基礎算力輸出者和應用性能加速器,同樣在這場你追我趕的競技場中未雨綢繆,早有佈局。

首先,大模型再先進,也需要有更多人用它,才能充分變現其價值。要想「玩」它,在其龐大的體量面前,成本便是一個老大難的問題。

因此,英特爾祭出了一款增強型的“減(量)重(化)神(工)器(具)”,可以讓一個十億參數的大語言模型瘦身3/4,增強其準確性,還能有效提升大模型在英特爾®️ 平台上的推理表現。

具體而言,所使用的是SmoothQuant技術,英特爾將其適配到自己的平台,並實現其增強。此方法已整合至英特爾®️ Neural Compressor。這是一個包含量化、剪枝(稀疏性)、蒸餾(知識提煉)和神經架構搜尋等多種常用模型壓縮技術的開源Python庫,它已經支援多款英特爾®️ 架構的硬件,並且已經兼容TensorFlow、 PyTorch、ONNX Runtime 和MXNet等主流框架。

其次,在硬體層面上,英特爾也有所發力。

例如最近大火的ChatGLM-6B,其借助第四代至強®️ 可擴展處理器內置的英特爾®️ AMX,讓模型微調計算速度得以大幅提升;利用至強®️ CPU Max系列處理器集成的HBM,滿足大模型微調所需的大記憶體頻寬。

△英特爾® AMX 技術架構

除了CPU,英特爾還有專用的深度學習加速晶片Habana®️ Gaudi®️2 ,其能在單一伺服器內部署8張加速卡(稱為Habana處理單元,即Habana Processing Unit,簡稱HPU),每張卡內存高達96 GB,可提供足夠的空間來容納大模型。

因此即使是BLOOMZ這樣擁有1760億參數的千億級大語言模型,經英特爾優化後也能將效能時延控制在3.7秒。對於參數量為70億的較小模型BLOOMZ-7B,在Gaudi®️2的單設備時延約為第一代Gaudi®️ 的37.21%;而當設備數量都增加為8後,這一百分比進一步下跌至約24.33%。

△BLOOMZ 在Gaudi®️2 和第一代Gaudi®️ 上的推理延遲測試結果

而後在軟體層面上,針對像ChatGLM這樣大受歡迎的大語言模型,英特爾還可以透過為其創建OpenVINO™ stateful模型來實現最佳化:壓縮權重以降低記憶體頻寬使用率,提升推理速度。

這便是英特爾「軟硬一體」打法在大模型應用上的直接體現了。而且硬體還不再僅限於CPU,更是有可在訓練和推理性能上都可與GPU比肩,在性價比上饞哭大家的Gaudi®️ 。

最後在安全方面,英特爾也是做到了「魚與熊市掌兼得」:基於英特爾®️ SGX/TDX的可信執行環境(TEE)可為大模型提供更安全的運行環境,還不需要拿性能做交易所。

這便是英特爾在AI大模型時代中的「加速之道」了。

還會帶來怎樣的改變?

綜觀AI技術的發展之路,不難發現英特爾在其中履行著一條非常清晰的準則──用起來才是硬道理。甚至只在資料中心和邊緣中用都不夠,最好每個人的每台電腦,每個資訊終端設備都有獨立加速AI應用的能力才能「芯」滿意足。

因此英特爾已將創新使命調整為:在各種硬體產品中加入AI能力,並透過開放、多架構的軟體解決方案,推動AI應用的普及,促進「芯經濟」的崛起。

英特爾的「加速之道」不僅是讓科技更快落地普及,更是要以用促用,以用促新,以用促變,為下一世代的技術變革埋下伏筆。

那麼英特爾這條路上是否有一個終極目標呢?

或許正如Intel Innovation 2023上不斷重複和強調的:讓AI無所不在(AI Everywhere)。

資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載

Total
0
Shares
Related Posts