最新調查:AI大模型的兩大難題,要靠「綠色計算」來解決?


原文來源:學術頭條

圖片來源:由無界AI生成

目前,人工智慧(AI)已廣泛應用於眾多領域,包括電腦視覺、自然語言處理、時間序列分析和語音合成等。

在深度學習時代,尤其是隨著大型語言模型(LLMs)的出現,大多數研究人員的注意力都中心化在追求新的最先進(SOTA)結果上,使得模型規模和計算複雜性不斷增加。

對高運算能力的需求帶來了更高的碳排放,也阻礙了資金有限的中小型公司和研究機構的參與,從而破壞了研究的公平性。

為了因應AI 在計算資源和環境影響方面的挑戰,綠色計算(Green Computing)已成為熱門研究主題。

近日,螞蟻集團攜手國內眾多大學和研究機構共同發布一項調查報告,系統地概述了綠色計算所使用的技術,並提出了一個綠色計算框架,其中包括以下四個關鍵組成部分:

綠色衡量指標(Measures of Greenness):衡量智慧系統所需運算資源的關鍵因素和方法。常見的測量指標包括直接指標,如運行時間、電力消耗和模型大小,也包括間接指標,如碳排放。節能AI(Energy-Efficient AI):優化AI 模型整個生命週期的節能方法,包括模型設計、訓練、推理,還包括針對大型語言模型的最佳化技術,從而減少訓練和推理的功耗。節能運算系統(Energy-Efficient Computing Systems):最佳化運算系統資源消耗的技術,包括叢集資源調度、分區和資料管理最佳化。永續性AI 應用(AI for Sustainability):採用AI 來提高永續性的應用,包括用於環境效益(用於環境的綠色運算)和提高工程效率(用於工程的綠色運算)的應用。環境綠色運算包括利用衛星成像CV 監測空氣污染排放和碳封存估計等應用,工程綠色運算包括優化資料庫安全加密貨幣等。

該研究指出,“這一新的研究方向有可能解決資源限制和AI 發展之間的衝突。”

相關研究論文以「On the Opportunities of Green Computing: A Survey」為題,已發表在預印本網站arXiv 上。

論文連結:

https://arxiv.org/abs/2311.00447

從眾多AI 演算法的訓練和推理案例中,模型大小、參數調優和訓練資料成為影響運算資源的三大主要因素。在這基礎上,該研究總結了六種常見的「環保性」測量方法,包括運行時間、模型大小、FPO/FLOPS(浮點運算操作數)、硬體功耗、能源消耗以及碳排放。

用於追蹤「環保性」測量的工具包括tfprof、綠色演算法、CodeCarbon、Carbontracker 以及自動AI 模型環保性追蹤工具包。

在影像分類、目標偵測和其他AI 任務中,一些傳統的深度學習神經網路模型,如LeNet、VGG、GoogleNet 等,雖然取得了不錯的效能,但卻需要過多的運算資源。因此,該研究提出使用Depth-wise Separable Convolution、Fire Convolution、Flattened Convolution 以及Shrinked Convolution 等方法來解決這個問題。

此外,在開發基於圖形資料的神經網路方面,該研究也提出了ImprovedGCN,其中包含GCN 的主要必要組成部分。另外,該研究還建議了另一種神經網路——SeHGNN,用於匯總預先計算的鄰近表示,降低了複雜性,避免了在每個訓練週期中重複聚合鄰近頂點的冗餘操作。

在時間序列分類方面,目前常用的集成學習方法需要大量計算資源。為此,研究建議使用LightTS 和LightCTS 兩種方法來解決這個問題。

另外,Transformer 是一個強大的序列模型,但隨著序列長度的增加,其所需的時間和記憶體呈指數級增長。自註意力(Self-Attention)類型的網路在處理長序列時需要大量記憶體和計算資源。為此,研究建議使用Effective Attention 以及EdgeBERT 和R2D2 兩種模型來應對這項挑戰。

除了特定神經網路組件的設計,還有一些通用策略可以用於高效的神經網路結構設計,例如低秩模組策略、靜態參數共享、動態網路和超級網路等策略。這些策略可以無縫地整合到任何參數化結構中。

在模型訓練方面,研究總結了有效訓練範式、訓練資料效率以及超參數優化三個方面的方法。為了實現綠色AI,降低神經網路的能源消耗,可以採用模型剪枝、低秩分解、量化和蒸餾等有效方法。

在節能運算系統方面,研究簡要介紹了包括優化雲端資料庫資源利用、硬體和軟體協同設計等多方面的解決方案,這些原則也同樣適用於資料分析領域,包括利用混合查詢優化和機器學習等技術,以提高處理過程的能源效率。

值得注意的是,綠色運算強調的是AI 不僅在其自身的開發和運作中應具備能源效率,還應積極參與各種綠色應用領域,以解決環境和永續性挑戰。

研究指出,AI 能夠有效地從監測數據、遙感數據和氣象數據中提取有用信息,其中涵蓋了空氣污染監測、碳封存估算、碳價格預測等眾多領域,從而為決策和行動提供指導。

目前,儘管綠色運算已經在能源效率和碳減排方面取得成功,但運算資源仍成為產業成長的瓶頸。為此,該研究提出了一些未來研究方向,包括在模型評估中加入「綠色度」測量,制定廣泛接受的綠色度評估框架,探索更小但更有效率的語言模型,以及鼓勵更多工業應用以降低對環境的影響。

另外,研究指出,綠色運算的未來將依賴學術界、產業界和政府的共同努力,以實現環境永續性和AI 效率的平衡發展。政策支援、創新合作和最佳實踐分享將是推動這一領域進一步發展的關鍵。

資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載

Total
0
Shares
Related Posts