圖片來源:由無界AI工俱生成
來源:科創板日報
作者:
原標題《直指AI發展兩大瓶頸北京這份文件給出答案:實施算力夥伴計劃、建設預訓練語料庫》
繼表態“支持頭部企業打造對標ChatGPT的大模型”後,北京市近日公開待定的新措施,直指AIGC發展中算力、數據不足兩大痛點。
據北京市政府網站消息,為搶抓大模型發展機遇,重視通用人工智能發展,北京市科委、中關村管委會制定了《北京市促進通用人工智能創新發展的若干措施(2023-2025年)(徵求意見稿)》,公開徵集意見時間為2023年5月12日至5月19日。
除了算力、數據要素,這些措施還涵蓋了AI發展的多個關鍵環節,包括大模型技術、AI應用、審慎監管。
實施算力夥伴計劃,新增算力建設項目
針對算力不足的問題,北京市提出了三項待定舉措:發展商業算力、新增算力基建、建設多雲算力調度平台。
具體為組織商業算力定向滿足本市緊迫需求,加強與頭部公有云廠商等市場主體合作,實施算力夥伴計劃,並將新增算力建設項目納入算力夥伴計劃,加快推動海淀區“北京人工智能公共算力平台”,朝陽區“北京數字經濟算力中心”等項目建設,建設統一的多雲算力調度平台,實現異構算力環境統一管理、統一運營。
其建設算力基礎設施的目標是支撐千億級參數量的大型語言模型、多模態大模型、大規模精細神經網絡模擬仿真模型、腦啟發神經網絡等研發。
建設多雲算力調度平台是為了方便企業在不同雲環境上無縫、經濟、高效地運行各類AI計算任務。
值得注意的是,該措施提出要為此建設北京與河北、天津、山西、內蒙古等省(市)算力集群的直連基礎光傳輸網絡,進一步提昇平台對四地算力資源感知能力,探索開展算力交易。
中文語料太少怎麼辦?將建設合規語料庫
目前,國內各公司發展大模型缺乏用於AI訓練的大規模中文語料集,無論高質量的還是低質量的中文語料集都極端缺乏。
對此,北京市提出,針對目前大模型訓練高質量中文語料佔比過少,不利於中文語境表達及產業應用的問題,整合現有開源中文預訓練數據集和高質量互聯網中文數據並進行合規清洗。同時持續擴展高質量多模態數據來源,建設合規安全的中文、圖文對、音頻、視頻等大模型預訓練語料庫,通過北京國際大數據交易所社會數據專區進行定向有條件開放。
解決了棘手的數據來源問題,數據的收集和處理同樣是個昂貴且緩慢的過程,北京市提出要打造“國家數據基礎制度先行先試示範區”,謀劃國家級數據訓練基地、搭建數據集精細化標註眾包服務平台,研發數據採集、清洗、標註、脫敏、存儲等功能在內的數據處理工具。
另外,對於數據應用、數據監管,北京市均有相關具體措施,包括加大對政務、醫療、科研、自動駕駛等領域數據的挖礦利用;確保訓練數據集的規範性、加強個人數據保護等。
“算力即權力” ,數據將成“勝負手”
當下,人工智能已成為新一輪科技熱潮的核心發力方向。
5月5日中央財經委二十屆第一次會議和國常會相繼召開,會議強調,要把握人工智能等新科技革命浪潮。國家發改委近日表示,要加快發展數字經濟,重視通用人工智能發展。
以ChatGPT為代表的AIGC工具開啟了以大為美的人工智能新時代,隨著人工智能生產力被充分激發、多模態的興起,以及各種開源、小模型頻頻亮相,巨大的算力消耗能力、海量的數據需求已然成為技術迭代路上的攔路石。
誰能最先突破瓶頸,誰就能成為這輪科技革命的佼佼者。
國盛證券表示,“算力即權力”,算力是人工智能從玩具向工具的使能者。未來的算力將會呈現出從雲端到邊緣梯度分佈的格局,雲端算力負責複雜科學計算,大模型運算推理等任務,邊緣側則憑藉隱私、時延與成本三大優勢,成為小模型與AI應用觸及萬千用戶與場景的通道。
資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載