反思國產大模型:如果泡沫不可避免,我們該如何面對這場革命?


來源:阿爾法工場

最近,Facebook早期投資者Roger McNamee在CNBC上批評人們對AI的狂熱,是“忘掉了過去科技泡沫帶來的痛”。

同樣的,在國內,面對越來越多的大模型,部分頭腦冷靜的人士,也顯示出自己的擔憂。

“這麼多的大模型,真正有自己技術的有幾個?”

“有幾家公司能持續投入下去?”

更有頭部VC機構人士認為,經過他們的私下測試和摸底,幾乎國內所有的大模型,都是PR項目……

眾所周知,大模型的訓練是一個成本極高的過程,需要大量的算力和資金支持,以OpenAI為例,GPT-3的單次訓練成本就高達140萬美元,對於一些更大的大模型,訓練成本介於200萬美元至1200萬美元之間。

用知名計算機專家吳軍的話來形容,ChatGPT每訓練一次,相當於報廢了3000輛特斯拉汽車。

這個數字告訴人們:要想打造有競爭力的大模型,不下血本是不行的。

某些體量、資金不足,卻仍舊叫囂著要“對標ChatGPT”的企業,其本身的實力,難免讓人產生懷疑。

例如某個在發布大模型後,自身股價最高暴漲338%的國內公司(此處就不點名了),其賬上的貨幣資金不過13億元。

然而,以ChatGPT的訓練成本為例,要想背後的智能算力集群,僅GPU顯卡採購成本就超過了10億元。國內目前能夠支撐起類似基礎設施的企業不超過3家。

也正因如此,在這場表面熱鬧的大模型競賽中,注定有一大票公司,都只是打著大模型的名號,來實現自身利益的“陪跑者”罷了……

不過縱觀人類的科技發展史,都由泡沫中的倖存者來繼續推動的。即使人類本身,也是物種大爆發這場生物泡沫的幸運兒。如果泡沫無法避免,從業者真正需要的是面對泡沫時的冷靜和定力。

數據孤島

國產大模型能否達到或超越GPT這類先進模型的水平,有兩個較為主要的因素:

一是在數據集的獲取上,如何不斷增持足夠多、且高質量的數據集;

二是在煉製大模型的“工藝”上,如何不斷探索和突破,找到新的理論和方法。

先說第一點。

目前,在大模型的訓練上,用來訓練的主流數據集以英文為主,中文數據只佔據4.8%。

之前清華計算機系教授唐杰,在對千億模型ChatGLM-130B訓練前數據準備時,就曾面臨過清洗中文數據後,可用量不到2TB的情況。

這就是國內所有做大模型的團隊不得不面對的慘烈現狀。

為解決這個問題,許多國內團隊,都開始通過“眾志成城”的方式,開源自身的中文數據集,以希望彌補高質量中文數據集的不足。

但是,這種通過各個團隊“自覺”開源的方式,仍然存在著一定局限性,那就是:由於數據的敏感性、隱私性和所有權等問題,很多行業和領域的數據並不容易獲得或共享。

國內數據大量儲存於移動端APP中,於訓練大模型而言比較難於抓取。

同時國內互聯網巨頭之間的數據相互封閉,數據孤島化情況嚴重。例如百度的內容生態數據,騰訊的公眾號數據,阿里的電商和物流數,這些屬於各大企業的私有數據,雖然都在各自的行業和場景,增持了外人所不能及的優勢,但由其所有權和隱私性的問題,導致很難與外界進行共享。

而這些不容易獲取的數據,往往無法依賴各團隊的“自願”和“主動”進行開源。

針對這一問題,走在前列的美國AI產業,早已通過更成熟的數據共享平台、數據交易市場、數據信託等機制,促進了數據的流通和價值發現。

具體來說,在這些數據交易平台中,第三方數據擁有者可以將原始數據掛到數據交易市場上公開出售,數據需求方按照約定價格(買斷數據/按小時計費、平台會員費)購買後,可以在數據交易平台上獲得離線的數據包或者實時API。

若最終成功交易,平台收取一定佣金後返還銷售收入給第三方數據擁有者。這類型數據交易平台代表有RapidAPI、Streamr等。

與之相比,國內大數據交易仍處於起步階段,數據交易主要以單純的原始數據“粗加工”交易為主,且數據供需不對稱,使得數據交易難以滿足社會有效需求,數據成交率和成交額不高。

此外,在數據交易過程中,國內市場也缺乏全國統一的規範體系和必要的法律保障,無法有效破解數據定價、數據確權等難題。

從長遠來看,國內大模型要想在數據的數量、質量上進一步得到提升,就不能單單只靠部分團隊“自願”和“主動”的開源,而要在法律、市場機制等方面,做出更多與時俱進的改革,如此方能促進各個行業間數據的廣泛共享。

“工藝”的差距

除了數據集的數量、質量外,另一個決定大模型能力強弱的關鍵因素,就是煉製大模型的“工藝”。

前段時間,復旦大學教授、上海市數據科學重點實驗室主任肖仰華就表示,與國際同行相比,模型、數據和算力並不是中國最大的劣勢,真正的短板在於對大模型”煉製”工藝的掌握,包括數據配方、數據清洗和參數設置等等。

現在有些國內大模型,動輒就對外號稱“百億”、“千億”規模,彷彿參數量越大,模型性能就愈強。

然而,空有龐大的規模,卻缺乏先進的“工藝”,這就像一個腦容量頗大,但卻掌握不到學習要領的學生,難以在學習能力上進一步“精進”。

具體來說,如果將煉製大模型的過程,類比成一座工廠中的流水線。那麼數據配方就像在開始生產之前選擇原材料一樣,需要選擇不同的數據集,確定不同領域、不同類型、不同模態數據的配比;

而數據清洗就像對原材料的加工一樣,對原始語料進行去噪、去重、過濾、規範化等操作,提取有用的信息;

參數設置就像生產過程中的調整和優化一樣,通過選擇合適的超參數,如學習率、批次大小等,以達到最佳的效果。

雖然上述的每一個具體步驟,國內其實都知道怎麼做,但是將它們整合在一起,總體效果和國外是存在差距的。

這雖然不是0和1的區別,但卻是50分和100分的區別。

所以,大模型的研製與開發,終歸是一個易學難精的過程。而要想進一步提升這樣的工藝,就必須在人工智能的基礎理論、工程實踐以及創新思維上不斷增持,從而實現在關鍵環節上的突破和領先。

可問題是,這些反複試錯、探索的過程,往往是一個需要消耗大量時間、資源,且並沒有實際產出與盈利的過程。

即便是創造了ChatGPT的OpenAI,目前也處於嚴重虧損的狀態(其去年的虧損已達5.4億美元)。

這對於國內許多急功近利的企業而言,無疑是一個重大的考驗。

因為國內巨頭們對技術性風口的追逐和熱愛,不堅定,也缺乏耐心。

舉例來說,全民造芯運動中,在2017年,資本對半導體的狂熱達到了一個頂端,創下至今最高歷史記錄,單筆平均融資達到8億元。

然而,一旦察覺某類技術的研發,是一場漫長且難見收益的過程,某些企業的“浮躁”與“搖擺”就會逐漸顯現。

2020年,武漢弘芯半導體,號稱千億投資,台積電技術大牛執掌。但成立僅僅三年,就被曝出項目欠薪停擺。武漢弘芯將大陸唯一一台,價值5億多元,能夠生產7nm芯片的光刻機,拿去銀行質押續命。

由此可見,國內外大模型的競爭,表面上看,是數據集多寡、質量高低的競爭;稍微深入了看,是大模型工藝的比拼;而再深入到底層,就變成了不同的商業文化,乃至生態的綜合競爭了。

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts