原文來源:解碼Decode
圖片來源:由無界AI生成
今年5月9日,發布僅3天的訊飛星火大模型就在一個評測榜單上拿了個國服第一,力壓清華智譜、復旦MOSS以及百度文心一言等國產大模型,僅次於GPT-4和GPT-3.5。
原本外界對訊飛稱王並無異議,但這份榜單將文心一言列在最後一名,熱心網友就不樂意了。
隨後發布名單的評測機構SuperCLUE被曝光,一個仿照GLUE的國內民間組織,權威度和影響力與GLUE相去甚遠,其微信帳號主體屬性為個人,被網友戲稱為AI版李逵和李鬼。
連訊飛的稱王都被挖出來貓膩。
評測榜單發布當天,SuperCLUE官網顯示信息,其測評顧問中排名第一的是崔一鳴,身份為學術顧問委員會主任,哈工大訊飛聯合實驗室(HFL)資深級研究員,而第二天官網就刪除了此條顧問資料。
至於這個榜單本身,也被業內人士質疑其合理性,理由是沒有公佈評估數據以及具體的評估方式。不過SuperCLUE在8月進行了一次評測體系、方法及變動說明的解讀,算是變相回應,只不過3700道的測試題還是較SuperGLUE的2萬道相去甚遠。
但SuperCLUE卻搖身一變,成為各種大模型PR稿裡的救世主,堪稱大模型界的安兔兔和魯大師,個中內涵懂得都懂。
手機廠商也順理成章成為了SuperCLUE的榜單常客。例如OPPO和vivo,前者登上了9月的基礎能力排行榜,後者則拿下了10月的國服第一名。
1 榜單的套路
在搞機圈跑分作弊早已不算秘密,2013年三星Galaxy S4就曾被曝跑分作弊,事後三星不得不向每位Galaxy S4購買者賠償10美元。
到2018年,跑分作弊儼然已成一種行業亂象:各大手機廠商費盡心思優化跑分項目,有的甚至專門開設一個白名單,當檢測到是跑分軟體時,手機各方面的資源就全速運行,以此開啟晶片的極限性能模式。 Anandtech就曾公開點名榮耀Play跑分作弊,跑分監測機制開啟和關閉的情況下,得分相差一倍。
跑分作弊映射出的一個道理是,這種人為極限性能下的分數,設備根本不可能長時間保持這樣的水平,因此顯得毫無意義。
而這種毫無意義的極限性能跑分,隱隱有傳到大模型的跡象。
例如OPPO這次拿出來的SuperCLUE成績,還不是總榜單,而是十大基礎能力排行榜的「知識與百科」能力。
在SuperCLUE的評測方案中,「知識與百科」屬於專業知識技能,包含歷史地理、科學技術、文化娛樂、社會人文等眾多任務。
相對來說,「知識與百科」傾向於是有標準答案的問答評測,不過即便如此後期有用戶在測試OPPO大模型時,還是出現了魯迅和周樹人不是同一人的錯誤。
拋開這種低階失誤,對於這種有針對性的評測,小米AI實驗室大模型團隊負責人欒劍此前在接受媒體採訪時就給過定論,目前這些榜單絕大部分都是學科問題,而且是選擇題為主,所以用它們對評估大模型的能力是有限制的。
「如果把這些學科的知識、這些學科蒐集到的試題,都拿來對大模型做增強學習,它的效果一定可以達到很好。」界面新聞就曾曝光過兩種C-Eval“刷榜”方式:
一種是找資料標註員把題目做一遍,第二種是用GPT-4把題做一遍,再把答案扣下來訓練大模型,這樣都能在對應學科測驗中獲得滿分。
問題的關鍵還在於,做這樣的訓練對大模型其它方面的能力可能會帶來負面影響。
目前有一些開源的大模型迭代了版本之後,打榜的分數提高得很明顯,但如果測試它的生成能力,比如寫作水平,發現其實是有下跌的。
還有一點存疑的是,大模型評測榜單的合理性。
例如今年5月SuperCLUE的榜單,文心一言在這個評測的評分是明顯偏低的,甚至連一些不知名的國產小型開源模式都比不過,測試結果與實際使用體驗不符。
根源在於當時SuperCLUE的測試手段是讓大模型做選擇題(據稱是100道),而這是用來針對BERT時代的判別式AI模型,不適用於現在的這些生成式大模型。
這倒也不是SuperCLUE一家的問題。華泰證券前資深演算法工程師邱震宇先前曾深入探討了市面上大模型的各類評測集,綜合比較了各家榜單結果,得出的結論是現在並不存在一個公認有效的評測方式。
大模型是新的範式,其實一個範式除了底層邏輯的解釋,也需要有一整套的訓練方法及評估方法。對大模型來說,這一整套合理的評估方法,大家還在探索中,沒有公認的標準。
事實上,大模型很難去實現沒有偏頗的測試,所謂的AI模型排名沒有什麼值得參考的實際價值,評價大模型的唯一標準就是能不能幫助用戶解決實際的問題。
看待打榜,只是從一個側面驗證一個基座大模型是不是能在某個領域裡做到極致,但不代表說它就一定能為用戶帶來最好的應用體驗。
2 “借來的大模型”
在OPPO之前,已經有三家國內手機廠商公開了大模型進度,分別是華為、小米和vivo,都是以語音助理的形式。而且各家像是打過商量一樣,幾乎是在同一時間對外吹風,再加上高通、谷歌、聯發科的頻頻官宣,上馬大模型儼然成為手機廠商的必選項。
在這種你追我趕的態勢下,就很容易發生「有條件要上,沒有條件也要硬上」的老套情節。
2019年OPPO推出小布助手,最初透過呼叫搜尋引擎完成擴展問答,但整個體驗不暢,促使後來OPPO開始做知識圖譜和海量語料數據,相當於建了一個問答庫。
這種機械的「檢索式回答」常見於當時的語音助手,優點是成本低上馬快,缺點則是周期長成本高,而且要面對長尾問題語音助手無法回答的尷尬。舉個例子,長江長還是黃河長這類問題,如果資料庫中沒有答案,語音助理就無法回答。
為了解決問題,2021年OPPO找到了北京智源人工智慧研究院,借悟道大模型推出了“生成式問答系統”,一定程度上彌補了自己的技術短板。
彼時的OPPO屬於兩條腿走路,一邊從外面引入大模型,一邊在背後埋頭自研。
2022年6月推出的預訓練模型OBERT,就是OPPO從發布前兩年開始探索的,共有一億、三億和十億參數三個版本。同年11月,OPPO語音語意研究部又推出參數量為30億的中文預訓練大模型CHAOS。
但這兩個模型在網路上能查到的資料很少,除了官方宣布的新聞稿外幾乎沒有其它消息。倒是今年4月,在阿里雲高峰會上,阿里雲官方發布的「企業專屬大模型」合作名單裡,OPPO卻名列第一。
根據阿里雲CTO週靖人介紹,以上這一系列模型已經和阿里的行業模型形成了層次化、模組化結構,行業模型可以在阿里預訓練模型之上進行定制,可以解決當下多達200個業務場景。
換言之,這些AI模型本質上都是基於阿里雲通義大模型完成的能力建構。這似乎意味著,OPPO的自研大模型或火候不到,只好暫時放棄自研,再轉向外部合作。
坊間也有傳言說vivo的大模型用的是開源的Llama2,雖不知真假,但也從側面反映出,手機廠商做大模型的一個被動:無論宣傳上多麼高調,總令人懷疑沒這個技術實力。
至於是自研好還是外部合作好,就各有論調了。
自研的困難在於,從0開始基礎大模型的預訓練,資金投入需要非常大,除此以外,數據、算力、know-how、維護等也是一道道門檻,但優勢也十分巨大,企業能夠掌握自己客製化模型結構的能力。
在各種設備終端上,使用的晶片不同,就會對模型提出各種各樣的要求,這些要求可能細節到一些算子不支持,或者某種結構運行起來效率不高。手機廠商必須根據硬體提出的要求,對模型結構做一些調整。
如果想修改模型結構的話,就一定需要具備從頭開始訓練的能力。因為開源模型的結構是固定的,沒有辦法調整,就無法滿足需求。
而外部合作的優勢正是自研的困難,百度、阿里等平台型企業幾乎提供了一條龍服務,不僅省下了成本,還有性能/中文增強、數據集、應用範式等系列服務,幾乎一鍵開發大模型。
3 尾聲
今年2月,高通在一部沒有連網的Android手機上使用了Stable Diffusion 來產生AI影像,整個生成時間不超過15秒,過程全部都在手機上進行。剛發表的驍龍8 Gen3,已經可以支援運行100億參數的生成式AI模型。
今年5月的GoogleI/O大會上,Google一口氣發布了四個新一代大語言模型PaLM 2。其中最小的「壁虎」大模型,可以適配手機運作。
到今天,手機大模型已經是一個無可爭議的趨勢。但擺在手機廠商面前的問題似乎都被它們忽略了:大模型究竟能為用戶帶來什麼?
至少在當前,無論是華為、小米或vivo、OPPO,其內嵌大模型的語音助理還沒有「湧現」的跡象,提供的功能也沒有超出通用大模型的範疇。
而按照手機廠商的慣用套路,新技術是否驅動了新需求尚未可知,但驅動新價格幾乎是毫無疑問的。
參考資料
[1] 國內大模型爭霸賽,這是你心目中的大模型排名嗎?機器學習
[2] 跑的高能賣錢?手機廠商為啥要跑分作弊,威鋒網
[3] 小米的大模型“野心”,始於端側,騰訊科技
[4] 誰在評價大模型? AI大模式評測榜單亂象調查,介面新聞
[5] 手機跑分突破110萬跑分到底是娛樂還是有可信度?中關村在線
[6] 登頂CLUE與MUGE,OPPO語音語意研究部推出中文預訓練大模型CHAOS, 新聞助理
[7] 登頂KgCLUE,OPPO小布推出預訓練大模型OBERT,OPPO小布團隊
[8] 全球最大智慧模型「悟道」首次落地:數位人+終端AI助手,支援NVIDIA GTX單卡機運行百億大模型,雷鋒網
資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載