原文來源:互聯網那些事
圖片來源:由無界AI 生成
當下大模型賽道的現狀:一邊是創業公司基於開源大模型速成,一邊是大廠在各種內捲大模型參數。
據機構不完全統計,目前中國10億參數規模以上的大模型已發布79個。在大參數內捲的過程中,市場開始出現另一種聲音“不具備發展方向的參數提升是沒有意義的”。
為此,在發展方向上,當下一部分大模型已經聚焦到垂類領域應用。基於成千上萬的模型發展,底座或許會發生改變,但仔細一想,也總需要有人能夠在垂類行業中跑出來。
同時,在發展初期,雖然閉源大模型在質量上更優,也相對安全,但大模型生態終究需要一定程度的內捲,開源實際上可以助長大模型的繁榮。另一個角度,基於開源眾多企業有了賽道參賽的資格,但也總有人輕易就倒在了第一關匣——算力短缺。
說到底,大模型數量是在以倍數的數量在增長,但如果片面的看待大模型日益增長的數量,那麼某種程度上也會忽略掉背後部分公司對大模型的抉擇、掙扎,甚至是選擇後放棄的可能性。
眾所周知,人工智能三要素是:算力、算法和數據。開源只是處於算法階段,之後企業還需要對其進行大量的算力支持和數據訓練,這背後的成本是高昂的。
01 垂直大模型,創業公司還有盼頭嗎?
在開源大模型選擇上,基於成本和定制開發的原因,選擇小參數模型的創業型企業不在少數,甚至是該類企業的首選。
一個是預訓練成本問題。
國盛證券曾經估算,GPT-3訓練一次的成本約為140萬美元,對於一些更大的LLM模型,訓練成本介於200萬美元至1200萬美元之間。
包括在今年1月,平均每天約有1300萬獨立訪客使用ChatGPT,對應芯片需求為3萬多片英偉達A100GPU,初始投入成本約為8億美元,每日電費在5萬美元左右。
更何況,在大量資金投入之前,還需要大量的數據資源來支撐模型訓練。為此,另一個原因是預訓練需求問題。
有業內也曾表達過對此的看法:“大模型本身的泛化能力仍受限於數據。”
因為如果一旦對大模型的高質量數據篩选和訓練得過少,大模型的輸出質量問題是很明顯的,在體驗上,用戶的體驗感也會大大降低。
可以說,在預訓練的過程中,僅僅是在數據的增持上就已經花費了大量的資金與時間。
更何況,在大模型賽道中,大多數的創業公司都是圍繞在行業垂直領域進行發展,付出雖然相對少,但一定不輕鬆。
具體一點來說就是,如果大模型要改變行業的商業模式的話,那麼對此最簡單的判定標準就是,該類大模型是否具備的行業數據足夠多,例如要對藏在暗處的黑產要有足夠的了解,才能不被黑產所用,處於安全被動的狀態。
另一個判定的標準就是,大模型在運行之時所處理的數據,最終輸出的質量如何。
說到底,想要基於開源模型去打破模型壟斷,還需要對大量的數據進行足夠的優化提升,並且對基礎設施的投入足夠完善。
如今的開源大模型實際上更像是網絡時代的Android,沒有大廠的落地場景、數據增持等優勢的創業公司,發展起來很不容易,但仍然存在機會。
事實上,達摩院也曾將“大小模型協作發展”視為未來趨勢之一。
就連創業公司追一科技相信“垂直大模型是堅實的機會,就像發現美洲大陸這件事遠不只成就了一人而已”。
於是如今我們可以看到眾多創業公司開始選擇入局大模型賽道,其中包括毫末智行、創新奇智、元語智能等AI創業公司所推出的DriveGPT雪湖·海若、奇智孔明、ChatYuan元語等大模型。
不過,國內雖然尚未有產品面向C端,但基於B端,大廠已經開始實現初步落地的過程中。
據悉,目前大廠都在計劃通過雲的方式對外輸出大模型的能力,雲計算成為A大模型落地的最佳方式,模型即服務(MaaS)越發受到關注,而這也將帶來大模型成本的降低。
那麼,創業公司還存在盼頭嗎?
02 勝負在於產品體驗與市場需求相匹配?
根據權威雜誌《Fast Company》預測,OpenAI 2023年的收入將達到2億美元,包括提供API數據接口服務、聊天機器人訂閱服務費等。
很顯然,各行業對大模型的需求是存在的,但基於安全性的考慮,加之to B對大模型亦步亦趨的態度,大模型當下安全係數有限。於是,在相對基礎,需求量高的對話、文檔內容生成、問答,包括協同辦公中對話、文檔生成等眾多場景,互聯網大廠也在優先做。
例如,現在人類只需要把商品的信息告訴AI,讓AI自動生成多種風格的商品帶貨腳本和風格,再配個數字人主播,就可以幫企業把貨給賣出去。據百度介紹,相比真人直播,數字直播可實現7*24小時不間斷直播,轉化率為無人直播間的2倍。
在雲上基礎設施作為大模型創業的必要底座下,擁有云計算的互聯網大廠具有一定的優勢。
根據IDC發布的2022年全球雲計算IaaS市場追踪數據來看,市場份額TOP10玩家都是中美的大公司,包括美國的亞馬遜、谷歌、微軟、IBM,中國的阿里、華為、騰訊、百度等。
雖然大模型的開閉源之爭,終究不會是靠某一個或幾個產品的出現而終結,還要更多頂尖人才參與、技術迭代和資金支持。
但橫做對比,眾多AI創業公司也缺少了一份如同創業獨角獸公司MiniMax的運氣。 (不同的是MiniMax注重的是通用大模型)
7月20日,騰訊雲對外披露助力MiniMax研發大模型的最新進展。目前,騰訊雲長期支持MiniMax的千卡級任務穩定運行在騰訊雲上,可用性達99.9%。
據悉,自2022年6月起,基於算力集群、雲原生、大數據、安全等產品能力,騰訊雲為MiniMax搭建了從資源層、數據層到業務層的雲架構。
現實似乎再度證明了,拿到入場券是第一步,接下來考驗的是市場玩家們探索商業化和技術升級的能力。直白一點來說,AI創業公司想要在賽道中跑到最後,每一步都不能落下。
某種程度上來說,在大模型研發上創業公司也並非全無優勢。
雖然部分互聯網大廠已經實現初步場景落地,亦或是開始售賣服務獲得收入,但大廠以及MiniMax的目光更多是聚焦在通用大模型上。
而垂直大模型仍然是真空地帶。特別是對於傳統企業群體來說,考慮到自身業務的IT屬性低、投出產比低等問題,選擇自研大模型的概率較低。
例如創新奇智聚焦在工業大模型產品“奇智孔明”;擁有一定數據優勢,往語言上發展的ChatYuan元語大模型;主打自動駕駛生成式大模型DriveGPT雪湖·海若。
不過有一說一,訓練的數據和方向不同,成本差別很大。
先是元語大模型從零開始做一次訓練的成本能做到千萬人民幣量級。而在自動駕駛生成式領域上,比ChatGPT 多設計一套新的語言,緊接著再把所有的真實道路駕駛數據,並“翻譯”成統一的語言的DriveGPT雪湖·海若,也存在著一定的成本投入。
某種程度上,AI創業公司能夠實現對大模型的大量投入,更多的是得益於ChatGPT商業和營銷方面的成功,能夠瞬間讓人們目睹了大模型的可落地性,而不是繼續隱匿在漫長的技術迭代中。
為此,當下實現落地的第一步,就是大模型的訓練成本、推理成本一定能做到比搜索還要低,而且還能保證即時性。
03 從概念到落地,到底有多難?
有觀點認為,能跑出來的中國大模型創業公司,很可能是垂直整合型。
簡單來說就是,一邊在做底層大模型的同時,找准一個模型最終的主應用場景,一邊收集用戶數據並做出快速的迭代。
目測,元語智能更偏向於這一類。總結起來看,在很長的一段時間內元語智能都聚焦在自然語言大模型業務上。
元語COO朱雷並表示,“不會為了跟風盲目拓展圖片、視頻業務,元語的目標是實現’ChatGPT’等前沿語言大模型的全面國產化。語言大模型的生態已經足夠大了,做好業務聚焦很重要。”
但對於其他往自動駕駛、工業生產等垂直大模型發展的創業公司來說,或許缺乏對一些特殊的行業數據掌握。
畢竟,在垂直大模型賽道,未來企業競爭的一個核心因素,就是私有數據和私有經驗,個體公司的流程並不被大模型者知曉時,可能就會有獨特的競爭力。
另外,業務聚焦的過程中,還需要到數據從源頭到預訓練、輸出的準確性。
目前,生成式人工智能在監管上也正在受到更多關注。近日國內發布了《生成式人工智能服務管理辦法(徵求意見稿)》,明確要求不得出現歧視,生成內容應當真實準確、防止生成虛假信息等,如果出現,除內容過濾外,還要通過模型優化等進行優化。
但如果是作為生成式人工智能的固有缺陷,這在從技術上難以保證和徹底解決。
此外,在更好的開源模型的出現,保不齊會伴隨著更多躍躍欲試的公司會湧進來,這對於創業公司來說,有何嘗不是競爭?
例如當下的Llama 2,7月18日,Meta公司發布了首個開源人工智能模型Llama的商業版本Llama 2。有企業認為,根據現在的各種評測文檔,除了代碼能力差一些,其實很多地方已經開始接近ChatGPT。
或許未來開源社區的狂熱浪潮會讓具備基礎能力的大模型普及化,以後私有化大模型就是白菜價。直白一點來說就是,企業可能會非常便宜地使用私有化大模型。
更重要的一個點是,湯道生曾表示:“通用大模型有很強的能力,但並不能解決很多企業的具體問題,在100個場景中可以解決70%—80%的問題,但未必能100%滿足企業某個場景的需求。但企業如果基於行業大模型,再加上自身數據進行精調,可以建構專屬模型,打造出高可用的智能服務。”
當然,這種私有化大模型還未到來,但賽道中的創業公司,一定是機遇和困境齊具。
資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載