國內大模型迎來中場戰事


作者:於惠如,編輯:羅麗娟

圖片來源:由無界AI工俱生成

由互聯網和科技界掀起的大模型浪潮,迎來了新戰事。

自今年3月以來,國內已有超過20家企業入局大模型賽道。從百度“文心一言”、阿里“通義千問”的發布,到360“紅孩兒”、商湯“日日新”、網易“玉言”、科大訊飛“星火”、崑崙萬維“天工”等的推出,再到騰訊“混元”、京東“ChatJ”、華為“盤古”等的預告。互聯網巨頭、科技公司紛紛秀出“肌肉”,誰也不想在這場大模型混戰中掉隊。

而在這場狂奔中,大模型的發展階段已經從“通用”邁入“垂類”。

算力、大規模數據、高成本人才成為大部分企業入局通用大模型的攔路虎。但深度定制、廣闊的場景應用等訴求,催生了國內垂直領域大模型的開發。

近兩個月來,不少醫療、金融、教育、繪畫等行業內擁有用戶數據增持的中小型企業,已開始基於國內外大模型“底座”,訓練適配自身的垂類模型。同時,已發布通用大模型的公司,也推出了針對特有行業的模型。

如果說通用大模型是大模型發展的初期階段,那麼垂直場景應用則可以視作其“中場戰事”,在該階段,應用與場景先行,倒逼垂直領域的大模型飛躍發展,並率先在不同產業中實現了落地價值。

01 路線分化

短短兩個月,分化已經出現。

在5月23日舉辦的文心大模型技術交易所會上,百度智能雲AI與大數據平台總經理忻舟介紹:“文心千帆大模型平台,是百度提供給客戶的企業級大模型生產平台,不但提供包括文心一言在內的大模型服務及第三方大模型服務,還提供大模型開發和應用的整套工具鏈。”

即文心千帆可以文心一言為核心,提供大模型服務,幫助客戶改造產品和生產流程;企業也可以在文心千帆上基於任何開源或閉源的大模型,開發自己的專屬大模型。

多位與全天候科技接觸的業內人士認為,當前國內大模型賽道主要包括三類:一類對標GPT的通用大模型,聚焦基礎層的公司;一類是在開源大模型基礎之上訓練垂類大模型,聚焦垂直行業的企業;另一類則是專注具體應用的純應用公司。

“剛開始大家是一窩蜂扎進通用大模型,現在分化已經出現,不管是分化到具體行業的,還是不做研發直接調用接口做產品運營的,這個趨勢是越來越清晰了。”前金山軟件副總裁兼人工智能事業部負責人、現AI領域創業者李長亮告訴全天候科技。

通用大模型面臨算力需求大、訓練和推理成本高、數據質量不佳等挑戰。一個成功的且可對外商業化輸出的通用大模型大模型,要求廠商擁有全棧大模型訓練與研發能力、業務場景落地經驗、AI安全治理舉措、以及生態開放性等核心優勢。

在百度智能雲副總裁朱勇看來,基礎模型(通用大模型)的公司可能“只有那麼幾家”,但是上面會長出很多專業領域的大模型。

“訓練一個基礎模型,成本是非常高的,做一個千億級的大模型,需要單機群萬卡以上的算力。”朱勇說,從國內外來看,真正做通用模型的公司並沒有那麼多。相反,訓練領域(垂類)模型所需要的代價和資源遠遠小於從零開始做通用模型。

因而,從商業邏輯的角度來看,大部分公司不具備做通用大模型的能力,巨頭更適合做通用大模型,擁有豐富場景數據增持的公司更適合做垂域模型。

垂類大模型以深度解決行業需求為主,即企業在自己擅長的領域訓練適合自己的“產業版GPT”。這類大模型生成的內容更符合特定垂類場景的需求,質量更高。

當前,已經可以看到不少垂類模型應用在金融、醫療、交易等場景中。比如,彭博社根據自身豐富的金融數據資源,基於GPT-3框架再訓練,開發出了金融專屬大模型彭博社GPT。

除了上述兩種常見的模式,目前國內大模型創業賽道上還有一種專做應用的公司,它們沒有研發團隊,從現有大模型調用接口,做產品和運營。

02 通用VS 垂域

佈局通用大模型的巨頭,需要的是生態。所以百度、阿里都希望成為“大模型的底座”去賦能行業與企業。但並不是所有企業都有這樣的能力。

“現有大模型的算力和能耗挑戰會促使很多工作向領域專用化、輕量化的大模型方向發展,特別是金融、教育、醫療、交通等領域,大量的工作在試圖降低大模型的成本。”在日前舉行的第六屆數字中國建設峰會上,中國科學院自動化研究所副所長曾大軍錶示。

相比通用大模型需要高昂的開發訓練成本,基於開源模型進行垂類模型開發可兼顧開發成本和數據安全。

事實上,挑戰之外,實際的場景需求也加快了大模型垂類化的過程。

“中國擅長商業模式、應用上的創新。”一位AI領域創業者說,與此同時,國內不乏AI模型的落地場景、豐富的數據,以及追風口的熱情。因而,短短兩個月時間,大模型領域化的發展飛速。

以百度文心千帆這個“AI大模型底座”為例,當前正在共同測試研發的企業通常來自信息化和技術普及率較高的行業,如金融行業、能源行業、泛互聯網行業等。

“垂類模型是在通用大模型基礎上訓練的,撇開通用大模型的話,是不存在垂類模型的。”忻舟說,垂類模型強調領域的know-how,對於特定領域來說,需要針對該領域的任務做指令學習。

行業不同,場景不同,指令學習的區別也極大。比如,泛互聯網行業更關注營銷、推薦的效果,金融更領域更關注風控、可信、以及營銷的效果。

在李長亮看來,垂類大模型與通用大模型最大的區別在於:垂類大模型在資源投入、成本投入等方面的要求下跌了,但額外要求是行業known-how,即對這個行業的knowledge要求提高了。

表現在數據方面,在特定的垂直領域,企業擁有私有數據,這是別的企業花錢也買不到的核心競爭力和天然優勢。

表現在算力上,通過通用大模型微調實現的垂類大模型相較通用大模型是“幾何級別的下跌”。

根據國金證券的測算,在模型微調階段,由於訓練量級較小,僅為萬級,相關的算力成本相比之下可忽略不計。

以斯坦福大學於2023年3月發布Alpaca為例,這是一個基於LLaMA-7B基座,應用5.2萬指令對模型微調訓練而來的對話類語言模型。該模型基於8塊A100微調,微調時長3小時,算力成本不超過300元。

當然,並不是所有企業都可以在通用大模型的基礎上做微調。

以百度文心千帆為例,要在該平台上通過微調做自己的大模型需具備兩個條件:企業有沒有高質量的數據存下來;能否將自身業務根據對生成式AI的理解變成高質量的數據,變成指定數據做指定微調。

換言之,落地在企業端,那些有海量行業數據、懂行業know-how的企業,做成垂類模型的機會更大。

“因為有專業的數據、有行業know-how,結合不同類型的領域模型,這些領域模型將來會非常繁榮,支撐上層非常繁榮的領域應用。”朱勇說。

03 “兩條腿”走路

“GPT+行業專家系統”的模式產生了新的垂直領域大模型。

大模型最大的價值在於革新商業模式,改造商業組織的每一個環節,進而起到降本增效的效果。這也是企業紛紛入局大模型的原因所在。

而Meta旗下LLaMA模型等大模型的開源為垂類模型的發展裝上了加速器。

公開信息顯示,LLaMA基於通用領域的開源數據集進行訓練,訓練數據涵蓋40種語言,包含約1.4萬億Tokens。 LLaMA模型一經發布就對外完全開源,吸引了廣大AI開發者。

作為完全開源的領先模型,LLaMA具備高度的靈活性、可配置性和泛化能力,可以作為垂類AI模型的通用基座。

儘管LLaMA模型參數量較小,但性能絲毫不遜色於PaLM、GPT-3等大語言模型。並且較小的參數規模顯著降低了LLaMA模型的落地部署和二次開發難度。

“基於LLaMA這種開源模型,我們餵自己的數據,慢慢調試,就能調試出我想要的效果來。”一位AIGC領域的創業者告訴全天候科技。

全天候科技了解到,當下不少企業採用的是“兩條腿走路”的策略,即:一邊接入大模型API,一邊在開源模型上煉模型,兩者構成反饋鏈,加速各自能力的提升,打造創新閉環。

“調用API接口也是一個獲取數據資源的有效手段。”李長亮說,這部分數據將來可能在企業訓練模型的時候起作用。

在不少業內人士看來,對於各行各業來說,垂直大模型是一種全新的生產力,各個行業的垂直領域大模型對所在行業可能產生重大甚至是顛覆性的影響。

值得一提的是,在一級市場上,專注於垂類大模型的創業公司也是投資機構眼中的“寶藏”。

在不久前召開的2023中國投資年會上,天堂矽谷高級合夥人王偉將“垂直領域大模型,掌握行業數據、懂行業Know-how的項目”列為其重點投資佈局的領域之一。

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts