發力AI 近十年,百度正在迎來最好的機遇。
2 月22 日晚間,百度發布2022 年Q4 及全年未經審計的財務報告。 2022 年全年,百度實現營收1236.75 億元,歸屬百度的淨利潤(非GAAP)206.8 億元,同比增長10%。
第四季度,百度實現營收330.77 億元,歸屬百度的淨利潤(非GAAP)53.71 億元,同比增長32%。 2022 財年,百度核心業務連續四個季度業績超市場預期。
除了公佈財務業績,對於近期備受關注的類ChatGPT 產品「文心一言」,李彥宏在電話會上表示,文心一言將率先集成進搜索產品,通過新功能吸引到更多的用戶,並給廣告業務帶來更多機會。
2022 年以來,百度圍繞文心大模型展開了一系列動作。 5 月,百度提出了「構建更適配應用場景的模型體系」;11 月,文心大模型全面升級,發布了包括5 個行業大模型在內的11 個大模型,同時發布了AIGC 繪畫產品「文心一格」。
關於即將發布的「文心一言」,截至目前已有愛奇藝、集度汽車、小度、智聯招聘、太平洋汽車網等多個合作夥伴宣布加入百度文心一言生態圈。
基於長期建立的大模型體系,百度已有的業務體係也有望迎來新一輪升級。不論是百度自身的C 端搜索產品,還是旗下的小度音箱、集度汽車智能座艙等產品,都能夠直接接入語言大模型的能力,獲得性能和體驗提升。
而以AI 能力為優勢的智能雲業務,接入大模型能力後,也將能夠向企業客戶輸出語音交互、內容生成的能力,賦能軟件企業。
百度創始人、董事長兼首席執行官李彥宏表示,「憑藉在AI 領域的長期投入,百度將抓住即將到來的AI 拐點,為我們的整個業務組合——從移動生態到智能雲、自動駕駛、智能硬件等——開拓全新的機遇。」
核心業務持平,多項主流業務與「文心一言」整合
2022 年對中國乃至全球互聯網公司來說都是極其不易的一年。但整體來看,百度在2022 財年的業績表現依然相當穩健。
總體來看,百度的核心業務持平,營收增長由非在線營銷收入貢獻。李彥宏在財報會上表示,隨著疫情緩解,在線營銷開始出現復甦跡象。
2022 財年,百度核心業務營收為954 億元人民幣,與去年基本持平。其中,網絡營銷業務營收為695 億元人民幣,同比下降6%。
非在線營銷收入方面,2022 年的整體營收為259 億元人民幣,同比增長22%,主要由雲計算和其它基於AI 驅動的業務推動。
業務表現上,過去一年,百度搜索規模年同比增長17%;移動端搜索查詢次數和信息流分發量,均實現了兩位數的同比增長。百度App 月活用戶數於2022 年12 月達到6.48 億,同比增長4%。此外,2022 年前九個月,小度位居中國智能屏和智能音箱出貨量第一。
在智能雲業務上,百度ACE 智能交通系統從2021 年的35 個城市擴展到69 個城市,合同金額超過1000 萬元人民幣。根據IDC 2022 年上半年發布的中國公共雲市場報告,百度第四年被評為第一大人工智能雲供應商。李彥宏在內部信中表示,「百度智能雲利用AI 技術,為行業提供標準化的解決方案,提高了利潤率。」
智能駕駛方面,截至2023 年1 月底,蘿蔔快跑累計訂單量超過200 萬單。
升級後的文心大模型體系|來源:百度
相比已經存在的基本盤,今天更受關注的還是百度在語言大模型方向的探索。作為百度乃至國內發布的首個類ChatGPT 產品,文心一言的進展,背後的文心大模型,以及與現有業務結合的規劃,都是外界關注的重點。
未來,百度主流業務將與文心一言整合。除了升級相關產品外,李彥宏強調了其對雲服務的意義,「之前選擇雲廠商更多看算力、存儲等基礎雲服務。未來,更多會看框架好不好、模型好不好,以及模型、框架、芯片、應用之間的協同。這會根本性地改變雲計算市場的遊戲規則。」
始於四年前的文心大模型
ChatGPT 出圈,讓普通人也感受到語言大模型的能力與優勢。而在產業界,對於大模型的探索已存在多年。谷歌等公司5 年之前開始語言大模型的佈局。對AI 技術持續投入的百度,也在4 年前開始了大模型的技術積累。
谷歌2017 年發布神經網絡架構Transformer 後,語言大模型開啟了新時代。 Transformer 能夠讓機器在處理語言信息時關注單詞之間的聯繫,並預測接下來會是什麼單詞。這大大增強了語言的理解能力。如果將語言大模型比喻成複雜的建築,Transformer 便是搭建時最好用的磚頭。
在此之後,所有的大模型,都基於這一架構進行設計。 2018 年,谷歌發布發布了基於Transformer 的預訓練大模型BERT;Open AI 則發布了GPT,這是ChatGPT 的第一代模型。
緊隨其後,百度於2019 年發布了初代文心大模型:ERNIE 1.0。這也是文心系列模型的起點,初代文心模型基於谷歌BERT 模型結構,增加了優化設計。
預訓練模型大模型可以看作一種新的研究思路。在過去,自然語言理解有各種不同的任務,如翻譯、知識問答、多輪對話等。解決每一個問題,需要專門訓練出模型,但能力的提升卻容易遇到瓶頸。預訓練模型則換了另外一種思路,先用大量數據訓練出一個具備基礎語言理解能力的模型,再通過少量數據的微調,讓其具備處理某種任務的能力。
文心大模型優化的一個關鍵點在於加入了知識圖譜。作為一種信息加工方式,知識圖譜將現實世界中存在的概念、以及相互關係用符號表示出來,最終形成一個可視化的「圖譜」。將這種方式加入預訓練,就增加了大模型在知識相關任務上的能力。
在訓練數據上,文心大模型也有明顯特點。基於百度自身的數據優勢,訓練模型的語料來自百度百科、百度新聞、百度貼吧、以及中文的維基百科。這其中包含了大量的知識性的語料。
2019 年7 月,百度再次升級模型,發布了ERNIE 2.0,並在2020 年全球全球規模最大的語義評測比賽SemEval 上,獲得了5 項世界冠軍。發展至今,百度語言大模型文心一言突出的能力是「知識增強」,能夠生成對話、進行文本創作。
大模型是未來AI 產業體系的重要組成,但要把大模型用起來,還需要底層算力、上層應用的共同搭建。百度也在這一方向上進行了諸多實踐。
直接支撐文心大模型的平台,是飛槳產業級深度學習框架。這是目前被廣泛使用的深度學習框架。截至2022 年11 月底,飛槳平台上已凝聚535 萬開發者、創建67 萬個AI 模型,服務20 萬家企事業單位,位列中國深度學習平台市場綜合份額第一。在百度AI 能力的整體架構中,深度學習框架位於第二層,整體的四層能力包括「底層芯片+ 深度學習框架+ 大模型+ 應用層」。
去年底,百度發布了最新的生成式AI 產品「文心一言」,這是應用層的最新產品,目前已經被不少新媒體用來生產配圖素材。這是一個AI 作畫平台,由飛槳學習框架和文心大模型提供技術支持。百度集團副總裁、深度學習技術及應用國家工程研究中心副主任吳甜介紹,百度將文心大模型已經形成「模型層+ 工具與平台層+ 產品與社區層」的整體佈局。
「文心一格」產品的發布,意味著百度已經開始積累大模型的工程化落地能力,而接下來「文心一言」產品的發布,將沿著這一方向進行更多探索。
「文心一言」融入更多業務
深度學習三巨頭之一的LeCun 表示,新的AI 熱潮,將帶來企業內部深度學習研發的複興。對於百度來說正是如此。與學術性質的研發不同,在企業中的技術研發,不僅僅涉及概念驗證,還因探索與業務場景結合、規模化而需要更大成本。
如微軟總裁納拉德所說,AI 將從根本上改變每一個軟件類別。如今,正來到了探索大模型與更多業務場景結合、賦能產品的加速時期。百度也已經公佈了相關規劃。
三月份即將發布的「文心一言」(ERNIE Bot)是基於文心大模型所發布的新的語意理解平台。從英文名Bot 可以看出,底層的技術將是一個類似聊天機器人(Chatbot)的對話模型。 「文心一言」將會利用跨模態、語言理解和生成能力等,為人們提供自然流暢的聊天體驗。
對於百度來說,擁有了這樣的新技術平台,首先能夠提升的便是搜索產品。目前,搜索產品的收入大約占到百度整體收入的60%,依舊是最重要的產品之一。
多年來,搜索產品的形態和用戶體驗沒有太大的變化。當對話體驗與原有的搜索引擎形成互補,用戶在搜索相關鏈接的同時,也能夠直接閱讀定向生成的內容,將是十多年來搜索產品最顯著的一次產品變革。這也將成為互聯網的新流量入口。
這種對話能力,還能夠接入智能座艙的場景中,以語音交互的形式體現。前不久的三里屯體驗中心啟動會上,集度汽車CEO 夏一平表示,「集度將融合百度文心一言的全面能力,支持汽車機器人實現自然交流的再進階。」當新的模型能力接入汽車終端,人們在座艙內不僅能夠通過語音對設備進行更全面的控制,還能夠獲得類似於和一個「人」交流對話的體驗。
除了C 端產品之外,模型能力也將接入百度的智能雲中,為B 端服務能力帶來提升。百度集團執行副總裁、百度智能雲事業群總裁沈抖表示,「文心一言」將通過百度智能雲對外提供服務,率先在內容和信息相關的行業和場景落地。
將大模型的能力引入雲服務,將是必然的趨勢。微軟此前已經表示,計劃將OpenAI 的多項技術引入Azure 雲服務中,包括ChatGPT 以及繪畫模型DALL-E。將來,通過雲服務的方式,AI 改寫軟件的進程才會真正發生。
百度智能雲宣布,將在5 月推出針對「文心一言」模型的API 接口。這將使百度智能雲在語音合成、機器翻譯、自然語言處理方面的服務能力提升,客戶可以直接調用相關能力應用到具體的場景裡。
去年百度智能雲年增長為12%,在AI 雲市場位列第一。具體而言,在數字人、智慧城市等領域,百度智能雲為市場份額第一。百度搜索業務之外的其它業務,主要受智能雲及其他AI 驅動業務的推動。大模型能力的接入,將帶來更強的增長勢能,也將拓展AI 雲的服務範圍。