原文來源:見實
圖片來源:由無界AI 生成
時間拉回到2015年,梁斌剛剛獲得清華大學人工智能博士學位,同年10月八友科技成立,並常年為客戶提供國內外數據資料。
2023年上半年,GPT大模型進入公眾視線,短短半年時間,國內就已有近百家GPT大模型,“八友”成為絕大多數大模型服務商的首選,據統計,這一數字接近50%。
作為深度參與大模型發展的數據供應商,梁斌的幾點洞察尤其值得業界參考,深聊中,他開門見山指出,我們正處在一個“強者恆強的大模型時代”。這句話背後至少點出了三類企業的處境:
一是,對於品牌而言,大模型商用的次序依舊是大品牌優先,即便是大模型技術被廣泛應用,不成規模的企業依舊是“小腳穿大鞋,跑一步摔一步”。
二是,對於服務商而言,首先擁有大規模的數據樣本是一件具備極高時間壁壘的事,其次,擁有數據的平台會想盡辦法保護數據,提高數據獲取門檻,提高行業難度。因此,後來進入的服務商難度會更大,強者恆強。
三是,對於平台而言,如果是國內互聯網平台自相比較,會發現“地主”太多,一個應用出來,就馬上能有上億用戶,這是中小平台比不了的。
如果拿國內平台和國外平台比,差距同樣也很明顯,正如梁斌所言,如果GPT4打10分,國內大模型廠商還在2-3分這個程度,那麼2.5分,還是2.8分,其實沒差別,要能達到8分甚至9分才有機會。
強者恆強,可能只有一些特別具有壟斷性的場景,才能殺出來。
這或許也是品牌、服務商和平台的機會。再小的品牌也能建立起自己的專屬粉絲圈;再小的服務商,在垂直行業的深耕依舊具備不可替代的高價值;再小的平台,也能在狹窄賽道中做出本地化的微平台。
雖然,生成式AI可以提供互聯網上沒有的答案,並通過大規模數據訓練得到的“湧現”性知識來回答網友的各種問題。但應用的最後一公里,是否按下確認鍵依然取決於你自己。
對了,梁斌還將在9月20日參加見實的AIGC主題大會,屆時他還將在現場與我們分享更多當前大模型時代下的企業新機會,歡迎大家在文末或者公眾號菜單欄報名深度溝通。接下來,讓我們回到對話現場,聽聽梁斌博士在大數據與AI領域的前沿洞察,如下,Enjoy:
北京八友科技創始人兼CEO 梁斌
01 強者恆強在大模型時代會更加嚴重
見實:你們現在已經是50%國內AI大模型數據的供應商,這個數據的總樣本量大約是多少?
梁斌:我們目前列入銷售線索的企業大約有106家,數據總量非常巨大,中文壓縮數據掌握了大約100TB,海外數據超過1PB,國內數據比較敏感,國外則主要來自Common Crawl、Laion、Quora ,Github,Reddit,電子書等平台。
見實:創業之初,你在數據領域看到了怎樣的機會?
梁斌:剛開始做八友是在2015年,當時主要是為輿情公司提供數據服務,後來逐漸給需要提供實時數據的電商公司提供數據需求;目前在為大模型客戶提供數據服務。
我們一直堅信“數據行業”未來會成為一個獨立行業,原因有三:
一是,數據規模越來越大,越來越封閉在App中,採集難度大,容易成為獨立的社會分工。
二是,大規模數據儲備價值很大,可以做一些非常長遠的宏觀報告。 2015年公司創辦前後,當時還沒有大模型,只是覺得這是一件可以做10年甚至20年規模的報告,這個儲備是很難短期得到的
三是,隨著長期的增持,核心競爭力會越來越強,擁有數據的平台會想盡辦法保護數據,提高數據的獲取門檻,提高行業的難度。
見實:從你的觀察來看,目前,行業對AI類企業的認識發生了哪些變化?企業又該如何應對這輪GPT大模型帶來的行業衝擊?
梁斌:大模型這個賣點之前可能連見到甲方負責人的機會都沒有了,現在可以說在2B類生意中具有很強的穿透力,特別是加上耳目一新的演示效果,轉化率比以往大大提升。
實際上,AI類企業勝負的關鍵就在成本競爭。做大模型的團隊有很多,成本控制不好就很難長久,控製成本是各家團隊的核心競爭力,創新的同時還要結合客戶的具體場景,從效率,成本,效果等多方面打動甲方。
在這樣快速變化的時代,企業至少要具備三點基礎認知:
一是,充分利用現有基礎設施,不要重找車輪,模型方面的讓專業的人做。
二是,尋找自己行業的特殊數據,最好是非公開數據,通過這些數據建立壁壘。
三是,找到自己行業的應用場景,能接觸到這些場景,快速覆蓋,也是重要的壁壘。
如果只用一個字來說就是“快”,快是最重要的壁壘,在大廠反應過來之前完成一輪對市場的覆蓋。
見實:隨著AI 技術的發展,企業競爭的“勝負手”又會轉向哪邊?商品、服務還是品牌力?
梁斌:回看創業之處的那三點觀察,首先擁有大規模的數據樣本是一件具備極高時間壁壘的事,其次,擁有數據的平台會想盡辦法保護數據,提高數據獲取門檻,提高行業難度。
強者恆強可能在大模型時代會更加嚴重,中小企業的大模型團隊殺出來的可能性還是比較小,中小公司在數據和算力上,人才上都有很大瓶頸,我想可能還是要有一些特別的具有壟斷性的場景,才能殺出來。
互聯網歷史上無數中小公司,有服務,有行業內的品牌,也都倒閉了。互聯網行業“地主”太多了,一個應用出來,就馬上能有上億用戶,這是普通中小公司比不了的。
02 中小企業如何適應強者恆強的時代
見實:你在《走進搜索引擎》這本書中提到,搜索引擎本質是一個由用戶定義的信息聚合系統。通過用戶輸入的查詢關鍵詞,搜索引擎推測用戶的查詢意圖,然後快速地返回相關的查詢結果,供用戶選擇。
生成式AI的出現,其實是幫用戶省去了大量搜索整理信息的時間,它的出現是否會重新定義“主動搜索”這件事?如果讓你重新定義搜索,你會如何描述?這麼描述的底層邏輯是?
梁斌:搜索引擎核心的價值有兩個,一是通過網頁質量評估方法去掉低質量網頁;二是通過相關性方法提高了相關性(相對於查詢詞的相關性)。這些共同節約了用戶找到答案的時間。
然而搜索引擎畢竟不是神,它也只能給出一個排序,用戶還是需要自己在排序的結果頁中尋找答案,選擇答案的時間沒有省去。
生成式AI直接給出最佳結果,風險很大,因為只有一次機會,但是用戶體驗極佳,而且更難得的是,生成式AI可以提供互聯網上沒有的答案,通過大規模數據訓練得到的“湧現”性知識來回答網友的各種問題。
我們的開發工程師研究安卓的源碼,有一段看不懂,大模型卻可以來解釋,這個在網上任何地方都搜索不到答案的。而且大模型解答數學題的能力也很強,一個題目變一種說法,互聯網上就找不到了,而大模型依然可以正確回答。
見實:Open AI創始人也曾提到過數據規模並不是越多越好,你們有對數據的臨界點做過劃分嗎?哪些情況下會遇到數據規模觸頂?
梁斌:目前基本上我們知道的情況模型參數大概分10B(billion),100B這個參數量級,前者解決一些文史哲數據,或者解決一些理工類數據解決複雜問題。
參數的提升意味著數據需要跟著提升,否則就容易過度擬合,對訓練數據的解釋能力提高,但是泛化能力,理解非訓練數據的能力就降低了。因此,從人力發展,算力提升的趨勢看,肯定是越多越好。
但是多也會帶來問題,數據質量要跟著提高,否則數據多反而會影響訓練效果,低層次的數據反複訓練,也達不到高水平智能。
臨界點劃分目前我知道沒有統一標準,目前1TB token都是小模型,玩具型的,隨著社會發展需要,10TB甚至100TB token都不算大。
見實:你認為品牌需要發展到多大體量,或者需要多大的數據樣本才能支撐起一套大模型的運轉?
梁斌:不同行業數字化水平不同,比如機械行業,基本上數據都在書籍,論文,課本上。
如果是一個消費者品牌,其可以拿到的數據,也就是知乎,小紅書,一些評價型數據,基本品牌在銷售過程中一些售後服務對話數據,也是非常小的。
所以,狹窄行業的專業知識是非常少的。如果從百度知道,知乎上搜索這個品牌詞,看看有多少相關的提問就會知道,其實,很多小行業可能短時間還用不上大模型。
見實:怎麼看待微信私域CRM中的用戶數據?好友或者群聊天記錄是否會是品牌主要的數據源。如果對話內容會成為主要數據源,那你覺得需要多大量級才能實現對話場景中的自動化?
梁斌:目前我知道的對話數據大多涉及個人隱私,處理起來也極其困難,直接用作訓練風險極高,特別是2C場景不太敢用對話數據。我目前了解的可以買到的對話數據大概是這麼幾類。
一是,醫療類多輪對話數據;二是,社交網絡(比如微博)的多輪評測改造成的對話數據;三是,影視作品中的對白。
這些對話數據還是太少,目前看還沒法滿足各種垂類行業的需求。
見實:瑞幸咖啡、漢堡王等企業本質上是一家技術公司,也是數據驅動型公司,這是否也意味著他們這樣體量的消費品品牌會是接下來AI大模型應用落地的排頭兵?畢竟這類行業的用戶交互頻次與增長速度是最快的。
梁斌:到目前為止還沒有一個消費品品牌有獨立技術團隊在做大模型,也沒有向我們購買數據的品牌企業。
瑞幸、漢堡王這樣的企業,主要解決的還是用戶增長問題,智能客服和自動化文案宣傳部分的應用需求可能會多些。
有用到大模型的場景,獨立組建團隊來做是不太可能的,但他們可能是在同賽道企業中最先拿到結果的。
見實:中小企業能做些什麼呢?哪些不可逆的錯誤動作需要中小企業特別注意的?
梁斌:中小企業增持數據風險很高,特別是增持用戶個人數據可能風險更大,萬一傳播開來會比較麻煩,最安全的方法就是不要增持用戶個人數據。這個可能是數據增持過程中遇到的最大風險。
03 百模大戰:國內AI大模型的演變與發展
見實:國內AI大模型的演變過程是怎樣的?可以被分為幾類?
梁斌:目前,國內AI大模型發展速度飛快,但起步有點晚,仍還在追趕階段。每家大模型團隊向前迭代都有不同的思路,總體上受限於數據和算力等資源。
不缺算力的團隊,在持續擴大數據規模;缺算力的團隊,則在不斷優化現有數據質量。總體來看,國內做AI大模型的企業可分為三類:
第一類做底座開源的2B類大模型,如,智譜AI,零一萬物這種。
第二類是做垂類大模型的企業,主要在底座大模型上用特殊數據做continue training的,比如,左手醫生等等。
第三類做2C類型的大模型服務,代碼閉源。如,百度文心一言,阿里通義千問、訊飛星火大模型等等。
其中,底座大模型的發展還在爬坡,垂類大模型和2C 類型的大模型團隊都已經開始賺錢了。當然,做垂類大模型的也有可能2C,不過現在看來可能性比較小,盈利模式基本跑不通。垂類解決行業問題,B端用戶付費是比較正常的。
見實:你們會被歸為哪一類?是否已經實現盈利?這類商業模式目前還有多大的進入機會?未來是否有引入資本的計劃?
梁斌:我們不做大模型,我們只是給大模型提供數據服務,已經盈利了。做大模型的企業目前基本都在投入期,傳統的技術型公司,有應用場景的業務型公司,還有各行各業的龍頭企業都在進入這個領域,服務的客戶千奇百怪。
見實:在大數據服務中你們的核心價值是什麼,這些價值是如何幫助企業實現更好的業務成果的?
梁斌:我們的服務核心理念和“賭場理念”相似,不怕客戶(員工)佔便宜,就怕客戶(員工)不來。只要客戶願意讓我們服務,就是巨大的機會。
整個交付過程一般會被分成三部分:
首先是交付階段,先做事,先服務,滿意後再付費;其次是遇到問題了,積極賠償;最後是客戶隨時需要,我們的工程師隨時服務,我們會給工程師高昂加班費,以確保服務的連續性。
見實:之前有提到過數據市場的三個發展階段,能否詳細闡述這些階段,以及在你看來,企業在每個階段的機遇和挑戰是什麼?
梁斌:我認為數據發展的階段,也是人類知識數字化的階段。在有計算機,互聯網以前,人類知識通過書本傳承。在計算機出現,特別是互聯網出現以後,數據開始向互聯網轉移。大概可分為三個階段:
傳統互聯網時代,數據都在網頁上,只要是社交需求,部分功能需求。
移動互聯網時代,數據既在網頁上,也在app上,社交需求降低,功能需求提升,大量的數據圍繞這實現具體功能,購物,外賣,叫車,訂票等等。
人工智能時代(大模型時代),人類知識有計劃的數字化,大量紙質書被電子化,政府公開大量數據,數據越來越成為人類共有的資產參與對人類的服務中去。
現階段來說,企業都有面向大模型的需求,一方面是賣點,另一方面是切實創造價值,快速用現有基礎設施和行業需求進行整合,快速實現行業服務水平的升級。
比如有團隊做了網店的24小時多語言客服,可以和全球的客商在任何時間用任何語言進行導購服務,去掉了時差,去掉了語言障礙。
見實:還有哪些應用案例?以及你們的通用做法是怎樣的?
梁斌:以我們目前服務的金融和汽車行業客戶為例,通常有三種落地方式:
一是,通過生成式模型替代部分甚至全部人類工作(這類工作往往是低階工作),金融行業比如做一些基礎數據準備,簡報,傳統的需要人力的部分,可以通過大模型來解決。新能源汽車行業車載交互系統,客戶需求的研究等等都可以由大模型來參與。包括很多遊戲行業通過大模型創造圖片,減少了遊戲原畫師的需求。一些客服需求很重的企業,通過大模型降低人工客服的需求,等等。
二是,通過大模型來輔助人類工作(這類工作往往是高階工作),比如現在大模型幫助高中生解題,幫助大學生寫論文,幫助工程師寫代碼,幫助律師分析案情,幫助醫生進行診斷等等,這類往往可能是實現盈利模式的重點,也是目前大模型發展方向的重點。
三是,通過大模型來指導人類工作,因為大模型可以把大量交叉學科的語料一起訓練,容易產生更加高階的智慧,從而能夠指導高科技研究,高精尖裝備的研發等等,目前國外大模型在向這個方向努力,國內大模型還暫時沒到這個階段。
見實:一路觀察下來,科技互聯網大廠、投融資機構和學術研究機構都在做什麼?
梁斌:都在齊頭並進吧,行業的交易所氛圍還是比較開放的。
理論研究方面國內科學家已經取得了很好的成果,比如清華大學的朱軍老師提出的快速高效訓練方法等;互聯網大廠團隊則在瘋狂迭代推進,基本三個月一個小版本,半年一個大版本;投融資機構稍微有些安靜,因為種種原因實際上並沒有及時跟進,至少國內還並沒有看到特別大的投融資事件發生。
見實:那未來大數據與人工智能發展趨勢,你是如何預測的?接下來互聯網大廠的“百模大戰”中你更看好哪一家?
梁斌:從業務視角去看,第一波買我們數據的是互聯網公司;第二波會是非互聯網的上市公司;第三波是想也沒想到的各行各業的2B類公司。
這個影響速度是非常快的,大部分企業決策人都已經在深度思考大模型和自己業務的結合了。
目前國內確實正在經歷著一場“百模大戰”,很難定輸贏。
從整個大的行業來看,國內大模型團隊做的產品我感覺和GPT4都有較大差距,如果GPT4打10分,其他還在2-3分這個程度,那麼2.5分,還是2.8分,其實沒差別,要能達到8分甚至9分才有機會,目前國內的大模型還要繼續努力才行。
當然,我們作為數據提供方也要繼續努力,縮小差距。
資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載