對話火山引擎譚待:堅持雲優先,做好大模型時代的擺渡人


來源:51CTO技術棧

採訪:楊文飛

撰稿:雲昭

每當我們面對一個極有可能顛覆行業的技術熱潮時,決策者對於未來的考量和判斷,往往決定著企業的最終走向。

面對火爆異常的大模型市場,火山引擎並沒有急於發布自己的通用大模型,而是選擇跟早期出圈的多家AI 科技公司及科研院所強強聯合,推出大模型服務平台“火山方舟”。這被業界評價為“在大模型的航海時代拼命造船”、“做淘金路上的賣水者”。

業界的這番評價準確嗎?火山引擎在大模型市場有哪些真正的意圖?不久前我們有幸採訪到火山引擎總裁譚待,聽他講講這其中的取捨發展之道。

大模型:水到渠成的質變

如果放到一個較長的時間維度來看,大模型的火爆,既有水到渠成,也有量變引起質變。一個領域的質變往往來自於對早期方向的準確判斷。

2017年,具有很強方法論的Transformer發布,包括BERT、GPT-1、2、3也都在之後相繼問世。

彼時,OpenAI有一個很重要的技術判斷:“scalling law”。在一定的計算量和數據量的情況下,模型的Loss是可以預測出來的。

然而,當時其實很多玩家去做嘗試,但都沒有發現這一點,所以人們會覺得“就是比以前好一些,但可能天花板就這樣”,也就放棄了持續的投入。

但OpenAI看到了這個大的趨勢,所以它義無反顧地投入了更多的資源來做這個事情。

接下來,外界看到OpenAI又去解決知識壓縮、對齊人類偏好的問題,把預測下一個任務和對人的有用性、有害性,做好對齊。

OpenAI一直在沿著這條路行進,所以,“它既是一個循序漸進的過程,又是一個量變引起質變的過程。”

AIGC這條賽道也只是剛剛開始。放在幾年前,很多大公司都會覺得這條路特別難,挑戰特別大,而且短期內不會實現。但是現在情況不一樣了,已經有人證明了這條路是可以走的,大家就不太擔心“投資不確定性”的問題。現在可以看到越來越多的人湧入到這個賽道裡面來做這個事情。

未來大模型的金字塔格局

就像現在去看幾年前的Transformer一樣,大模型的時代只是剛剛開始。而關於大模型市場的未來格局,譚待提到:

“在大模型領域,起步門檻陡然升高,以前兩塊GPU就能訓練,現在至少一千塊起步,這會對一些小規模的公司很不友好,甚至是艱難的。但垂直賽道則不然,是另外一個邏輯。”

首先,垂直並不意味著規模小,垂直領域的規模也很大。第二,在垂直行業,假如有一些數據或能力的壁壘,基於通用的模型去做自己的Finetune,也能夠得到一個在自身垂直領域效果較好的模型。

有人把大模型和上層應用比作是“iOS和Android”,這有些不恰當,操作系統跟應用的界限是比較清晰的。大模型則不然,因為很多應用的能力將來都有可能直接將其內化到大模型中去,之前AIGC獨角獸Jasper用的很多東西,現在基於底層模型就能幹。

國內目前還處於先把基礎大模型做好的階段。 “國內許多做大模型的公司都是火山引擎的客戶,無論ToB、還是ToC,他們無一不是要把自己的模型能力給建起來。”

一些觀點認為“大家不要先做模型,先做應用”。譚待看來,這是有一點危險的。因為,未來某個應用中的某些能力,說不好就會直接被模型內化掉,也就失去了競爭壁壘。

模型本身的基礎能力完善之後,在落地應用上面還有很多的問題需要解決,比如訓練的成本問題,包括將來更高的推理負載。再比如推理時,還要考慮到終端用戶和商業邏輯,不管是個人付費,還是傳統廣告方式,收入提升都是有天花板的,要考慮應用所帶來的信任和體驗,是否足以覆蓋掉成本。

對此譚待總結:現階段還是把基礎大模型做好的階段,但未來在不同的領域,卻未必要用最好或最強的模型,而是要根據所在場景,選擇所擅長的、性價比最合適的模型。

在譚待看來,未來會形成金字塔樣式的大模型格局——幾個超強的模型,更多的能力中等但各有擅長的模型,以及更多在垂直領域做得比較好的模型。

未來的企業需要“多模型”

對於企業來說,長期來看會形成多模型的佈局,在對應的領域內去找到最合適的組合策略,既可以自己研發訓練、或基於已有的基礎大模型來微調,也可能會直接去應用已有的模型,然後做Prompt Engineering。

當然,整個模型的生態有很多問題要解決,比如安全、信任的問題要解決,如何保證企業的Prompt的這些數據不會被模型的供應商拿走,同樣怎樣保證供應商的模型關鍵信息、技術不被洩露,有可能會出現第三方來做這個事情。

構築信任牆至關重要,而火山引擎作為雲平台,通過互信計算框架,基於安全和隱私保護問題,提供了包括安全沙箱、可信硬件及聯邦學習方案,以此保證應用企業和模型供應商在互信的基礎上進行合作。

此外,未來模型應用時,也會有類似於Copilot、Autopilot的工具或應用,只有將這些生態打通,才能讓模型做更多的事情。 “不管是模型的基礎能力,還是落地應用,還是生態佈局,都需要我們花更多的時間,投入更多的精力去推進。”

不推出自己的大模型

大模型既然前景無限,那為什麼火山引擎不自己做大模型?譚待給出了火山引擎對大模型生態不一樣的解讀視角。

火山引擎基於對未來多模型趨勢的判斷,無論是在多模型的訓練還是應用上,目標是去提供好對應的解決方案,比如說信任的方案、成本優化的方案,還有比如說工具鏈、腳手架、最佳實踐的方案。

火山引擎打造多模型的平台,而不是直接下場做大模型,就是要把多模型的平台做好,不管是內部的模型還是外部的模型,都可以用一樣的方式,對各行各業的企業和組織提供一流的服務。

雲還有許多難題要攻克

大模型時代,即便將自己定位成只做雲,也會有非常多的挑戰需要解決。因為整個大模型行業要做好、應用好,是需要多個角色一起參與進來的。大模型給各個生態層面都留足了空間,雲廠商也是一樣,“挑戰和價值都是非常大的。”

譚待強調:“你不可能把所有事情全部做完,而且也不擅長。即便做了,行業和客戶也不會因此而受益,那為什麼還要去做?”

雲是更大的一個範疇。相較大模型而言,雲是更大的應用場景。在雲上的時候,它提供的能力很多,有的是智能化的能力,有的是數據分析、統計的能力,有的是DevOps的能力。

雲和大模型所需的核心能力是不一樣的。所以,火山引擎的定位很清晰,就是把雲這件事做好。其他領域,包括新領域會對雲提出更多的新需求,那就攜手一起解決這些問題。

堅持雲優先,持續做好雲才是關鍵

於火山引擎而言,把雲這件事做好是最重要的事情。為什麼要“雲優先”?因為雲是依賴於規模升級的產品,規模做大才能夠提供更高的性價比、更低的成本,這樣企業才能更好地進行數字化創新。

“正是基於此,許多人都會發現,火山引擎每一次發布會都會把性價比、成本放到突出的位置上,而且強調是通過技術手段去實現可持續的降本。”而要從本質上通過技術來訓練好內功,就要做好克服極大困難的準備。

大模型也是一樣的,最終成本太高,即使1000代幣一分錢,對於很多領域而言,成本還是很高,將來模型效果更好的時候,這個成本會更貴。如果不能把成本優化下來,就不大可能大規模地使用。

反過來,通過節約的成本去維護整個技術團隊來持續做技術的優化。所以業務規模決定了資源規模,也決定了技術團隊的規模。

好技術,總會有人買單

為什麼許多優質的大模型廠商選擇了火山引擎?據譚待介紹,繞不開兩個事實。

第一,在ChatGPT推出之前,火山引擎就敏銳地看到了小模型正在往大模型遷移的趨勢,因此就有了更多的算力儲備。比如在自動駕駛領域,去年火山引擎就沉澱了許多客戶,這些儲備在今年得到了應用,這一點非常重要。

第二,算力並不是簡單的GPU卡的供給,如何能讓一千張、四千張,甚至將來超過一萬張GPU卡穩定地去訓練一個大模型出來,其實需要在服務器、網絡,以及整個平台調度的層面都做非常多的事情。 “除了算力以外,火山引擎是市面上少數能夠幫客戶長期穩定地去實現數千卡乃至未來上萬卡規模訓練的雲服務商。”

任何技術都必須經由真實場景來打磨,火山引擎既然不自己做大模型,如何保證自己的大模型方案是經歷過打磨的呢?

譚待在這裡提到了火山引擎獨特的“內外同源”,即同一個產品、同一個平台、同樣的技術架構,它既是對內服務抖音的,也是對外服務火山引擎客戶的。這樣就可以通過內部龐大規模的資源和場景去打磨最靠譜的技術服務,而不是把外部的客戶當作小白鼠。

ChatGPT之前,抖音內部其實已經有大量的推薦和廣告的場景,模型的規模體量非常巨大,需要至少幾千卡的資源,能夠做到穩定地訓練和推理。網絡結構上局部也採用了Transformer等等。

這些經驗增持到火山引擎的機器學習平台之後,價值巨大,能夠幫助外部客戶快速地完成冷啟動過程,把模型跑好。

此外,火山引擎不僅能幫大模型廠商做好訓練,也可以幫他們一起去搭建好服務各行各業的應用。這也是市場需求決定的,不管是Prompt Engineering、微調、還是基於開源來訓練,都需要有一個平台幫他們把這些事解決,通過這個平台可以找到適合它各個場景的模型,同時把安全、成本、穩定性等等都優化好。

寫在最後

大模型的熱度依舊在持續沸騰,方向取捨往往決定著變革成敗。洞察到更深層邏輯的人,可能會帶給我們更多驚喜,且讓我們拭目以待。

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts