作者:油醋;來源:GenAI新世界
當庫克站在蘋果總部大樓外圍草坪的虛擬背景前開始展示全新的iPhone 15,居住在波蘭的產品設計師Volodymyr 轉頭拿起手機。他發了一條推特:
“我懷念喬布斯。”
這場發表會所展現出的創新力不足,而此前庫克在財報會中「生成式AI 幾乎嵌入到我們製造的每一個產品中」的描述也沒有在新的iPhone 身上找到任何明確的線索。賈伯斯花了2 億美元收購的Siri 在當時非常驚艷,現在的定位愈發模糊。
蘋果總部大樓外,生成式AI 技術正接近現實,蘋果也在世界各地的辦公室為人工智慧領域的研發增加崗位。但每當新科技即將呼之欲出,那位永遠穿著黑色高領毛衣,精於創意與整合的產品大師總是引人懷念。
1979 年,傑夫·拉斯金帶著賈伯斯去位於加州帕洛阿爾託的研究中心PARC 參觀。 PARC 是現代個人電腦幾乎所有要素的誕生地,傑夫·拉斯金當時是研究中心的電腦科學家。拉里·泰斯勒和丹·因格斯為他們示範了一種新的物件導向程式語言SmallTalk 。
賈伯斯不太喜歡系統看起來有鋸齒感的滾動方式,他問對方能否改成平滑連續的滾動方式。丹·因格斯想了想,在一分鐘內完成了代碼的改動,系統變成平滑連續的滾動方式,這讓賈伯斯和所有一起來的蘋果員工大為震驚。
不知道這是否是20 多年後iPhone 滑動解鎖螢幕的來源。
圖源:《THE EARLY HISTORY OF SMALLTALK》
這個故事被記錄在回溯文章《THE EARLY HISTORY OF SMALLTALK》裡,SmallTalk 是一門古老的程式語言,或者說是可以自由編輯的作業系統。 SmallTalk 的想法是,即使是非程式設計師也能夠將程式設計師開發出的應用或元件加以修改或組合起來,從而創造出符合自己需求的應用,另外任何人都可以直接修改SmallTalk 系統的程式碼對整個系統進行自訂,系統的所有邏輯都是直接暴露給使用者的。
就像丹·因格斯為賈伯斯所示範的。
那個滑塊的想法是賈伯斯某種超前的敏感性的一瞥,他用這種敏感攻擊著舊時代,最終帶來蘋果至今多年的繁榮。但現在蘋果的開發人數已經超過3,400 萬人。庫克執掌下的蘋果,姿態早已由攻轉守,透出老成。而最新鮮的一批人,心思已經不只在iOS 商店或Xcode 上了。
隨著ChatGPT 的出現,大語言模型(LLM)開始作為一種具有現實意義的技術而被重視。
舊金山軟體公司Robust Intelligence 的一位前機器學習工程師Chase Harrison 在22 年10 月底推出了LangChain 。這是一個封裝了大量LLM 應用開發邏輯和工具集成的開源Python 庫,提供了一套工具、組件和接口,允許開發者鏈接提示詞、模型和解析器,以使用底層模型創建更複雜的用例,簡化建立由大型語言模型(LLM) 和聊天模型提供支援的應用程式的過程。
LangChain 像是SmallTalk 的驚人故事在40多年後的一場回歸,這樣的開發框架被形容為“中間層”或“中間件”,正在成為當下LLM 應用開發者手邊最燙手的工具。
圖源:Medium
5 月ChatGPT Pulgin 推出,以及在6 月進一步推出的Chat Completions API 中提供函數呼叫的能力,OpenAI 想要包辦一切,LangChain 的前途開始蒙上陰影。但這並不代表它會作為一個短暫熱潮退去。 “在矽谷,通用大模型的競爭已經結束,現在所有人都在談論開發LLM 應用”,過去3 年一直待在矽谷的蔡建說。
偉大的變革總是在浮出水面之前就已經定好商業層面上最主要的收益人(這很正常),正是微軟、谷歌和英偉達給了這場大模型變革最充分的燃料。這條主線之外,敏銳的創業者則需要找到第二落點。
但今天的一個問題是,像是SmallTalk這樣的工具和它的思想某種程度上給賈伯斯這樣的非程式設計師提供了成功的基礎,而今天的LLM時代裡的新賈伯斯似乎還沒有得到如此的支持,依然在掙扎。
許多人開始挑戰這樣的現狀,例如現在想要定義大模型軟體開發的Harrison 和LangChain,或是覺得LangChain 仍然不夠銳利的蔡建和他的創業專案ReByte 。
“中間件”還是“中間層”
生成式AI的定義權暫時聽命於OpenAI,大模型脈絡下「中介軟體」概念第一次被廣泛關注,也出自OpenAI 的創始人山姆·奧特曼。
「我認為將會有一小部分的基本大模型,但對所有試圖培訓自己模型的創業公司持懷疑態度。將會發生的是,有一批新的創業公司採用已有的大模型,並對其進行調整,不僅僅是微調。中間層(Milldelayer)會變得非常重要。」去年秋季的一次AI 討論上,山姆·奧特曼分享了對於未來的預測。
這個「中間層」的概念很容易讓人混淆,它讓人聯想到軟體時代的“中間件(Middleware)”,而奧特曼用的詞是“Middlelayer”。
「中間件包括了應用程式運行時、企業應用程式整合和各種雲端服務,可以幫助開發和維運人員更有效率地建置和部署應用程式。資料管理、應用服務、訊息傳遞、身份驗證和應用程式介面(API )管理通常都要透過中間件來處理。但像LangChain 所處的「中間層」並不是這個意思。
這是一個很少見的以所處位置的排除發來定義的概念。這麼叫只是因為它既不在模型層,又不算應用層,這個「中間層」概念在大模型湧現出智能之前,並沒有合適的參照。
「所有在使用中間層這個定義的人,他們其實自己也不理解這個概念「,蔡建的理解是,這更接近一種『編排層』的概念。
LangChain 不好用
比起LangChain ,ReByte 是一個更新的專案。
蔡建先前在豐元資本做了三年,再那之前他將一個共享文件的創業計畫「一起寫」賣給了快手。今年年初他從豐元資本位於史丹佛大學對面的辦公室走出來,聯合機器學習出身,之前在字節飛書和微軟工作過的Nemo Yang,從自己的創業團隊中撈了幾個人,組成了7 人的新創公司ReByte。
然後他們遇到了另一個志同道合的團隊——在Github 上登頂過,拿到了5100顆星的RealChar 。後者是一個對ChatGPT 背後生硬的AI -人類溝通方式並不滿意,而希望用語音和視訊來創造兩者間更自然溝通方式的項目。蔡建以CTO 的身份帶著團隊進入了RealChar ,開始為RealChar 的技術實現提供支撐。
從LangChain 、GPT-Index 到ReByte ,如果用「編排層」來做定義的話,這一類項目是大模型初期基礎模型競爭的浪潮之後,將LLM 與應用聯繫起來的具體步驟。
LangChain 是最早出現的,它和後來的GPT-Index 的理念相似,一個程式設計師思維的創業家想要做一個程式設計師群體的開源專案。 Chase Harrison 的想法天馬行空,這也讓LangChain 自然成為一個非常極客的東西,有效而粗糙,拿到投資的同時, LangChain 也被很多人詬病有著太高的學習和測試成本,甚至不如自己原樣畫葫蘆的重寫一個。
ReByte 的字面意思是“重新定義寫程式這件事情”,這個專案最初發起的原因也很簡單,LangChain 不好用。
蔡建一開始想用LangChain 做一個與餐飲平台Yelp API 連接的訂餐系統,但最終因為調用太麻煩,和太高的調用成本而放棄。
這件事從LLM 到LangChain 目前都不現實。一方面高並發狀態下多次重複請求的情況嚴重,如果只依靠LangChain 的話,為了得到一個API 的響應需要發送差不多30 個請求給OpenAI ;另一方面, LLM 本質上是面向普通用戶和自然語言的,沒有特別為API 呼叫而做的設計,產生的API SPEC 過長,以Token數折算成花費將是一個天文數字。
“但這實際上不是LLM 自己的問題”,蔡建說。
LLM 的理解和推理能力能夠完成一個目標任務的拆分,例如把一個大的目標實現拆分成多個任務,然後在這些步驟中尋找優先順序最高的任務,繼續往下拆分,直到形成整個任務流程。
“理論上只要你給他個目標,他可以無限的循環,然後非常理想的情況,它一定可以把這事情做完。”
但這種忽視時間尺度的「理想化」本身就缺乏現實意義。要解決實際問題的話,答案需要在一個相對明確的時間範圍中給出,並且在安全性和成本上可控。
在LLM 湧現出智慧之前,所有的軟體產品都需要軟體工程師按照需求一行一行來寫,而人們期待的人工智慧,只需要你明確的描述出來你要做什麼,它就可以幫你解決所有行業問題。
以現在的視角來看,之前的軟體時代,與人們對未來LLM 成熟形態的期待,在一場關於電腦的想像的兩個極端。 ReByte 則希望在這中間取得一個折中的位置。
這聽起來近似於產業大模型的概念,這把能讓LLM 快速落地的萬能鑰匙引得幾乎所有大模型公司趨之若鶓。但這中間也有實際的路線問題,到底是在應用層面加入產業數據,還是在模型訓練層面加入產業數據?
蔡建更傾向前者,即大模型本身並不需要理解產業知識,需要產業知識的是應用。
“每個公司都在說我要做行業大模型,不是因為他懂大模型,而是因為他懂這個行業。”
最終來看,只有呼叫LLM 的成本夠低,它才能變得實用。一種可能性是,如果有太多行業知識的雜質參與到模型訓練中,每一個Query (查詢請求)都會浪費掉更多的計算。而知識如果從基礎模型外部灌輸進來可能是更靈活的方式。 LLM 本身需要高度具備常識,即推理能力等抽象化的思考能力,但一個HR 系統,一個醫療系統或修車手冊不該成為常識的一部分。
於是ReByte 不改造LLM ,而是要做一個連接LLM 的低程式碼平台,以及一個灌入資料的介面。
圖源:ReByte 官網
在ReByte 的使用方式上,主要分為Copilot 和Callables(可呼叫)兩類工具。前者可以直接進入使用, 接入了ChatGPT、Claude 的底層模型能力,也引入了即時搜尋、文件概括的功能,甚至結合了NBA 這樣特殊的資料庫做了對話產品。但Copilot 更像是ReByte 為了Callables 所做的展示。 ReByte 為使用者提供了連接LLM 的開發流程和工具,並且提供了資料庫匯入的途徑。
美國SaaS 市場相對完善,目前ReByte 已經和Notion 、Google Drive 、Slack 、Discord 等SaaS 平台建立連線。企業資料經由API介面存取後,RealChar 對其進行向量化的處理,然後餵給做好的工具,產生自己的Agent 。
至於這個Agent 是叫Copilot 或是其他什麼應用,只是表現方式的差別。
科技降維和它的代價
所有用過LangChain 的開發者都不會否認,這個框架透露出一些技術狂的自嗨,這無形中鑄造了很高的技術門檻。 LLM 本質上卻是一種技術降維,如果你有一個好的想法並且又清晰且有效的解決邏輯——比如喬布斯的天才想法碰上SmallTalk —— LLM 可以成為聽憑吩咐的萬能打手。
ReByte 與LangChain 在出發點上的差異,可能是前者對這種技術降維更加樂觀,或者說在當下具有更大的野心。
ReByte 最初的專案團隊裡,兩個人在美國做業務拓展,國內有一支經驗成熟的4 人開發團隊,另外的一位員工來自印度。這位印度員工非常年輕、有很強的程式設計能力,充滿程式設計熱忱。從招募進來到現在,他負責了團隊裡接近一半的程式碼產出,但蔡建從來沒有見過他。
這個印度開發者是ReByte 團隊 在GitHub 上無意間看到的一個好專案的歸屬者,然後聯絡了他,很快團隊裡多了一位遠距辦公的新成員。這樣具有菁英級程式碼能力的開發者鳳毛麟角,但隨著LLM 的出現,未來對開發者的定義或許可以完全拋開寫程式碼這件事。
就像足夠精確的Prompt 可以在Midjourney 上實現你所有想要的視覺效果一樣,當LLM 可以在寫代碼層面代替人類後,開發者的核心能力就變成了教會LLM 以什麼方式寫代碼,以及每一步所要達成的訴求是什麼。這更像是一種前面提到的「編排」能力, 而「編排」的高低,最終考驗的東西也從程式碼能力轉變為更本質的邏輯能力以及對場景的理解程度。
在這兩方面具有優勢的人,在軟體時代可能會被具體的程式碼難題卡住,但未來可依靠LLM 寫出一個完整的軟體系統。
他們會是新的應用程式開發者,微軟CEO 薩蒂亞·納德拉對這個新的開發者群體的預測是10 億人。在此之前,網路創業的邏輯無非是ToB 或ToC 之間的選擇,但隨著未來開發者的技術門檻降低,這兩條路線未必是LLM 創業的唯一準則。開發者群體本身會變成一個龐大市場。
ReByte 的走向是「 To 開發者」。甚至未來所有「編排層」的工具都會為這個群體服務。
這樣的變化也牽引著創業者的變化。李彥宏在文心一言發出時預先替所有創業潑了一盆「大模型創業沒有機會」的冷水,但隨著開發者門檻的下降,更加九死一生的應用層創業或許也只是大公司安撫人心的說辭一種。
不是那個一呼百應的時代了
我們在很多事情上都有相似的體驗。例如一群人的抖音上火透了的「秀才」直到被封都從未進入過另一群人的信息流裡;比如Hugging Face 正在成為開源大模型的核心社區,但大模型這個詞仍然讓大部分人感到陌生。
人們對自己的喜好越來越明確,需求也越來越精細。如果在10 多年之前那個iPhone 引領的行動互聯網形成時期(或者更早),好的創意可以不斷做大,然後變成一家Meta 、字節跳動這樣的公司,現在這樣的事越來越少了。
“技術門檻降低,一個開發者能做的東西其實同時會非常有限,它很小、很具體、非常個性化。”
生成式AI 如果真的能形成一股長久的科技浪潮,那圍繞它創業的殘酷時代背景,是一個好的創意更難變成一個創業公司,一個小的應用只能解決某一小撮人的問題,蔡建認為這是開發者門檻降低的代價。
「未來越來越多分散的開發者會出現,他們會在一些小的領域做一些更固定的事,憑藉一些特別的數據或者行業Knowhow ,然後靠這個賺錢。這個時代已經不是一個一呼百應,找一群人來做大公司的時代了。”
所以有價值的事情就沉到了更基礎的地方——誰能給他工具讓他做這樣的事情,而不是做應用這件事本身。
就像賈伯斯在多年前所說的:It’s more fun to be a pirate than to join the navy。
“與其加入海軍,不如成為海盜。”