A16Z:生成式人工智能領域的4 個突破點

大型語言模型(LLMs)已經成為科技行業的熱點,為我們提供了一些令人稱奇的體驗——從幾秒鐘內編寫一周的代碼,到生成比與人類進行的對話更富有共情的對話。通過使用成千上萬個GPU進行數万億令牌的數據訓練,LLMs展示了出色的自然語言理解能力,並改變了文案和代碼等領域,將我們推進了全新、令人興奮的生成式AI時代。與任何新興技術一樣,生成式AI也受到了一些批評。儘管這些批評在一定程度上反映了LLMs當前能力的局限性,但我們將這些阻礙視為進一步創新的機會,而不是技術本質性的缺陷。

為了更好地了解LLMs的近期技術突破,並為創始人和運營者做好未來準備,我們與一些領先的生成式AI研究人員進行了交談,他們正在積極構建和訓練一些最大最前沿的模型,包括Anthropic公司的首席執行官Dario Amodei、Cohere公司的首席執行官Aidan Gomez、Character.AI公司的首席執行官Noam Shazeer以及AI21 Labs的Yoav Shoham。這些交談確定了未來即將到來的4個關鍵創新方向:導向、記憶、”手和腳”以及多模態。在本文中,我們將討論這些關鍵創新如何在未來6到12個月內發展,以及對於對將AI整合到自己的業務中感興趣的創始人來說,如何利用這些新進展。

導向

許多創始人對在其產品和工作流程中使用LLMs表示擔憂,因為這些模型有可能產生幻覺和重現偏見。為了解決這些問題,一些領先的模型公司正在致力於改進導向技術——一種在LLMs輸出中更好地控制模型結果、讓模型更好地理解和執行複雜用戶需求的方法。 Noam Shazeer在這方面提到了LLMs和孩子之間的相似之處:“這是如何更好地引導[模型]的問題…我們在LLMs上面臨的問題就是我們需要正確的方式告訴它們如何按照我們的要求行事。小孩子也是如此——他們有時會編造事情,對幻想和現實沒有一個明確的理解。 ”儘管在模型提供商和類似Guardrails和LMQL的工具出現之後,在導向能力方面[1]已經取得了顯著的進展,研究人員仍在不斷取得進步,我們認為這對於更好地將LLMs產品化對於最終用戶至關重要。

在企業公司中,改進的導向尤其重要,因為不可預測行為的後果可能是昂貴的。 Amodei指出,LLMs的不可預測性會讓人們感到不安,作為一個API提供者,他希望能夠“對著客戶說’不,模型不會做這個’,或者至少很少會這樣做。”通過改進LLMs的輸出,創始人們可以更有信心地確保模型的性能與客戶需求相符。改進的導向還將為其他行業的廣泛採用鋪平道路,這些行業對精確性和可靠性的要求更高,例如廣告行業,其中廣告投放的風險很高。 Amodei還認為改進的導向可以應用於“法律用例、醫療用例、存儲金融信息和管理金融賭注,以及需要保護公司品牌的場景。您不希望您所整合的技術是不可預測或難以預測或刻畫的。”通過更好的導向,LLMs還能夠在少量提示工程的情況下完成更複雜的任務,因為它們將能夠更好地理解整體意圖。

LLMs導向方面的進展還有可能在用戶期望定制和準確回應的敏感消費者應用中開啟新的可能性。雖然當用戶與LLMs進行對話或創造性交互時,他們可能會容忍較低準確性的輸出,但是當用戶使用LLMs來協助日常任務、指導重要決策或增強生活教練、治療師和醫生等專業人士時,他們希望得到更準確的輸出。有人指出,LLMs有望取代搜索等已深入人心的消費者應用,但在這成為真正可能之前,我們可能需要更好的導向來改善模型輸出並建立用戶信任。

關鍵突破點:用戶可以更好地定制LLMS的輸出。

記憶

由LLMs驅動的文案撰寫和廣告生成應用程序已經取得了巨大的成功,從而在營銷人員、廣告商和創業者中迅速流行起來。然而,目前大多數LLMs的輸出相對泛化,這使得難以將它們用於需要個性化和情境理解的用例。雖然提示工程和微調可以提供一定程度的個性化,但是提示工程的可擴展性較差,而微調往往代價高昂,因為它需要一定程度的重新訓練,並且通常需要與大多數閉源LLMs緊密合作。為每個個體用戶進行微調模型通常是不可行或不可取的。

上下文學習是實現這一目標的聖杯,其中LLMs從您的公司生成的內容、您公司的特定行話和特定上下文中獲取信息,以創建更精細、針對特定用例的輸出。為了實現這一目標,LLMs需要增強的記憶能力。 LLM記憶有兩個主要組成部分:上下文窗口和檢索。上下文窗口是模型可以處理和用於指導其輸出的文本,除了它被訓練的數據語料庫之外。檢索是指從模型的訓練數據語料庫之外的數據體中檢索和引用相關信息和文檔(“上下文數據”)。目前,大多數LLMs的上下文窗口有限,無法原生地檢索附加信息,因此生成的輸出缺乏個性化。然而,通過更大的上下文窗口和改進的檢索,LLMs可以直接提供更加精細的、針對個別用例的輸出。

特別是通過擴展上下文窗口,模型將能夠處理更大量的文本並更好地保持上下文,包括在對話中保持連貫性。這將進一步顯著提高模型在需要更深入理解較長輸入的任務中的能力,例如總結長篇文章或在長時間對話中生成連貫且上下文準確的回應。在上下文窗口方面,我們已經看到了顯著的改進——GPT-4具有8k和32k標記的上下文窗口,相比之下,GPT-3.5和ChatGPT的上下文窗口分別為4k和16k標記,而Claude最近將其上下文窗口擴展到驚人的100k標記[2]。

僅擴展上下文窗口並不能充分改善內存,因為推理的成本和時間與提示的長度呈準線性甚至二次方關係。[3]檢索機制通過與提示相關的上下文數據增強和完善LLM的原始訓練語料庫。由於LLMs是在一個信息體上進行訓練的,並且通常難以更新,檢索的兩個主要好處是根據Shoham的說法:“首先,它允許您訪問在訓練時沒有的信息源。其次,它使您可以將語言模型聚焦在您認為與任務相關的信息上。”矢量數據庫(例如Pinecone)已成為高效檢索相關信息的事實標準,並且作為LLMs的內存層,使模型更容易快速準確地搜索和引用海量信息中的正確數據。

增加的上下文窗口和檢索將在企業用例中尤為重要,例如導航大型知識庫或複雜數據庫。公司將能夠更好地利用其專有數據,如內部知識、歷史客戶支持票據或財務結果,作為LLMs的輸入,而無需進行微調。改進LLMs的記憶將在培訓、報告、內部搜索、數據分析和業務智能以及客戶支持等領域帶來改進和深度定制的能力。

在消費者領域,改進的上下文窗口和檢索將實現強大的個性化功能,從而革新用戶體驗。 Noam Shazeer認為:“其中一個重大突破將是開發出一種具有非常高的內存容量,可以針對每個用戶進行定制,同時在規模上仍然具有成本效益的模型。您希望您的治療師了解您的生活方方面面;您希望您的老師了解您已經掌握的知識;您希望生活教練能夠就正在發生的事情向您提供建議。他們都需要上下文。” Aidan Gomez對此發展也表示興奮。 “通過讓模型訪問與您獨特相關的數據,如您的電子郵件、日曆或直接消息,”他說,“模型將了解您與不同人的關係以及您如何與朋友或同事交談,並在這種情況下幫助您最大程度地提供幫助。”

關鍵突破點:LLMs將能夠考慮大量相關信息,並提供更個性化、定制和有用的輸出。

“手臂和腿部”:賦予模型使用工具的能力

LLMs的真正威力在於使自然語言成為行動的媒介。 LLMs對常見且有詳細文檔的系統具有復雜的理解能力,但它們無法執行從這些系統中提取的任何信息。例如,OpenAI的ChatGPT、Anthropic的Claude和Character AI的Lily可以詳細描述如何預訂航班,但它們本身無法原生地預訂航班(儘管像ChatGPT的插件等技術進展正在推動這一邊界)。 Amodei表示:“這個大腦在理論上擁有所有這些知識,只是缺少從名稱到按鈕的映射。”他說:“連接這些電纜並不需要太多的訓練。你有一個沒有實體的大腦,它知道如何移動,但它還沒有連接上手臂和腿部。”

隨著時間的推移,我們已經看到公司不斷改善LLMs使用工具的能力。像必應和谷歌這樣的老牌公司和Perplexity和You.com這樣的初創公司推出了搜索API。 AI21 Labs推出了Jurassic-X,它通過將模型與一組預定工具(包括計算器、天氣API、維基百科API和數據庫)結合起來,解決了獨立LLMs的許多缺陷。 OpenAI推出了ChatGPT的插件測試版,允許ChatGPT與Expedia、OpenTable、Wolfram、Instacart、Speak、網絡瀏覽器和代碼解釋器等工具進行交互,這一突破被認為類似於蘋果的“應用商店”時刻。最近,OpenAI在GPT-3.5和GPT-4中引入了函數調用[4] ,允許開發者將GPT的能力與任何外部工具進行鏈接。

通過從知識挖掘轉向行動導向,增加手臂和腿部的能力有望在各種公司和用戶類型之間實現一系列用例。對於消費者而言,LLMs可能很快就能給出菜譜建議,然後為您訂購所需的食材,或者建議一個早午餐地點並為您預訂餐桌。在企業領域,創始人可以通過接入LLMs使他們的應用程序更易於使用。正如Amodei所指出的:“對於從用戶界面角度來說非常難以使用的功能,我們可能只需用自然語言描述即可實現複雜的操作。”例如,對於Salesforce等應用程序,LLM集成應允許用戶用自然語言進行更新,並使模型自動進行這些更改,從而大大減少了維護CRM所需的時間。像Cohere[5]和Adept[6]這樣的初創公司正在致力於將LLMs集成到這類複雜工具中。

Gomez認為,雖然LLMs能夠在2年內使用Excel等應用程序的可能性越來越大,但“仍然需要進行許多細化工作。我們將擁有第一代能夠使用工具的模型,這將是引人注目但易碎的。最終,我們將獲得夢寐以求的系統,我們可以將任何軟件交給模型,並附上一些描述,例如’這是工具的功能,這是如何使用它的’,它將能夠使用它。一旦我們可以為LLMs提供特定和通用的工具,它所帶來的自動化將成為我們領域的巔峰之作。”

關鍵突破點:LLMs將能夠與我們今天使用的工具進行更加有效的交互。

多模態

儘管聊天界面對許多用戶來說令人興奮和直觀,但人類聽和說語言的頻率可能與寫或讀語言的頻率相當或更高。正如Amodei所指出的:“AI系統能做的事情是有限的,因為並不是所有的事情都是文本。”具備多模態功能的模型能夠無縫地處理和生成多種音頻或視覺格式的內容,將這種交互擴展到超越語言的領域。像GPT-4、Character.AI和Meta的ImageBind這樣的模型已經能夠處理和生成圖像、音頻和其他模態,但它們在這方面的能力還比較基礎,儘管進展迅速。用Gomez的話說,我們的模型在字面上今天是盲的,這一點需要改變。我們構建了很多假設用戶能夠看到的圖形用戶界面(GUI)。

隨著LLMs不斷進化,更好地理解和與多種模態交互,它們將能夠使用依賴GUI的現有應用程序,比如瀏覽器。它們還可以為消費者提供更加引人入勝、連貫和全面的體驗,使用戶能夠超越聊天界面進行互動。 Shazeer指出:“多模態模型的許多出色整合可以使事物更具吸引力和與用戶更緊密相連。”他還說:“我認為,目前大部分核心智能來自文本,但音頻和視頻可以使這些事物更有趣。”從與AI導師進行視頻聊天到與AI合作迭代和編寫電視劇劇本,多模態有潛力改變娛樂、學習與發展以及跨各種消費者和企業用例的內容生成。

多模態與工具使用密切相關。儘管LLMs最初可能通過API與外部軟件進行連接,但多模態將使LLMs能夠使用設計給人類使用但沒有自定義集成的工具,例如傳統的企業資源計劃(ERP)系統、桌面應用程序、醫療設備或製造機械。在這方面,我們已經看到了令人興奮的進展:例如,谷歌的Med-PaLM-2模型可以合成乳腺攝影和X射線圖像。而且從長遠來看,多模態(特別是與計算機視覺的集成)可以通過機器人、自動駕駛車輛和其他需要與物理世界實時交互的應用程序,將LLMs擴展到我們自己的物理現實中。

關鍵突破點:多模態模型能夠在沒有重大定制的情況下推理圖像、視頻,甚至物理環境。

儘管LLMs存在一些實際限制,但研究人員在短時間內對這些模型進行了驚人的改進。事實上,我們在撰寫本文時已經多次更新過它,這證明了該領域技術的快速發展。 Gomez也表示同意:“LLM在20次中有1次編造事實顯然還是太高了。但我真的非常有信心,這是我們第一次構建這樣的系統。人們的期望相當高,所以目標已經從’計算機很笨,只會做數學’變成了’一個人可能做得更好’。我們已經足夠彌合差距,以至於批評集中在人類能做到什麼程度上。”

我們特別對以下4項創新感到興奮,它們正處於改變創業者構建產品和經營公司方式的臨界點。從長遠來看,潛力更大。 Amodei預測:“在某個時刻,我們可能會擁有一個模型,它能夠閱讀所有生物數據,並找出治愈癌症的方法。”現實情況是,最好的新應用可能仍然是未知的。在Character.AI,Shazeer讓用戶開發這些用例:“我們將看到許多新的應用程序解鎖。對我來說很難說出這些應用程序是什麼。將會有數百萬個應用程序,用戶比少數工程師更善於發現如何使用技術。”我們迫不及待地期待這些進步將如何影響我們作為創業者和公司在生活和工作中的方式,因為這些新工具和能力賦予了我們新的力量。

感謝Matt Bornstein、Guido Appenzeller和Rajko Radovanović在撰寫過程中提供的意見和反饋。

Total
0
Shares
Related Posts