不只是聊天機器人:一文梳理ChatGPT 帶來的真正影響

作者:Jacky Liang

編譯:DeFi 之道Wendy

自OpenAI 發布ChatGPT 以來,已經過去幾個月的時間了。這個基於大型語言模型的聊天機器人不僅讓許多AI 研究員大開眼界,還讓大眾見識到了AI 的力量。簡而言之,ChatGPT 是一個可以響應人類指令的聊天機器人,可以完成從寫文章、作詩到解釋和調試代碼的任務。該聊天機器人顯示出令人印象深刻的推理能力,其表現明顯優於先前的語言模型。

在這篇文章中,我將從個人角度出發,聊聊ChatGPT 對三類人的影響:分別是AI 研究員、技術開發人員和普通大眾。在文章中,我將推測ChatGPT 等技術的影響,並簡單聊聊我認為可能發生的一些情況。這篇文章更傾向於發表個人觀點,而不是基於事實的報告,所以對這些觀點要持謹慎態度。那麼,讓我們開始吧……

ChatGPT 之於AI 研究員

對我這個AI 研究員來說,從ChatGPT 上學到的最重要的一課是:管理人類反饋對於提高大型語言模型(LLM) 的性能非常重要。 ChatGPT 改變了我,我猜也改變了許多研究人員對大型語言模型AI 對齊問題的看法,我具體解釋一下。

圖:LLM 的強化學習與人的反饋(RLHF)

在ChatGPT 問世之前,我想當然地認為,當涉及到LLM 時,我們面臨著兩個不同的問題。 1)提高LLM 在某些基於語言的任務(如總結、問答、多步驟推理)中的表現,同時2)避免有害的/破壞性的/有偏見的文本生成。我認為這兩個目標是相關但獨立的,並將第二個問題稱為對齊問題。我從ChatGPT 中了解到,對齊和任務表現其實是同一個問題,將LLM 的輸出與人類的意圖對齊,既能減少有害內容,也能提高任務表現。

為了更方便理解,這裡給出一些背景信息:我們可以將現代的LLM 訓練分為兩個步驟。

  • 第一步:神經網絡模型的自監督學習(SSL),在給定前一批單詞(tokens)序列的情況下預測下一個單詞(token)——這是在一個非常大的、互聯網規模的數據集上訓練的。

  • 第二步:通過各種技術使LLM 的生成與人類的偏好保持一致,比如在高質量的指令遵循文本的小數據集上微調LLM,並使用強化學習來微調LLM 與預測人類偏好的學習獎勵模型。

在ChatGPT 身上,OpenAI 很可能使用了許多不同的技術,相互配合來產生最終的模型。另外,OpenAI 似乎能夠快速回應網上關於模型出錯的投訴(例如產生有害的文本),有時甚至在幾天內就能完成,所以他們也一定有辦法修改/過濾模型的生成,而無需重新訓練/微調模型。

ChatGPT 標誌著強化學習(RL)的悄然回歸。簡而言之,有人類反饋的強化學習(RHLF)首先訓練一個獎勵模型,預測人類會給某一LLM 生成內容打多高的分數,然後使用這個獎勵模型通過RL 來改善LLM。

我不會在這裡過多地討論RL,但OpenAI 歷來以其RL 能力而聞名,他們寫的OpenAI gym 啟動了RL 研究,訓練RL 代理玩DoTA,並以在數百萬年的模擬數據上使用RL 訓練機器人玩魔方而聞名。在OpenAI 解散其機器人團隊之後,RL 似乎逐漸被OpenAI 所遺忘,因為它在生成模型方面的成就主要來自於自我監督學習。 ChatGPT 的成功依賴於RLHF,它使人們重新關注RL 作為改進LLM 的實用方法。

圖:AI 專家預測ChatGPT 的運行成本

ChatGPT 的到來還證明了一點:學術界開發大規模AI 功能將越來越困難。雖然這個問題在整個深度學習時代都可能出現,但ChatGPT 使它變得更加根深蒂固。不僅訓練基本的GPT-3 模型對小型實驗室來說遙不可及(GPT-3 和隨後OpenAI 在微軟將Azure 的全部力量投入到它身上之後,建立了專門的服務器群和超級計算機才開始真正發展,這不是巧合),而且ChatGPT 的數據收集和RL 微調管道可能對學術實驗室造成過大的系統/工程負擔。

將ChatGPT 免費提供給公眾,可以讓OpenAI 收集更多寶貴的訓練數據,這些數據對其未來的LLM 改進至關重要。這樣一來,公開託管ChatGPT 實質上是OpenAI 的大規模數據收集工作,而這不是小型組織能夠承擔的。

開源和與HuggingFace 和Stability 等公司在學術上的大規模合作可能是學術界目前前進的方式,但這些組織總是比擁有更大預算的小團隊前進得慢。我推測,當涉及到最先進的語言模型時,開源通常會滯後於這些公司幾個月到一年。

我認為學術界可能扳回一成的唯一方法是,是否有國家級的計算雲專門用於學術AI 研究。這無疑將花費數十億美元,需要專門的行政和工程人員。這並非毫無可能——它將類似於詹姆斯・韋伯太空望遠鏡和大型強子對撞機。在美國,一些人已經在呼籲建立國家AI 雲,進行LLM 推理,但訓練和微調LLM 和其他基礎模型的能力也同樣重要。鑑於AI 國家戰略重要性,我們可能會在不久的將來真正看到這個方向的發展。

同時,AI 研究員並不總是要訓練大模型才能產生大影響。我的看法是,與其爭奪下一個最大最好的LLM,較小的學術實驗室可以專注於改善現有LLM 的使用,分析它們的優勢和劣勢,並利用有些公司以非常低的成本託管這些非常強大的LLM 的事實。例如,可以利用OpenAI 和其他公司的現有LLM API 來進行LLM 對齊的研究,而不需要學術實驗室從頭開始訓練這些模型。對強大的LLM 的低成本和公開的訪問使得一整套公開的研究能夠發現LLM 的新能力和應用。

ChatGPT 之於技術從業者

對於那些在技術領域工作和開發產品的人來說,ChatGPT 和類似的代碼編寫模型呈現出顯著的一階和二階效應。對於程序員來說,使用基於AI 的代碼補全和ChatGPT 風格的問答來學習編碼和理解現有的代碼庫將成為軟件工程工作中不可或缺的一部分。我推測,在未來的一年內,許多大學將開設計算機科學課程,教授在軟件工程等應用中利用AI 的最佳實踐。

ChatGPT 和更強大的AI 代碼輔助將迫使軟件工程師對其操作的抽象級別進行根本性的重新制定。大多數軟件工程師不需要推理低級機器代碼,因為我們有非常強大的編譯器,可以將人類可讀的代碼(如C++)轉換為機器可讀的代碼。軟件工程師可以學習這些編譯器的內部工作原理,以及如何編寫最充分利用這些編譯器特點和優勢的代碼,但他們自己不需要編寫機器代碼,也不需要編寫自己的編譯器。

編碼AI 很可能會成為新的“編譯器”,將高級額人類指令轉換為低級代碼,但是在更高的抽象級別上。未來的軟件工程師可能會編寫高級文檔、需求和偽代碼,他們會要求AI 編碼員編寫今天人們編寫的中級代碼。通過這種方式,我不認為軟件工程師會被AI 取代,而是被推到價值鏈的上游。未來,熟練掌握這項技能的軟件工程師可能需要了解不同編碼AI 的優缺點,以及如何針對特定的應用領域最好地構建和修改AI。

以上是一階效應,ChatGPT 直接影響到技術從業者,特別是軟件工程師的工作方式。對技術產品所能提供的東西的二階影響可能會更深遠。 ChatGPT 和類似的LLM 通過1)釋放全新的能力和2)降低現有能力的成本,使其突然具有經濟意義,從而使新產品成為可能。

圖:機器人在自然語言中執行新任務

上述第一點的一個例子是,現在我們可以通過簡單地讓AI 編碼員將語言指令翻譯成調用該軟件API 的代碼,為任何軟件添加自然語言用戶界面。以一種可信賴的和可泛化的方式來做這件事將需要大量的努力,就像發布真正的產品一樣,魔鬼就在細節中。儘管如此,這是一種徹頭徹尾的新能力,我猜測自然語言軟件UI 會在所有的軟件平台上爆發,尤其是在那些傳統用戶界面感到笨重和不方便的平台上(如移動設備、語音助手、VR/AR)。老實說,很難想像在LLM 時代開發一款新應用而不包含一個基於語言的用戶界面會怎麼樣。入門的門檻很低(只需要調用一個公開的LLM API),如果你不這樣做,你的競爭對手就會這樣做,而且會提供更好的用戶體驗。

降低現有能力的成本聽起來不像解鎖新能力那麼有吸引力,但它同樣重要。 LLM 可能存在很多有前景的應用,但為這些下游任務微調LLM 的成本可能太高,不值得投資。有了ChatGPT 和改進的指令跟踪,開發者可能不再需要收集大量的數據集來進行微調,而只需要依靠zero-shot 性能(零樣本學習性能)。預計在許多處理文本輸入的現有應用中,基於文本的分類、摘要和內聯預測功能將出現大量的“小規模”LLM 部署。這些對用戶體驗的邊際改善在以前可能投資回報比很低,但現在卻突然值得了。

低成本也意味著在應用LLM 和其他基礎模型的業務上有很多唾手可得的成果,通過良好的UI/UX、現有軟件產品內的集成以及有效的進入市場和貨幣化戰略為消費者創造價值。 Lensa 是一個能滿足所有這些條件的例子。 LLM 部署的這些更實際的方面往往會超過底層模型的絕對性能,成功的初創公司總是可以將舊的LLM 與新的改進版本交換。這也意味著,那些應用LLM 的人不應該把他們的技術棧與特定LLM 的特性綁得太緊。 LLM 的快速改進週期,加上可公開訪問的API,以及關鍵的商業差異化因素不是模型本身,這可能意味著LLMs 將被商品化。

未來將有兩種類型的科技公司能夠繼續向前發展——能夠負擔得起培訓和運行自己的基礎模型的公司,以及負擔不起的公司,後者需要向前者支付基礎模型稅。這聽起來很有戲劇性,但它與我們今天的情況沒有什麼不同,技術公司要么託管自己的服務器,要么向AWS/Azure/GCP 交稅。 AI 雲業務將是未來雲平台的一個關鍵戰場,並將給競爭對手提供超越現有企業的機會。例如,憑藉微軟的經驗和與OpenAI 的結合,Azure 很有可能憑藉其AI 雲產品超越其他公司(微軟已經在Azure 上發布了OpenAI 的模型,遠遠領先於其競爭對手亞馬遜和谷歌)。

圖:GPU 性能的增長速度遠遠快於CPU 性能

最後,從一個更具推測性的角度來看,基於深度學習的基礎模型可能會讓我們在相當長一段時間內避免摩爾定律放緩帶來的負面後果。隨著這些模型的能力越來越強,它們將接管越來越多由傳統軟件完成的任務,這意味著越來越多的軟件將可以通過僅僅優化神經網絡的性能而得到優化。神經網絡在GPU 和特定應用的芯片上運行,其性能的提高並沒有看到傳統CPU 改進的明顯減速,這大致可以在摩爾定律的減速中體現出來。我們真的很幸運,有一個單一的神經網絡架構,即Transformer(由ChatGPT 和其他基礎模型使用),它可以代表通用計算,並經過訓練,可以很好地執行這麼多不同的任務。我們還沒有接近優化Transformer 性能的終點,所以我期望隨著LLM 變得更加強大並取代更複雜的傳統軟件堆棧,計算機會變得更快。

ChatGPT 之於大眾

視頻‌:耶魯大學評ChatGPT,更多是資源,而並非學習的替代品

ChatGPT 是許多普通大眾可以直接與之互動的第一項AI 技術。當然,在ChatGPT 之前,有Siri 和Alexa,而且深度學習應用在許多商業應用中已經無處不在了。不同的是,以前部署的AI 技術往往都在後台工作,通過傳統軟件和有限的用戶界面層層”過濾”。公眾通過ChatGPT 對AI 有了更直接的體驗,用戶可以直接向LLM 輸入,並直接看到它的輸出(OpenAI 確實過濾了有害的內容,並使用自己的提示修改了用戶的輸入,所以它沒有直接與底層模型互動,但也足夠接近)。 ChatGPT 也明顯比以前的聊天機器人更強大。再加上該服務目前一直是免費的,這些因素將ChatGPT 推向了主流世界的討論熱潮。

相對以前,這種和AI 的親密接觸讓公眾對AI 的新奇和炒作有了更真實的體驗。我可以想像,突然之間,對於那些不熟悉LLM 工作原理的人來說,聊天機器人可能具有意識的說法聽起來並不太牽強。這也反映出了一個問題,當涉及到AI 的問題時,科學傳播的缺失——我認為AI 界在向公眾宣傳和普及AI 如何工作、能做什麼、不能做什麼,以及如何負責任地使用AI 技術方面做的非常差。見鬼,我們甚至都不能確定技術從業者了解LLM 的基本知識,更不用說普通民眾了,他們才是受這項技術影響的終端用戶。在接下來的幾年裡,如果繼續不對AI 進行教育和溝通,可能會面臨災難性的後果,因為類似ChatGPT 的模型會在沒有適當預防措施的情況下進入關鍵任務的應用。

或者,從某種意義上說,讓人們了解一項新技術的最好方法可能是讓公眾公開地試驗這項技術及其應用,體驗它的失敗,並反复辯論和改進一些流行的觀點。這一波基礎模型的可用性,尤其是ChatGPT 開創的免費使用的先例,可以讓公眾通過親身體驗更了解AI,反過來引發更明智的理解和討論。

DALL-E 2 是第一個真正優秀的文本到圖像生成模型,發布僅僅幾個月後,我們就已經看到了來自公司和社區的一系列不同的政策反應,試圖適應這種新的現實,從完全禁止AI 藝術到納入AI 藝術圖片的銷售。對於ChatGPT,一些學術會議禁止它的使用(以及一些學校),而也有學者則將其列為合著者。圍繞生成式AI 也有不少正在進行的訴訟。目前還不清楚使用這些模型的法律和道德方式是什麼,但很明顯,這些圍繞AI 使用政策的小規模實驗對於公眾弄清楚這些事真的很重要。我個人認為這是一個很好的方向,因為我相信公共政策應該由公眾討論決定,而不是由任何一個託管這些模型的特定科技公司不清不楚的委員會決定。

圖:新技術的採用需要時間,儘管隨著時間的推移,採用速度越來越快

關於ChatGPT 和類似基礎模型的應用的最後一個想法——技術部署總是比技術創新需要更長的時間(儘管採用速度正在加快),雖然人們可以在一個週末的時間建立令人印象深刻的LLM 演示,但仍然需要大量的工作和試錯來建立可靠、可擴展的產品,為消費者帶來價值。在科技領域,我們可能會在2023 年看到生成式AI 應用的海嘯,但我預計這些應用在公眾中的傳播速度會慢得多。有許多因素會減緩大規模生成式AI 的採用——現有系統和產品的慣性,對AI 取代人類的認知的文化障礙,運行AI 的成本在很多應用中可能沒有意義,LLM 輸出的不可靠性和可信度,以及擴大LLM 計算基礎設施以實時服務數十億次的查詢。這些挑戰都不會在一夜之間,甚至在幾個月內被克服。但它們最終會被克服,而5 年後的世界將看起來非常不同。

未來如何?

如果說在過去10 年的深度學習中我們學到了什麼,那就是真的很難對AI 做出準確的預測,包括它的發展和部署。然而,我可以自信地說,ChatGPT 只是未來的一個小預告。對於基礎模型的未來,我在兩個方向上看到了有前景的進展,我認為在今年或明年會有突破性進展:1)真正多模態的ChatGPT 級基礎模型(如文本、音頻、圖像、3 D、動作、視頻、文件),以及2)被設計用於在環境中採取行動的基礎模型。

圖:與其訓練理解視覺和文本的獨立模型(左),較新的模型可以直接理解圖片中呈現的文本(右)

對於1),想像一個類似ChatGPT 的界面,但你不僅可以上傳文本,還可以上傳音頻、圖像、視頻、3 D 模型以及其他結構化文件,並讓它”理解”、分析、處理和生成這些內容。這樣的技術如今已經存在,將所有這些模式整合到一個模型中似乎很簡單。

對於2),在不久的將來,擁有一個基礎模型,能夠通過鍵盤和鼠標與計算機進行可靠的互動,以執行人類今天的許多日常任務,似乎是合理的。有一些證據表明這是可行的,從瞄準機器人過程自動化的初創公司到試圖訓練AI 代理完成Minecraft(遊戲:我的世界)中的開放式目標的研究人員。為物理機器人而不是虛擬代理開發這種面向動作的基礎模型將更加困難,但進展已經在進行中。

圖:一種語言模型,可以將自然語言指令轉換為與Web 端瀏覽器交互的動作

關於商業化,一方面,科技巨頭有能力利用他們龐大的計算資源來訓練真正強大的模型。但另一方面,公共/開源模型也將變得非常流行/易於使用,所以我不確定擁有自己的模型對很多應用來說是一個很大的優勢。如前所述,基礎模型很可能會被商品化。因此,對於已經擁有設備/操作系統的大型科技公司來說,開發適合LLM 的平台,允許其他人使用基礎模型,並在上面建立新的應用,而不是直接與其競爭建立這些應用(想像一下,一個專門為多模式或面向行動的基礎模型定制的移動/AR/VR/桌面/網絡操作系統),這麼做才是合理的。

最後,展望未來,我們可能會在未來5 年內告別”從互聯網上獲取免費數據” 的製度,它真正推動了最近基礎模型的進展。雖然定制數據總是需要用於特定領域的微調/校準(通過傳統的監督學習或RLHF),但用大規模的”免費” 數據預訓練強大的模型無疑導致了GPT 和類似模型的成功。看社區如何超越僅僅搜刮現有的數字數據來提高基礎模型的性能,這將是很有趣的。可以肯定的是,我們仍然會通過更好的訓練和對齊技術來改進模型,但大規模自我監督學習的下一個前沿是什麼?下一個10 萬億或100 萬億的數據點從何而來?我很想知道。

Total
0
Shares
Related Posts