關於大模型,這篇文章或許能幫你了解點


自去年11月ChatGPT上線以來,以前所未有的速度屢次刷新APP用戶增速之餘,“大模型”也開始進入人們的視野,乘上了發展東風,迅速成為科技圈的新寵。然而作為旁觀者,在圍觀吃瓜的同時想必也會有疑惑,“大模型”究竟是什麼,它為何如此神奇,AI 2.0時代真的能靠大模型開啟嗎?

一、何為大模型

2021年8月,知名AI科學家,斯坦福大學首位紅杉講席教授李飛飛,與其他上百位AI科學家,聯名發表了一份研究報告《On the Opportunities and Risk of基金Models》,中文譯名《基礎模型的風險與機遇》,是學界對大模型的首次正式研究。而根據另一位知名的AI科學家,斯蒂芬·沃爾夫勒姆(Stephen Wolfram)的觀點,模型是“一種將數據映射到可用信息上的工具,是我們用來探索和理解世界的一種方式。”

在機器學習和AI等領域,“模型”通常是指一種數學模型或計算模型,它可以從海量數據中學習出一些隱藏其中的模式或規律,進而對未來的數據進行預測,或生成新數據。現在常說的大模型之大,一般指內置的參數量數量級之大,比如GPT-3.5的1750億參數。目前大火的,各種各樣的類GPT產品屬於大語言模型(Large Language Models,簡稱LLM)。之所以能以前所未有的速度火遍全球,除了歸功於科技發展,還有個經常被有意無意忽視的原因在於,語言作為信息的載體之一主要依賴文字,而AI對文字的學習和處理能力相對簡單,特別是以英語為主的型和語言,且發展時間也由來已久。 1954年1月7日,美國喬治城大學進行的“喬治城-IBM實驗”,成功將約六十句俄語自動翻譯成英語,被後世視為AI介入語言處理與翻譯的開端。雖然這次實驗在幾年後被人發現有失公允,但時代的潮流一旦開啟就不會說停就停。

機器學習示意圖

與大語言模型類似的,Midjourney,DALL-E等處理文生圖的模型,通常是一個語言模型,負責將輸入的文本轉化為機器語言,再結合一個圖像生成模型,負責生成圖像,即目前各家企業常說的“跨模態模型”。類似的還有文生視頻模型,這需要更強大的算力與更複雜的算法。

月夜裡盛滿銀河的礦池,由Midjourney生成

二、從AI到大模型

上世紀中葉,AI開始發展時有三種流派,其中之一為“聯結主義”。這派觀點認為實現AI的關鍵在於模仿人腦的神經元等結構,逐漸發展為現在常見的人工神經網絡模型。從這個角度來說,大模型的出現並非偶然,而且人工神經網絡在大模型中的運用非常普遍,二者有相互促進,共同發展的趨勢。

人工神經網絡模型示意圖,左側代表信息輸入比如閱讀,右側代表信息輸出比如宣講

人類的智能活動非常複雜,以語言為例,其中涉及到大量的知識和推理。比如閱讀文章時需要理解語句,識別其中的語法和語義,推斷其中的邏輯關係,並將這些信息組合起來,最終形成整篇文章的意義。同樣的,當進行對話時就需要理解對方的意圖和情感,並在此基礎上進行回應。大語言模型可以通過學習海量的文本數據,來模擬這些複雜的處理和推理過程,從而對這些任務進行建模和解決。這不僅有助於改進現有的自然語言處理(NLP)技術,還可以提供新的工具,用於更深入地理解和使用自然語言。通過發展AI來探索和了解人類智能的本質,這也是AI的初衷之一。

上文提到的研究報告《基礎模型的風險與機遇》,其中也指出大模型將發展出“湧現”和“同質化”的特性。其中“湧現”代表某種系統行為是隱性推動的,而非顯式構建的。對此,有個生活中常見的例子可以幫助理解:新生兒學會說話基本都是在一歲至一歲半,儘管很多時候都是不明所以的單字詞。這種現象就可以視為人類語言能力的“湧現”。 “同質化”則指模型的基本能力是智能表現的關鍵所在,任何一點改進都可能會迅速影響到同類型產品,但缺陷也可能會被下游模型或產品繼承。回看最近半年多的發展,看看目前各家企業推出的大模型產品,不由得感慨李飛飛等人的先見之明。 2017年,谷歌大腦推出Transformer模型,使深度學習模型的參數量突破了一億的門檻,隨後的BERT,GPT等大模型,都在鉚足了勁加大參數量,GPT-3突破百億,GPT-3.5的1750億參數量都是其中代表。

要讓大模型實現“湧現”能力,加大參數量似乎是唯一可行的辦法,但質疑聲也始終不絕於耳,比較有代表性的有“大參數能帶來真正的智能嗎?”“一本正經的胡說八道該如何改進?”“AI給出的醫療建議如何做到對症下藥?”等等。不可否認的,大模型做到了早期預訓練模型做不到或做不好的事情,比如過去NLP中的文字生成、文本理解、自動問答等下游任務。大語言模型不僅生成的文本更加流暢,內容的真實性也有了顯著改善。當然,大模型最終能否走向“通用人工智能”(AGI)仍然不確定,只是目前來看,大模型的確有希望引領下一個重量級的AI賽道。

三、大模型的用途

雖然深度學習使很多通用領域的精度和效率得到很大改善,但是AI大模型目前仍有許多問題,最明顯的莫過於模型的通用性不高,即大模型往往只能用於特定領域,應用到其他領域時即露餡成“人工智障”。即便如此,大模型依然大有用途。

1.模型碎片化,大模型提供預訓練方案

目前AI面對的不同行業與業務場景非常繁雜,相關需求也呈現碎片化、多樣化的特點。從開發、微調、優化、迭代到應用,大模型的研發成本極高,且難以滿足特定需求,因此有人說現階段的大模型研發更像是小作坊裡的手動加工式產品。一家企業想要用AI賦能自身的業務,可能還要額外招聘懂AI的技術人員。對此困境,大模型可以提供一種解決方案,即“預訓練大模型+下游任務微調”。大規模在預訓練階段即可有效地從海量數據中獲得知識,通過預置大量參數並針對特定任務加以微調,極大地擴展了大模型的通用能力。例如在NLP領域,大模型通過預訓練任務和部分下游任務的參數,在一定程度上解決了通用性的難題,可以被應用於翻譯,問答,文本生成等自然語言任務,ChatGPT的能說會道也在很大程度上得益於此。

2.大模型具備自監督學習功能,降低訓練研發成本

大模型的自監督學習方法可以減少數據標註,這在一定程度上解決了人工標註成本高、週期長、準確度不高的問題。由於節約了數據標準的成本,使得小樣本的學習也能達到比以前更好的能力,並且模型參數規模越大,優勢越明顯,避免開發人員再進行大規模的訓練,使用小樣本就可以訓練自己所需模型,極大降低開發與使用成本。數據標註依賴的人工成本非常高,而在移動互聯網觸手可及的時代,大量的未標註數據很容易獲得。

3.大模型可能突破現有模型結構的精度局限

機器學習,深度學習發展早期的歷程,乃至AI 1.0時代的發展歷程,模型精度的提升主要依賴網絡結構的發展與變革。但是,隨著人工神經網絡結構設計技術的逐漸成熟,且收效也趨於收斂,還想通過優化神經網絡結構從而打破精度局限也將日益困難。谷歌2021年發布的視覺遷移模型Big Transfer,擴大數據規模即可提升大模型結構的精度,使用ILSVRC-2012(128萬張圖片,1000個類別)和JFT-300M(3億張圖片,1829個類別)兩個數據集來訓練ResNet50大模型,精度分別是77%和79%。另外使用JFT-300M訓練ResNet152x4,精度則上漲到87.5%。

前面提到的,語言作為信息的載體之一,AI處理起來相對容易,也因此目前大模型主要是以大語言模型為主。 ChatGPT拋棄了“循環神經網絡”(RNN)序列依賴的問題,採用了“注意力機制”的Transformer結構,使得類GPT的NLP能夠在短時間內即演變出相當多的大模型,國內各家企業能在最近幾個月內爭相發布自己的大模型,這也是個不能忽視的原因。雖然不能保證AI 2.0時代真的就由此開啟,但至少可以讓我們對未來有驚鴻一瞥。

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts