原文作者:Tanya Malhotra
來源:Marktechpost
編譯:DeFi 之道
圖片來源:由Maze AI 生成
近年來,大型語言模型(Large Language Models,LLMs)在全世界受到了廣泛讚賞,並在自然語言處理領域備受歡迎。這使我們能夠使用比以往任何時候都更好、更清晰的語言理解來描述智能係統(Intelligent Systems)。
諸如GPT-3、T5、PaLM 等LLMs 的性能有了顯著提高,並且這些模型將繼續存在,因為它們可以完成從通過學習閱讀來模仿人類,到生成文本和總結長段落內容的所有工作。而根據一些深入的研究,如果LLM 的規模很大,那麼它的表現就會很好。通過在大量數據上訓練這些模型,它們可以理解人類語言的語法、語義和語用學。
由OpenAI 開發的流行的大型語言模型ChatGPT 之所以發展得如此之快,正是因為採用了人類反饋強化學習(RLHF)等先進技術。通過RLHF,機器學習算法結合併使用人工輸入提高了模型的性能。它針對預訓練的LLM 進行了微調,用於開發聊天機器人、虛擬助手等任務。
此外,ChatGPT 等LLMs 所基於的預訓練基礎模型也得到了明顯的改進。這主要是由於三個方面的變化:
1.實踐證明,模型的擴展性(Scaling)對提高其性能很有幫助。以Pathways 語言模型(Pathways Language Model,PaLM)為例,該模型通過擴展小樣本學習(few-shot learning)大大影響了其性能,小樣本學習可以減少根據具體應用調整模型所需的特定任務訓練實例的數量。
通過使用Pathways 語言模型在6144 TPU v4 芯片上擴展和訓練5400 億個參數,PaLM 展示了重複擴展的好處,其表現超過了各種傳統模型,並顯示出很大的進步。因此,深度和寬度的擴展都是提高基礎模型性能的一個重要因素。
2.另一個變化是在預訓練時增加標記數量的過程。像Chinchilla 這樣的模型(開源語言模型)已經證明,通過增加預訓練數據,大型語言模型的表現會更好。
Chinchilla 是一個計算最優模型。在相同的計算預算下,在70B 參數和比Gopher 模型多四倍的數據上進行訓練,Chinchilla 的表現一致優於Gopher,它甚至比GPT-3、Jurassic-1 和Megatron-Turing NLG 等LLMs 效果更好。這清楚地描述了對於每一個計算最優的訓練,標記的數量應該相應地縮放——即模型大小的兩倍,因此訓練標記的數量應該是兩倍。
3.第三個變化是使用乾淨和多樣化的預訓練數據。 Galactica 的性能證明了這一點,它是一種存儲、混合和推理科學知識的大型語言模型。經過幾篇科學論文文本的訓練,Galactica 的表現優於GPT-3、Chinchilla 等模型。另一個大型語言模型BioMedLM 是一種針對生物醫學文本的特定領域LLM,在針對特定領域數據進行訓練時,它表現出了巨大的性能提升。它清楚地表明,在特定領域的數據上進行的預訓練勝過在通用數據上的訓練。
總結
LLMs 的成功無疑歸功於多種因素的混合,包括RLHF 的使用和預訓練基礎模型的發展。這三個變化極大地影響了LLMs 的性能。此外,GLaM(通用語言模型)通過使用稀疏激活的混合專家架構(Mixture-of-Experts architecture),以更少的訓練成本擴展模型的容量,從而顯著提高了性能。因此,這些變化為更高級的語言模型開闢了道路,而這些模型將繼續讓我們的生活變得輕鬆。
資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載