作者:Khushboo Gupta
編譯:DeFi 之道
圖片來源:由Maze AI 生成
在過去幾年中,大型語言模型(LLMs)在科技行業掀起了一場風暴。這些在海量數據上訓練出來的語言模型可以完成各種任務,從總結文本和寫詩這樣的基本任務到生成人工智能(AI)藝術提示詞甚至預測蛋白質結構這樣更具挑戰性的任務。
OpenAI 的ChatGPT 是目前這類LLM 最大和最知名的例子之一。使用生成性預訓練轉化器(Generative Pre-trained Transformer 3,GPT-3)的ChatGPT 是一個基於對話的AI 聊天界面,可以與人交談,編寫代碼,回答問題,甚至解決具有挑戰性的數學方程式。即使是其他科技巨頭,如穀歌和微軟,在發布他們的語言模型(如BARD 和Bing)時也還沒有激起任何水花。
學術界普遍認為,在訓練包含近10 億個參數的LLM 時,增加更多的參數可以提高性能。最近的研究表明,在特定的訓練計算預算下,相較於最大的模型,基於更多的數據訓練的小模型會產生最好的性能。推理預算是另一個關鍵參數,對於獲得理想的性能程度至關重要。儘管訓練一個大的模型以達到一定的性能水平可能會更便宜,但訓練時間較長的小模型最終在推理方面所需的成本更低。在某些情況下,理想的模型不是訓練最快的模型,而是推理最快的模型。
為了在競爭激烈的生成式AI 模型競賽中嶄露頭角,Facebook 的母公司Meta 推出了其AI 語言模型系列LLaMA。這項工作旨在開發幾種在不同推理預算下表現最佳的語言模型,激勵AI 社區開展研究,創造更負責任的語言模型。
在以前,接觸到這種語言模型是昂貴和有限制的,因為它們經常需要服務器來運行。但有了LLaMA,Meta 的目標正是為研究人員解決這個問題。 Meta 表示,LLaMA 僅在公開可用的數據上進行訓練,其性能超過了目前已經投入使用的更大的AI 模型,包括OpenAI 的老式GPT-3 模型。在發布LLaMA 上,Meta 對外展示了一個事實:不借助於專有的和不可獲取的數據集就能訓練最先進的模型。
Meta 已經開源了LLaMA,希望這些模型能夠讓更多人用上並能夠研究LLM,因為它們可以在單個GPU 上運行。這將使研究人員能夠更徹底地理解LLMs,並減少其他已知的問題,包括偏見、惡意信息和傳播錯誤信息的可能。有關這個語言模型集合的另一個有趣的方面是,與ChatGPT 和Bing 等其他語言模型相比,LLaMA 是專門用於研究目的的,並在“非商業許可” 下分發。目前,各種學術研究人員、政府、大學和其他學術機構都可以訪問。
LLaMA 可以像其他AI 驅動的聊天機器人一樣,從文本輸入提示詞中產生類似人類的對話。有四種不同的模型,參數範圍從70 億到650 億。與OpenAI 早期的GPT-3 模型相比,它幾乎小了十倍。只有來自各個領域的、已經被用來訓練其他LLM 的公開可訪問數據被用來訓練這一系列基礎模型。這使得這些模型更容易被開源。 English CCNet、C4、GitHub、Wikipedia、Books、ArXiv 和Stack交易所是用來訓練LLaMA 的一些數據源。 Transformer 設計是LLaMA 的基礎,在過去幾年中取得了進一步的進步。 Meta 的研究人員使用標準Transformer 在大量文本數據上訓練大型Transformer。
在最小的模型,即LLaMA-7 B 的訓練中使用了一萬億個token(標註)。另一方面,像LLaMA-33 B 和LLaMA-65 B 這樣具有較大參數的模型在1.4 萬億個token 上進行了訓練。研究人員使用各種基準評估了他們的一系列基礎模型,包括BoolQ、WinoGrande、OpenBookQA、NaturalQuestions、RealToxicityPrompts、WinoGender 等。研究人員的兩個最重要的發現是,LLaMA-13 B 模型,即第二小的版本,在大多數基准上都優於老的GPT-3 模型,而且LLaMA-65 B 模型與目前一些最好的模型相比具備競爭力,包括DeepMind 的Chinchilla-70 B 和谷歌的PaLM-540 B 模型。
簡而言之,Meta 為希望推進LLM 研究並提高其魯棒性的研究人員發布了一系列新穎的、最先進的AI LLMs,名為LLaMA。研究人員發現,在未來工作時,對這些模型進行指令微調會帶來積極的結果。研究人員將對此進行進一步調查。為了提高性能,Meta 還尋求部署更大的模型,這些模型是在更大量的語料上訓練出來的。
資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載