不做ChatGPT killer，Meta 的大型語言模型LLaMA 或派上更大用場

作者：Khushboo Gupta

編譯：DeFi 之道

圖片來源：由Maze AI 生成

在過去幾年中，大型語言模型（LLMs）在科技行業掀起了一場風暴。這些在海量數據上訓練出來的語言模型可以完成各種任務，從總結文本和寫詩這樣的基本任務到生成人工智能（AI）藝術提示詞甚至預測蛋白質結構這樣更具挑戰性的任務。

OpenAI 的ChatGPT 是目前這類LLM 最大和最知名的例子之一。使用生成性預訓練轉化器（Generative Pre-trained Transformer 3，GPT-3）的ChatGPT 是一個基於對話的AI 聊天界面，可以與人交談，編寫代碼，回答問題，甚至解決具有挑戰性的數學方程式。即使是其他科技巨頭，如穀歌和微軟，在發布他們的語言模型（如BARD 和Bing）時也還沒有激起任何水花。

學術界普遍認為，在訓練包含近10 億個參數的LLM 時，增加更多的參數可以提高性能。最近的研究表明，在特定的訓練計算預算下，相較於最大的模型，基於更多的數據訓練的小模型會產生最好的性能。推理預算是另一個關鍵參數，對於獲得理想的性能程度至關重要。儘管訓練一個大的模型以達到一定的性能水平可能會更便宜，但訓練時間較長的小模型最終在推理方面所需的成本更低。在某些情況下，理想的模型不是訓練最快的模型，而是推理最快的模型。

為了在競爭激烈的生成式AI 模型競賽中嶄露頭角，Facebook 的母公司Meta 推出了其AI 語言模型系列LLaMA。這項工作旨在開發幾種在不同推理預算下表現最佳的語言模型，激勵AI 社區開展研究，創造更負責任的語言模型。

在以前，接觸到這種語言模型是昂貴和有限制的，因為它們經常需要服務器來運行。但有了LLaMA，Meta 的目標正是為研究人員解決這個問題。 Meta 表示，LLaMA 僅在公開可用的數據上進行訓練，其性能超過了目前已經投入使用的更大的AI 模型，包括OpenAI 的老式GPT-3 模型。在發布LLaMA 上，Meta 對外展示了一個事實：不借助於專有的和不可獲取的數據集就能訓練最先進的模型。

Meta 已經開源了LLaMA，希望這些模型能夠讓更多人用上並能夠研究LLM，因為它們可以在單個GPU 上運行。這將使研究人員能夠更徹底地理解LLMs，並減少其他已知的問題，包括偏見、惡意信息和傳播錯誤信息的可能。有關這個語言模型集合的另一個有趣的方面是，與ChatGPT 和Bing 等其他語言模型相比，LLaMA 是專門用於研究目的的，並在“非商業許可” 下分發。目前，各種學術研究人員、政府、大學和其他學術機構都可以訪問。

LLaMA 可以像其他AI 驅動的聊天機器人一樣，從文本輸入提示詞中產生類似人類的對話。有四種不同的模型，參數範圍從70 億到650 億。與OpenAI 早期的GPT-3 模型相比，它幾乎小了十倍。只有來自各個領域的、已經被用來訓練其他LLM 的公開可訪問數據被用來訓練這一系列基礎模型。這使得這些模型更容易被開源。 English CCNet、C4、GitHub、Wikipedia、Books、ArXiv 和Stack交易所是用來訓練LLaMA 的一些數據源。 Transformer 設計是LLaMA 的基礎，在過去幾年中取得了進一步的進步。 Meta 的研究人員使用標準Transformer 在大量文本數據上訓練大型Transformer。

在最小的模型，即LLaMA-7 B 的訓練中使用了一萬億個token（標註）。另一方面，像LLaMA-33 B 和LLaMA-65 B 這樣具有較大參數的模型在1.4 萬億個token 上進行了訓練。研究人員使用各種基準評估了他們的一系列基礎模型，包括BoolQ、WinoGrande、OpenBookQA、NaturalQuestions、RealToxicityPrompts、WinoGender 等。研究人員的兩個最重要的發現是，LLaMA-13 B 模型，即第二小的版本，在大多數基准上都優於老的GPT-3 模型，而且LLaMA-65 B 模型與目前一些最好的模型相比具備競爭力，包括DeepMind 的Chinchilla-70 B 和谷歌的PaLM-540 B 模型。

簡而言之，Meta 為希望推進LLM 研究並提高其魯棒性的研究人員發布了一系列新穎的、最先進的AI LLMs，名為LLaMA。研究人員發現，在未來工作時，對這些模型進行指令微調會帶來積極的結果。研究人員將對此進行進一步調查。為了提高性能，Meta 還尋求部署更大的模型，這些模型是在更大量的語料上訓練出來的。

資訊來源：由0x資訊編譯自8BTC。版權歸作者所有，未經許可，不得轉載

不做ChatGPT killer，Meta 的大型語言模型LLaMA 或派上更大用場

報告：27%的20-50歲韓國人持有加密貨幣

過去1周至少9家倫敦公司探索比特幣戰略，Vinanz擬更名為London BTC Company

Aptos在6月的Shelby發射並擴大了Defi生態系統時達到了新的高點

AI代理的演變、應用、代幣的功能與資本規模分析

報告：RWA市場規模同比增長85%至240億美元，成為繼穩定幣之後增長第二快的領域

高盛成為Ripple的共同投資者

本週比特幣及山寨幣的主要推動因素

美國頂級財務顧問建議比特幣投資，最高可分配40％的投資組合比例

不做ChatGPT killer，Meta 的大型語言模型LLaMA 或派上更大用場

Related Posts