Meta 表示,多代幣預測將AI 模型速度提高了三倍


Meta 的研究人員表示,訓練語言模型同時預測多個標記可以提高樣本效率。

像Llama 和ChatGPT 這樣的大型語言模型通常是為下一個標記預測而訓練的,但透過這種新方法,可以獲得更好的效能。

什麼是單令牌預測技術?

多令牌預測技術在某些場景中提供了顯著的優勢,其速度是生成任務的三倍,但它仍然不是適用於每種模型的一刀切的解決方案。這項技術還有很大的改進空間,對於一些法學碩士申請來說,它可以成為一個強大的工具。

為了更清楚地理解,可以說LLM訓練的傳統過程使用一種稱為「下一個令牌預測」的方法,透過這種方式,模型僅預測給定序列中的下一個未來令牌。

在自動化過程中,它預測的標記被添加到輸入中,並且在提供的整個文字輸入上一遍又一遍地重複該過程,以便模型學習常見模式並開發產生由邏輯和一致組成的輸出的能力。文字.

這種技巧有一些缺點,因為只處理下一個標記,模型就會過度專注於文本中的局部模式,而忽略只能透過推理做出的預測。

這項技術的另一個問題是,它需要將大量資料集輸入到模型中,才能達到人類用很少的文字即可完成的正常語言輸出流程。

多令牌預測可實現3 倍速度來源:Meta。

在Meta提出的新的多令牌方法中,LLM被指示在訓練過程中同時預測來自不同位置的多個代幣。研究人員使用簡單的預測架構進行多標記預測,不需要時間和記憶體處理等額外資源。

研究人員使用了大多數法學碩士已經使用的相同Transformer 架構,但他們確實做了一些更改,透過將其輸出頭從單一增加到多個並為每個令牌分配一個來適應多個令牌預測。

這樣,為了得出結論並進行預測,模型使用相同的基本下一個預測策略,但透過利用多個頭,它可以加快該過程。研究表明,

“雖然免費且簡單,但多令牌預測是訓練更強更快的Transformer 型號的有效修改。”

資料來源:元。

研究人員在研究過程中發現,當他們將該技術應用於較小的模型時,其結果低於平均水平,但當他們將相同的過程應用於較大的模型時,結果會變得優於平均水平,並且結果隨著模型的大小而不斷改進。正如該研究所寫,

「此方法對於較大的模型尺寸越來越有用,並且在訓練多個時期時保持其吸引力。 在編碼等生成基準上,收益尤其明顯,我們的模型始終比強大的基準高出幾個百分點。

資料來源:元。

研究人員還表示,多令牌預測技術也使模型產生邏輯結果的速度提高了三倍,這非常有用,而且無需或只需很少的額外成本。

資訊來源:由0x資訊編譯自CRYPTOPOLITAN。版權歸作者Aamir Sheikh所有,未經許可,不得轉載

Total
0
Shares
Related Posts