據MarketPost 報導,微軟的一組研究人員提出LLM 加速器LLMA。據悉。這種帶有參考文獻的推理解碼技術可以在許多現實世界的環境中,通過利用LLM 的輸出和參考文獻之間的重疊來加快LLM 的推理速度。 LLMA 的運作方式是從參考文獻中選擇一個文本跨度,將其標記複製到LLM 解碼器中,然後根據輸出的標記概率進行有效的並行檢查。
巴比特訊