來源:元宇宙之心
就在Google、三星和微軟繼續在個人電腦和行動裝置上大力推廣人工智慧生成技術的同時,蘋果也加入了這一行列,推出了OpenELM。
這是一個全新的開源大型語言模型(LLM)系列,可以完全在單一裝置上運行,而無需連接雲端伺服器。
01.模型特點與性能
當地時間週三,OpenELM在人工智慧程式碼社群Hugging Face上發布,它由一系列小型模型組成,旨在高效執行文字生成任務。
OpenELM共有八個模型:四個預訓練模型和四個指令調整模型,涵蓋從2.7億到30億個不同參數(參數指LLM中人工神經元之間的連接數,通常參數越多表示性能越強、功能越多)。
雖然預訓練是讓LLM產生連貫且可能有幫助的文字的方法,但它主要是一種預測性練習,而指令調整則是讓LLM對使用者的特定請求做出更相關輸出的方法。
預訓練可能導致模型只是用簡單的文本來完成提示,例如,面對用戶的提示“教我如何烤麵包”,模型可能會作出“用家裡的烤箱”的類似回應,而不是實際的分步指導。
蘋果公司在其所謂的「範例程式碼許可」下提供了OpenELM模型的權重,以及不同的訓練檢查點、模型性能統計、預訓練、評估、指令調整和參數微調等說明。
「範例程式碼授權」並非禁止商業使用或修改,只是規定「如果不加修改地重新發布蘋果軟體的全部內容,必須在文本中保留本通知」。
蘋果進一步指出,這些模型「沒有任何安全保證」。因此,這些模型在回應使用者提示時有可能產生「不準確、有害、有偏見或令人反感的輸出結果」。
蘋果是一家出了名的神秘和典型的「封閉」科技公司,除了在網路上發布這些模型和論文之外,還沒有公開宣布其在這一領域的研究過程。
此外,早在去年的10月份,蘋果就悄悄發布了具有多模態功能的開源語言模型Ferret,成為頭條新聞。
OpenELM是開源高效語言模型「Open-source Efficient Language Models」的縮寫,雖然剛剛發布,尚未進行公開測試,但蘋果公司在HuggingFace上的列表表明,它正將目標鎖定在模型的設備應用上,就像競爭對手谷歌、三星和微軟一樣。
值得注意的是,微軟本週剛發布了可完全在智慧型手機上運行的Phi-3 Mini模型。
02.技術細節與訓練過程
蘋果在一篇介紹該模型系列的論文中指出:OpenELM的開發“由Sachin Mehta領導,Mohammad Rastegari和Peter Zatloukal也是主要貢獻者”,該模型系列“旨在授權和加強開放研究社區,促進未來的研究工作」。
OpenELM模型共有四種參數規模:2.7億、4.5億、11億和30億,每種規模都小於許多高性能模型(它們通常有大約70億個參數),每種模型都有一個預訓練和指導版本。
這些模型是在來自Reddit、維基百科、arXiv.org等網站的1.8兆個token的公共資料集上預先訓練的。
這些模型適合在商用筆記型電腦甚至某些智慧型手機上運行,基準測試則是在「英特爾i9-13900KF CPU、英偉達RTX 4090 GPU、Ubuntu 22.04工作站、macOS 14.4.1的MacBook Pro」上運行的。
有趣的是,新系列中的所有機型都採用了分層縮放策略,在變壓器模型的每一層中分配參數。
據蘋果公司稱,這使它們能夠在提高運算效率的同時提供更高的精度結果。同時,蘋果使用新的CoreNet庫對模型進行了預訓練。
蘋果在HuggingFace上指出:“我們的預訓練資料集包含RefinedWeb、重複的PILE、RedPajama的一個子集和Dolma v1.6的一個子集,總計約1.8萬億個token。”
在性能方面,蘋果分享的OpenLLM結果表明,這些模型的性能相當不錯,尤其是4.5億個參數的指示變體。
此外,擁有11億個參數的「OpenELM變體」比擁有12億個參數的「OLMo」高出2.36%,同時所需的預訓練token減少了2倍。
OLMo是Allen人工智慧研究所(AI2)最近發布的「真正開源、最先進的大型語言模型」。
03.性能測試與社群回饋
在旨在測試知識和推理能力的ARC-C基準測試中,預先訓練的OpenELM-3B變體的準確率為42.24%。同時,在MMLU和HellaSwag上,它的準確率分別為26.76%和73.28%。
一位已經開始測試OpenELM模型的用戶指出:該模型似乎是一個“可靠的模型,但非常統一”,這意味著它的回應既沒有廣泛的創造性,也不可能涉足NSFW領域。
競爭對手微軟最近推出的Phi-3 Mini,擁有38億個參數和4k上下文長度,目前在這一領域處於領先地位。
根據最近分享的統計數據,OpenELM在10次ARC-C基準測試中的得分率為84.9%,在5次MMLU測試中的得分率為68.8%,在5次HellaSwag測試中的得分率為76.7%。
從長遠來看,OpenELM的性能有望得到提升。
但蘋果的開源措施已經讓社群興奮不已,我們將拭目以待社群如何在不同環境中使用OpenELM。
04.蘋果的人工智慧願景
蘋果公司一直對其生成式人工智慧計劃保持沉默,但隨著新人工智慧模型的發布,該公司近期的雄心似乎堅定地落在了「讓人工智慧在蘋果設備上本地運行」的領域。
蘋果執行長Tim Cook曾預告:「人工智慧生成功能將出現在蘋果設備上」。並在今年2月表示,蘋果公司正在該領域花費「大量的時間和精力」。不過,蘋果公司尚未透露人工智慧應用的具體細節。
該公司之前發布過其他人工智慧模型,不過還沒有像競爭對手那樣發布任何用於商業用途的人工智慧基礎模型。
除了OpenELM,去年12月,蘋果曾推出了機器學習框架MLX,該框架的理想狀態是讓人工智慧模型更容易在蘋果矽上運作。此外,還發布了一個名為MGIE的圖像編輯模型,讓人們透過提示來修復照片。以及一個名為Ferret-UI的模型可用於智慧型手機導航。
不過,即使蘋果發布了這麼多模型,據說該公司還是與Google和OpenAI進行了聯繫,希望將它們的模型引入蘋果產品。