來源:Empower Labs
圖片來源:由無界AI工俱生成
一個成立僅僅幾週的團隊,在沒有產品,沒有用戶也沒有運營經驗卻完成了1.05億歐元的融資。這個memo(備忘錄)幫牠說服了Light Speed,谷歌前CEO Eric Schmidt等人。 memo中強調了歐洲市場,AI安全,合規等方面,mistral認為他們使用與OpenAI截然不同的開源路線會最終讓他建立優勢並實現超越。從我讀下來的感覺,這個memo顯然寫的很有技巧,也包含了一些bluff的成分。它很好的利用了歐洲社會當前在大語言模型上的FOMO心態完成了融資。
Mistral願意是指法國南部的一種干強西北冷風,也是一種法國產兩棲攻擊艦的名字。這是世界上最領先的兩棲攻擊艦。這個名字體現了法蘭西的驕傲。而創始團隊的6個人也都來自法國,與其將它理解為歐洲大語言模型,我覺得它更像是一個法國大語言模型公司。他講了一個好的歐洲故事,但它不會是歐洲的唯一。
我是在一個討論小組裡看到的Memo,在確認了Memo內容已經不需要保密後,我用ChatGPT對其進行了全文翻譯,隨後進行了校對以及部分內容的重新翻譯。
mistral.ai戰略備忘錄
作者:mistral.ai
翻譯:ChatGPT,王超
生成式AI是一項變革性技術
去年,我們看到生成式AI(能夠根據文本和圖像生成文本/圖像的系統)有了驚人的加速發展。這些系統能夠幫助人類:
● 創作出卓越的創新內容(文本、代碼、圖形)
● 比人類快數千倍地閱讀、處理並總結無結構的內容流
● 通過自然語言或應用接口與世界互動,以前所未有的速度執行工作流程。
生成式AI的強大能力在ChatGPT發布後突然向公眾展示出來。這類產品只有全球幾個小團隊正在製作,這些團隊中有限的研究人員成為了阻礙在這個領域創造新經濟的瓶頸。
生成式AI即將在所有行業提高生產力,並通過無縫提升人類思維的機器能力,創造出一個新的行業(2022年市場規模為100億美元,預計到2030年將達到1100億美元,預計年增長率為35%)。它是世界經濟的變革性技術,將改變工作的本質並帶來積極的社會變革。
正在形成的寡頭壟斷
生成式AI技術站在行業和學術界多年的研究的基礎之上。通過將訓練規模擴大到互聯網級的數據,並通過人類反饋對模型進行矯正,最終實現了突破使這技術可以被大眾使用,這些突破是由少數幾個行業參與者實現的,其中最大的參與者(OpenAI)似乎對市場有著霸權意圖。
這幾家參與者訓練生成式模型並將它們作為資產;他們為數千個為生產力提升創造產品的第三方提供服務,也通過類似聊天機器人的自有產品為公眾提供服務。大量的第三方創業公司還在不斷成立,基於這些生成式模型構建各種服務。
我們認為,在新興的生成式AI市場中,大部分的價值來自於難以製造(hard-to-make)的技術,即生成模型本身。這些模型需要在數千台功能強大的機器上進行訓練,處理來自高質量來源的萬億級別的數據,這構成了第一個高高的門檻。第二個重要的門檻在於組建經驗豐富團隊的難度,而mistral.ai處於一個有利的位置從而可以做到這件事。
目前(大語言模型)所有的主要參與者都位於美國,歐洲還未出現一個嚴肅的競爭對手。考慮到這種新技術的強大(和危險)性,這是一個重大的地緣政治問題。 mistral.ai將成為提高生產力和創造力AI的歐洲領導者,並引導即將到來的新的工業革命。
當前的生成式AI並未滿足市場需求
OpenAI及其當前的競爭者選擇了封閉的技術路線,這將大幅度限制他們的市場覆蓋率。在這種方式中,模型被保密,只通過文本到文本的API進行服務。這對商業帶來以下重要問題:
● 希望使用生成式AI技術的機構被迫將他們的寶貴商業數據和敏感用戶數據提供給一個黑箱模型,這種模型通常部署在公共雲中。這帶來了安全問題:保密的模型無法被檢查以確保其輸出是安全的,一次這類模型不可能在與安全高度相關的應用中被部署。這種情況也帶來了法律問題,尤其是當公司將個人數據傳輸到其法律邊界之外時,可能會受到域外法律管轄的問題。
● 只暴露模型的輸出,而不是完全暴露模型,使其更難與其他組件(檢索數據庫,結構化輸入,圖像和聲音)相連接。目前有數百種產品是通過互聯模型的輸出和輸入來創建Compound能力(如記憶,視覺等)。如果模型能作為白箱(透明模型)提供,這些產品將工作得更好,更快(比如The Flamingo將白盒的視覺和文本模型整合形成了文本+視覺模型)。
● 用來訓練模型的數據是保密的,這意味著我們依賴的系統有無法確定的來源,並可能產生無法控制的輸出。為解決此問題而做的過濾工作只能微弱而脆弱地保證模型不會輸出可能已被訓練過的敏感內容。這個問題在2023年4月導致了ChatGPT在意大利被禁止。
從歐洲打破市場格局
通過創立mistral.ai,我們計劃採用與當前的封閉模式完全相反的立場訓練先進的模型。我們的願景是成為該領域的領先參與者,同時在歐洲及更廣泛的行業中整合這些模型,發展出高價值的業務。
mistral.ai將成為生成式AI領域的研究領導者,在四年內成為市場上最領先的AI技術提供方。為了實現這個目標,我們首先會專注於幾個關鍵的差異化特徵,然後進行全面的研發工作,選擇最有效的策略,以邁向對人類有實用價值的人工智能。
首先專注於歐洲市場會為我們提供一個有防禦性的優勢,而且我們在技術路線上的開放性立場將進一步提高我們的吸引力。在大型語言模型(LLM)領域的許多才華橫溢的人才都來自歐洲的;我們的廣泛經驗表明,他們中的許多人願意加入我們的項目。
相反的技術定位
我們早期的差異化因素,即我們競爭對手戰略中的盲區,有以下這些:
● 採取更開放的模型開發方式。我們將以有許可的開源許可證(permissive open-source-software licence)發布模型,這將大大超越競爭對手。我們將發布工具以發揮這些白盒模型的力量,並圍繞我們的商標創建開發者社區。這種方法在意識形態上與OpenAI形成了極大的差異,這將更好的吸引頂級研究人員,對於項目發展來說也會是一個強大的加速,因為它將為許多下游充滿熱情的開發者開啟大門。這將提高我們的業務發展範圍。我們將平衡我們的開源戰略和經濟利益,把最強大和最專業的模型保留給付費用戶。
○ 我們將把1%的資金專門用於負責開源社區開發的非營利基金會。
● 無論是開源還是許可,我們的模型的內部(架構和訓練權重)總是對我們的客戶開放。這將允許與客戶的工作流程更緊密地集成,他們的內容可以被送入深層模型的不同部分,而不是將所有內容序列化為輸入文本,送到黑盒API。
● 加強對數據來源和數據控制的關注。我們的模型將在高質量數據內容(除了抓取的內容)上接受訓練,我們將就此協商許可協議。這將使我們能夠訓練出比目前可用的模型(如Llama)更好的模型。使用深度參與的技術(混合專家和檢索增強模型),我們將為模型提供可選的數據源訪問:付費高級用戶,特定模型可以專門用於金融/法律/等(這提供了相當大的性能提升)。使用類似的技術,我們的模型將能夠針對具有不同公司知識產權權限的員工提供即時的差異化數據訪問。
● 提供無與倫比的安全和隱私保證。我們的模型將可在私有云中部署,並可以選擇直接在設備上部署,從而通過消除可能的問題流程,有效地將隱私問題降至最低。為此,我們將把我們的研發努力導向訓練小而超級高效的模型,有效地提出市場最高的質量/成本比率的模型。我們的開源策略也將在部署我們的模型到關鍵行業(特別是雙重行業和健康行業)時,保證其可審計性。
商業拓展
在商業方面,我們將為新興的AI-as-a-service產業提供最有價值的技術模塊,用生成式AI徹底改變商業工作流程。我們將與歐洲的集成商和工業客戶共建集成解決方案,並從中獲取極其有價值的反饋,以成為所有希望在歐洲利用AI的公司的主要工具。
與垂直領域的集成可以採取不同的市場形式,包括對模型(包括訓練過的權重)的全面訪問許可,根據需求對模型的專門化,與集成商/諮詢公司合作建立完全集成解決方案的商業合約。如我們的路線圖所詳述,我們將在技術發展的同時探索並確定最佳方法。
如何成為AI領域的領導者
頂級的團隊
創始團隊由該領域的頂級研究人員組成,他們曾在DeepMind和Meta工作,同時也有經驗豐富的法國連續創業者和有影響力的公共領袖。
● Arthur Mensch — CEO — DeepMind前首席研究科學家,LLM的幾項主要貢獻的首席作者:Chinchilla、Retro、Flamingo
● Guillaume Lample — 首席科學家— 前Meta的高級研究科學家。領導Llama項目,這是Meta對大型語言模型領域的主要貢獻
● Timothée Lacroix — CTO — 前Meta的軟件工程師,Llama技術負責人
● Jean-Charles Samuelian ,Alan CEO
● Charles Gorintin , Alan CTO
● Cédric O , 前法國數字事務國務秘書
已經確定的前五名員工將是來自大型科技公司的富有經驗的研究員。他們對歐洲和開源的觀念極為熱情,同時由於生成型AI的迅速發展導致一些公司不斷進行組織重構,這也構成了他們從這些公司中離開的合適的時機。
基礎設施和數據來源
要訓練一個有競爭力的模型,需要用到exa-scale集群至少幾個月的時間。我們打算租用這樣的計算資源一整年,從而發展出不同能力的開源和商業模型。
我們已經在和頂級雲服務提供商就租用計算資源在進行有競爭力的磋商(我們計劃從夏天開始起步,到9月形成1536個H100的計算儲備)。由於mistral.ai有著強大的歐洲基礎,我們也將與新興的歐洲雲服務提供商合作,他們都在積極拓展深度學習計算服務。
在此之前我們已經訓練過大規模的模型,這為我們提供了專業知識,使我們能夠在訓練效率上比公開的方法提高10-100倍——我們的創始人和早期員工都清楚地知道如何以給定的計算預算來訓練最強的模型。
我們的早期投資者也是歐洲的內容提供商,並將為我們獲取可以訓練和微調模型的高質量數據集打開所有必要的大門。
與大客戶共同進行場景的探索
創始團隊已經在組織與主要的法國和歐洲商業機構進行商業探索。一個小的以產品為導向的團隊(到年底6人)將在技術團隊訓練有價值的技術模塊的同時開始發展業務。
模型團隊將保持100%的專注於技術研發,以避免分心。
商業拓展將在第一代模型家族的開發同時開始,使用以下策略:
● 中心化探索大型工業參與者的需求,由第三方集成商共同推進,這些集成商將被允許全面訪問我們最好的(非開源)模型
● 與一些專注於生成式AI產品的小型新興合作夥伴共同設計產品。
基於業務的探索將被用來驅動第二代模型的設計。
路線圖
第一年
我們將訓練兩代模型,模型開發和商業集成同步推進。第一代將部分開源,依賴於團隊熟練掌握的技術。它將驗證我們的能力,滿足客戶,投資者和機構的需求。第二代模型將解決當前模型的重大缺陷,使其可以被企業安全且經濟地使用。
訓練最佳的開源標準模型
到2023年底,我們將訓練一系列能大幅度超越ChatGPT 3.5和2023年3月版本Bard的文本生成模型,以及所有的開源解決方案。
這個系列將會開源;我們將參與社區在其基礎上構建,使其成為開放的標準。
我們將提供與競爭者相同的服務接口並收取一定費用以收集第三方的使用數據,同時我們會創建一些免費的消費者應用,從而擴大品牌影響並獲取第一方用戶數據。
為商業需求定制並形成差異化
在接下來的六個月裡,這些模型將配備用於內容搜索的語義嵌入模型,以及處理視覺輸入的多模態插件。使用通過商業付費得到的高質量數據源進行再訓練的特別模型也將被準備。
商業發展將與第一代模型系列的開發同時開始:我們打算在2024年第一季度末形成概念驗證集成。
在技術方面,在2024年第一季度和第二季度,我們將重點關注兩個被現有公司低估的主要方面:
● 訓練一個足夠小的模型,可以在16GB的筆記本電腦上運行,同時作為一個有用的AI助手
● 訓練帶有熱插拔額外上下文的模型,允許的額外上下文可達數百萬,有效地合併了語言模型和檢索系統。
同時,通過合作夥伴關係和數據獲取,訓練和微調數據集將不斷豐富。
到2024年第二季度底,我們打算:
● 分發最佳的開源文本生成模型,具有文本和視覺輸出
● 擁有通用和專家模型,其價值/成本比是最高的之一
● 通過可擴展和多樣化的可用API為第三方集成商提供模型能力
● 與一兩個大型行業參與者建立特許商業關係,他們已經承諾使用我們的技術
下一階段
與OpenAI等參與者競爭並超越他們將需要在後期進行大量投資(GPT-4花費了幾億美元)。我們第一年的目標是證明,我們是全球AI競爭中的最強團隊之一,能夠開發並推出能與最大玩家相抗衡的模型。我們作為大型語言模型(LLM)研究者的經驗,將使我們在早期階段比那些正在發現或轉向該領域的公司更能有效利用資本。
mistral.ai的一個北極星將是安全性:我們將以一個良好的階段性方式發布模型,確保我們的模型只能用於與我們的價值觀一致的目的,為此,我們將向“紅隊”提供beta訪問權限,以發現不適當的行為並糾正它們。
由此,我們將說服主要的公共和私人機構,相信我們能夠構建出安全、可控並且高效的技術,讓人類從這個科學突破中獲益。而這將吸引機構和國家參與我們的A輪融資。在A輪中(2024年第三季度),我們預計需要籌集2億美元,以訓練出超越GPT-4能力的模型。
強大的財務支持將使我們能夠在更大規模的基礎設施上訓練模型,從而鞏固我們作為AI研究領導者的地位,並成為歐洲行業領域的首選供應商。
(全文完)
資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載