來源:新智元
導讀:在多模態大模型的戰場上,已有人聞到風聲。根據外媒爆料,OpenAI的全新多模態模型Gobi似乎已在籌備中。谷歌和OpenAI的這場對決,似乎已是箭在弦上了。
圖片來源:由無界AI生成
隨著今年秋天的臨近,Google和OpenAI的多模態模型之戰,也進入白熱化階段。
就在上週,Google已經對一些外部公司開放了多模態大模型Gemini的功能。
而OpenAI,當然不會坐以待斃。他們正爭分奪秒地把多模態功能整合進GPT-4裡,爭取推出功能與Gemini類似的多模態大模型,一舉殺死Google。
傳說中的多模態功能,在今年3月OpenAI那場震驚全世界的GPT-4發布會上,已經被展示過——
在紙上畫個草圖,拍個照發給GPT-4,說一聲「給我照這個版做個網站」,它立刻就寫出了網頁程式碼。
老闆Greg Brockman親自上線演示
不過隨後,多模態彷彿曇花一現,再也沒人見過產品化的實體功能。
所以,Google和OpenAI的多模態大戰,終於要來了嗎?
對戰谷歌,OpenAI搶發多模態大模型
面對傳聞中Google要殺死自己的這款大殺器,OpenAI當然不會無動於衷。
根據外媒The Information爆料,一款名為Gobi的全新多模態大模型,已經在緊鑼密鼓地籌備了。
OpenAI計劃,在Gemini發布之前就推出多模態LLM,徹底擊敗Google。
OpenAI的Greg Brockman vs 谷歌的Demis Hassabis
其實,在3月推出GPT-4多模態功能的預覽後,OpenAI已經向一家名為Be My Eyes的公司推出了這項功能,但並沒有向其他公司提供。
從名字就可以看出來,這家公司正在研發讓盲人或視力不佳人群看得更清楚的技術。
最近,OpenAI打算更廣泛地推出名為GPT-Vision的功能。
OpenAI為什麼花了這麼長時間?
最主要的原因,是他們擔心新的視覺功能會被不法分子利用,例如透過自動破解驗證碼來冒充人類,或透過臉部辨識來追蹤人類。
不過,對於這些法律上的安全風險,OpenAI的工程師似乎已經解決了。
同樣,一位谷歌發言人也表示:谷歌已經採取了一些措施,防止Gemini被濫用。
在7月做出的承諾中,Google保證會在所有產品中開發負責任的人工智慧。
Gobi能成為GPT-5嗎?
在GPT-Vision之後,OpenAI有可能會推出更強大的多模態大模型,代號為Gobi。
跟GPT-4不同,Gobi從一開始就是以多模態模型建構出來的。
所以,Gobi就是傳說中的GPT-5嗎?
現在,我們還無法知曉。 Gobi訓練到哪一步了,也沒有確切消息。
在9月初,DeepMind聯合創始人、現Inflection AI的CEO Mustafa Suleyman,在採訪時曾放出一枚重磅炸彈——據他猜測,OpenAI正在秘密訓練GPT-5。
Suleyman認為,Sam Altman最近說他們沒有訓練GPT-5,可能沒有說實話。 (原話是:Come on. I don’t know. I think it’s better that we’re all just straight about it.)
而在這邊,根據試用過Gemini的人士,Gemini產生的幻覺,會比現有的模型都更少。原因詳見下文。
總之,Google和OpenAI的這場多模態模型大戰,可以說是AI版的iPhone和Android對決。
一個是稱霸AI領域多年的矽谷巨頭,一個是風頭無兩的頂流AI新創公司,二者差距有多大,所有人都屏息等待。
谷歌秘密測試Gemini
另一邊,Google也開始邀請部分外部開發者加急測試,即將推出的下一代多模態大模型Gemini 。
上週,The Information獨家報導稱,Gemini可能很快準備好進行測試發布,並將整合到像Google Cloud Vertex AI等服務中。
在今年的GoogleI/O開發者大會上,劈柴曾公開介紹Gemini,是個多模態模型、高效整合工具、API。
為了合力乾大事,Google也將Google大腦,與DeepMind實驗室進行了合併。
據稱,至少有20多位高階主管參與了Gemini的研發,DeepMind的創辦人Demis Hassabis領導,Google創辦人Sergey Brin參與研發。
還有GoogleDeepMind組成的數百名員工,其中包括前谷歌大腦主管Jeff Dean等等。
一位測試過的人士說,Gemini至少在一個方面比GPT-4有優勢:除了網路上的公開資訊外,該模型還利用了大量Google消費產品(搜尋、Youtube)的專有數據。
因此,Gemini在理解使用者對特定查詢的意圖時應該特別準確,而且它產生的錯誤答案,即幻覺,似乎更少。
根據先前SemiAnalysis分析師的爆料,Google的下一代大模型Gemini,已經開始在新的TPUv5 Pod上進行訓練,算力高達~1e26 FLOPS,比訓練GPT-4的算力還要大5倍。
另外,Gemini的訓練資料庫包含Youtube上936億分鐘的影片字幕,總資料集規模約為GPT-4的兩倍。
據稱,Google下一代大模型也是由多種規模組成,可能使用了MoE架構,以及投機採樣技術。
透過小模型提前產生token並傳遞給大模型進行評估,以提高模型的整體推理速度。
谷歌DeepMind的負責人Hassabis在訪談中曾表示,Gemini預計花費數千萬到數億美元,與開發GPT-4的成本相當。
Gemini會整合AlphaGo所使用的技術,這將賦予系統全新的規劃、解決問題的能力。
可以這麼說,Gemini把AlphaGo系統的一些優勢,和大語言模型驚人的語言能力結合在一起了。並且,我們還有一些其他有趣的創新。
AlphaGo背後的技術,就是強化學習,這是DeepMind首創的技術。
RL代理隨著時間的推移與環境交互,透過反覆試驗來學習策略,從而最大限度地提高長期上漲獎勵
透過強化學習,AI能夠透過反覆嘗試和接受回饋來調整自己的表現,因而學會處理很棘手的問題,例如在圍棋或電子遊戲中選擇如何採取下一步行動。
另外,AlphaGo也使用了蒙特卡羅樹搜尋(MCTS)方法,來探索並記住棋盤上所有可能的動作。
現有模型相比,Gemini將大大提高軟體開發人員的程式碼產生能力,Google希望用它來追趕微軟的GitHub Copilot程式碼助理。
谷歌內部也討論了,使用Gemini來實現K線走勢圖分析等功能,例如要求模型解釋完成K線走勢圖的含義,以及使用文字或語音指令來瀏覽網頁瀏覽器或其他軟體。
谷歌雲端開發者平台Google Cloud Vertex AI也將得到Gemini加持,大小版本都有,讓開發人員可以付費購買小模式在個人裝置上運作。
現在,Google已經在全力備戰,就等著Gemini開啟逆襲之路。
gpt-3.5-turbo-instruct發布
7月,OpenAI曾公佈GPT-4 API全面可用,並且在接下來幾個月要推出新模型。
不,就在今天,網友紛紛收到了gpt-3.5-turbo-instruct新模型發布的郵件,以代替舊模型text-davinci-003。
據介紹,gpt-3.5-turbo-instruct是InstructGPT風格的模型,其訓練方式與text-davinci-003類似。
使用方法和先前的Prompt-Completion類似,依照提示字的指令補全。
就價格來說,gpt-3.5-turbo 4K保持一致。
有網友已經開始使用了最新模型,去玩1800 Elo左右的西洋棋。
而他先前還發現GPT根本做不到這一點,但現在看來這只是RLHF聊天模型的問題,而純Completion模型就成功了。
在對弈中,gpt-3.5-turbo-instruct輕鬆擊敗了Stockfish 4級(1700 分),在5級(2000 分)的比賽中仍不落下風。
它從不走非法棋步,使用巧妙的開局犧牲,以及令人難以置信的卒與王將死,允許對手毫無實際意義地晉級。
網友用的是以下PGN風格的提示來模擬大師級遊戲。高亮顯示有點錯誤。 GPT自己走棋,他手動輸入了Stockfish的棋步。
順便提一句,OpenAI即將在11月召開的首屆開發者大會,已經開始註冊了,快上手申請吧。
參考資料:
https://www.theinformation.com/articles/openai-hustles-to-beat-google-to-launch-multimodal-llm
https://devday.openai.com/
https://news.ycombinator.com/item?id=37558911#:~:text=Key%20Features%3A%20Gpt%2D3.5%2D,speed%20as%20our%20turbo%20models.
資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載