最新GPT-4在律考中擊敗90%人類,它到底強在哪?


來源:鈦媒體

作者:林志佳

圖片來源:由無界版圖AI工俱生成

“碼農真的快失業了,編程不存在了。”在今早GPT-4發布之後,朋友圈刷屏,很多人表達該技術對目前人類生產生活的影響。

GPT-4有多強,GRE考試接近滿分,律考比肩頂級律師,隨手畫個草圖就能做出同款網頁。當國內還在熱議人工智能對話大模型產品ChatGPT時,背後核心預訓練模型技術GPT卻突然重磅升級。

鈦媒體App獲悉,北京時間3月15日凌晨,創造出ChatGPT的美國AI 公司OpenAI 正式對外發布GPT-4。

據悉,GPT-4是新一代多模態大模型,支持圖像和文本輸入以及正確的文本輸出,擁有強大的識圖能力,文字輸入限制提升至2.5萬字,支持多個語言,回答準確性顯著提高,從而讓新的ChatGPT更聰明。此外,GPT-4還開放了角色扮演和性格定制能力。另外,GPT-4版本還會隨著時間進行自動更新。

鈦媒體App了解到,OpenAI發布的GPT-4在各種專業學術基准上有著人類水平表現。例如在模擬律師考試中,GPT-4得分約為前10%——擊敗了90%人類,而ChatGPT背後的GPT-3.5得分約為倒數10%。

“GPT-4 是世界第一款高體驗,強能力的先進AI系統,我們希望很快把它推向所有人。”OpenAI工程師在開發者Demo視頻中表示,GPT-4 是OpenAI努力擴展深度學習的最新里程碑。 OpenAI稱,GPT-4雖然在許多現實世界場景中的能力不如人類,但在各種專業和學術基准上表現出人類水平的表現。

微軟在GPT-4發布後第一時間表示,新的必應(Bing)已經基於GPT-4 技術運行,這是為搜索產品量身定制的模型產品。 “如果你在過去五週內的任何時候使用過新的Bing預覽版,你就已經提前了解過這個強大模型的早期版本。隨著OpenAl對GPT-4及以後的版本進行更新,Bing 從這些改進中受益匪淺。”

鈦媒體App獲悉,即日起,ChatGPT Plus付費訂閱用戶現可直接使用GPT-4版本的ChatGPT,未來則將對免費用戶開放一定數量的GPT-4體驗。同時,GPT-4 API 需要申請候選名單,今天將開始邀請一些開發人員,並不斷擴大邀請規模,每1000字符的價格為0.03美元;圖像輸入則處在研究預覽階段,僅對少部分用戶開放。

不過,GPT-4仍存在改進空間。雖然這次模型大升級,但之前ChatGPT會出現幻覺、“胡說八道”的毛病還是沒能在GPT-4中完全改掉。

誰能革得了ChatGPT 的命?現在看來還是OpenAI 自己。

花了6個月打造,GPT-4到底強在哪裡?

聊GPT-4之前,先要了解GPT到底是什麼。

隨著1956年“達特茅斯會議”上創造“人工智能”這個術語,全球迎來了AI 技術發展階段。在2016年谷歌DeepMind的“阿爾法狗”(AlphaGo)擊敗了韓國圍棋冠軍李世乭,以及機器學習的誕生,AI 算法、算力、數據“三駕馬車”獲得了突破性技術進展。

但問題在於,機器學習利用循環神經網絡(RNN) ——序列數據或時序數據的人工神經網絡來處理文字,使得文字按順序一個個處理,沒辦法同時進行大量學習。

因此2017年,谷歌團隊發布論文“Attention Is All You Need”,提出了一個新的學習框架Transformer,以解決此問題。它拋棄了傳統的CNN(成交量積神經網絡)和RNN,使整個網絡結構完全由Attention機制組成,從而讓機器同時學習大量的文字,訓練速度效率大大提升。

簡單來說,只需要LLM(大型語言模型)、大型參數量和算力算法訓練,以Attention機制就可實現快速的機器學習能力。因此,無論是ChatGPT的T,還是谷歌預訓練語言模型BERT的T,均是Transformer的意思。

基於Transformer框架,OpenAI進行了新的研究學習GPT,全稱為Generative Pre-trained Transformer(生成式預訓練框架),其利用無監督學習技術,通過大量數據來形成快速反饋。 2018年6月,OpenAI發布第一代GPT,2019年11月發布GPT-2,2021年發布了1750億參數量的GPT-3,不僅可以更好地答題、翻譯、寫文章,還帶有一些數學計算的能力等,而ChatGPT是微調之後的GPT-3.5消費級應用。

今天發布的GPT-4,是一個大型多模態模型,能接受圖像和文本輸入,再輸出正確的文本回复。 OpenAI表示,團隊花了6個月的時間使用對抗性測試程序和ChatGPT的經驗教訓,對GPT-4進行迭代調整,從而在真實性、可控性等方面取得了有史以來最好的結果。

“GPT-3.5 和GPT-4 之間的區別可能很微妙。當任務的複雜性達到足夠的閾值時,差異就會出現——GPT-4 比GPT-3.5 更可靠、更有創意,並且能夠處理更細微的指令。”OpenAI 表示,在過去的兩年裡,團隊重建了整個深度學習堆棧,並與微軟Azure一起,為GPT工作負載從頭開始共同設計了一台超級計算機。經過訓練和修復更新之後,GPT-4前所未有地穩定,成為OpenAI 能夠提前準確預測其訓練性能的第一個大型模型。

那麼,GPT-4技術到底怎麼樣?為了了解這模型差異,根據官方實驗表明,GPT-4在各種專業測試和學術基准上的表現與人類水平相當。

首先,在美國BAR律師執照統考模擬中,GPT-4得分約為前10%——擊敗了90%人類,而ChatGPT背後的GPT-3.5得分約為倒數10%;生物奧林匹克競賽,GPT-3.5能達到後31%水平分位,GPT-4可達到前1%水平分位;研究生入學考試(GRE) 、SAT數學考試成績中,也有大幅提升,擊敗了80%以上的人類答題水平,而醫學知識自測考試準確率達75%。

第二個測試是與其他英文機器學習模型的技術能力。研究團隊使用微軟Azure Translate,將MMLU 基準——一套涵蓋57個主題、14000個多項選擇題翻譯成多種語言。在測試的英語、拉脫維亞語、威爾士語和斯瓦希里語等26種語言中,有24種語言下,GPT-4優於GPT-3.5 和其他大語言模型(Chinchilla、PaLM)的英語語言性能。

而在TruthfulQA等外部基準測試方面,GPT-4也取得了進展。 OpenAI測試了GPT-4模型將事實與錯誤陳述的對抗性選擇區分開的能力。實驗結果顯示,GPT-4基本模型在此任務上僅比GPT-3.5略好。但在經過RLHF訓練之後,二者的差距就很大了,例如GPT-4在測試中並不是所有時候它都能做出正確的選擇。

此外,GPT-4還支持做編程、玩梗圖、回答關鍵問題、理解圖片、看懂法語題目並解答等其他更多擴展技術能力,研究人員發現,GPT-4能隨著時間不斷處理令人興奮地新任務——現在的矛盾是AI 的能力和人類想像力之間的矛盾。不過OpenAI表示,圖像輸入是研究預覽,目前不公開。

對於一個長相奇怪的充電器的圖片問為什麼這很可笑? GPT-4 回答:VGA 線充iPhone。

GPT-4回答數學問題

總的來說,GPT-4 相對於以前的模型(經過多次迭代和改進)已經顯著減輕了判斷失誤問題。在OpenAI的內部對抗性真實性評估中,GPT-4的得分比ChatGPT使用的GPT-3.5模型能力高40%。

很顯然,雖然GPT-4 對於許多現實場景的處理比人類差,但在各種專業和學術基准上已表現出和人類相當的水平。

不過,GPT-4模型也有很多不足,有著與以前的模型類似的風險,如產生有害的建議、錯誤的代碼或不准確的信息,以及對實時事件的不了解等。

1、該模型在其輸出中可能會有各種偏見,但OpenAI在這些方面已經取得了進展,目標是使建立的人工智能係統具有合理的默認行為,以反映廣泛的用戶價值觀。
2、GPT-4 通常缺乏對其絕大部分數據截止後(2021 年9 月)發生的事件的了解,也不會從其經驗中學習。它有時會犯一些簡單的推理錯誤,這似乎與這麼多領域的能力不相符,或者過於輕信用戶的明顯虛假陳述。有時它也會像人類一樣在困難的問題上失敗,比如在它生成的代碼中引入安全漏洞。
3、GPT-4 預測時也可能出錯但很自信,意識到可能出錯時也不會再檢查一遍(double-check)。有趣的是,基礎預訓練模型經過高度校準(其對答案的預測置信度通常與正確概率相匹配)。然而,通過OpenAI目前訓練後的過程,校準減少了。

OpenAI表示,研究團隊一直在對GPT-4進行迭代,使其從訓練開始就更加安全和一致,所做的努力包括預訓練數據的選擇和過濾、評估和專家參與、模型安全改進以及監測和執行。數據顯示,與GPT-3.5相比,模型對不允許內容的請求的響應傾向降低了82%,而GPT-4對敏感請求(如醫療建議和自我傷害)的響應符合政策的頻率提高了29%。

另外,OpenAI團隊還聘請了50 多位來自人工智能對齊風險、網絡安全、生物風險、信任和安全以及國際安全等領域的專家,對該模型在高風險領域的行為進行對抗性測試,從而為改進GPT模型提供了依據。

“隨著我們繼續專注於可靠的擴展,我們的目標是完善我們的方法,以幫助我們越來越多地提前預測和準備未來的能力——我們認為這對安全至關重要。”OpenAI 表示。

目前GPT-4版本默認速率限制為每分鐘40k個Token和每分鐘200個請求,而GPT-4的上下文長度為8192個Token,最多提供32768個Token上下文(約50 頁文本)版本的有限訪問,但版本也會隨著時間自動更新。

不過,目前OpenAI公開的技術報告中,不包含任何關於模型架構、硬件、算力等方面的更多信息,也不包括期待已久的AI 視頻功能,也並沒有開放GPT-4的任何核心技術論文信息。

但OpenAI正在開源其軟件框架OpenAI Evals,用於創建和運行基準測試以評估GPT-4等模型,同時逐個樣本地檢查它們的性能。

復旦大學計算機學院教授、博士生導師黃萱菁此前表示,OpenAI迄今為止沒有開放過它的模型,只開放過API接口,你可以調用它,但拿不到GPT-3.5內部細節,而且今年連論文都沒有,需要大家去猜測。

全球進入AI 大模型軍備競賽,與GPT差距拉大

實際上,隨著基於GPT技術的ChatGPT風靡全球,全球已經進入了AI 大模型軍備競賽。

首先是影響到搜索引擎巨頭地位的谷歌。手握LaMDA、PaLM, Imagen 等AI 技術的谷歌,不會讓微軟這麼輕易就搶占了AI 應用的先機。

就在GPT-4發布前幾個小時,谷歌為了迎戰微軟,宣布將一系列即將推出的生成式人工智能(AIGC)功能與模型應用到自家產品中。包括Google Docs(文檔)、Gmail、Sheets(表格)和Slides(幻燈片)等。但不同於微軟和OpenAI的“發布即可用”,谷歌只會先將Docs和Gmail中的AI工具在月底提供給一些“值得信賴的開發人員”,具體開放時間沒有公佈。

更早之前,谷歌發布了ChatGPT最大競品、基於LaMDA AI 架構的Bard聊天機器人,支持多角度回答問題,以及強大的上下文理解能力,未來Bard 還會被集合在Google 搜索之中,為你更快速地提供答案。不過Bard在Demo演示中頻繁“翻車”,市場並不看好。

3月15日凌晨,谷歌宣布開放自家的大語言模型PaLM API,而且還發布了一款幫助開發者快速構建AI 程序的工具MakerSuite。谷歌表示,此舉是為了幫助開發者們快速構建生成式AI 應用。

相對於谷歌,微軟做好了充足的準備。

今年2月,微軟宣布數十億美元投資OpenAI公司,後者估值高達290億美元,成為AIGC 領域最高估值的獨角獸公司。如今,微軟已經在旗下所有產品中全線整合ChatGPT,包括且不限於Bing搜索引擎、包含Word、PPT、Excel的Office全家桶、Azure雲服務、Teams聊天程序等預計本週四(16日),微軟將宣布GPT-4與Azure雲服務的結合。

目前在國內,百度、商湯、曠視科技等多家AI 公司和科研機構都在做關於大模型的技術產品和應用。

就在3月14日晚,港股AI 龍頭企業商湯科技發布了多模態通用大模型“書生2.5”,擁有30億參數,支持問答、識圖、以文生圖等,在自動駕駛和居家機器人等通用場景下,“書生2.5”可輔助處理各種複雜任務。據悉,“書生”由商湯科技、上海人工智能實驗室、清華大學、香港中文大學、上海交通大學於2021年11月首次共同發布,並持續聯合研發。

儘管中國在AI 領域進行了很多研究成果和佈局,但目前要達到像OpenAI的效果可能還需時日。科學技術部部長王志剛3月5日表示,ChatGPT證明了AI 是大方向,而OpenAI 在AI 對話實時效果方面有明顯優勢。

“比如發動機,大家都能做出發動機,但質量是有不同的。踢足球都是盤帶、射門,但是要做到梅西那麼好也不容易。”王志剛表示。

那麼,國內AI 技術行業如何看待中國企業做大模型的呢?

創新工場董事長兼CEO李開復博士在3月14日表示,ChatGPT快速普及將進一步引爆AI 2.0 商業化。 AI 2.0 是絕對不能錯過的一次革命。

曠視科技聯合創始人、CEO印奇3月10日對鈦媒體App表示,中國攻堅AI 大模型,要先把GPT-3.5復現出來,但過程沒有想像的那麼容易。國內一方面要用最艱苦樸素、奮鬥的狀態來攻堅核心AI 技術,另外中國AI 公司想活得長,必須要把大模型商業化。 “我們要有極強的危機感。”

瀾舟科技創始人兼CEO周明告訴鈦媒體App,對於國內而言,中國做大模型還是更多的要去了解國外的發展趨勢,不能固步自封,還是需要學習;但同時中國AI 技術在過去20多年取得長足的進步,無論人才還是技術,中國有很好的歷史性機遇,更多是Optimism,而非悲觀。

“中國在To B(企業端)落地方面應該走在ChatGPT前面。如何把中國特色發揮到極致,是大家都要彼此思考的問題。”周明創立的語音大模型公司瀾舟科技在3月14日宣布完成Pre-A+輪融資,並公佈了該公司研發的“孟子MChat可控大模型”,此前周明在微軟工作超過20年。

就目前來看,GPT-4是OpenAI在擴展深度學習道路上的最新里程碑。但正如OpenAI所言,前方還有很多工作要做,需要通過用戶和開發者的不斷測試,以及社區在模型之上構建、探索和貢獻,從而持續將模型變得越來越強。

無論中國公司能夠做到哪種地步,唯一確定的是,這一次,我們人類離通用人工智能(AGI)更近了一步。 (本文首發鈦媒體App,作者|林志佳)

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts