丘成桐弟子楊格:ChatGPT時代「亂世出英雄」,下一步要多用數學科學數據訓練


來源:量子位

作者:蕭簫西風

原文標題:馬斯克xAI創始成員國內首發聲:ChatGPT時代「亂世出英雄」,下一步要多用數學科學數據訓練

馬斯克組局xAI“鑽研Cosmos本質”,創始成員高深又神秘。

相比專注於AI領域本身,這些成員大多具有基礎學科背景,接觸AI之前或是在研究基礎數學,或是在搞物理。

這家公司究竟要做什麼?

就在這兩天,丘成桐弟子楊格(Greg Yang),成為第一個以“xAI創始成員”身份在國內會議上發言的人。

在國際基礎科學大會的“基礎科學與人工智能”論壇上,他談及了自己一直以來、也是接下來要進行的數學AI工作,以及對大模型當前發展現狀的看法。

而他的個人經歷也再次浮出水面,為更多人所關注。

接下來要進行什麼研究?

在國際基礎科學大會上,楊格就自己正在研究的方向進行了一場演講。

演講主題,主要與AI和數學交叉學科有關——

從數學角度出發,建立一種描述神經網絡架構的統一編程語言Tensor Programs。

這是他從微軟研究院開始就一直鑽研的領域,繼2019年連續獨立發表的兩篇論文之後,迄今這一項目已經有7篇相關論文問世。

具體來說,Tensor Programs項目有一個“短期目標”和一個“長期目標”。

短期來看,這個編程語言能實現在設計新神經網絡架構時,自動進行初始化條件分析,並給出其中最優的超參數初始化條件,從而讓模型訓練更順利。畢竟此前,這一領域的初始化設置幾乎“全靠經驗”。

長期而言,Tensor Programs項目的目標是開發大規模深度學習的“萬物理論”。

這也與楊格在推特說的、他在xAI要進行的研究方向一致:

目前無論是大模型還是其他AI研究方向,都依舊沒有真正意義上解決AI“黑箱”的問題,換而言之,AI究竟走哪種研究方向(堆疊更大參數量的模型、還是MoE)收益更高,還沒有一個明確的結論。

因此,Tensor Programs最終目標是找到一種理論上的規則,可以真正理解AI大模型的行為。

Tensor Programs最新的項目進展,是微軟與OpenAI合作發表的論文µTransfer,楊格以共同一作的身份完成了這項研究。

這項研究的核心是幫助大模型找到最合適的超參數配置,從而替更多模型節省時間和算力成本,否則對於大模型來說,“重訓”是一個非常浪費參數的行為。

目前這項研究已經開源,楊格也在這次的演講中著重以µTransfer為例,介紹了Tensor Programs項目的進展。

從這幾篇研究論文側重的AI模型來看,大模型如今已經是楊格研究的重點方向之一。

一個值得關注的點就是,μTransfer已經用到GPT-4中了。

公眾號“安迪的寫作間”作者在楊格(Greg Yang)演講結束後,和他聊了聊:

下台我問了他關於GPT-4用到μTransfer了嗎,給出肯定回答。

所以,他究竟如何看待大模型的未來?

在這次論壇的圓桌對話上,楊格也提到了自己對大模型發展方向的看法。

他認為,繼續堆疊大模型參數可以讓模型效果越來越好,但這有個前提,即數據集的質量和數量必須要上漲。

以前收集網絡數據就行,如今訓練集必須變得更偏向數學、科學、更有邏輯性,才能提高模型的科學和數學推理能力。

同時,楊格也給瞭如今拼搏在科研、交叉創新一線的AI研究人員一點建議,就是“Follow your dreams”:

這一階段的很多傑出的搞AI的人,像工程師、研究人員,有幾個都是像我這樣沒有讀博士,只是就想去幹,拼一下就拼出結果的,像Alec Radford,GPT- 1、GPT-2都是他自己做的,後來OpenAI就開始砸錢了。

曹操說的“亂世出英雄”,這是個新世界,你不要想一些外部環境,直接去幹,很有可能擦出火花,這就是要你自己有熱情。

沒錯,當年的楊格,打破了微軟研究院“只招博士生”的慣例,本科畢業就進入了這一機構工作。

他在學術經歷上究竟有什麼過人之處?

換而言之,為何他會成為馬斯克選中的“12人”之一?

楊格是誰?

楊格出生於湖南省,在北京讀完小學後,就去了美國,本科考上了哈佛數學系。

在哈佛的頭兩年,楊格參加了鼓手團、諮詢團等眾多活動。

大二結束時,有著音樂夢的他決定休學全身心投入音樂事業,成為一名電子舞曲音樂製作人和DJ,取藝名“Zeta”。

也是在此期間,楊格接觸到了人工智能。

一年半後,楊格發現自己的“真愛”終歸還是數學,於是又回到了哈佛。

讀完春季學期的價格後,他又休學兩年,這一次他沒有執著於音樂,而是快速學習了數學和理論計算機科學,以及人工智能的前沿進展,此外還廣泛涉獵物理學、生物學和神經科學。

此外,他還研究起了神經圖靈機,並結合可微拓撲學中的思路,提出“Lie Access Neural Turing Machine”,發表於ICLR。

再次回哈佛,楊格師從丘成桐教授。

△楊格與丘成桐,圖源:楊格推特

2017年,楊格順利從哈佛畢業,拿到了數學學士學位和計算機科學碩士學位。並獲得了2018年摩根獎榮譽提名(Honorable Mention for the 2018 Frank and Brennie Morgan Prize for Outstanding Research in Mathematics by an Undergraduate Student)。

畢業後,老師丘成桐曾問楊格“你畢業去哪兒”,他說“我要去谷歌”。

丘成桐說“谷歌這種很差的公司就不要去了,我有個朋友叫沈向洋,我馬上給他打電話”。

後來,沈向洋讓菲爾茲獎獲得者Michael Freedman面試了楊格:

面試之後(Michael)說這個小孩不得了,那時候他才剛剛本科畢業,但在哈佛至少是前五名(的水平)。

我(沈向洋)當時就跟楊格講,你把谷歌的Offer拿來給我看一看,我給你加一塊錢,就來微軟吧。

最後楊格選擇了微軟。而進入微軟後楊格也獲得了沈向洋的高度評價:

微軟研究院平時只招博士生的,楊格作為一個本科畢業生進了微軟研究院,不僅進了微軟研究院,過去這五年還做得無比優秀,特別是在GPT發展過程中做了舉足輕重的貢獻。

進入微軟後,楊格的重要成果之一就是持續開發上面提到的“Tensor Programs”框架,其中還用GPT-3對所提出的超參數遷移方法進行了驗證,相關論文已收錄於NeurIPS、ICML等頂會:

此外,谷歌學術數據顯示,楊格從2015開始發布論文,至今已有34篇。

其中引用量最高為415,這也是他在微軟的工作,楊格在這個項目中擔任主要指導(Primary mentor)。

目前,楊格個人主頁和推特主頁等均已更新,已離開微軟研究院,加入xAI,接下來將繼續做數學工作。

楊格做出了新一輪的選擇,但從第一次休學過後,他再也沒有放棄對數學的熱愛。

在這次的論壇上,楊格也被問到,當時去從事音樂後又轉到數學研究,是怎樣一直堅定走到現在的?

楊格回答道:

其實就是個人愛好,在我大二休學之前,我一直都是數學比較好的人,可能會覺得一輩子在這種(數學研究中)。之後雖然我去搞音樂,但有段時間自己思考後,發現其實我個人還是很熱愛數學。

這裡面可能有外在動機(motivation extrinsic)和內在動機(motivation intrinsic)。像數學答成交量老師給你100分,你覺得很高興,這是外在的。這種外在和內在混在一起,可能感覺不到自己真心的愛好,但是後來休息一段時間以後,感覺(對數學)是發自內心的熱愛,之後就走了這麼長的路。

One More Thing

還記得前段時間楊格給大夥兒推薦的300多本(大部分是數學)書嗎?

不少網友看過之後,表示“書單實在太長了,不是普通人能看完的”,還有網友調侃“能不能用GPT幫我總結一下”……

論壇結束後,我們也和楊格聊了聊,了解了他對ChatGPT等大模型的一些看法。

提問:看到你前段時間推薦了大概300本多書,有很大一部分是數學書,你認為AI是否有可能把它直接總結成一個核心的要點給我們?平時在日常生活中,你是不是也會用GPT-4一樣的模型,去幫助做一些數學的基礎研究什麼的?

楊格:我覺得AI的總結能力(summarization)現在應該挺好的了,做簡單的總結應該沒問題。但你要再深入理解它裡面的道理,像是一些數學道理的話,可能AI現在的幫助還不是那麼大。

日常生活的話,是會經常用到(大模型)。

提問:可以透露一下主要是用在哪些方面嗎?

楊格:我覺得最有用的方法就是寫程序吧。比如有些程序你確實可以自己寫,但自己寫的話,一是可能要花幾個小時,二是覺得這種東西不是特別有趣,所以像這種工作你就可以用ChatGPT來幫你做。

提問:相當於你完成核心思考,然後ChatGPT幫你實現代碼的工作。

楊格:其實就是實現它已經在網上看到很多很多遍、所以它能寫得很好的一些程序。

但如果現在你想寫一個複雜的程序、像是有什麼邏輯性的程序的話,讓ChatGPT來做可能還不一定做那麼好。但如果是那種你寫了幾百遍的程序了,你不想再寫,就可以用ChatGPT完成。

參考鏈接:

[1]https://arxiv.org/abs/2203.03466

[2]https://github.com/microsoft/mup

[3]https://mp.weixin.qq.com/s/s7MGUCHoEfyXhUcQAScltw

— 完—

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts