馬斯克xAI 首個研究成果發布創始成員楊格&姚班校友共同一作

來源：量子位元

馬斯克的xAI，首項公開研究成果來了

共同一作之一，正是xAI創始成員、丘成桐弟子楊格（Greg Yang）。

先前，楊格就曾公開表示，自己在xAI的研究方向是「Math for AI」和「AI for Math」。

其中一項重點就是延續他先前的研究：

描述神經網路架構的統一程式語言Tensor Programs－相關成果，在GPT-4中已有應用。

這次的新論文，就歸屬該系列，重點探討了「如何訓練無限深度網路」。

為此，楊格本人也特別在𝕏上進行了一場直播分享。

一起來看看有哪些精彩內容值得mark~

訓練無限深度神經網絡

簡單來說，這篇文章研究的是殘差網路（ResNet）在深度方向的擴展。

我們知道，殘差網路解決了深度增加時，深度成交量積神經網路效能退化的問題。但當網路持續加深，訓練一個好的深度殘差網路仍非易事：

當網路加深時，特徵的規模會不斷增大，導致網路不穩定；加深網路後，需要重新調整超參數，工作量不小…

楊格和他的小夥伴們的想法是，找到一種深度參數化方法，既可以學習特徵，又可以實現超參數遷移。

他們首先想到了無限寬神經網路存在的兩種極限情況：要不是核機（kernel machines），就是特徵學習器(feature learners)。對於後者而言，最佳超參數是不會隨寬度而變化的。

在這裡，他們使用Tensor Programs框架分析了無限寬網路的極限情況。

如前文所提到的，Tensor Programs是楊格的長期研究目標：用數學語言，建立能夠描述和分析神經網路架構的底層程式語言。

具體而言，Tensor Programs由矩陣乘法和活化函數組成。楊格發現，如果神經網路函數能夠使用這種語言表達，就可以自動且完整地進行初始化分析。

數學推導的部分，這裡不做具體展開，我們可以淺淺感受一下畫風…

在這些推導分析的基礎之上，作者提出了Depth-μP方法，可以實現深度方向上的超參數遷移，大大簡化了不同深度下的超參數調節。

Depth-μP包含以下要點：

每個殘差分支和深度L的平方根成反比的係數a/sqrt(L)。每個權重矩陣的學習率隨深度L變大而減小，取決於最佳化演算法的類型。對於SGD，學習率取常數η，對於Adam等自適應最佳化演算法，學習率取η/sqrt(L)。

值得關注的是，作者發現，當殘差塊深度為1時，Depth-μP是深度參數化的最優方式，可以確保超參數隨著深度的增加而收斂，實現深度方向的超參數傳遞。

但當殘差塊深度≥2時，還是會出現超參數遷移失敗和訓練表現下跌的問題。

另外，論文也探討了「特徵多樣性」的概念，認為它在深度網路中扮演關鍵角色。

論文的另一位共同一作是來自普林斯頓的Dingli Yu。他本科畢業於清華姚班，目前在普林斯頓電腦科學系攻讀博士。

楊格在直播中都說了啥？

在直播中，楊格也就觀眾感興趣的問題進行了解答。在不改變原意基礎上，量子位元對部分問題做了梳理。

Q：對我們許多人來說，（論文內容）可能超出了我們的理解範圍。但我想知道，你提到的模型與我們能夠體驗到的ChatGPT以及OpenAI的技術有何不同？這篇論文與OpenAI的成果相比有什麼顯著的差異或創新點？

楊格：我簡單評測一下，我想說這些特性目前與實際應用並沒有直接關係，比較像是研究性質的。

當然，做這一切的最終目標是為了讓模型更好、更安全，然後造福人類。我們現在所進行的是描述預期的效果，它不一定會有直接的影響。

現在我們同處一艘船上，我們正在做我們所能做的事，無論是短期工作還是長期應用研究，都是為了讓它造福每個人。

Q：聽起來像是你們正在建造一個能夠進行推理的人工電腦大腦，所以這是你們正在研究的嗎？此外，我還是一位母親，我7歲的兒子對數學非常感興趣，你有什麼可以讓他繼續對AI領域保持興趣和熱情的建議嗎？

楊格：「新型網路」指的是人工神經網絡，我認為它是現代眾多科技的支柱，包括你每天使用的Google、Facebook、Instagram等，這些服務的底層都使用了這些人工神經網路。這些網路大約在六、七十年前受到動物、人類的真實神經網路啟發而誕生，但已與真實的神經科學偏離。

這些網路本質上是數學問題，因此我們掌握這些新的數學問題後進行大量分析，可以深入地理解這些神經網路。

雖然我們尚不明確真正的神經元的連結方式，但透過數學研究，我們能優化這些人工神經網絡，幫助科技公司改善人們的生活。

關於你的第二個問題，聽說你的兒子對數學非常感興趣，這太棒了。這是在科技領域創造偉大成就和改善每個人生活的基礎。

我想給的建議是，首先你要保持兒子對數學的熱情，這點非常重要。一旦失去了這份熱愛，想再繼續學習就會變得很困難。

也要注意觀察他喜歡的東西，讓學習過程變得有趣，進一步激發他的興趣。同時，也要培養他對事物運作原理的好奇心，並嘗試培養一種科學思維，要在好奇心的驅使下研究。就像拆解事物，試著理解它們的工作原理。

如果一個人失去了對Cosmos數學真理的探索熱情，可能很難再有前進的動力。總的來說，我建議你培養你兒子對這個世界，特別是對數學和科學本質的濃厚興趣和好奇心。

Q：我有一個更抽象的問題。你有了深度趨近於無窮的想法，然後根據這個想法寫了這篇論文。那你是否考慮過採用不同架構的神經網路？不是有神經元和無數層的標準架構，而是完全不同的東西。例如這些神經元的連結方式完全不同，也許是某種正方形？

楊格：其實關於非線性以及我們這項工作中對層數的洞察，都只是非常初級的研究。關於什麼是適當的結構，或是應該是怎樣的結構，當然還有很多可以探討的問題。

像Meta團隊之前就研究了隨機連接神經元會發生什麼，得到了一些有趣的結果。所以，這裡絕對還有很多可以做的事情。現在我確實沒有具體的答案來說什麼會是正確的或更好的結構。

關於楊格

楊格出生於湖南省，小學畢業後去了美國，本科就讀哈佛師從丘成桐教授。

△楊格與丘成桐，圖源：楊格推特

2017年，楊格哈佛畢業，之後在沈向洋引薦下進入微軟。

在微軟，楊格獲得了沈向洋的高度評價。幾個月前，在一場名為「基礎科學與人工智慧」的論壇上，沈向洋公開表示：

微軟研究院平時只招博士生的，楊格作為一個本科畢業生進了微軟研究院。不只進了微軟研究院，過去這五年還做得無比優秀，特別是在GPT發展過程中做了舉足輕重的貢獻。

值得一提的是，他自己也曾承認GPT-4就使用了他的μTransfer（Tensor Programs系列）方法。

而楊格對Tensor Programs的研究，從很早就開始了，2019年就發表了“Tensor Programs I”，在微軟工作時也是持續深入探索。他認為深度學習中幾乎任何計算都可以表示為Tensor Programs。

今年7月，馬斯克宣布成立新公司xAI，楊格離開微軟，加入xAI創始團隊，成為xAI的數學家。

加入xAI後，楊格不只一次透露Tensor Programs計畫長期目標是開發大規模深度學習的“萬物理論”，也就是找到一種理論上的規則，可以真正理解AI大模型的行為。

他也表示：

AI將使每個人都能以以前難以想像的方式理解我們的數學Cosmos。

論文連結：https://arxiv.org/abs/2310.02244

馬斯克xAI 首個研究成果發布創始成員楊格&姚班校友共同一作

4E：美聯儲理事稱員工應可持有少量加密資產，懷俄明州發行首個州級穩定幣

Tether任命Bo Hines為美國運營的戰略顧問

BlockChainFX（$bfx）預售與OKB代幣銷毀活動及Kaspa分析

美元代幣化的隱形贏家：30倍漲幅潛力源自何處

Bossjob在東京Webx Summit上通過雙引擎戰略創新人才獲取方式

如果今天是“ Q-Day”，請擔心您存儲在交易所中的加密貨幣

美銀：穩定幣顛覆性應用在跨境P2P支付，年化或催生高達750億美債需求

9 月降息後市場一定會漲嗎?

馬斯克xAI 首個研究成果發布創始成員楊格&姚班校友共同一作

Related Posts