一篇論文奠定現代人工智慧：8位Google員工的幕後故事

來源：AI範兒

8位谷歌員工偶然相遇，共同撰寫了開創性的「變換器」論文，這項技術突破徹底改變了人工智慧領域，尤其在理解和產生類似人類的文本方面。

2017年春，一篇名為《Attention Is All You Need》的科學論文誕生，其上署名的八位作者均來自谷歌，儘管當時已有一名成員離職。資深作者Noam Shazeer在看到初稿時，意外地發現自己的名字排在第一位，這似乎意味著他的貢獻最為重要。對此，他表示：“我並沒有刻意考慮過這個問題。”

在學術界，如何排列作者名字一直是個微妙的平衡問題——誰的名字放在最前面，誰的又放在最後。尤其是在這種每個人都在一個真正的團隊合作中留下了獨特印記的情況下。在匆忙完成論文的過程中，研究團隊最終決定打破常規，不再對貢獻者進行排名。他們在每個名字旁邊加上了星號和腳註：“平等貢獻者”，並註明“排名順序是隨機的”。這篇論文隨後被提交到了一個享有盛譽的人工智慧會議，並在那裡引發了一場革命。

姓名：NOAM SHAZEER / 職業：角色AI的聯合創始人兼首席執行官

如今，隨著「Attention」論文即將迎來七週年，它已經獲得了傳奇般的地位。這篇論文的作者們從一個蓬勃發展的人工智慧技術——神經網路——出發，將其提升到了一個新的高度：他們創造了一個數位系統，其強大到彷彿擁有外星智慧。這種被稱為「變換器」（transformers）的架構，成為了所有令人驚嘆的AI產品背後的神秘力量，包括ChatGPT以及圖形生成器Dall-E和Midjourney等。

Shazeer開玩笑說，如果他早知道這篇論文會變得如此著名，他「可能會更加擔心作者名單的排序」。如今，所有八位作者都已經成為了微型名人。 Llion Jones（隨機排在第五位）說：“有人因為我曾經參與過一篇論文而向我索要自拍。”

姓名：LLION JONES/職業：SAKANA AI的共同創辦人

「沒有變換器，我認為我們今天不會在這裡，」世界著名AI科學家Geoffrey Hinton說，儘管他並非論文的作者。他指的是我們所處的這個變革時代，OpenAI等公司正在建構的系統在某些方面甚至超越了人類的產出。

這八位作者後來都離開了Google。現在，他們和數百萬人一樣，都在以某種方式使用他們2017年創造的技術。我採訪了這八位「變換器」作者，試圖拼湊出這突破性成果的全貌——一群人類智慧的集合，創造出了一台可能最終自我終結的機器。

變換器的故事始於名單上的第四個名字：Jakob Uszkoreit。他的父親Hans Uszkoreit是一位知名的計算語言學家。 Hans在1960年代末期因抗議蘇聯入侵捷克斯洛伐克而在東德被監禁了15個月。出獄後，他逃到西德，並在柏林學習電腦和語言學。後來他來到美國，在加州門洛帕克的SRI研究所工作，當時Jakob出生了。最終，他們一家人回到了德國，Jakob在那裡上了大學。

姓名：JAKOB USZKOREIT / 職業：INCEPTIVE的聯合創始人兼首席執行官

儘管他原本並未打算專注於語言，但在開始研究生學習時，他在谷歌的山景城辦公室實習，並加入了公司的翻譯團隊。他放棄了博士計劃，2012年決定加入谷歌一個團隊，該團隊致力於開發一個能夠在搜尋頁面上直接回答用戶問題的系統，而無需將用戶重定向到其他網站。當時，蘋果剛發布了Siri，一個承諾能在隨意對話中提供一次性答案的虛擬助手，谷歌高層認為Siri可能會威脅到他們的搜尋流量。他們開始更加關注Uszkoreit的新團隊。

「這是一場虛假的恐慌，」Uszkoreit說。 Siri並沒有真正威脅到Google。但他歡迎有機會深入研究電腦與人類對話的系統。當時，循環神經網路——一度是學術界的邊緣領域——突然開始超越其他AI工程方法。這些網路由多層構成，資訊在這些層中反覆傳遞，以識別最佳回應。

神經網路在影像辨識等領域取得了巨大成功，AI復興運動突然興起。谷歌正在瘋狂地調整其勞動力結構，以採用這些技術。公司希望建立一個能夠產生類似人類回應的系統——例如在電子郵件中自動完成句子，或創建相對簡單的客戶服務聊天機器人。

然而，這個領域遇到了限制。循環神經網路難以處理較長的文字區塊。例如，理解句子“Joe is a baseball player, and after a good breakfast he went to the park and got two hits”中的“two hits”，語言模型需要記住關於棒球的信息。用人類的話來說，它必須保持關注。

當時的解決方案是一種名為「長短期記憶」（LSTM）的技術，它允許語言模型處理更大、更複雜的文字序列。但電腦仍然嚴格地按順序處理這些序列——逐詞處理——並忽略了可能出現在文本後面的上下文線索。「我們正在應用的方法基本上是權宜之計，」Uszkoreit說。 “我們無法真正讓正確的東西按規模工作。”

大約在2014年，他開始構思一種不同的方法，他稱之為自我關注。這種網路可以透過引用文本的任何其他部分來翻譯一個字。這些其他部分可以幫助澄清一個字的意圖，並幫助系統產生一個好的翻譯。 “它實際上考慮了一切，並為你提供了一種同時查看許多輸入的有效方式，然後以相當選擇性的方式取出一些東西，”他說。儘管AI科學家小心翼翼地不將神經網路的隱喻與生物大腦的實際運作方式混淆，但Uszkoreit似乎相信自我關注與人類處理語言的方式有些相似。

Uszkoreit認為，自我關注模型可能比循環神經網路更快、更有效。它處理資訊的方式也非常適合支援機器學習熱潮的大規模生產的平行處理晶片。它不是採用線性方法（按順序查看每個單字），而是採用更並行的方法（同時查看多個單字）。如果做得正確，Uszkoreit懷疑，你可以專門使用自我關注來獲得更好的結果。

並不是每個人都認為這個想法會改變世界，包括Uszkoreit的父親，他在兒子為公司工作期間獲得了兩項谷歌教職研究獎。「人們對此表示懷疑，因為它拋棄了所有現有的神經架構，」Jakob Uszkoreit說。告別循環神經網路？這是異端！ “我和爸爸在餐桌上的對話中，我們並不完全一致。”

Uszkoreit說服了一些同事對自我關注進行實驗。他們的工作顯示出前景，並在2016年發表了一篇關於它的論文。 Uszkoreit希望將他們的研究推向更遠——團隊的實驗只使用了文本的微小部分——但他的合作者都沒有興趣。相反，他們像賭徒一樣，帶著適度的勝利離開了賭場，將他們所學到的教訓應用於谷歌的各個不同領域，包括搜尋和最終的廣告。在許多方面，這是一個驚人的成功，但Uszkoreit不想就此止步。

Uszkoreit認為自我關注可以承擔更大的任務。他會向任何願意傾聽的人，甚至一些不願意的人，闡述他的願景，並在谷歌校園北緣的查爾斯頓路1945號大樓中，用白板勾勒出他的願景。

2016年的某一天，Uszkoreit正在Google咖啡廳與一位名叫Illia Polosukhin的科學家共進午餐。出生於烏克蘭的Polosukhin在Google工作了將近三年。他被分配到回答搜尋領域直接提出的問題的團隊。情況並不十分順利。「要在Google.com上回答某些東西，你需要一些非常便宜且高效能的東西，」Polosukhin說。「因為你只有毫秒級的時間來回應。」當Polosukhin表達了他的抱怨時，Uszkoreit毫不猶豫地提出了一個解決方案。「他建議，為什麼不使用自我關注？」Polosukhin說。

姓名：ILLIA POLOSUKHIN/職業：NEAR的共同創辦人

Polosukhin有時會與同事Ashish Vaswani合作。 Vaswani出生於印度，在中東長大，他去了南加州大學獲得了機器翻譯精英團隊的博士學位。之後，他搬到山景城加入了Google——特別是一個名為Google大腦（Google Brain）的新組織。他將大腦描述為“一個激進的團隊”，相信“神經網路將推進人類理解”。但他仍在尋找一個大項目來工作。他的團隊在1945號大樓旁邊，也就是1965號大樓工作，他聽說了自我關注的想法。那會是項目嗎？他同意著手進行。

這三位研究人員共同起草了一份名為「變換器：迭代自我關注和處理各種任務」的設計文件。他們從「第一天」起就選擇了「變換器」這個名字，Uszkoreit說。這個想法是，這種機制將轉換它所接收的訊息，使系統能夠提取盡可能多的理解——或至少給人這種印象。此外，Uszkoreit對童年時期與孩之寶動作人物玩具一起玩耍有著美好的回憶。「我小時候有兩個小變形金剛玩具，」他說。文件以一張卡通形象的六個變形金剛在山區地形中，相互發射雷射的圖片結束。

姓名：ASHISH VASWANI/職業：ESENTIAL AI的聯合創始人兼首席執行官

論文開頭的句子也有些自大：“我們很棒。”

2017年初，Polosukhin離開谷歌創辦了自己的公司。到那時，新的合作者加入了。一位名叫Niki Parmar的印度工程師曾在印度為美國軟體公司工作，後來搬到美國。她在2015年從南加州大學獲得了碩士學位，並被所有大型科技公司招募。她選擇了谷歌。當她開始工作時，她加入了Uszkoreit並致力於改進谷歌搜尋的模型變體。

另一位新成員是Llion Jones。他在威爾斯出生長大，他喜歡電腦「因為它不正常」。在伯明翰大學，他上了一門AI課程，並對作為歷史遺跡介紹的神經網路產生了好奇心。他在2009年7月獲得了碩士學位，由於在經濟衰退期間找不到工作，他靠著救濟金生活了幾個月。他在一家當地公司找到了工作，然後作為“絕望之舉”申請了谷歌。他得到了這份工作，並最終進入了谷歌研究部門，他的經理是Polosukhin。

有一天，Jones從名叫Mat Kelcey的同事那裡聽說了自我關注的概念，並後來加入了變換器團隊。（後來，Jones遇到了Kelcey，並向他簡要介紹了變換器項目。Kelcey並不買賬。“我告訴他，’我不確定那會有效，’這基本上是我一生中最大的錯誤預測，” Kelcey現在說。）

姓名：NIKI PARMAR / 職業：ESSENTIAL AI的共同創辦人

變換器的工作吸引了其他也在試圖改進大型語言模型的Google大腦研究人員。這第三波包括出生於波蘭的理論電腦科學家Łukasz Kaiser和他的實習生Aidan Gomez。 Gomez在加拿大安大略省的一個小農場村莊長大，他的家人每年春天都會為楓糖漿敲擊楓樹。

作為多倫多大學的大三學生，他對AI“一見鍾情”，加入了機器學習小組——Geoffrey Hinton的實驗室。他開始聯繫在Google寫過有趣論文的人，提出擴展他們工作的想法。 Kaiser上鉤了，邀請他實習。直到幾個月後，Gomez才知道這些實習是為博士生準備的，而不是像他這樣的本科生。

Kaiser和Gomez很快就意識到，自我關注看起來是解決他們正在解決的問題的一個有前途的、更激進的方案。「我們有意識地討論了是否想要合併這兩個項目，」Gomez說。答案是是的。

變換器團隊開始建立一個自我關注模型，將文字從一種語言翻譯成另一種語言。他們使用一個稱為BLEU的基準來衡量其性能，該基準將機器的輸出與人類翻譯者的工作進行比較。從一開始，他們的新模型就做得很好。「我們從沒有概念證明到擁有至少與當時LSTM的最佳替代方法相媲美的東西，」Uszkoreit說。但與長短期記憶相比，“它並不更好。”

他們達到了一個平台——直到2017年的一天，Noam Shazeer偶然聽說了他們的專案。 Shazeer是一位資深谷歌員工——他於2000年加入公司——並且是一個內部傳奇，從他在公司早期廣告系統的工作開始。 Shazeer從事深度學習工作五年，最近對大型語言模式產生了興趣。但這些模型遠遠沒有產生他認為可能的流暢對話。

據Shazeer回憶，他正在1965號樓的走廊走過Kaiser的工作區。他發現自己在聽一場熱烈的討論。「我記得Ashish正在談論使用自我關注的想法，Niki對此非常興奮。我想，哇，那聽起來是個好主意。這看起來是一個有趣、聰明的團隊，正在做一些有前途的事情。” Shazeer發現現有的循環神經網路“令人惱火”，並想著：“讓我們去替換它們！”

Shazeer加入團隊是關鍵。「這些理論或直覺機制，如自我關注，總是需要非常謹慎的實施，通常由少數經驗豐富的『魔術師』來展示任何生命跡象，」Uszkoreit說。 Shazeer立刻開始施展他的魔法。他決定自己寫變換器團隊程式碼的版本。「我拿了基本想法，自己把它做出來了，」他說。

偶爾他會向Kaiser提問，但大多數時候，他說，他「只是做了一段時間，然後回來說，『看，它工作了。』」使用團隊成員後來用「魔法」、「煉金術」和「鈴鐺和哨子」等詞語描述的東西，他將系統提升到了一個新的水平。

「那引發了一場衝刺，」Gomez說。他們有動力，他們也想要趕上即將到來的截止日期——5月19日，這是在12月舉行的年度最大AI活動，神經資訊處理系統會議（Neural Information Processing Systems conference）上發表論文的提交日期。隨著矽谷的冬天轉變成春天，實驗的步伐加快了。他們測試了兩種變換器模型：一種是用12小時訓練生產的，另一種是更強大、被稱為Big的版本，經過三天半的訓練。他們讓它們開始進行英語到德語的翻譯。

基本模型超越了所有競爭對手——而Big獲得了一個BLEU分數，決定性地打破了先前的記錄，同時在計算上也更有效率。「我們做到了，比任何人都快，」Parmar說。「而且那隻是開始，因為數字不斷在提高。」當Uszkoreit聽到這個消息時，他拿出了他在山地探險卡車裡一直放著的一瓶老香檳慶祝。

在截止日期前的最後兩週，團隊的工作節奏變得瘋狂。儘管官方上一些團隊成員仍然在1945號樓有辦公桌，但他們大多在1965號樓工作，因為那裡的微型廚房裡有一台更好的濃縮咖啡機。「人們幾乎不睡覺，」Gomez回憶道，作為實習生，他忙於調試，同時還負責製作論文的可視化和圖表。在這類項目中，通常會進行消融實驗——移除某些部分以驗證剩餘部分是否足以完成任務。

「我們嘗試了所有可能的技巧和模組組合——哪些有用，哪些無用。我們不斷地嘗試和替換，」Gomez說。「為什麼模型會以這種違反直覺的方式運作？哦，因為我們忘記正確地進行遮蔽。現在它工作了嗎？好的，接下來繼續下一個。我們現在稱之為變換器的所有這些組成部分都是這種高速、迭代試錯過程的產物。」在Shazeer的程式碼實現的幫助下，消融實驗產生了“某種簡約的成果”，Jones評價道。 “Noam是個巫師。”

Vaswani記得有一次在辦公室沙發上過夜，當時團隊正在寫論文。他盯著分隔沙發和房間其餘部分的窗簾，被上面的圖案吸引，看起來像是突觸和神經元。 Gomez當時也在場，Vaswani告訴他，他們正在做的工作將超越機器翻譯。「最終，就像人腦一樣，你需要將所有這些模態——語音、音訊、視覺——統一在單一的架構下，」他說。 “我有一個強烈的預感，我們正在發現一些更普遍的東西。”

然而，在谷歌的高層，這項工作被視為只是另一個有趣的AI計畫。作者們被問到他們的上司是否經常召集他們更新專案進展，答案不多。但「我們知道這可能是相當大的一件事，」Uszkoreit說。 “這導致我們實際上對論文末尾的一句話著迷了。”

那句話預示了接下來可能發生的事情——變換器模型應用於基本上所有形式的人類表達。「我們對基於注意力的模型的未來感到興奮，」他們寫道。 “我們計劃將變換器擴展到涉及文字以外的輸入和輸出模態的問題”，並研究“圖像、音訊和視訊。”

在截止日期前幾天的一個晚上，Uszkoreit意識到他們需要一個標題。 Jones指出，團隊已經對一種技術進行了根本性的拒絕：注意力。披頭四曾經給一首歌命名為「你需要的只是愛」。為什麼不把論文命名為「Attention Is All You Need」呢？

“我是英國人，”Jones說。 “這真的只花了五秒鐘的思考。我沒想到他們會用它。”

他們繼續收集實驗結果，直到截止日期。 Parmar說：「我們提交論文前五分鐘，英法數字結果出來了。」「我當時坐在1965號樓的微型廚房裡，拿到了最後一個數字。」他們只剩下兩分鐘的時間，匆忙地發送了論文。

谷歌和其他幾乎所有科技公司一樣，迅速對這項工作申請了臨時專利。原因不是為了阻止他人使用這些想法，而是為了建立其專利組合以用於防禦目的。（公司的理念是「如果技術進步，Google將收穫好處。」）

當變換器團隊聽到會議同儕審查者的回饋時，反應是混合的。「一個是積極的，一個是極其積極的，一個是，『這還可以，』」Parmar說。論文被接受在晚上的海報環節中展示。

到了12月，論文開始引起轟動。他們12月6日的四小時會議擠滿了想要了解更多資訊的科學家。作者們談到嗓子都啞了。到了晚上10點半，會議結束時，還有一群人。「保全不得不告訴我們離開，」Uszkoreit說。對他來說，最滿意的時刻可能是電腦科學家Sepp Hochreiter走上前來讚揚這項工作——考慮到Hochreiter是長短期記憶的共同發明者，這是相當大的讚美，而變換器剛剛將其作為AI工具箱中的首選工具所取代。

變換器並沒有立即接管世界，甚至沒有接管谷歌。 Kaiser回憶說，在論文發表前後，Shazeer向Google高層提議，公司應該放棄整個搜尋索引，用變換器訓練一個巨大的網路——基本上是用變換器改變谷歌組織資訊的方式。在那個時候，即使是Kaiser也認為這個想法是荒謬的。現在，傳統智慧認為這只是時間問題。

一個名為OpenAI的新創公司更快地抓住了機會。論文發表後不久，OpenAI的首席研究員Ilya Sutskever——在Google時期就認識變換器團隊——建議其科學家Alex Radford研究這個想法。結果就是第一批GPT產品。正如OpenAI首席執行官Sam Altman去年告訴我的，“當變換器論文出來時，我認為谷歌沒有人意識到它的意義。”

內部情況更為複雜。「我們很清楚變換器可以做到真正神奇的事情，」Uszkoreit說。「現在，你可能會問，為什麼2018年谷歌沒有推出ChatGPT？實際上，我們本來可以在2019年，也許2020年就有GPT-3甚至3.5。真正的問題不是，他們看到了嗎？問題是，為什麼我們沒有利用我們已經看到的事實做任何事情？答案是複雜的。”

許多科技評論家指出，Google從以創新為中心的遊樂場轉變為以底線為中心的官僚機構。正如Gomez告訴《金融時報》的那樣，「他們沒有現代化。他們沒有採用這項技術。」但對於一個技術領先行業數十年並獲得巨大利潤的巨頭公司來說，這需要很大的膽量。谷歌確實開始在2018年將變換器整合到產品中，首先是其翻譯工具。同年，它引入了一個新的基於變換器的語言模型BERT，第二年開始應用於搜尋。

姓名：AIDAN GOMEZ/職業：COHERE的聯合創始人兼首席執行官

但與OpenAI的飛躍和微軟大膽將基於變換器的系統整合到其產品線相比，這些幕後的變化似乎膽小。當我問執行長Sundar Pichai去年為什麼他的公司沒有像ChatGPT那樣首先推出大型語言模型時，他認為在這種情況下，谷歌發現讓其他人領先是有利的。「我還不太確定它是否會像現在這樣成功。事實是，人們看到它是如何運作的之後，我們能做得更多，」他說。

不可否認的是，論文的八位作者都離開了Google。 Polosukhin的公司Near建立了一個區塊鏈，其代幣市值約為40億美元。 Parmar和Vaswani在2021年成為商業夥伴，共同創立了Adept（估值10億美元），現在正在經營他們的第二家公司，名為Essential AI（獲得800萬美元投資）。

位於東京的Llion Jones的Sakana AI估值為2億美元。 Shazeer於2021年10月離開後，共同創立了Character AI（估值50億美元）。實習生Aidan Gomez在2019年共同創立了位於多倫多的Cohere（估價22億美元）。 Jakob Uszkoreit的生技公司Inceptive估值為3億美元。所有這些公司（除Near外）都基於變換器技術。

姓名：LUKASZ KAISER / 職業：OPENAI的研究員

Kaiser是唯一沒有創立公司的人。他加入了OpenAI，並成為一項名為Q*的新技術的發明者，Altman去年說這項技術將「推動無知的面紗，並將發現的前沿推向前進。」（當我試圖在我們的在訪談中詢問Kaiser關於這個問題時，OpenAI的公關人員幾乎跳過桌子來阻止他。）

谷歌是否想念這些逃兵？當然，除了其他人從公司轉移到新的AI新創公司。（Pichai提醒我，當我問他關於變換器離職的問題時，行業寵兒OpenAI也看到了叛逃：「AI領域非常、非常動態，」他說。）但谷歌可以誇耀的是，它創造了一個支持追求非傳統想法的環境。「在很多方面，谷歌一直領先——他們投資於正確的頭腦，並創造了一個我們可以探索和推動極限的環境，」Parmar說。 “它花了時間才被採納並不奇怪。谷歌有更多的利害關係。”

如果沒有那個環境：就沒有變換器。不僅作者都是Google員工，他們也在同一辦公室工作。走廊上的偶遇和午餐時的閒聊導致了重大時刻。該團隊在文化上也是多元化的。八位作者中有六位出生在美國以外；另外兩位是兩位持有綠卡的德國人的孩子，他們暫時在加利福尼亞，以及一位家庭逃離迫害的一代美國人。

Uszkoreit從他在柏林的辦公室說，創新都是關於正確的條件。「這是讓那些對某事非常興奮的人在他們生活中的合適時機聚集在一起，」他說。 “如果你有這個，並且你在做事時有樂趣，你正在處理正確的問題——而且你很幸運——魔法就會發生。”

Uszkoreit和他著名的父親之間也發生了一些神奇的事情。在所有那些餐桌辯論之後，Hans Uszkoreit，他的兒子報告說，現在共同創立了一家公司，正在建立大型語言模型。當然，使用的是變換器。

一篇論文奠定現代人工智慧：8位Google員工的幕後故事

扎克伯格計劃再次重組Meta的人工智能業務

現在XRP錢包94%被出售，但這或許會有所不同的原因在於此

失去上漲趨勢後，比特幣攤位超過$112,000

索拉納新聞：Solana 達到100,000 TP

《社交網絡》中的不幸雙子兄弟，成功炒幣與上市

以太坊：華爾街與人工智能交彙的中心地帶

Unilabs Fund提升Litecoin開採，Cardano價格趨勢看跌，5000萬美元出售牆

首位發言人參加邁阿密Blockchain Futurist Conference，這是美國下一個重要的Web3活動

一篇論文奠定現代人工智慧：8位Google員工的幕後故事

Related Posts