黃仁勳談Transformer論文七大作者:我們需要更強大的新架構,陷入原始模型困境


2017年,《Attention is All You Need》一文引入了基於自註意力機制的Transformer模型,超越傳統RNN和CNN,透過多頭注意力機制克服了長距離依賴問題。 ChatGPT等熱門模型基於此架構構建,大幅提升了電腦處理語言的能力,使機器翻譯、語音辨識等任務更加精準。八位科學家合作創新源自於改進Google機器翻譯服務的願望,而變形金剛模型成為電腦社群的新寵。英偉達在AI浪潮中扮演關鍵角色,提供高效能運算服務。在永續發展的變革中,AI工廠的誕生將帶來全新的工業革命。

黃仁勳對話Transformer論文七大作者:我們被困在原始模型裡,還需要更強大的新架構

作者:郭曉靜

來源:騰訊新聞

2017年,一篇具有里程碑意義的論文——《Attention is All You Need》橫空出世,首次引入了基於自註意力機制的Transformer模型,這一創新架構擺脫了傳統RNN和CNN的束縛,透過多頭處理的注意力機制,有效克服了長距離依賴的問題,並顯著提升了序列資料處理的速度。變壓器的編碼器-解碼器結構和多頭注意力機制在人工智慧領域掀起了一場風暴,大熱的ChatGPT就是基於該架構建構的。

想像一下,變形金剛模型就像是你在和朋友交談時的大腦,能夠同時注意對方說的每個單詞,並理解這些單字之間的連結。它賦予了電腦類似人類的語言理解能力。在此之前,RNN 是處理語言的主流方法,但其資訊處理速度緩慢,就像老式的磁帶播放器,必須逐字逐句地播放。而Transformer 模型則相當於一款的DJ,能夠同時操縱多個音軌,速度很快就捕捉到關鍵資訊。

Transformer模型的出現極大提升了電腦處理語言的能力,使得機器翻譯、語音辨識和文字摘要等任務變得更加精準,這對整個產業來說是一個巨大的飛躍。

這項創新成果源自於八曾在Google工作的人工智慧科學家的共同努力。他們最初的目標非常簡單:改進Google的機器翻譯服務。他們希望機器能夠完全理解並通讀整個句子,而不是孤立地逐一進行詞翻譯。這個理念成為了「Transformer」架構的起點-「自我注意力」機制。在此基礎上,這八位作者發揮各自的專長,於2017年12月發表了論文《Attention Is All You》 《極品》,詳細描述了Transformer架構,開啟了生成式AI的新篇章。

在生成式AI的世界裡,規模調整(Scaling Law)是核心原則。簡單來說,隨著Transformer模型規模的擴大,其效能也隨之提升,但同樣意味著需要更強大的運算資源來更龐大的模型和更基礎的網絡,而提供高效能運算服務的英偉達也同時成為支撐AI浪潮中的關鍵角色。

在今年的GTC大會上,英偉達的黃仁勳以一種充滿儀式感的方式邀請了變形金剛的七位作者(Niki Parmar因故臨時缺席)參與圓桌論壇的討論,這是七位作者首次在公開場合集體亮相。

他們在對話中也表達了一些令人印象深刻的觀點:

這個世界需要比變形金剛更好的東西,我想我們在這個所有權上都可以被某些東西取代,希望將我們帶到一個新的性能高原。

我們在最初的目標上並沒有成功,我們開始Transformer 的最初階段是想要模擬代幣的安裝過程。它不僅僅是線性的生成過程,而是文字或程式碼的逐步安裝。

像2+2這樣的簡單問題,它可能會使用大模型的萬億參數資源。我認為自適應計算是接下來必須出現的事情之一,我們知道在特定問題上應該花費多少計算資源。

我認為目前的模型經濟實惠,規模也還太小,大約1美元百萬代幣的價格,比現場購買一本平裝書便宜100倍。

以下為內容實錄:

黃仁勳:在過去的六十年中,電腦科技似乎沒有經歷根本性的變革,至少從我出生的那一刻起就是如此。目前我們所使用的電腦系統,是多工處理、無論硬體與軟體的分離、軟體的兼容性,或是資料匯入能力,以及軟體工程師的程式設計技巧,基本上都是基於IBM System360的設計原則——中央處理器、Bio子系統、多工處理、硬體與軟體、軟體系統的配合等等。

我認為,自1964年以來,現代計算並沒有發生過根本性的改變。儘管在20世紀的80年代和90年代,電腦經歷了重大的轉變,形成了今天我們所熟悉的形態。但隨著時間的推移在過去,電腦的邊際成本持續下跌,每十年其成本就減少十倍,十五年減少一千倍,二十年減少一萬倍。在電腦傳染病革命中,成本的下跌幅度因此之大,在二十年的時間裡,電腦的成本幾乎降低了萬倍,這種變化為社會帶來了巨大的動力。

試著想像一下,如果你生活中所有昂貴的物品都降到了原來的一萬分之一​​,比如二十年前你花20萬購買美元的汽車,現在只需1美元,你可以想像這種變化然而,電腦成本的下跌並不是一蹴而就,而是逐漸到達了一個臨界點,之後成本下跌趨勢突然出現了,它仍然每年都在不斷改進一點點,但是變化停止率不變了。

我們開始探索加速運算,但使用加速運算並不容易,你需要從頭一點一點來設計。過去,我們可能既按照定好的步驟一步步解決問題,但現在,我們需要重新設計這些步驟,這是一個全新的科學領域,將先前的規則重新設計為儀表演算法。

我們體認到這一點,並相信,如果我們能夠加速加速是1%的程式碼,節省99%的運行時間,那麼一定會有應用程式能夠補充效益。我們的目標是讓不可能變成可能,或將可能過去不可能,或已經有可能事情變得更加緊密,這就是加速運算的高效意義。

回顧公司的歷史,我們發現我們有能力加速各種應用。我們在遊戲領域取得了顯著的加速效果,效果好到讓人誤以為我們是一家遊戲公司。但實際上,我們的目標遠不止於這個市場龐大,大到能夠推動大幅的技術進步。這種情況並不常見,但我們找到了這樣一個特例。

長話短說,2012年,AlexNet點燃了星星之火,這是人工智慧與英偉達GPU的首次碰撞。這引發了我們在這一領域的神奇旅程的開始。幾年後,我們發現了一個完美的應用場景,為我們今天的發展奠定了基礎。

總之,這些成就為生成式人工智慧的發展奠定了基礎。生成式AI不僅能辨識圖片,還能將文字轉換為圖片,甚至創造出全新的。現在,我們有了足夠的技術能力去理解像素,辨識它們,並理解它們背後的意義。透過這些背後的意義,我們可以創造出新的內容。人工智慧透過數據理解背後意義的能力,這是一個巨大的變革。

我們有理由相信,這是一場全新的工業革命的開始。在革命中,我們正在創造一個突破性的東西。例如,在工業革命之前,水是能源的來源,水進入我們創造的裝置,發電機開始工作,進水、出電,類似魔法一樣。

生成式AI,是一種全新的“軟體”,它又能夠創造軟體,它依賴大眾科學家的共同努力。想像一下,你給AI原材料——數據,進入它們的一棟「建築」——我們稱之為之為GPU的機器,它能夠輸出驚人的結果。它正在發掘一切,我們正在見證「AI工廠」的誕生。

這種變革可以被稱為全新的工業革命。在過去,我們從未真正經歷過這樣的變革,但現在,它正在我們面前慢慢展開。不要錯過接下來的十年,因為在這十年裡,我們將創造出巨大的生產力。時間的鐘擺已經啟動,我們的研究人員已經開始行動。

今天我們邀請了Tansformer的創造者們,來一起討論未來的生成式AI將我們帶到何處。

他們是:

Ashish Vaswani:2016年加入Google大腦團隊。 2022年4月,與Niki Parmar共同發表了Adept AI,同年12月離開該公司,並共同創立了另一家人工智慧公司Essential AI。

Niki Parmar:在Google大腦工作了四年,之後與Ashish Vaswani 共同創立了Adept AI 和Essential AI。

Jakob Uszkoreit:2008年至2021年在Google工作。 2021年離開谷歌,與他人共同創立Inceptive,該公司主要業務為人工智慧生命科學,致力於使用神經網路和高通量實驗來設計下一代RNA分子。

Illia Polosukhin:2014年加入谷歌,是八人團隊中最早離開的人之一,於2017年與其他人共同創立了區塊鏈公司NEAR Protocol。

Noam Shazeer:曾於2000年至2009年間和2012年至2021年期間就職於Google。 2021年,Shazeer離開Google並與前Google工程師Daniel De Freitas共同創立Character.AI。

Llion Jones:曾工作於Delcam、YouTube。 2012年加入谷歌,擔任軟體工程師。後來離開谷歌,劇集創傷事件企業sakana.ai。

Lukasz Kaiser:曾任法國國家科學研究中心研究員。 2013年加入Google。 2021年,他離開谷歌,成為OpenAI的研究員。

Aidan Gomez:畢業於加拿大多倫多大學,Transformer論文發表時,他還是Google大腦團隊的實習生。他是八人團隊中第二個離開Google的人。 2019年,他與其他人共同創立了Cohere。

黃仁勳對話Transformer論文七大作者:我們被困在原始模型裡,還需要更強大的新架構

黃仁勳:今天坐到這裡,請大家積極爭搶發言的機會,這裡沒有什麼話題是我們不能談的,你們甚至可以從椅子上跳起來去討論問題。讓從最基礎的問題談起,你們當遇到什麼問題時,你們是如何啟發Transformer 的?

Illia Polosukhin:如果你想要發布能夠真正讀取搜尋結果的模型,例如處理成堆的文檔,你需要一些能夠快速處理這些資訊的模型。當時的線性神經網路(RNN)並不能滿足這樣的需求。

確實,雖然有循環神經網路(RNN)和一些初步的注意力機制(Arnens)引起了關注,但它們仍然需要逐個單字地閱讀,效率不高。

Jakob Uszkoreit:我們產生訓練資料的速度顯然超過了我們最先進架構的能力。實際上我們使用的是更簡單的架構,例如以n-gram輸入特徵的前饋網路。這些架構至少在Google訓練資料規模大,由於訓練速度更快,通常遠遠超越那些更複雜、更先進的模型。

增強的RNN,特別是長短期記憶網絡(LSTM),已經存在。

Noam Shazeer:看起來這是一個亟待解決的問題。我們在2015年左右就已經開始注意到這些縮放定律,你可以看到隨著模型規模的增大,它的智慧程度也隨之提高。這裡就像世界歷史上最好的問題,非常簡單:你只是在預測下一個代幣,它就會變得更加聰明,能夠做一百萬個不同的事情,你只是想擴大規模並變得更加變得更好。

當一個巨大的挫敗感出現時,RNN 處理起來實在太麻煩了。然後我偶然在討論中聽到這些傢伙,嘿,讓我們用形式或註意力機制來取代它。我心想,太棒了,我們就這麼做。我喜歡把Tansformer比喻為是從蒸汽機到內燃機的飛躍。我們本來可以用蒸汽機完成工業革命,但那將會非常痛苦,而內燃機讓一切都變得更好。

Ashish Vaswani:我在研究生時期就開始接觸到一些苦的教訓,尤其是在我從事機器翻譯工作的時候。我意識到,嘿,我不會去學習那些複雜的語言規則。我認為梯度恢復(梯度)下跌)——我們訓練這些模型的方法——是一個比我更出色的老師。所以我不會學習這些規則,我只是讓陡峭去下跌(梯度下跌)來完成所有的工作,這就是我的第一個教訓。

我從這些苦澀的教訓中學到的是,那些可以擴展的通用架構最終將在長期中勝出。今天可能是像徵,明天可能就是我們在電腦上採取的行動,它們將開始模仿我們的活動,並且能夠自動化我們做了很多工作。正如我們所討論的,Transformer特別是它的自註意力機制,具有非常廣泛的適用性,它也讓梯度恢復變得更好。另外就是物理學,因為我來自Noam那裡學到的一點是,矩陣乘法是個好主意。

Noam Shazeer:這個模式一直在重複出現。所以每次當你增加多個規則時,逐漸下跌終將比你學習這些規則更優秀。就是這樣。就像我們一直在做的深度學習一樣,我們正在建立一個形狀像GPU的AI模型。而現在,我們正在建立一個形狀像超級電腦的AI模型。是的,超級電腦現在就是模型。是的,這是真的。是的。超級電腦只是為了讓你們知道,我們正在建造超級計算機,形成模型的形狀。

黃仁勳:所以你們要解決什麼問題?

Lukasz Kaiser:機器翻譯。回想五年前,這個過程似乎非常困難,你收集數據,可能會進行翻譯,但結果可能只是勉強正確。後來的水平還很基礎。但現在,這些模型即使也沒有數據你只需提供一種語言和另一種語言,模型就可以進行學會翻譯,這種能力就像自然而然地支持出來的,而且效果令人滿意。

Llion Jones:但是,「注意力」的直覺就是你所需要的。所以我想產生這個標題,基本上發生的事情就是在我們尋找標題的時候。

我們只是在做消融,開始把模型的一些碎片丟掉,只是為了看看它會不會變得更糟。令我們驚訝的是,它開始變得更好。包括像這樣扔掉所有的形狀效果要好。所以這就是標題的來源。

Ashish Vaswani:基本上很有趣的是,我們實際上是從一個探討的框架開始的,然後我們添加了一些東西,我們添加了一些內容,我想後來我們又把它們去掉了。還有多頭焦點等其他很多非常重要的東西。

黃仁勳:誰想產生變形金剛的名字?為什麼叫變形金剛?

Jakob Uszkoreit:我們喜歡這個名字,我們只是隨便安了一個名字,覺得它很有創意,改變了我們的數據生產模式,用了這樣一種邏輯。所有的機器學習都是Transformer,都是替代者。

Noam Shazeer:我們之前沒有反對過這個名字,我覺得這個名字特別簡單,很多人都這個名字特別好。我覺得之前反對過很多的名字,比如Yaakov,最終確定了“變形金剛”,它描述了模型的原理,它實際上轉換了整個信號,按照這個邏輯,幾乎所有的機器學習都能被轉換。

Llion Jones:《變形金剛》之所以成為這樣一個人們耳熟能詳的名字,不僅是因為翻譯的內容,而且是因為我們希望以一種更繁榮的方式來實現這一變革。我不覺得我們描述得多麼出色,但是作為一個領導者,作為驅動和引擎,它是有邏輯的。我們能夠了解這樣一個大的語言模型、引擎和邏輯,從架構上來說,這是一個比較早的著手時期。

但我們確實意識到,我們實際上正在嘗試創造一些非常通用的東西,它真的可以將任何東西變成其他任何東西。而且我不認為我們預測到Transformer 何時被用於圖像時,這實際上上面會有很多好,這有點令人驚訝。這對你們來說可能是合乎邏輯的,但事實上,你可以將圖像分塊並標記每個小點,對吧。我認為這在建築上很早就存在了。

因此,當我們建立張量到張量庫時的訓練時,我們真正關注的是擴大自恢復的規模。這不僅僅是語言,還有圖像、音訊的組件。

所以盧卡什(Lukasz)說他正在做翻譯的。我想他是低估了自己,所有這些想法,我們現在開始看到這些模式結合在一起,它們都加入了模型。

但實際上,一切都早就存在了,這些想法正在滲透,這需要一些時間。盧卡什(Lukasz)的目標是我們擁有所有這些學術數據集,它們從圖像到文本,從文本到圖像,從音頻到文本,從文本到文本。我們應該對一切進行訓練。

這個想法確實推動了工作的擴展,最終成功了,它非常有趣,甚至我們可以將圖像翻譯成文本,將文本翻譯成圖像,將文本翻譯成文本。

你正在用它來研究生物學,或生物軟體,它可能類似於電腦軟體,它以程式的形式開始,然後你將其編譯成可以在GPU上運行的東西。

一個生物軟體的開始是某些行為的規範。也就是說,你想列印一個蛋白質,就像細胞中的特定蛋白質一樣。然後你學會如何使用深度學習將其轉化為RNA分子,但實際上一旦生命進入你的細胞,表現出這些行為。所以這個想法真的不只是翻譯成英文。

黃仁勳:你們是否創建了一個大型實驗室來生產這一切?

Aidan Gomez:大量可用,實際上是公開仍然,因為這些數據通常仍然主要由公共資助。但實際上,你仍然需要數據來明確說明你正在嘗試的現象。

嘗試在給定的產品中進行建模,蛋白質表達和mRNA疫苗之類的東西,或者是,在帕洛阿爾托,我們有一大堆機器人和穿著實驗室外套的人,參加學習研究人員,以前也有是生物學家的人。

現在,我們認為自己是新事物的先驅,致力於創建這些數據並驗證設計這些分子的模型。最初的想法就是翻譯。

黃仁勳:最初的想法是機器翻譯,我想問的是,在架構的強化和突破中,看到的關鍵節點是什麼?以及它們對Transformer 的設計有什麼影響?

Aidan Gomez:一路走來,你們都看到了,你認為在基礎變形金剛設計之上真的有很多額外的貢獻嗎?我認為在推理方面,已經有大量的工作來加速這些模型,使它們更多效率。

我仍然認為這有點讓我不安,我們的原始感覺是多麼相似,因為我認為世界比變形金剛更好的東西,我想我們在一個擁有者都希望它能被某種東西所取代,將我們帶來了一個新的性能高原。

我想問每個人一個問題。你認為接下來會發生什麼事?就像這是令人興奮的一步,因為我認為它與6-7 年前的東西太相似了,對吧?

Llion Jones:是的,我想人們會對你說的相似程度感到驚訝,對吧?確實喜歡問我接下來會發生什麼,因為我是這篇論文的作者。就像魔法一樣,你揮舞魔法棒,下一步會出現什麼?我想指出的是,這個具體的原理是如何設計的。我們不僅需要變得更好,我們需要變得明顯更好。

因為如果它只是微小的一點點,那麼這還勢必將整個人工智慧產業推向新的事物。因此,我們被困在原始模型上,雖然從技術上講,它可能不是我們現在擁有的最強大的東西。

但是每個人都知道自己想要什麼樣的個人工具,你們想要更好的上下文窗口,你們想要更快產生代幣的生成能力。好吧,我不確定你是否喜歡這個答案,但他們現在使用了太多的計算資源。我認為大家做了很多浪費的計算。我們正在努力提高效率,謝謝。

黃仁勳:我覺得我們讓這一切更有效,謝謝

Jakob Uszkoreit:但我覺得這主要是關於如何分配資源,而不是總共消耗了多少資源。例如我們不希望在一個容易得到的問題上花太多錢,或是在一個太難的問題上花太少而最終沒有解決方案。

Illiya Polosukhin:這個例子就像2+2,如果你正確地將他輸入到這個模型中,它就會使用三分之一個參數。所以我認為自適應計算是接下來必須出現的事情之一,我們知道在特定問題上應該花費多少計算資源。

Aidan Gomez:我們知道目前電腦的生成能力有多少,我覺得這是接下來需要中心化注意力的問題,我覺得這是Cosmos級的變革者,這也是未來的發展趨勢。

Lukasz Kaiser:這種概念在Transformer之前就存在了,它被整合進了Transformer模型中。實際上,我不確定在座的各位是否清楚,我們在最初成功的目標上並沒有,我們開始這個計畫的初衷是模擬Token的過程。它不僅僅是線性的生成過程,而是我們想要的文字或程式碼的漸進。我們進行迭代,我們進行編輯,這使得可能不僅可以修改人類如何發展文本,還能將他們作為這個過程的一部分。因為如果你能像人類一樣自然地產生內容,他們實際上就能夠提供回饋,不是嗎?

我們所有人都研究過香農的論文,我們最初的想法是,只關注語言建模和困惑度,但事實上這並沒有實現。我認為這也是我們能夠進一步發展的方向。這也與我們現在如何智慧地組織運算資源有關,這種組織方式現在也適用於影像處理。我的意思是,擴散模型具有一種有趣的特性,它們能夠透過迭代不斷地精煉和提升品質。而我們目前還沒有這樣的能力。

我的意思是,這個根本性問題:哪些知識應該內建在模型搜索,哪些知識應該隱藏模型之外?是使用搜尋模型嗎? RAG(檢索增強生成)模型就是一個例子。同樣地,這也涉及推理問題,即哪些推理應該透過外在的符號系統來完成,哪些推理任務應該直接在模型內部執行。這很大程度上是一個關於效率的討論。我確實相信,大型模型最終會學會如何進行2+2這樣的計算,但如果你要計算2+2,卻透過累積數字來進行,那顯然是低效的。

黃仁勳:如果AI只需要計算2+2,那麼它應該直接使用外匯,用最少的能量來完成這個任務,因為我們外匯是做2+2計算的最有效的工具。但是,如果有人問AI就知道,你是如何得出2+2的決定的呢?你知道2+2是正確的答案嗎?這將產生大量的資源?

黃仁勳對話Transformer論文七大作者:我們被困在原始模型裡,還需要更強大的新架構

Noam Shazeer:確實如此。你之前提到過一個例子,但我相信在座的各位所研發的人工智慧系統都足夠智能,能夠主動使用外匯助理。

目前全球公共產品(GPP)就是這樣的。我認為目前的模型超出經濟實惠,規模也還太小。它相當便宜,是因為像NV這樣的技術,感謝它的總量。

操作的計算成本大約是10 到18 美元。或者說,在這個數量級。感謝您創建了這麼多的運算資源。但是,如果您觀察一個擁有五千億參數的模型,並且每個代幣進行一萬億次計算,大概是一美元百萬代幣,這比外面購買一本平裝書並閱讀的成本要便宜100倍。我們的應用程式在價值上比巨型神經網路上的高效計算高出百萬倍或更多。我的意思是,它們無疑比治癒癌症等更有價值,但不僅如此。

Ashish Vaswani:我覺得讓世界更聰明,就是指如何從世界的回饋中獲得,我們去能夠實現多任務、多線的玩具。如果你真的想建立這樣一個模型,幫助我們設計這樣一個模型,這是一個非常好的方式。

黃仁勳:可以快速分享一下你們為什麼你們的公司嗎?

Ashish Vaswani:在我們公司,我們的目標是建立模型並解決新的任務。我們的工作是理解任務的目標和內容,並隨著這些內容的變化來滿足客戶的需求。事實上,從2021 年開始,我發現模型最大的問題在於,你只需要讓模型變得更聰明,你還需要找到合適的人才來解讀這些模型。我們讓這個世界與模型相互交融,使模型變得更加龐大和卓越。學習過程中取得一定的進展,首先需要實驗室的真空環境才能完成這些工作的工作。

Noam Shazeer:在2021年,我們共同創立了這家公司。我們擁有如此優秀的技術,但許多這些技術並沒有惠及人。想像一下,如果我是一個病人,聽到你這樣說,我會覺得有數百億人他們需要完成不同的任務。這就是深度學習的意義所在,我們透過對比來提昇科技。實際上,由於科技的不斷發展,得益於黃仁勳的推動,我們的終極目標是幫助所有人全世界的人們。你們必須進行測試,我們現在需要開發更快的解決方案,讓數百人能夠應用這些應用程式。例如最初,並非所有權都在使用這些應用程序,很多人使用它們只是為了娛樂,但它們確實有效,確實在起作用。

Jakob Uszkoreit:謝謝。我想介紹一下我們所創建的生態軟體體系。在2021年,我參與創立了這家公司,我們的目標是解決一些真正有科學影響力的問題。過去,我們處理的內容相當複雜但當我慶祝第一個孩子的時候,我發現世界的方式改變了。我們希望讓人類的生活變得更便利,也希望對蛋白質的研究做出貢獻。尤其是有了孩子之後,我更希望能夠改變現有的醫療架構,並且希望科學技術的發展能對人類的生存和發展產生正面的影響。例如,蛋白質的結構和解構已經受到了一定的影響,但目前我們缺乏數據。我們必須基於為數據做出努力,這不僅是職責,也是身為父親的責任。

黃仁勳:我喜歡你的觀點,我總是對新醫藥設計充滿興趣,以及讓電腦學習新藥開發和生成的過程。如果能學習和設計新藥,並且有實驗室進行測試,就可以確定這樣的模型是否存在可安裝。

Llion JonesLlion Jones:是的,我是最後一位分享者。我們共同創立的公司名為Sakana AI,意思是「日本魚」。我們之所以用的「魚」來命名公司,是因為我們像魚群一樣,啟示自然給了我們尋找智慧的靈感。如果我們能將許多檢驗的元素結合起來,就會創造出複雜而美妙的事物。很多人可能不了解這個過程和內容的具體細節,但我們內在的核心哲學是「學習永遠勝利」。

無論你是想解決問題,還是想學習任何內容,學習社團幫助你取得勝利。在生成式人工智慧的過程中,學習內容也幫助我們取得勝利。作為在現場的一個,我想提醒大家,我們賦予電腦的AI模型真正的意義,讓它們真正幫助我們理解Cosmos的奧秘。實際上,我也想告訴大家,我們即將宣布一項最新的進展,我們對此感到非常興奮。雖然我們現在擁有一系列的研究成果作為基礎,但我們正在經歷一個變革性的發展,目前的模型管理是有組織的,它讓人們真正參與其中。我們讓這些模型變得更加便利化,利用這些大型模型和變革性的模式,改變人們對世界和Cosmos的認知方式。是我們的目標。

艾丹‧戈麥斯:我與諾姆‧沙澤爾創立公司的初衷相似。我認為電腦正在進入一種新的模式,它正在改變現有的產品和我們的工作方式。一切都基於計算機,而且它在技術內部發生了一定的變化。我們看到的角色是什麼?我其實是在彌合差距、彌合鴻溝。我們可以不同的企業創造這樣的平台,讓每個企業適應並整合產品,這是直接面向使用者的一種方式。這是我們推動科技的方式,我們讓科技變得更經濟、更普及。

黃仁勳:我特別欣賞拓展的是,當諾姆·沙澤爾特別平靜的時候,你卻非常興奮。你們倆的個性差異真的顯現了。現在,請盧卡斯·凱撒發言。

Lukasz Kaiser:我在OpenAI的經驗非常創新。公司裡充滿了樂趣,我們處理大量數據進行計算,但歸根結底,我的角色還是一個數據處理者。

Illiya Polosukhin:我是第一個離開的人。我確信我們將取得重大進展,軟體將改變整個世界。最直接的方式就是教會機器編寫程式碼,讓程式設計讓每個人都變得可近。

近來,我們的進展雖然有限,但我們致力於整合人類智慧,獲取相關數據,例如進一步啟發人們,並認識到我們需要一種基礎性的方法論。這種模式是基礎性的進展,這種大模型在全球範圍內被廣泛使用,它在航太等領域有群體應用,它關係到各個領域的交易所與互動,實際上為我們提供了能力。隨著使用的深入,我們發現它帶來了更多的模型,目前並沒有太多關於版權的爭議。

我們現在正處於一個全新的生成式時代,這是一個崇尚創新和創新者的時代,我們希望積極參與並擁抱變化,因此我們尋求不同的方法來幫助建立一個非常酷的模式。

黃仁勳:這種正向的回饋系統對我們整體經濟非常有利。我們現在能夠更好地設計經濟。有人提問,在這個GPT模型正在訓練渴求億代幣規模資料庫的時代,下一步是什麼?新的模型你們想要探索什麼?你們的資料來源是什麼?

Illia Polosukhin:我們的起點是向量和推理。我們需要真正有價值的模型,人們能夠對其進行評估和評估,最終將你的技術工具應用到經濟實踐中,使整個模型變得更好。

黃仁勳:你如何對模型進行領域訓練?最初的互動和互動模式是什麼?是模型之間的交互作用與交互作用嗎?還是有生成式的模型和技術?

Illia Polosukhin:在我們的團隊中,每個人都有自己的技術專長。

Jakob Uszkoreit:下一步是推理。我們都認識到了推理的重要性,但目前很多工作還是由工程師手工完成的。我們實際上是在教他們以一種互動的問答方式去回答,我們希望他們能夠理解為什麼在一起,一起提供阻礙的推理模式。我們希望模型能夠產生我們想要的內容,這樣的生成方式是我們所追求的。無論是影片、文字或3D訊息,它們都應該整合在一起。

Lukasz Kaiser:我認為,大家是否理解推理實際上是來自於數據?如果我們開始進行推理,我們的手邊有一系列數據為何,我們會思考這些數據的差異?然後會理解各種不同的應用,其實都是基於數據推理的過程。由於計算機的能力,由於這樣的系統,我們可以從那裡開始進一步發展。我們可以推理出相關的內容,進行實驗。

很多時候,這些都是源自於數據的。我認為推理的發展非常迅速,資料模型也非常重要,而且不久的將來會互動更多性的內容。我們還沒有進行充分的培訓,這不是關鍵內容和要素,我們需要讓數據更豐富。

Noam Shazeer:設計一些數據,例如設計教學機器,可能涉及數百個、數億個不同的代幣。

Ashish Vaswani:我想提出的一點是,在這個領域,我們有很多合作夥伴,他們取得了一些里程碑式的進展。最好的自動化演算法是什麼?其實就是真實世界的任務分解成不同的內容我們的模型也非常重要,它幫助我們取得數據,觀察數據是否處於正確的位置。一方面,它幫助我們專注於數據;另一方面,這些數據為我們提供了優質的模型來完成抽象任務。因此,我們認為對於這種進展的簡化,也是創意發展的一種方式,也是科學發展的一種方式,也是我們自動化發展的一種方式。

黃仁勳:如果沒有好的標準,你就無法出色的工程。你們之間有沒有想問的問題?

Illia Polosukhin:沒有人真正想要了解自己到底走了哪些步驟。但實際上,我們能夠了解、探索我們到底在做什麼,獲得足夠的數據和訊息,進行合理的推理。例如,如果你有六個步,但實際上你透過五步進行推理來可以跳過一步。有時候你不需要六步,有時候你需要更多步驟,那你要如何重現這樣的場景?你從Token進一步發展需要什麼呢?

Lukasz Kaiser:我個人的信仰是,如何復現這樣的大模型,這是一個非常複雜的過程。系統會不斷進步,但從本質上講,你需要設計一種方法。人類善於復現的生物,在人類歷史中,我們不斷重現成功的場景。

黃仁勳:很高興能與各位交易所,也希望你們有機會相互交易所,產生難以言喻的魔法。感謝各位參加本次會議,非常感謝

資訊來源:0x資訊編譯自網際網路。版權歸作者PA薦讀所有,未經許可,不得轉載

Total
0
Shares
Related Posts