OpenAI、Google和Meta 的當紅華人研究員們在想些什麼｜對話實錄

原文來源：矽星人

圖片來源：由無界AI‌ 生成

座無虛席，走道裡也站滿了人。

甚至你會以為這是一場明星見面會。

但這其實是一場在矽谷進行的GenAI大會的其中一個圓桌。

它被安排在“副舞台”，時間在人們最昏昏欲睡的中午，另一間大會議室的台上坐著不少矽谷明星公司的CEO和創始人們，而這個圓桌“只是”一些研究員們，但人們依然不停湧入這個小房間。

他們的目標，是三個華人研究員。過往在矽谷，這樣的場景總是發生在「矽谷公司最高位置的華人高層」出現時，但這次，人們追逐的是三個年輕人。

Xinyun Chen，Chunting Zhou和Jason Wei 。

三家矽谷最重要的明星AI公司裡的華人年輕研究員。

這三個名字對於緊密跟隨大模型浪潮的人們，絕對不會陌生。

Xinyun Chen（陳昕昀）是Google大腦和DeepMind推理團隊的高級研究科學家。她的研究興趣是神經程式合成和對抗性機器學習。她曾在加州大學柏克萊分校獲得電腦科學博士學位，並在上海交通大學ACM班獲得電腦科學學士學位。

她參與的包括讓LLM自己創造工具，教導LLM自己進行程式碼debug的論文等，都是在AI程式碼生成領域十分重要且關鍵的論文。她也被一些媒體有些誇張的形容為「GoogleDeepmind華人天團」的成員之一。

Chunting Zhou是Meta AI的研究科學家。 2022年5月，她在卡內基美隆大學語言技術研究所獲得博士學位，目前的主要研究興趣在於自然語言處理和機器學習的交叉領域，以及對齊的新的方法。她主導的，嘗試用更少的更精緻的樣本訓練大模型的論文，被Yann Lecun大加讚賞，發文推薦，論文給業界在RLHF等主流方法之外提供了更新的思路。

而最後一位更是備受國內外AI社群推崇的明星研究員，OpenAI的Jason Wei。大名鼎鼎的COT（Chain of Thoughts，思維鏈）開發者。他2020年本科畢業後，就成為谷歌大腦的高級研究員，在任職期間提出了思維鏈的概念，這也是LLM走向湧現的關鍵之一。 2023年2月他加入OpenAI，進入ChatGPT團隊。

人們衝著這些公司而來，但更衝著他們的研究而來。

在這場論壇裡很多時候他們就像是學生，你彷彿在看一場大學裡的討論會，智能頭腦，快速反應的邏輯，略顯緊張，但也妙語連珠。

“為什麼一定要認為幻覺是個壞事情呢？”

“但川普天天幻覺。”

現場一片笑聲。

這是一場很難得的對話，以下是對話實錄，矽星人也參與並提出了問題。

Q：我們來討論一個LLM裡非常重要的問題，就是幻覺（hallucination）。幻覺的概念早在曾經模型參數還很少，大小還很小的時候就提出來了，但現在隨著模型越來越大，幻覺的問題又有了哪些改變？

Chunting：我可以先談談。我三年前做過一個項目，關於幻覺。當時和現在我們面對的幻覺問題很不一樣，當時我們做很小的模型，並且討論幻覺也是在具體的領域，例如翻譯或文件總結等功能。但現在顯然這個問題的範疇更大了。

為什麼大模型依然產生幻覺，我覺得有很多個原因。首先在訓練資料方面，因為人類有幻覺，所以資料也出現問題。第二個原因是因為模型訓練的方式，它無法回答即時的問題，那就會回答錯。以及在推理等能力上的缺陷都會導致這個問題。

Xinyun：其實我會用另一個問題來開始這個回答。為什麼人類認為幻覺是壞事。

我有一個故事，我同事問過模型一個問題，這也是從一些評估題庫裡來的，當公主親了青蛙，會發生什麼事。模型的回答是，什麼事都不會發生。

在許多模型評估的答案裡，回答「會變成王子」才是那個正確答案，而什麼都不會發生的這個答案都會被標記為錯誤。但對我來說，我其實認為這是個更好的答案，很多有趣的人類也會這樣回答。

為什麼人們認為這是幻覺，是因為大家沒有思考AI在什麼場合不應該有幻覺，什麼場合是應該有的。

例如創意的一些工作可能需要，想像力很重要。現在我們在不停的把模型做大，但這裡的一個問題是，不管多大，它都不能準確的記住所有事情。人類其實也會有同樣問題。我認為一個可以做的工作是，給模型輔助一些加強的工具，例如搜索，計算，程式設計的一些工具等。人類在這些工具幫助下可以很快解決幻覺的問題，而模型目前看起來還不太好。這也是我自己很想研究的問題。

Jason：要我說，川普就是天天在產生幻覺。（笑）你說好還是不好。

不過我覺得這裡另一個問題是，人們對語言模型的預期正在改變。 2016年，一個RNN產生一個URL，你的預期是它一定是個錯誤的，不值得信任。但今天呢，我估計你會期待模型在很多事情上都是正確的，所以你也會認為幻覺是更危險的。所以這其實是個很重要的背景。

(Jason Wei列出的有潛力的研究方向)

Q：下一個問題先問Xinyun，現在業界一個很重要的議題是模型自我提升和比如說自我debug。你可以分享一下你的研究麼。

Xinyun：模型自我debug的啟發其實來自人類如何程式設計。我們知道人類編程，如果一次就結束，一定也會出問題，一定需要debug。對於很厲害的程式設計師，debug也是很重要的技能。我們的目標是，沒有任何外部指示的情況下，沒有人類告訴它哪裡錯了的情況下，模型自己去看自己產生的程式碼，看操作出來的結果，然後判斷哪裡出了問題。有問題就去debug。

而為什麼程式碼產生這件事會從自我debug中得到幫助，我認為有兩個原因。第一，程式碼產生基本上都是基於開源程式碼訓練，它可以產生符合你大概要的方向的程式碼，但程式碼可能非常長，而且有不少錯誤，無法運作。但我們也沒有必要從零開始編程而不用現有的程式碼庫，因為無論你從零開始多少次問題同樣無法避免，所以在已有的程式碼資源上去做程式碼生成是必須的，而debug就變得重要。第二，debug過程持續得到一些外在的回饋，對於模型的理解能力提升很有幫助。

Q：一個後續問題是，把模型交給它自己，讓它自我提升，但是否就不會出問題了？

Chunting：我們曾經做過一個奇怪的實驗，結果agent在執行了程式碼後刪除了python的開發環境，如果這個agent進入真實世界，它可能會帶來不好的影響。這是我們開發agent的時候需要考慮的東西。我也發現基礎模型越小，能力越小，很難做自我的提升與反思。也許我們能在對齊的過程中讓模型看到更多的“錯誤”，來教導它自我提升。

Q：Jason呢，對於評估模型你們如何做和如何看。

Jason：我個人的看法是，評估模型越來越有挑戰，尤其在新的範式下。這背後有許多原因，一個是語言模型現在被用在無數的任務裡，你甚至不知道它的能力範圍到底多大。第二個原因是，看看AI的歷史，我們主要在解決傳統經典的問題，目標都是很短期，文字很短。但現在解決文本更長，即便人類都需要很長時間去判斷。也許第三個挑戰是，對於很多事情，所謂正確的行為並沒有被很清楚的定義。

我認為一些事情我們可以去做來提高評估能力。第一個最明顯的是從更廣的範圍來評估，遇到一些有害的行為時候能否更具體的拆解成更小的任務來評估。另外就是對於具體的任務能不能給予更多的評估方式，也許人類給一些，然後也可以用AI也給一些。

問：用AI評估AI的路線，你怎麼看。

Jason：它聽起來很棒。我認為我最近在關注的一個趨勢是，用來評估模型的模型能否表現得更好。例如憲法AI訓練的思路，即便現在不是表現的很完美，但有很大可能等到下一代的GPT後，這些模型的表現會比人類更好。

矽星人：你們都是很年輕的研究員。我想知道你們作為在企業裡的研究員，如何看待現在企業和學術界在GPU以及算力上的嚴重不匹配。

Jason：如果你在一些有約束的環境工作，確實可能會產生負面影響，但是我認為很多工作還是有空間可以做的，比如算法的部分，那些對GPU可能不是非常需要的研究課題，永遠是不缺的。

Chunting：我也覺得有很多空間，有值得去探索的地方。例如對齊的方法的研究，其實可以在有限的資源裡進行研究。而且也許在灣區，對學術界的人來說機會也更多。

Xinyun：總的來說，對於LLM研究來說，有兩個大的方向，一個是提高結果表現，另一個是理解模型。我們看到很多好的框架，基準等，以及一些很好的演算法都是來自學術界。

比如說，當我從博士畢業時候，我的導師給了一個建議──AI研究者要拉長到未來很多年的時間維度來思考研究，也就是不只是考慮對現在的一些東西的改進，而是未來可能帶來徹底改變的技術理念。

OpenAI、Google和Meta 的當紅華人研究員們在想些什麼｜對話實錄

8月12日午間重要動態一覽

加密AI興衰啟示錄：泡沫褪去，留下哪些火種？

Speciale Invest在INR 600億上支持DeepTech創業公司，專注於III類投資

FTX用戶加強訴訟，稱律師事務所Fenwick & West是其欺詐案的“關鍵”推手

跨鏈橋安全隱患剖析：28億美元損失揭示Web3基礎設施的致命弱點

特朗普一家為全球自由令牌推出15億美元的寶藏公司

XRP今日價格預測（8月12日）

策略性購買BTC火箭推動比特幣清算失衡至17,300%

OpenAI、Google和Meta 的當紅華人研究員們在想些什麼｜對話實錄

Related Posts