原文來源:矽星人
圖片來源:由無界AI 生成
座無虛席,走道裡也站滿了人。
甚至你會以為這是一場明星見面會。
但這其實是一場在矽谷進行的GenAI大會的其中一個圓桌。
它被安排在“副舞台”,時間在人們最昏昏欲睡的中午,另一間大會議室的台上坐著不少矽谷明星公司的CEO和創始人們,而這個圓桌“只是”一些研究員們,但人們依然不停湧入這個小房間。
他們的目標,是三個華人研究員。過往在矽谷,這樣的場景總是發生在「矽谷公司最高位置的華人高層」出現時,但這次,人們追逐的是三個年輕人。
Xinyun Chen,Chunting Zhou和Jason Wei 。
三家矽谷最重要的明星AI公司裡的華人年輕研究員。
這三個名字對於緊密跟隨大模型浪潮的人們,絕對不會陌生。
Xinyun Chen(陳昕昀)是Google大腦和DeepMind推理團隊的高級研究科學家。她的研究興趣是神經程式合成和對抗性機器學習。她曾在加州大學柏克萊分校獲得電腦科學博士學位,並在上海交通大學ACM班獲得電腦科學學士學位。
她參與的包括讓LLM自己創造工具,教導LLM自己進行程式碼debug的論文等,都是在AI程式碼生成領域十分重要且關鍵的論文。她也被一些媒體有些誇張的形容為「GoogleDeepmind華人天團」的成員之一。
Chunting Zhou是Meta AI的研究科學家。 2022年5月,她在卡內基美隆大學語言技術研究所獲得博士學位,目前的主要研究興趣在於自然語言處理和機器學習的交叉領域,以及對齊的新的方法。她主導的,嘗試用更少的更精緻的樣本訓練大模型的論文,被Yann Lecun大加讚賞,發文推薦,論文給業界在RLHF等主流方法之外提供了更新的思路。
而最後一位更是備受國內外AI社群推崇的明星研究員,OpenAI的Jason Wei。大名鼎鼎的COT(Chain of Thoughts,思維鏈)開發者。他2020年本科畢業後,就成為谷歌大腦的高級研究員,在任職期間提出了思維鏈的概念,這也是LLM走向湧現的關鍵之一。 2023年2月他加入OpenAI,進入ChatGPT團隊。
人們衝著這些公司而來,但更衝著他們的研究而來。
在這場論壇裡很多時候他們就像是學生,你彷彿在看一場大學裡的討論會,智能頭腦,快速反應的邏輯,略顯緊張,但也妙語連珠。
“為什麼一定要認為幻覺是個壞事情呢?”
“但川普天天幻覺。”
現場一片笑聲。
這是一場很難得的對話,以下是對話實錄,矽星人也參與並提出了問題。
Q:我們來討論一個LLM裡非常重要的問題,就是幻覺(hallucination)。幻覺的概念早在曾經模型參數還很少,大小還很小的時候就提出來了,但現在隨著模型越來越大,幻覺的問題又有了哪些改變?
Chunting:我可以先談談。我三年前做過一個項目,關於幻覺。當時和現在我們面對的幻覺問題很不一樣,當時我們做很小的模型,並且討論幻覺也是在具體的領域,例如翻譯或文件總結等功能。但現在顯然這個問題的範疇更大了。
為什麼大模型依然產生幻覺,我覺得有很多個原因。首先在訓練資料方面,因為人類有幻覺,所以資料也出現問題。第二個原因是因為模型訓練的方式,它無法回答即時的問題,那就會回答錯。以及在推理等能力上的缺陷都會導致這個問題。
Xinyun:其實我會用另一個問題來開始這個回答。為什麼人類認為幻覺是壞事。
我有一個故事,我同事問過模型一個問題,這也是從一些評估題庫裡來的,當公主親了青蛙,會發生什麼事。模型的回答是,什麼事都不會發生。
在許多模型評估的答案裡,回答「會變成王子」才是那個正確答案,而什麼都不會發生的這個答案都會被標記為錯誤。但對我來說,我其實認為這是個更好的答案,很多有趣的人類也會這樣回答。
為什麼人們認為這是幻覺,是因為大家沒有思考AI在什麼場合不應該有幻覺,什麼場合是應該有的。
例如創意的一些工作可能需要,想像力很重要。現在我們在不停的把模型做大,但這裡的一個問題是,不管多大,它都不能準確的記住所有事情。人類其實也會有同樣問題。我認為一個可以做的工作是,給模型輔助一些加強的工具,例如搜索,計算,程式設計的一些工具等。人類在這些工具幫助下可以很快解決幻覺的問題,而模型目前看起來還不太好。這也是我自己很想研究的問題。
Jason:要我說,川普就是天天在產生幻覺。 (笑)你說好還是不好。
不過我覺得這裡另一個問題是,人們對語言模型的預期正在改變。 2016年,一個RNN產生一個URL,你的預期是它一定是個錯誤的,不值得信任。但今天呢,我估計你會期待模型在很多事情上都是正確的,所以你也會認為幻覺是更危險的。所以這其實是個很重要的背景。
(Jason Wei列出的有潛力的研究方向)
Q:下一個問題先問Xinyun,現在業界一個很重要的議題是模型自我提升和比如說自我debug。你可以分享一下你的研究麼。
Xinyun:模型自我debug的啟發其實來自人類如何程式設計。我們知道人類編程,如果一次就結束,一定也會出問題,一定需要debug。對於很厲害的程式設計師,debug也是很重要的技能。我們的目標是,沒有任何外部指示的情況下,沒有人類告訴它哪裡錯了的情況下,模型自己去看自己產生的程式碼,看操作出來的結果,然後判斷哪裡出了問題。有問題就去debug。
而為什麼程式碼產生這件事會從自我debug中得到幫助,我認為有兩個原因。第一,程式碼產生基本上都是基於開源程式碼訓練,它可以產生符合你大概要的方向的程式碼,但程式碼可能非常長,而且有不少錯誤,無法運作。但我們也沒有必要從零開始編程而不用現有的程式碼庫,因為無論你從零開始多少次問題同樣無法避免,所以在已有的程式碼資源上去做程式碼生成是必須的,而debug就變得重要。第二,debug過程持續得到一些外在的回饋,對於模型的理解能力提升很有幫助。
Q:一個後續問題是,把模型交給它自己,讓它自我提升,但是否就不會出問題了?
Chunting:我們曾經做過一個奇怪的實驗,結果agent在執行了程式碼後刪除了python的開發環境,如果這個agent進入真實世界,它可能會帶來不好的影響。這是我們開發agent的時候需要考慮的東西。我也發現基礎模型越小,能力越小,很難做自我的提升與反思。也許我們能在對齊的過程中讓模型看到更多的“錯誤”,來教導它自我提升。
Q:Jason呢,對於評估模型你們如何做和如何看。
Jason:我個人的看法是,評估模型越來越有挑戰,尤其在新的範式下。這背後有許多原因,一個是語言模型現在被用在無數的任務裡,你甚至不知道它的能力範圍到底多大。第二個原因是,看看AI的歷史,我們主要在解決傳統經典的問題,目標都是很短期,文字很短。但現在解決文本更長,即便人類都需要很長時間去判斷。也許第三個挑戰是,對於很多事情,所謂正確的行為並沒有被很清楚的定義。
我認為一些事情我們可以去做來提高評估能力。第一個最明顯的是從更廣的範圍來評估,遇到一些有害的行為時候能否更具體的拆解成更小的任務來評估。另外就是對於具體的任務能不能給予更多的評估方式,也許人類給一些,然後也可以用AI也給一些。
問:用AI評估AI的路線,你怎麼看。
Jason:它聽起來很棒。我認為我最近在關注的一個趨勢是,用來評估模型的模型能否表現得更好。例如憲法AI訓練的思路,即便現在不是表現的很完美,但有很大可能等到下一代的GPT後,這些模型的表現會比人類更好。
矽星人:你們都是很年輕的研究員。我想知道你們作為在企業裡的研究員,如何看待現在企業和學術界在GPU以及算力上的嚴重不匹配。
Jason:如果你在一些有約束的環境工作,確實可能會產生負面影響,但是我認為很多工作還是有空間可以做的,比如算法的部分,那些對GPU可能不是非常需要的研究課題,永遠是不缺的。
Chunting:我也覺得有很多空間,有值得去探索的地方。例如對齊的方法的研究,其實可以在有限的資源裡進行研究。而且也許在灣區,對學術界的人來說機會也更多。
Xinyun:總的來說,對於LLM研究來說,有兩個大的方向,一個是提高結果表現,另一個是理解模型。我們看到很多好的框架,基準等,以及一些很好的演算法都是來自學術界。
比如說,當我從博士畢業時候,我的導師給了一個建議──AI研究者要拉長到未來很多年的時間維度來思考研究,也就是不只是考慮對現在的一些東西的改進,而是未來可能帶來徹底改變的技術理念。
資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載