提示工程夭折? MIT史丹佛讓大模型主動提問,自己搞清楚自己想要什麼


我就說嘛,提示工程正在消失,這篇新研究可以解釋原因。

原文來源:量子位元

圖片來源:由無界AI生成

AI圈百萬粉絲大V的一則推特,可讓大家驚嚇了。

要知道,提示工程可是ChatGPT趨勢中的大熱詞。由它衍生出的新職位提示工程師年薪可高達數十萬美元,「未來人人都要學會提示工程」的觀點更是引發熱議…

結果現在,提示工程就開始消失了? ? ?

而且有理有據。

部落客伊森·莫利克提到的這篇論文,由MIT、史丹佛和Anthropic(Claude2打造者)共同提出。

論文提出了一種新型的機器學習框架,能讓大模型學會主動向人類提問,並且自己搞清楚使用者的偏好。

他們使用GPT-4進行實驗,結果發現和提示工程、監督學習等方法比,在這個框架的輔助下GPT-4在多個任務上更懂人類了。

如果大模型能更容易揣度出人類想啥,也代表人類自己不用絞盡腦汁表達自己的想法了。

所以伊森·莫利克覺得,這不就不用每個人都去學提示工程了麼?

有網友補充說,這是不是說某種程度上,我們未來是不是可以不用語言和LLM進行交易所。讓大模型透過提問來弄清楚我們在想什麼,這真是一個巨大的進步。

讓AI來提示你

具體來看,這項研究提出了一種新型學習框架GATE(Generative active task elicitation)。

它能基於大模型本身的能力,來引出、推理人類使用者的喜好。

研究團隊將這稱為一種更主動的方式,具體表現形式就是讓大模型來對使用者提問,以讓人類的偏好想法能更明確地被表達出來。

對應來看,監督學習和提示工程都屬於被動的方式,監督學習和少量主動學習還要基於範例。

為什麼要「反客為主」提示人類?

因為人類給予的提示有其局限性,不一定能準確完整地表達出自己的喜好。

例如很多人都不懂提示工程;或是在提示過程中提供了存在誤導性的資料……這些都會導致大模型表現變差。

論文中列舉了一個例子。假如一個用戶說自己很喜歡讀網球相關的文章,對網球巡迴賽、發球技術有興趣。但從他提供的文章參考裡,無法判斷他是否對網球方面的其他主題感興趣。

所以,如果大模型能學會一些提問技巧,就能將使用者的偏好鎖定在更小範圍內。

這項研究讓大模型嘗試了多種提問方式,例如主動產生使用者標註的樣本、是非類別提問、開放式提問等。

主要測試的任務為內容推薦、道德推理和郵箱驗證。

結果顯示,在三項任務中,GATE包含的辦法效果都優於其他方法。

使用這一框架的大模型,使用起來也不那麼「燒腦」了(如下左圖)。

而這種方法的引進也不會影響人類使用者原本的偏好(如下右圖)。

作者認為較大的模型可能是更好的引導者,實驗中他們使用的是GPT-4。

如醫療、法律等需要做出複雜決策的領域,會是GATE框架未來拓展的方向。

本工作由MIT、Anthropic和史丹佛學者共同推出。

“我們現在仍依賴提示工程”

而以這篇研究為核心,也引發了一波關於提示工程的討論。

並不是所有人都贊同「提示工程正在消失」這個觀點。

另一位AI圈大V elvis就表示,這篇研究和之前那些研究人類偏好的工作沒有太大不同,我們現在還是要依賴提示工程。

我不認為「理解人類意圖/喜好」會導致提示工程消失,除非LLM訓練和工作的方式發生系統性變化。

也有人覺得提示工程只是會從前端消失,形式上會改變。

還有人提問,要是提示工程消失了,那花重金僱用提示工程師的人可咋辦?

不過回到研究本身,的確切提示工程對很多人來說還是有難度,有網友覺得,這是阻礙很多人擁抱ChatGPT的一大原因。

你覺得呢?

論文地址:
https://arxiv.org/abs/2310.11589

參考連結:
[1]https://twitter.com/emollick/status/1715022305925984296?s=20
[2]https://twitter.com/iScienceLuvr/status/1714947314375372999?s=20

資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載

Total
0
Shares
Related Posts