ChatGPT 自己會選模型了微軟亞研院+浙大爆火新論文,HuggingGPT項目已開源


編輯:桃子 Britta

來源:新智元

ChatGPT引爆的AI熱潮也「燒到了」金融圈。

近來,彭博社的研究人員也開發了一個金融領域的GPT——彭博社GPT,有500億參數。

GPT-4的橫空出世,讓許多人淺嚐到了大型語言模型的強大能力。

然而,OpenAI不open。業界許多人紛紛開始做GPT的克隆,而且許多ChatGPT平替的模型都是基於已經開源的模型上構建,尤其是Meta開源的LLMa模型。

比如,斯坦福的草泥馬(Alpaca)、斯坦福聯手CMU、UC伯克利駱馬(Vicuna),初創公司Databricks的Dolly等等。

針對不同任務和應用構建的各種類ChatGPT的大型語言模型,在整個領域呈現出百家爭鳴之勢。

那麼問題來了,研究者如何選擇合適的模型,甚至是多個模型,去完成一項複雜的任務呢?

近日,微軟亞洲研究院聯手浙江大學的研究團隊,發布了一個大模型協作系統HuggingGPT。

論文地址:https://arxiv.org/pdf/2303.17580.pdf

HuggingGPT利用ChatGPT作為控制器,連接HuggingFace社區中的各種AI模型,來完成多模態復雜任務。

這意味著,你將擁有一種超魔法,通過HuggingGPT,便可擁有多模態能力,文生圖、文生視頻、語音全能拿捏了。

HuggingGPT搭橋

研究者指出解決大型語言模型(LLMs)當前的問題,可能是邁向AGI的第一步,也是關鍵的一步。

因為當前大型語言模型的技術仍然存在著一些缺陷,因此在構建AGI 系統的道路上面臨著一些緊迫的挑戰。

– 受限於文本生成的輸入和輸出形式,當前LLMs缺乏處理複雜信息(如視覺和語音)的能力;

– 在實際應用場景中,一些複雜任務通常由多個子任務組成,因此需要多個模型的調度和協作,這也超出了語言模型的能力範圍;

– 對於一些具有挑戰性的任務,LLMs在零樣本或少樣本設置下表現出優異的結果,但它們仍然比一些專家弱(如微調模型)。

為了處理複雜的人工智能任務,LLMs應該能夠與外部模型協調,以利用它們的能力。因此,關鍵點在於如何選擇合適的中間件來橋接LLMs和AI模型。

研究者發現,每個AI模型都可以通過總結其模型功能表示為一種語言形式。

由此,便引入了一個概念,「語言是LLMs,即ChatGPT,連接人工智能模型的通用接口」。

通過將AI模型描述納入提示中,ChatGPT可以被視為管理人工智能模型的大腦。因此,這一方法可以讓ChatGPT能夠調用外部模型,來解決實際任務。

簡單來講,HuggingGPT是一個協作系統,並非是大模型。

它的作用就是連接ChatGPT和HuggingFace,進而處理不同模態的輸入,並解決眾多複雜的人工智能任務。

所以,HuggingFace社區中的每個AI模型,在HuggingGPT庫中都有相應的模型描述,並將其融合到提示中以建立與ChatGPT的連接。

隨後,HuggingGPT將ChatGPT作為大腦來確定問題的答案。

到目前為止,HuggingGPT已經圍繞ChatGPT在HuggingFace上集成了數百個模型,涵蓋了文本分類、目標檢測、語義分割、圖像生成、問答、文本到語音、文本到視頻等24個任務。

實驗結果證明,HuggingGPT擁有處理多模態信息和復雜人工智能任務的能力。

四步工作流程

HuggingGPT整個工作流程可以分為如下四個階段:

– 任務規劃:ChatGPT解析用戶請求,將其分解為多個任務,並根據其知識規劃任務順序和依賴關係

– 模型選擇:LLM根據HuggingFace中的模型描述將解析後的任務分配給專家模型

– 任務執行:專家模型在推理端點上執行分配的任務,並將執行信息和推理結果記錄到LLM中

– 響應生成:LLM總結執行過程日誌和推理結果,並將摘要返回給用戶

多模態能力,有了

實驗設置

實驗中,研究者採用了gpt-3.5-turbo和text-davinci-003這兩種GPT模型的變體作為大型語言模型(LLMs),這些模型可以通過OpenAI API公開訪問。

為了使LLM的輸出更加穩定,我們將解碼溫度設置為0。

同時,為了調整LLM的輸出以使其符合預期格式,我們在格式約束上設置了logit_bias為0.1。

研究人員在如下表格中提供了為任務規劃、模型選擇和反應生成階段而設計的詳細提示,其中{{variable}}表示在提示被輸入LLM之前,需要用相應的文本填充域值。

研究人員在廣泛的多模態任務上測試了HuggingGPT。

在ChatGP和專家模型的配合下,HuggingGPT可以解決語言、圖像、音頻和視頻等多種模式的任務,包含了檢測、生成、分類和問題回答等多種形式的任務。

雖然這些任務看起來很簡單,但掌握HuggingGPT的基本能力是解決複雜任務的前提條件。

比如,視覺問答任務:

文本生成:

文生圖:

HuggingGPT可以整合多個輸入的內容來進行簡單的推理。可以發現,即使有多個任務資源,HuggingGPT也能將主要任務分解成多個基本任務,最後整合多個模型的推理結果,得到正確答案。

此外,研究人員通過測試評估了HuggingGPT在復雜任務情況下的有效性。

就HuggingGPT處理多項複雜任務的能力進行了展示。

當處理多個請求的時候,可能包含多個隱含任務或者需要等多方面的信息,這時依靠一個專家模型來解決是不夠的。

而HuggingGPT可以通過任務規劃組織多個模型的協作。

一個用戶請求中可能明確包含多個任務:

下圖展示了HuggingGPT在多輪對話場景下應對複雜任務的能力。

用戶將一個複雜的請求分成幾個步驟,通過多輪請求達到最終目標。結果發現,HuggingGPT可以通過任務規劃階段的對話情境管理來跟踪用戶請求的情境狀態,並且可以很好地解決用戶提到的請求資源以及任務規劃。

「賈維斯」開源

目前,這一項目已經在GitHub上開源,但是代碼並沒有完全公佈。

有趣的是,研究者給這個項目命名為《鋼鐵俠》中的賈維斯,無敵AI這就來了。

JARVIS:一個連接LLMs和ML社區的系統

順便提一句,HuggingGPT需要有了OpenAI的API才可以使用。

網友:研究的未來

JARVIS / HuggingGPT就像此前Meta提出的Toolformer一樣,都在充當著連接器的作用。

甚至,包括ChatGPT plugins也是如此。

網友稱,「我強烈懷疑第一個人工通用智能(AGI)的出現將比預期更早。它將依靠「膠水」人工智能,能夠智能地將一系列狹義人工智能和實用工具粘合在一起。

我獲得了訪問ChatGPT的Wolfram插件的權限,這使它一夜之間從數學菜雞變成了數學天才。當然,這只是一個小步驟,但卻預示著未來的發展趨勢。

我預測,在接下來的一年左右,我們將看到一種人工智能助手,它與數十個大型語言模型(LLMs)及類似工具相連,而終端用戶只需向其助手發出指令,讓其為他們完成任務。這個科幻般的時刻即將到來。

還有網友稱,這就是未來的研究方法。

GPT在一大堆工具面前,知道如何使用它們了。

參考資料:

HuggingGPT

-Human requests something
-ChatGPT
1 Plans tasks
2 Selects AI models based on HuggingFace descriptions
3 Manages cooperation of expert models to execute subtasks
4 Summarizes results

Covers many sophisticated tasks across modalities & domainshttps://t.co/ukUzlJttaL pic.twitter.com/8XuplkNAey

— John Nay (@johnjnay) March 31, 2023

https://news.ycombinator.com/item?id=35390153

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts