致命幻覺問題、開發GPU替代品,大模型還面臨這10大挑戰


ChatGPT、GPT-4 等的發布,讓我們在見識到大模型(LLM)的魅力後,伴隨而來的是其所面臨的各種挑戰。

圖片來源:由無界AI 生成

如何讓LLM 變得更好?面對大模型,到底有哪些需要解決的問題?成為AI 領域重要的研究課題。

本文,計算機科學家Chip Huyen 從10 個方面入手,全面闡述LLM 面臨的挑戰。具體而言,前兩個方面是關於幻覺以及上下文學習的,其他幾個方麵包括但不限於多模態、架構、尋找GPU 替代品等。

原文地址:https://huyenchip.com/2023/08/16/llm-research-open-challenges.html

以下是對原文的翻譯整理。

1. 如何減少幻覺

幻覺問題是指LLM 生成的文本雖然流暢又自然,但卻不忠實於內容來源(內在問題)和/ 或不確定(外在問題)。這一問題廣泛存在於LLM 中。

因而,減輕幻覺並開發衡量幻覺的指標變得非常重要,很多公司、機構都在關注這個問題。 Chip Huyen 表示,現階段有許多減少幻覺的方法,例如在提示中添加更多的上下文、採用思維鍊或者讓模型的響應更簡潔一些。

這其中可以參考的資料包括:

自然語言生成中關於幻覺研究的綜述:https://arxiv.org/abs/2202.03629 語言模型出現的幻覺是如何滾雪球的:https://arxiv.org/abs/2305.13534 ChatGPT 在推理、幻覺和交互性上的評估:https://arxiv.org/abs/2302.04023 對比學習減少對話中的幻覺:https://arxiv.org/abs/2212.10400 自洽性提高了語言模型的思維鏈推理能力:https:/ /arxiv.org/abs/2203.11171 生成式大型語言模型的黑盒幻覺檢測:https://arxiv.org/abs/2303.08896

2. 優化上下文長度和上下文結構

LLM 另一個研究重點是上下文長度,因為大模型在回答用戶問題時,需要參考上下文,能夠處理的長度越長,對LLM 越有用。例如我們問ChatGPT「最好的越南餐廳是哪家?」面對這一問題,ChatGPT 需要參考上下文,弄清楚用戶問的到底是越南最好的越南餐廳還是美國最好的越南餐廳,兩者完全不一樣。

在這一小節下,Chip Huyen 介紹了幾篇相關論文。

第一篇是《 SITUATEDQA: Incorporating Extra-Linguistic Contexts into QA 》,兩位作者均來自德克薩斯大學奧斯汀分校。論文引入了一個開放檢索的QA 數據集SITUATEDQA ,感興趣的讀者可以前去查看了解更多內容。

Chip Huyen 表示因為模型是從提供的上下文中學習的,因而這個過程被稱為上下文學習。

第二篇論文是《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》,本文提出了RAG(Retrieval-Augmented Generation),它能結合預訓練語言模型和外部知識,來實現開放域生成式問答及其他知識密集型任務。

RGA 運行過程分為兩個階段:chunking(也稱為檢索)階段以及查詢階段:

很多人認為,基於這項研究,上下文的長度越長,模型塞入的信息就會越多,其響應就越好。 Chip Huyen 認為這一說法並不完全成立。

模型可以使用多少上下文以及模型使用上下文的效率如何,是兩個完全不同的問題。我們要做的是在增加模型上下文長度的同時並行的提高模型處理上下文的效率。例如,在《Lost in the Middle: How Language Models Use Long Contexts》論文中,文中介紹了模型如何更好地理解索引開頭和結尾的信息,而不是中間信息。

3. 多模態

Chip Huyen 認為多模態是非常重要的。

首先,包括醫療保健、機器人、電子商務、零售、遊戲、娛樂等在內的領域都需要多模態數據。例如醫學預測需要醫生筆記,患者問成交量等文本內容,還需要CT、X 光、核磁共振掃描等圖像信息。

其次,多模態有望大幅提升模型性能,能夠理解文本和圖像的模型比只能理解文本的模型表現要好。然而基於文本的模型對文本的需求量很大,以至於人們開始擔心為了訓練模型,我們很快就會耗盡互聯網數據。一旦文本被用完,我們就需要考慮其他數據模態。

Flamingo 架構圖

關於多模態,大家可以參考的內容包括:

論文1《Learning Transferable Visual Models From Natural Language Supervision》:https://arxiv.org/abs/2103.00020; 論文2《Flamingo: a Visual Language Model for Few-Shot Learning》:https://arxiv.org/abs /2204.14198; 論文3《BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models》:https://arxiv.org/abs/2301.12597; 論文4《Language Is Not All You Need: Aligning Perception with Language Models》:https://arxiv.org/abs/2302.14045; 論文5《Visual Instruction Tuning》:https://arxiv.org/abs/2304.08485; 谷歌PaLM-E:https://ai.googleblog .com/2023/03/palm-e-embodied-multimodal-language.html; 英偉達NeVA:https://catalog.ngc.nvidia.com/orgs/nvidia/teams/playground/models/neva。

4. 讓LLM 更快、更便宜

GPT-3.5 於2022 年11 月下旬首次發布,很多人擔心使用成本高昂。然而,短短半年,社區就找到了在性能方面接近GPT-3.5 的模型,所需的內存佔用僅為GPT-3.5 的2%。

Chip Huyen 表示,如果你創造了足夠好的東西,人們很快就會找到一種方法讓它變得又快又便宜。

以下是Guanaco 7B 與ChatGPT 和GPT-4 等模型的性能比較。但我們不得不強調,對LLM 進行評估還是非常難的。

接著,Chip Huyen 列舉了模型優化、壓縮技術:

量化:迄今為止最通用的模型優化方法。量化使用更少的位來表示參數,從而達到減小模型大小的目的,例如,有人將32 位的浮點數改為16 位,甚至是4 位的浮點表示; 知識蒸餾:一種訓練小模型(學生)模仿較大模型或模型集合(教師)的方法; 低秩分解:關鍵思想是用低維張量替換高維張量以減少參數數量。例如用戶可以將3×3 張量分解為3×1 和1×3 張量的乘積,這樣只有6 個參數,而不是9 個; 剪枝。

以上這四種方法仍然很流行,例如用知識蒸餾訓練Alpaca,QLoRA 將低秩分解和量化結合起來。

5. 設計一種新的模型架構

自2012 年AlexNet 發布以來,包括LSTM、seq2seq 在內的許多架構開始變得流行,然後又變得過時。與此不同的是,Transformer 的粘性令人難以置信。它從2017 年就已經出現了,直到現在還被廣泛使用。這種架構還能流行多久我們難以估計。

然而,開發一種全新的架構來超越Transformer 並不容易。過去6 年裡,研究者對Transformer 進行了大量優化。除了模型架構,還包括硬件層面的優化。

美國計算機科學家Chris Ré 領導的實驗室在2021 年圍繞S4 進行了很多研究,可參考論文《Efficiently Modeling Long Sequences with Structured State Spaces》了解更多內容。此外,Chris Ré 實驗室還大力投資開發新架構,他們最近與初創公司Together 合作開發了Monarch Mixer 架構。

他們的關鍵思想是,對於現有的Transformer 架構,注意力的複雜度是序列長度的二次方,而MLP 的複雜度是模型維度的二次方,複雜度低的架構會更加高效。

6. 開發GPU 替代品

自2012 年AlexNet 發布以來,GPU 一直佔據深度學習的主導地位。事實上,AlexNet 之所以受歡迎的一個公認原因是它是第一篇成功使用GPU 訓練神經網絡的論文。在GPU 出現之前,如果你想訓練AlexNet 這種規模的模型,必須使用數千個CPU,而GPU 幾個就能搞定。

過去十年中,無論是大公司還是初創公司,都嘗試為人工智能創建新的硬件。最具代表性的包括但不限於Google 的TPU、Graphcore 的IPU 以及AI 芯片公司Cerebras。此外,人工智能芯片初創公司SambaNova 籌集了超過10 億美元來開發新的人工智能芯片。

另一個令人興奮的方向是光子芯片,其使用光子來移動數據,因而能進行更快、更高效的計算。該領域的多家初創公司已籌集了數億美元,包括Lightmatter(2.7 億美元)、Ayar Labs(2.2 億美元)、Lightelligence(2 億美元以上)和Luminous Compute(1.15 億美元)。

以下是光子矩陣計算中三種主要方法的進展時間表,摘自《Photonic matrix multiplication lights up photonic accelerator and beyond》論文。這三種方法分別是平面光轉換(PLC)、馬赫-曾德爾干涉儀(MZI)和波分複用技術(WDM)。

7. 讓智能體變得更可用

智能體是可以採取行動的LLM,如瀏覽互聯網、發送電子郵件、預訂房間等。與本文中的其他研究方向相比,這個方向出現的比較晚,對大家來說非常的新。

正是由於其新穎性和巨大的潛力,大家對智能體有著狂熱的痴迷。 Auto-GPT 目前在GitHub 最受歡迎的項目中排名第25 位。 GPT-Engineering 是另一個非常熱門的項目。

這雖然令人期待又興奮,但LLM 是否足夠可靠、性能是否足夠高以被賦予行動的權利,這依舊是存疑的。

不過,已經出現的一個應用案例,將智能體應用於社會研究,前段時間斯坦福開源的「虛擬小鎮」 Smallville,25 個AI 智能體在小鎮上生活,他們有工作,會八卦,能組織社交,結交新朋友,甚至舉辦情人節派對,每個「小鎮居民」都有獨特的個性和背景故事。

更多詳細內容,請參閱以下論文。

論文地址:https://arxiv.org/pdf/2304.03442.pdf

該領域最著名的初創公司可能是Adept,它由兩位Transformer 的合著者和一位前OpenAI 副總裁創立,迄今已融資近5 億美元。去年,他們做了一個demo,展示他們的智能體如何瀏覽互聯網並向Salesforce 添加一個新賬戶。

,時長03:30

8. 從人類偏好中改進學習

RLHF,即從人類偏好出發的強化學習。如果人們能找到其他方法來訓練LLM,也不會讓人感到驚訝,畢竟RLHF 還有很多問題有待解決。 Chip Huyen 羅列了以下3 點。

如何用數學方法表示人類偏好?

目前,人類偏好是通過比較來確定的:人類標註者確定響應A 是否比響應B 更好,但並不考慮響應A 比響應B 好多少。

人類的偏好是什麼?

Anthropic 沿著三個坐標軸測量他們模型的響應質量,分別是有用、誠實和無害。

論文地址:https://arxiv.org/abs/2212.08073

DeepMind 也試圖產生讓大多數人滿意的響應。請參見下面這篇論文。

論文地址:https://arxiv.org/abs/2211.15006

但需要明確的是,我們想要一個可以表明立場的AI,還是一個迴避任何潛在爭議話題的普通AI ?

誰的偏好才是「人」的偏好?

考慮到文化、宗教等方面的差異,要獲得能充分代表所有潛在用戶的訓練數據,存在很多挑戰。

例如,在OpenAI 的InstructGPT 數據中,打標籤的人員主要是菲律賓人和孟加拉人,由於地域的差異,可能帶來一定偏差。

圖源:https://arxiv.org/abs/2203.02155

研究社區也在為此進行努力,但數據偏差依然存在。例如,在統計對OpenAssistant 數據集的人員分佈中,222 位受訪者中有201 位(90.5%)是男性。

9. 提高聊天界面的效率

自ChatGPT 以來,關於聊天是否適合各種任務的討論不絕於耳。例如以下的這些討論:

自然語言是懶惰的用戶界面https://austinhenley.com/blog/naturallanguageui.html 為什麼聊天機器人不是未來:https://wattenberger.com/thoughts/boo-chatbots 什麼類型的問題需要對話才能回答? https://arxiv.org/abs/2303.17710 AI 聊天界面可能成為閱讀文檔的主要用戶界面:https://idratherbewriting.com/blog/ai-chat-interfaces-are-the-new-user-interface-for -docs 用最少的聊天與LLM 交互:https://eugeneyan.com/writing/llm-ux/

然而,這些討論並不是最近才開始的。許多國家,尤其是亞洲,聊天作為超級應用程序的界面已經使用了大約十年。

聊天作為中文應用程序的通用界面

2016 年,當許多人認為應用程序已死、聊天機器人將成為未來時,討論再次變得緊張起來:

關於聊天界面:https://acroll.medium.com/on-chat-as-interface-92a68d2bf854 聊天機器人趨勢是一個巨大的誤解嗎:https://www.technologyreview.com/2016/04/25/8510 /is-the-chatbot-trend-one-big-misunderstanding/ 機器人不會取代應用程序,更好的應用程序將取代應用程序:http://dangrover.com/blog/2016/04/20/bots- wont-replace-apps.html

Chip Huyen 表示自己非常喜歡聊天界面,原因如下:

聊天是一種人人都能快速學會使用的界面,即使是以前沒有接觸過電腦或互聯網的人也能使用。聊天界面沒什麼障礙,即使手忙腳亂的時候,也可以用語音代替文字。聊天也是一個非常強大的界面,你可以向它提出任何請求,即使回复並不好,但它都會給予回复。

不過,Chip Huyen 認為聊天界面在某些方面還有待改進。他有以下這些建議

1. 每回合多條信息

目前,人們幾乎認為每輪只能發送一條信息。但現實生活中人們並不是這樣發短信的。通常,需要多條信息才能完成個人的想法,因為在這過程中需要插入不同的數據(如圖片、位置、鏈接),用戶在之前的信息中可能遺漏了一些東西,或者只是不想把所有東西都寫進一大段話裡。

2. 多模態輸入

在多模態應用領域,大部分精力都花在建立更好的模型上,而很少花在建立更好的界面上。以Nvidia 的NeVA 聊天機器人為例,這可能有改進用戶體驗的空間。

地址:https://catalog.ngc.nvidia.com/orgs/nvidia/teams/playground/models/neva

3. 將生成式AI 納入工作流程

Linus Lee 在他的演講「聊天之外的人工智能生成界面」中很好地闡述了這一點。例如,如果你想就正在處理的K線走勢圖中的某一列提問,你應該可以直接指向該列並提問。

視頻地址:https://www.youtube.com/watch?v=rd-J3hmycQs

4. 編輯和刪除信息

編輯或刪除用戶輸入會如何改變與聊天機器人的對話流程,這值得我們思考。

10. 為非英語語言構建LLM

目前以英語為第一語言的LLM 在性能、延遲和速度方面都不能很好地適用於其他語言。相關內容可以閱讀以下文章:

論文地址:https://arxiv.org/abs/2304.05613

文章地址:https://blog.yenniejun.com/p/all-languages-are-not-created-tokenized

Chip Huyen 表示,本文的幾位早期讀者告訴他,他們認為不應該把這個方向包括進來,原因有兩個。

1. 這與其說是一個研究問題,不如說是一個後勤(logistics)問題。我們已經知道如何去做,只是需要有人投入資金和精力,其實這並不完全正確。大多數語言都被認為是低資源語言,例如,與英語或中文相比,它們的高質量數據要少得多,因此可能需要不同的技術來訓練大型語言模型。參見以下文章:

論文地址:https://arxiv.org/abs/2006.07264

論文地址:https://aclanthology.org/P19-1310/

2. 比較悲觀的人會認為,將來很多語言會消亡,未來互聯網將有兩種語言組成:英語和漢語。

AI 工具對於語言學習的影響尚不明確,比如機器翻譯和聊天機器人。它們能夠幫助人們更快地學習新語言,還是會完全消除學習新語言的需要,這暫時不得而知。

總結

本文中提到的問題也有難度差別,例如最後一個問題,如果能夠頭如足夠的資源和時間,為非英語語言建構LLM 是可以實現的。

其中第一個問題是減少幻覺,這將會難的多,因為幻覺只是LLM 在做概率的事情。

第四個問題是使LLM 更快更便宜,而這一點不會完全解決。在這一領域已經取得了一些進展,未來還會有更多的進展,但我們永遠也沒有辦法改進到完美。

第五個和第六個問題是新架構和新硬件,這是非常具有挑戰性的,但是隨著時間的推移,這件事不可避免。由於架構與硬件之間的共生關係,即新的架構需要針對通用硬件進行優化,而硬件需要支持通用架構,這使該問題可能由同一家公司來解決。

還有一些問題僅靠技術知識是無法解決的。例如第八個問題改進從人類偏好中學習的方法,這可能更多是一個政策問題,而非技術問題。再說到第九個問題提高界面效率,這更像是用戶體驗問題,需要更多具有非技術背景的人員一起來解決這個問題。

如果你還想從其他角度來看看這些問題,Chip Huyen 推薦大家閱讀下面這篇論文。

論文地址:https://arxiv.org/abs/2307.10169

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts