別用GPT-4直出文本摘要MIT、哥大等發布全新「密度鏈」提示:實體密度是摘要品質的關鍵


原文來源:新智元

圖片來源:由無界AI生成

ChatGPT發布後,文本生成技術得到飛速發展,大量NLP任務都面臨被完全攻克的窘境,尤其是對於缺乏標準答案的「文本摘要」任務來說更是如此。

但如何在摘要中包含「合理的資訊量」仍然十分困難:一個好的摘要應該是詳細的,以實體為中心的,而非實體密集且難以理解。

為了更好地理解資訊量和可理解性之間的權衡,麻省理工學院、哥倫比亞大學等機構的研究人員提出了一個全新的「密度鏈」(Chain of Dense)提示,可以在不增加摘要文本長度的前提下,GPT-4產生的實體稀疏(entity-sparse)摘要進行迭代優化,逐步加入缺少的重要實體。

論文連結:https://arxiv.org/pdf/2309.04269.pdf

開源資料:https://huggingface.co/datasets/griffin/chain_of_density

從實驗結果來看,用CoD產生的摘要比由普通提示產生的GPT-4摘要更抽象(abstractive),表現出更多的融合(fusion)以及更少的lead bias

在對100篇CNN DailyMail文章進行人類偏好研究後可以發現,人類也更傾向於選擇實體更密集的摘要結果,與人工編寫摘要的實體密度相近。

研究人員開源了500篇標註的CoD摘要,以及5000篇無標註的摘要資料。

迭代改進文本摘要

提示(Prompt)

任務目標是使用GPT-4產生一組具有「不同資訊密度等級」的摘要,同時也要控製文字的長度。

研究人員提出密度鏈(CoD,Chain of Density)提示來產生一個初始摘要,並逐漸使實體密度越來越大。

具體來說,在固定的迭代輪數下,識別出來源文本中一組獨特的、顯著的實體,並整合到先前的摘要中而不增加文字長度。

首次產生的摘要是實體稀疏的,只關注1-3個初始實體;為了保持相同的文本長度,同時增加涵蓋的實體數量,需要明確鼓勵抽象(abstraction)、融合(fusion)和壓縮(compression),而不是從先前的摘要中刪除有意義的內容。

研究人員沒有規定實體的類型,而是簡單地將缺失實體(Missing Entity)定義為:

相關(Relevant):與主體故事相關;

具體(Specific):描述性但簡潔扼要(5個字或以下);

新穎(Novel):沒有出現在先前的摘要中;

忠實(Faithful):存在於原文中;

任何地方(Anywhere):可以出現在文章中的任意位置。

在資料選擇上,研究者從CNN/DailyMail摘要測試中心化隨機抽取100篇文章來產生CoD摘要。

然後將CoD摘要統計數據與人工編寫的條目(bullet-point)風格的參考摘要以及GPT-4在常規提示下生成的摘要進行對比,其中提示詞為“寫一篇非常簡短的文章摘要,不超過70個字」(Write a VERY short summary of the Article. Do not exceed 70 words)。

預期token長度設定為與CoD摘要的token長度相符。

統計結果

直接統計指標

使用NLTK計算token數量,使用Spacy2測量獨特的實體數量,並計算實體密度比率。

CoD提示很大程度上限制了生成摘要的預期token數量,可以看到,從第二步開始從冗長的初始摘要中逐漸刪除不必要的單詞,使得文本長度平均減少5個token(72到67) 。

實體密度也隨之上漲,最開始是0.089,低於人類和GPT-4的結果(分別為0.151和0.122),而在5步操作後密度上漲到0.167。

間接統計指標

使用抽取密度(extractive density,即抽取片段的平均長度的平方)來衡量文本的抽象性(abstractiveness),預期文本應該隨CoD的迭代進展而增加。

使用「摘要句子與來源文字對齊數量」作為概念融合(fusion)指標,其中對齊演算法使用「相對ROUGE增益」,將來源句子與目標句子對齊,直到額外添加的句子不會繼續提升相對ROUGE增益為止,預期融合應該逐漸增加。

使用「摘要內容在來源文字中的位置」作為內容分佈(Content Distribution)指標,具體測量方法為所有對齊來源句子的平均排序,預期CoD摘要最初表現出明顯的Lead Bias,後續逐漸開始從文章的中間和結尾部分引入實體。

統計結果也驗證了預期結果的正確性:抽象性隨著重寫過程逐漸增加、融合率上升、摘要開始納入文章中間和結尾的內容。

並且,所有CoD摘要都比手動編寫和基線模型生成的摘要更加抽象。

實驗結果

為了更好地理解CoD摘要的權衡,我們用GPT-4進行了一項基於偏好的人體研究和一項基於評級的評估。

人類偏好評估

研究者主要以評估緻密化(densification)對人類整體品質評估的影響。

具體來說,輸入100篇文章,可以得到「5個步驟*100=總計500個摘要」,向四位標註人員隨機展示摘要結果,並根據原文忠實度(Essence)、清晰性(Clarity)、準確性(Accuracy)、目的性(Purpose)、簡潔性(Concise)和風格(Style)對摘要進行評估。

從票選結果來看,第二個CoD步驟獲得了最高評價,再結合先前平均密度的實驗結果,可以大體推斷出人類更傾向於選擇實體密度約為15%的文本摘要,顯著高於GPT-4產生的摘要(實體密度0.122)。

自動評估指標

最近一些工作已經證明了GPT-4的評估與人類評估結果之間的相關性非常高,甚至有可能在部分標註任務上比眾包工作者的表現還要好。

作為人工評估的補充,研究人員提出使用GPT-4從5個方面對CoD摘要(1-5)進行評​​級:資訊量(Informative)、品質(Quality)、連貫性(Coherence)、歸因(Attributable)和整體性(Overall)。

使用的指令模版為:

Article: {{Article}}
Summary: {{Summary}}
Please rate the summary (1=worst to 5=best) with respect to {{Dimension}}.
{{Definition}}

其中各指標的定義為:

資訊量:資訊量豐富的摘要可以抓住文章中的重要訊息,並準確簡潔地呈現出來。 (An informative summary captures the important information in the article and presents it accurately and concisely.)

品質:高品質的摘要是可理解的。 (A high quality summary is comprehensible and understandable.)

連貫性:連貫一致的摘要結構嚴謹,組織有序。 (A coherent summary is well-structured and well-organized.)

歸因:摘要中的所有資訊是否完全歸因文章? (Is all the information in the

summary fully attributable to the Article?)

整體偏好:一個好的摘要應該以簡潔、邏輯和連貫的方式傳達文章的主要觀點。 (A good summary should convey the main ideas in the Article in a concise, logical, and coherent fashion.)

實驗結果表明,緻密化與資訊量相關,但得分在第4步時達到峰值(4.74);品質和連貫性的下跌更快;所有摘要均被視為歸因自源文章;總體得分傾向於更密集且更翔實的總結,第4步得分最高。平均而言,第一個和最後一個CoD步驟最不受青睞,而中間三個步驟很接近(分別為4.78、4.77和4.76)。

定性分析

摘要的連貫性/可讀性和資訊量之間在迭代的過程中需要權衡。

上面例子中展示了兩個CoD步驟,分別包含更細節的內容和更粗略的內容。

平均而言,中間步驟的CoD摘要可以更好地實現平衡,但如何精確定義和量化這種平衡目前還沒有工作。

參考資料:

https://the-decoder.com/chain-of-density-prompt-improves-ai-summaries-by-packing-more-info-into-fewer-words/

資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載

Total
0
Shares
Related Posts