人工智能成為得力的“旅遊搭子”?可能還需多方面提升


來源:人民數據微信公眾號,作者:人民數據研究院研究員馬綺霞、王簡

圖片來源:由無界AI工俱生成

八月時值旅遊高峰期,人們通常會通過多種渠道了解旅遊攻略,並在旅行過程中尋求景點知識講解服務。人工智能生成內容(簡稱:AIGC)作為一種新興技術,能否讓旅遊規劃和服務更加便捷智能化,值得我們關注。

人民數據研究院圍繞文心一言、訊飛星火、ChatGPT和360智腦[1]四個通用AIGC平台,從目標選擇、行程規劃、講解服務三大維度評估大語言模型在旅遊領域的答題質量,發現遊客利用AIGC平台解決出行難題、便捷獲取服務的能力和改進的可能。

測評發現

·四個平台整體表現良好,文心一言綜合能力在四者中最優。

·國內大模型的事實性回答能力優於國外模型。

·隨著限定條件的增加,行程規劃表現更好。

·國產大模型在旅遊講解服務中完成度更好。

AIGC助力旅遊目標選擇,各平台表現參差不齊

表:AIGC平台在旅遊目標選擇方面的表現結果

旅行中,我們常常面臨著許多選擇,每一次選擇都能為旅行增添不同的樂趣和體驗。測評基於事實性回答和開放性回答綜合考察了各AIGC平台對於地點、景點、美食、住宿和文創的推薦能力。整體來看,文心一言表現最優,對於給定條件的事實性問答和開放性問答均可以準確理解題意做出合理的目標推薦;其次是訊飛星火和ChatGPT,訊飛星火在事實問題上回答準確率較高,ChatGPT則更擅長回答較為開放性的問題;360智腦在各方面還有一定的提升空間。

圖:四平台在不同目標選擇下的表現情況

從地點推薦看,各平台均能根據限定條件推薦旅行目的地。 ChatGPT和訊飛星火推薦的地點更受大眾歡迎;文心一言綜合分析給定的Compound條件提供了合理的推薦建議;360智腦可以做出回答,但在解釋說明上有待豐富。

從景點推薦看,部分平台的事實性問題回答能力凸顯,展現了它們對國內的情況了解程度相對更高。關於“北京5A級景區”“北京小藏區”等事實性問題回答,文心一言和科大訊飛提供了準確的答案並拓展介紹;ChatGPT和360智腦關於“北京小藏區”不能準確回答;此外,360智腦關於“北京5A景區”的作答不夠完整。

從美食推薦看,各平台基本能提出相對令人滿意的建議。文心一言和ChatGPT不僅能推薦美食,還從原材料、做法、口感等方面補充說明;科大訊飛和360智腦可根據題意做出解答,但回答的完整度和拓展能力與另外兩個平台有一定差距。

從住宿推薦看,酒店基礎信息及配套設施更新略有滯後。文心一言可以明確列出酒店的名稱、地址、價格等信息,但部分酒店在頭部旅行APP中未能找到,考慮是AIGC平台提供的信息滯後;ChatGPT在開放性回答中未提供明確的酒店信息,且在給定具體酒店名稱詢問配套設施時,表示其知識截止日期是2021年9月,無法反饋最新的設施信息;科大訊飛未理解酒店“限定價格”的條件,360智腦則出現編造酒店內容的現象。

從文創推薦看,特色產品推薦能力稍弱,回答全面性有待提升。在回答“北京國風文創”時,文心一言和ChatGPT推薦的內容較為籠統,從“國風文具”“傳統剪紙”“國畫作品”等不具有地域特色的方面作答。訊飛星火和360智腦在提供特色產品能力上優於上述兩個平台,推薦了例如故宮、頤和園等具有代表性的文創產品,但不夠全面。

AIGC表現兩極分化,限制條件越多規劃質量越高

表:AIGC平台在旅遊行程規劃方面的表現結果

旅遊行業垂直媒體勁旅網撰文表示,“統計數據顯示,他們每一次旅遊決策,需要翻看數十篇旅行攻略和數百款旅遊產品,平均消耗11天9小時37分鐘,這還不包括超過60 %的旅行者大費周章後無功而返。”[2]旅游過程中,耗時且更為核心的是對具體行程的規劃和拆解活動。 AIGC平台具備對互聯網海量文本資訊內容的學習理解能力,其對目的地旅遊信息和相關費用的拆解整合是行程規劃的測試重點。測評結果顯示,文心一言和ChatGPT表現優異,基本能提出可行性較強且綜合考慮各種限制條件的結果;訊飛星火和360智腦則略遜一籌,無法完全準確理解規劃行程中的限制條件。

一般來說,旅行是在特定時間範圍、費用預算、期待地點等限制條件下進行的一項規劃活動,其中限制條件越多,規劃難度也相應越大。本次測評選擇“假期3天”“預算1000元”和“故宮和北京野生動物園是必須要去的景點”這三個限制條件,規定行程為河北石家莊到北京,需要明確列出每日的交通費、住宿費、景點票價等費用分解情況。

圖:4平台在不同限制條件數量下表現情況

結果發現,隨著限定條件的增加,行程規劃表現更好。分析其中原因,可能是語言模型在處理連續相似問題時,學習能力逐步提高。平台一般默認對同一問題的多次詢問,代表對之前回答結果的不滿意,所以就行程規劃而言,逐次增加限制條件可激發平台更多回答能力。

文心一言所體現出的規劃能力是最強的,能在正確理解限制條件之外,給出景點介紹、旅行提示、費用項目拆解的全套答案;ChatGPT在做到基本理解限制條件時,無法納入返程車票和住宿費到費用總和;360智腦和訊飛星火或多或少無法理解限制條件,並在每日費用拆解上有所欠缺。

AIGC講解助力研學體驗,國產大模型應用適配度高

表:AIGC平台在旅遊講解服務方面的表現結果

2016年教育部等11部門聯合印發的《關於推進中小學生研學旅行的意見》指出,“各中小學要結合當地實際,把研學旅行納入學校教育教學計劃,與綜合實踐活動價格統籌考慮”。時值暑期,各地學生將旅遊與研學自發結合,報名參與以研學為主題的旅行項目。 AIGC平台的出現,豐富了小遊客們前往景點學習知識的參與形式和整體體驗,本次測評從內容介紹和知識問答兩類問題入手,分析評判各語言模型處理開放性問題和檢索準確信息的能力。

綜合來說,國產大模型在旅遊講解服務完成度更好,尤其是文心一言和訊飛星火,在開放性問題和準確信息兩層都表現良好,360智腦則在生成內容數量、引用資料方面有較大的提升空間。而使用外語作為訓練語料的ChatGPT則在回答開放性問題時表現穩定,但對於知識性問題則存在“顧左右而言他”的現象,也就是無法準確理解問題或無法給出準確答案。

出行服務信息繁雜,AIGC助力旅遊行業升級

7月17日,攜程發布首個旅遊行業垂直大模型“攜程問道”,消息一出引起社會各界的關注。目前該模型還處於內測階段,它能否打造旅遊業的“可靠答案庫”,還需要拭目以待。對於通用的AIGC平台在垂直領域的能力,大家也充滿期待。就此,人民數據研究院提出以下建議:

1. 保證AIGC信息及時更新,提升作答可靠性

AIGC平台一定程度上為遊客提供了便捷的出行解決方案,但仍需及時更新數據和信息,包括酒店的經營狀況、設施條件、景點門票信息、是否開放等,避免提供“過期信息”,為遊客提供更為可靠的出行規劃和更好的服務體驗。

2. 強化AIGC知識問答能力,提升作答準確度

本次測評中發現大模型關於事實問答表現較為良好,但準確度不甚滿意。在研學活動中,提供準確和可靠的知識內容至關重要,直接關係到小遊客的研學質量和體驗,各模型還需使用可靠、權威的數據源來訓練模型,確保提供可信答案。

[1]版本號:ChatGPT-3.5 版本:July 20;文心一言版本:V2.2.0;訊飛星火版本:V1.5;360智腦版本:4.0

[2]《從旅遊垂直行業首個大模型,看AIGC如何影響旅遊消費決策》,勁旅網

http://www.btiii.com/html/2023-07-21/13776425.html#PPN=tournews

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts