本文測試比較了五個主要平台(ChatGPT、Claude、Gemini、Huggingface和Mistral AI),評估其在創建AI代理方面的易用性和結果品質。 AI代理可以處理資訊檢索、程式碼編寫等任務,適用於不同場景。測試發現,ChatGPT在複雜需求轉化為功能性代理時表現出色,得分最高(8.5/10),適合新手和有經驗用戶。 Gemini和Huggingface也表現較好,而Claude和Mistral AI在結果品質和使用者易用性上相對較低。最終結果表明,沒有一個通用平台,各具優缺點。
哪個平台能打造最佳AI代理?我們測試了ChatGPT、Claude、Gemini及其他平台
對比五個主要領先平台,揭曉哪個最適合在日常場景中託管你的未來AI代理。
AI代理可以實現很多事情:從你的文件庫中搜尋資訊、編寫程式碼、抓取網頁數據,到對複雜數據進行洞察和深度分析,甚至更多。你可以創建一個虛擬辦公室,由一群人中心化於不同任務的人工智慧代理商組成,就像專業的數位員工團隊一樣和諧地工作。
但這有多難?如果一個普通人最終想打造自己的人工智慧金融顧問,例如,不依賴API、不需要查詢的編碼、不用Github,哪個平台為穩定用戶提供最佳支援?讓我們來看看這些頂尖AI公司在幫助一般用戶創建AI代理方面的表現方式,並消耗用戶具備超高的技術技能。
當然,你後悔多少就得到多少。在這種情況下,我們也想看看普通人設定一個代理程式的難易度與每個平台交付結果的品質之間是否存在關聯。
我們的實驗將在五個大平台上進行比較:ChatGPT、Claude、Huggingface、Mistral AI 和Gemini。每個平台都接受相同的基本指令,要求創建一個財務顧問。
測試中心化於平台的開箱即用能力。重點採取行動能否解決一個常見的情況——在這種情況下,幫助某人平衡25,000 美元的投資與30,000 美元的財務。我們也想看看他們的分析交易K線走勢圖的能力。我們避免使用額外的工具來提高代理的生產力,而是嘗試採取最簡單的方法。
總之,以下是我們的發現和模型排名:
平台排名1)OpenAI的GPT(8.5/10) 設定難易度:4/5 結果品質:4.5/5
ChatGPT是最均衡的平台,提供複雜的代理創建選項,同時具有引導式和手動選項,能夠完全滿足新手和有一定經驗的用戶的需求。
儘管最近的介面更新將一些功能隱藏在選單中,但該平台在將複雜的用戶需求轉化為功能性代理方面表現出色。我們透過建立一個財務顧問來測試該模型,結果顯示該代理人具有出色的背景意識和建構問題解決能力,為債務管理和投資分配提供了詳細且連貫的策略。
2) 谷歌雙子座(7/10) 設定難易度:4/5 結果品質:3/5
雙子座憑藉其精緻、細緻的介面和出色的錯誤處理模具。雖然需要更詳細的提示才能獲得最佳結果,但它對指令的字面解釋創造了一致且可預測的結果。
該代理在提供財務建議時的諮詢方式強調了在推薦之前收集上下文,並建立專業實踐。然而,它在零樣本回應中可能會進行保存。
3) 擁抱聊天(6.5/10) 設定難易度:2/5 結果品質:4.5/5
這個開源平台提供了無與倫比的客製化和模型選擇選項。 對於那些追求對每個細節擁有粒度控制的人來說,這是一個非常好的選擇,但對於那些追求更高的用戶來說,可能並不好。 (可以把它比喻成Linux系統與macOS系統的比較)。其複雜的時間框架和實用的工具整合展示了其先進的能力。
我們建立了一個純粹的代理,沒有任何額外的功能。我們使用了Nvidia 的Nemomotron 作為基礎大語言模型,其輸出品質足以與ChatGPT 相媲美。對於開源叢集來說,不錯。
4)克勞德(5.5/10) 設定難易度:2.5/5 結果品質:3/5
Anthropic的平台特定領域表現出色,尤其是在需要大量情境處理和程式碼解析的任務中。其簡潔的介面忽略了其複雜的能力,但「任選」指令欄位可能會讓使用者感到困惑。
我們的代理人在提供建議時非常保守且模糊,但展示了良好的風險意識和策略思維。它需要更仔細的提示才能真正發揮其潛力,但如果測試採用了服裝提示,這將類似於類似的情況的前提,因此並不公平。
5) 米斯特拉爾人工智慧(5/10)
設定難易度:2.5/5
結果品質:2.5/5
法國這個平台提供了獨特的基於範例的學習和深度自訂選項。然而,其面向開發者的介面和偶爾的語言切換問題為非技術用戶造成了障礙。它還需要修改代理程式的配置,以適應不同的模型執行諸如分析或影像處理程式碼等不同的任務。這並不理想。
顧問在互動設計方面表現出了潛力,但在基本的數學驗證上遇到了困難,輸出結果最差。不是說產出不好,而是在財務零樣本測試中,是最不令人滿意的。
深入分析
考慮到先前的排名,沒有一個通用的解決方案,所有平台都有各自的優點。透過一些專注和細心的提示定制,某些平台的結果可能會有所不同,甚至超越其他平台。最終,所有的語言模型(LLM)都有各自不同的提示風格。
如果您想了解更多關於我們排名背後的原因,以下是我們對經驗和代理結果的更深入的分析。我們將所有代理商配置為相同的系統提示,沒有額外的參數和功能,並詢問它們相同的基本問題:“我有25K 美元的投資,並且有30K 美元的債務。為我制定了一個財務計劃。”
開放人工智慧
ChatGPT的介面最近進行了隱藏更新,實際上使操作變得更加複雜。 GPT創建選項現在在菜單中,但一旦找到,它提供了兩種路徑:一種是對話式設置,AI幫助構建你的代理;另一種是手動配置,適合那些有意知道自己想要什麼的人。
OpenAI 的GPT 平台是一個功能齊全的「瑞士軍刀」——它能夠讀取程式碼、搜尋網頁、處理圖像生成和分析。 AI 引導的設定過程特別適合新手,儘管對於需要精細控制的高級用戶來說,可能會感覺有些限制。 (例如,如果你要求模型更詳細或具體,它可能會改變整個系統提示,從而導致結果變差。)
在實際使用代理時,ChatGPT非常直接,介面清晰且易於理解。
這些代理可以讀取文件並理解圖像,這使得它們在其他平台中具有一定的優勢。
現在,來談談透過基本提示可以創建代理品質。我們創立的金融顧問MoneyGPT 為我們展示了一個格式化問題解決碩士價格,表現相當令人印象深刻。
除了其準確的資金分配——「20,000美元用於高利債務」以及詳細的投資組合拆分——該代理商還展示了複雜的財務推理。它提供了一個五步驟的路線圖,而不僅僅是一個清單,而是一個連貫的策略,考慮到短期需求和長期規劃。
該代理的優勢相當於能夠平衡細節和上下文。雖然它推薦了具體的投資組合(40%投資於S&P 500,30%投資於債券),但它也解釋了推薦的背後理由:「電解質高利債務就像是獲得有保證的投資回報。」這種情境意識延伸到了長期規劃,建議定期審查週期,並根據變化的情況調整策略。
然而,這種資訊的豐富性也暴露了一個潛在的缺陷:可能會導致同時提供過多的細節而讓使用者感到不知所措。雖然從技術上講,它非常全面,但快速傳遞的具體分配、投資策略和監控計劃,對金融新手來說可能有些浮動令人生畏。
總體來說,Google 的Gemini 代理創建平台在美觀上,擁有一個精緻、精緻的介面,使得代理創建過程幾乎過於簡單。系統對指令的字面解讀有助於避免混亂,其簡潔的使用者介面也消除了人工智慧開發中的壓迫感。
然而,要獲得高品質的結果,就需要更詳細的提示。它不會理所當然地處理事情:簡短的提示會給予低品質的答案。
在後台,它擁有強大的功能——Google支援的網頁搜尋整合、程式碼分析和圖像處理能力,堪比ChatGPT的功能,但大部分都依賴微軟的技術。
雙子座的使用者介面感覺是由真正理解使用者體驗的人設計的。介面透過語音標籤引導使用者一切,訊息在螢幕上顯示。
這種精緻的方式特別吸引新手用戶,儘管有經驗的用戶可能會覺得它缺乏更方便的控制。
我們將我們的代理商命名為MoneyGem,並要求它提供財務計劃。它的諮詢方法展示了Google 獨特的問題解決方法。它沒有直接給出答案,而是先問了「這是什麼類型」的債務? 」和「你的利率是多少? 」等問題——顯示它理解財務建議並非千篇一律。
它在強調收集背景資訊之前提供建議,這與專業的財務規劃實踐一致,儘管這可能會讓尋求快速答案的用戶感到沮喪。
零射擊回答並不有用。代理商基本上表示它不了解用戶,無法提供良好的財務建議。在要求它做出假設並假設它提供適合大多數場景的計劃後,代理人產生了一個非常有用的建議的計劃草案,但沒有提供具體的投資建議。
然而,MoneyGem 最後給出了一個建議,即增加稅收收入帳戶,例如401(k) 或Roth IRA,以減少稅收負擔。
您可以點擊這裡查看我們與MoneyGem 的互動,並透過點擊這個連結獨家昂貴的模型。
米斯特拉爾人工智慧
Mistral 的代理配置過程有點複雜,遠離了簡單性。在其開發者控制台中隱藏代理創建工具,具有深度自訂選項,可能會讓新手感到困惑,這會讓用戶感到興奮。
其代理程式建置介面不是LeChat(聊天介面)的一部分,但一旦代理程式建立完成,它就會出現在那裡。
我們非常喜歡的一點是,能夠透過範例輸入塑造代理的行為和回應風格,這是目前其他平台沒有提供的功能。但是,這裡有一個奇怪的錯誤:在創建代理時,UI突然切換到了法語,可能是因為公司是法國的。無論如何,我們無法切換成英語或西班牙語。
一旦代理完成,用戶必須在正常的聊天介面中調用它才能使用。使用者需要退出Le Platform,進入Le Chat,這不是最費心思的操作創作。不過,使用代理的UI相當直接,感覺就像其他AI聊天機器人一樣。
我們創建了我們的代理,將其命名為Le Money,以致敬米斯特拉爾的法國根基。其表現清晰地展示了米斯特拉爾在問題解決上的通用方法。它建議“將10,000 美元留作應急資金,15,000 美元對於債務危機,10,000美元用於投資”,皮膚直白,但也表明該代表缺乏一些基本的數學驗證。
35,000 美元的概念考慮超出了可用資金10,000 美元,這是一個基本錯誤,某些語言模型在優先正確性分數準確性時可能會出現這樣的錯誤。
然而,我們必須指出,表現最好的LLM已經有了很大的改進,不會有這樣的錯誤──至少沒有像Mistral那樣的Close。
另外,Le Money的計劃並不是很詳細,但它是唯一提供後續問題的代理,這些問題可以使互動更加流暢,並幫助它更好地理解用戶的需求。
LeMoney的完整計劃可以在這裡查看,代理可以在這裡進行測試。
人擇
克勞德的專案給人的感覺不是一個代理創建平台,而是一個複雜的任務執行系統。介面簡約,幾乎簡約,簡約不太仔細。
這種極簡主義的介面可能會讓一些用戶感到困惑。平台提供了一個基本的設置,並有一個「可選」的指令字段,感覺既不重要又關鍵:如果指令被標記為可選,那麼AI代理如何知道它應該做什麼?
其極簡主義的介面感覺有些奇怪,但Anthropic一直以來並不順利UI設計聞名。配置模型的同一個視窗也是用來向其發布提示的。其功能主要中心化在文字代碼閱讀上,除此之外部沒有其他功能。網路搜尋、影像處理和生成是Anthropic 驅動旗艦的高級功能。
我們的代理,命名為MoneyClaude,無法公開測試,因為人類允許。它在提供財務建議時採取了非常保守的立場,雖然在技術上的回應是準確的,但內容卻非常模糊——例如,「在減少債務和必要性之間保持平衡」等。
它請求了更多的信息,但至少在沒有這些信息的情況下,提供了一個非常通用的策略,從而引出進一步的交互,這似乎比Google 的方法更接近理想。
抱臉
這個開源平台獨樹一幟,是高級用戶的——也是初學者的潛在天堂。它是唯一允許使用者選擇自己喜歡的語言模型的平台,提供外部的控制權來定義代理的基礎。
另外,用戶可以將不同的工具整合到他們的代理中,但每次只能同時啟動三個。這種限制是為了使用者仔細考慮每個特定某個最重要的功能,但這是任何其他模型都無法實現的提供的。
它是所有介面中最具可自訂性的體驗,擁有許多可調節的設定。結果是,這個平台可以打造出比競爭對手更強大、更專業的代理,但只有在完全了解操作的人手中才能成功。
用戶可以在HuggingChat 上嘗試他們的代理——無疑是高級用戶的夢想。一旦創建了代理,使用起來就非常簡單。介面顯示了一個包含代理名稱、描述和照片的大選項。它還允許用戶分享代理的連結並調整其設置,所有這些都可以在相應上直接完成。
將我們的HuggingMoney代理投入測試後,我們發現它處理時間框架的實施方式對財務規劃心理學的更深入理解。將規劃分為“短期(0-24個月)、中期(24-60個)”月)和長期(超過60個月)”,這與專業的財務規劃實踐相符。
代理將建議“$0-$5,000投資於流動性強、低風險的工具”,同時保持每月“$1,000-$1,500”的積極債務支付。這項建議乍一看,顯示了對叢林管理的重視。
另一個有趣的特點是,它將實用工具與理論建議結合。除了建議50/30/20法則外,還推薦了具體的預算應用程序,並強調了稅收優化——在高層戰略和日常執行之主要問題是在沒有尋求確認的情況下對債務利率做出了假設。
為了提供有用的建議,它過於輕率地假設了許多事情。這個問題,即無論如何都想提供回應的刺激,可以透過更準確的提示來解決,但這是需要注意的。
資訊來源:0x資訊編譯自網際網路。版權歸作者Jose Antonio Lanz所有,未經許可,不得轉載