研究:GoogleGemini 表現不如GPT-3.5 Turbo

根據站長之家12 月20 日報道,在近期的一項研究中,來自卡內基美隆大學和BerriAI 的研究團隊對Google Gemini Pro 進行了深入的評估,並發現其在多項任務中表現不如OpenAI 的GPT-3.5 Turbo。研究團隊在LiteLLM 平台上測試了四個不同的L​​LM:Google Gemini Pro、OpenAI GPT-3.5 Turbo、GPT-4 Turbo 和法國新創公司Mistral 最新推出的Mixtral 8x7B。測驗內容涵蓋了STEM、人文和社會科學領域的57 個多項選擇問題,以及一些與通用推理、數學和程式設計相關的任務。研究結果顯示,在多項選擇問題的測試中,Gemini Pro 的準確度低於GPT-3.5 Turbo 和GPT-4 Turbo。 Gemini Pro 在人類性、形式邏輯、初等數學和專業醫學等領域的表現較差,其中一部分原因是Gemini 在某些問題上拒絕回答,聲稱由於安全和內容限制無法遵循。但在安全和高中微經濟學等領域,Gemini Pro 的表現略優於GPT-3.5 Turbo,但進步有限。

Total
0
Shares
Related Posts