OpenAI 的人工智能聊天機器人ChatGPT 似乎隨著時間的推移變得越來越糟糕,研究人員也無法找出原因。在7 月18 日的一項研究中,斯坦福大學和加州大學伯克利分校的研究人員發現,ChatGPT 的最新模型在幾個月內為一組相同問題提供準確答案的能力要差得多。
研究作者無法就人工智能聊天機器人的能力惡化的原因提供明確的答案。為了測試ChatGPT 不同模型的可靠性,研究人員Lingjiao Chen、Matei Zaharia 和James Zou 要求ChatGPT-3.5 和ChatGPT-4 模型解決一系列數學問題、回答敏感問題、編寫新代碼行以及根據線索進行空間推理。
研究顯示,ChatGPT-4 在3 月份能夠以97.6% 的準確率識別素數。在6 月份進行的同一測試中,GPT-4 的準確率下跌至僅為2.4%。相比之下,早期的GPT-3.5 模型在識別同一時期內的素數方面有所改進。
在生成新代碼行方面,這兩種模型的能力在3 月至6 月期間均顯著惡化。研究還發現,ChatGPT 對敏感問題的回應(其中有一些針對種族和性別的例子)後來變得更加簡潔,拒絕回答。
聊天機器人的先前迭代提供了為什麼某些敏感問題無法得到解答的廣泛推理。但到了6月,模特們只是簡單地向用戶道歉,並拒絕回應。研究人員寫道:
“同樣的行為 [grote taalmodel] 服務可能會在相對較短的時間內發生顯著變化。 ”
研究人員建議依賴法學碩士服務作為工作流程一部分的用戶和公司實施某種形式的監控分析,以確保聊天機器人保持最新狀態。
6 月6 日,OpenAI 宣布計劃創建一個團隊,幫助管理超級智能人工智能係統可能產生的風險,他們預計這種系統將在未來十年內出現。
資訊來源:由0x資訊編譯自CRYPTOBENELUX。版權歸作者Dennis Scheenjes所有,未經許可,不得轉載