根據站長之家12 月4 日報道,微軟研究人員展示了GPT-4 在醫學知識測試中的卓越表現,特別是當結合先進的提示工程技術時,其性能超過了專業調整的MedPaLM2。研究結果顯示,相較於費時費力的調優和模型訓練,將更有效的提示工程應用於主流通用模型可能是實現更準確結果的更好途徑。 Medprompt 方法採用了多種提示工程技術,包括GPT-4 產生的思維鏈推理和產生多個單獨評分的回答,然後將最高分的答案回傳給使用者。儘管這種方法會增加推理的成本,因為產生了更多的標記,但結果表明,將領先的通用模型(如GPT-4)與高級提示工程技術相結合,以評估最新性能的標準,可能是值得考慮的。研究強調GPT-4 產生的思考鏈推理相對於專家手工製作的Med-PaLM2 提示更為優越,因為它提供了更精細的逐步推理邏輯。但研究也指出,這個結論是特定於GPT-4 的,而不適用於其他通用基礎模型。