Odaily星球日報訊OpenAI 發布最新旗艦級模型GPT-4o,可以即時推理音頻、視覺和文本,主打概念為擬人化、超自然、超低時延的個人語音交互助理。根據OpenAI 官方網站及X 平台官方帳號相關信息,GPT4o 中的o 代表Omni(全面),是邁向更自然的人機交互的一步——它接受文本、音頻和圖像的任意組合作為輸入,並支持產生任意組合的文字、音訊和影像輸出。它可以在232 毫秒內響應音訊輸入,平均320 毫秒,與對話中人類反應時間相似。在英語和程式碼方面,它與GPT-4 Turbo 效能相當,在非英語語言文字上有顯著改進,同時API 速度更快且成本便宜50%。與現有模型相比,GPT-4o 在視覺和音訊理解方面表現特別出色。文字和圖像輸入將於今日在API 和ChatGPT 中推出,語音和視訊輸入將在未來幾週內推出。