根據站長之家10 月23 日報道,研究人員推出了一種新的視覺提示方法Set-of-Mark(SoM),它可以讓OpenAI 多模態大模型GPT-4V 在細粒度視覺任務上有更好的表現。 GPT-4V 是一種基於GPT-4 的多模態模型,可同時處理文字和圖像,並產生多種類型的輸出。 SoM 的核心思想是使用互動式分割模型(例如SAM)將影像劃分為不同粒度等級的區域,並在這些區域上添加一組標記(mark),例如字母數字、遮罩(mask)、方塊(box )。使用新增標記的影像作為輸入,以解決上述問題。研究人員認為,這種方法可以讓GPT-4V 更能理解影像中的物體和空間關係,並且可以利用GPT-4 V 的生成能力來產生文字以外的輸出,例如遮罩或框。