據《科創板日報》報導,阿里雲今日推出大規模視覺語言模型Qwen-VL,並對其直接開源。 Qwen-VL 以通義千問70 億參數模型Qwen-7B 為基座語言模型研發,支持圖文輸入。相較於此前的VL 模型,Qwen-VL 除了具備基本的圖文識別、描述、問答及對話能力之外,還新增了視覺定位、圖像中文字理解等能力,可用於知識問答、圖像標題生成、圖像問答、文檔問答、細粒度視覺定位等場景。
巴比特訊