谷歌視覺語言模型PaLI-3問世,參數僅5B,更小、更快、更強


在多模態(視覺語言)大模型領域,拼參數贏表現的同時,追求參數更小、速度更快、表現更強是另一條研究路徑。

圖片來源:由無界AI生成

在大模型時代,視覺語言模型(VLM)的參數已經擴展到了數百甚至數千億,使得表現持續增加。同時,更小規模的模型仍然很重要,它們更易於訓練和服務,更環境友好,並為模型設計提供更快的研究週期。

在該領域,Google研究院在去年推出了一個名為PaLI(Pathways Language and Image)的模型。作為一個多模態大模型,PaLI 的關鍵結構之一是複用大型單模態基幹進行語言和視覺建模,在語言方面復用13B 參數的mT5-XXL,在視覺方面複用2B 參數的ViT -G 和4B 參數的ViT-e。當時PaLI 實現了優於多數新舊模型的性能。

此後Google繼續專注於更小規模的建模,並於近日提出PaLI-3,這是PaLI 系列的第三代模型。透過一個僅有5B 參數的預訓練基準模型,他們優化了訓練方法,並在多個VLM 基準上實現了有競爭力以及新的SOTA 結果。

此方法主要由三個部分組成,分別是在web 規模的圖像文字資料上對影像編碼器的對比預訓練、用於PaLI 多模態訓練的改進後的混合資料集,以及更高分辨率的訓練。

作者來自Google研究院、GoogleDeepMind和Google雲端。

論文網址:https://arxiv.org/pdf/2310.09199.pdf

下圖為5B PaLI-3 模型概覽,其中透過對比預訓練的2B SigLIP 視覺模型,影像被單獨編碼成了視覺token。接著與query 一起,這些視覺token 被傳遞給了3B 編碼器– 解碼器結構的UL2 Transformer,它產生了預期答案。在這樣的設定下,與先前PaLI 模型中單一分類預訓練的模型,對比預訓練的模型提供了明顯更有用的token。

效果怎麼樣呢? PaLI-3 在需要視覺定位文字理解和目標定位的任務上實現了新的SOTA,包括RefCOCO 資料集上的8 個視覺定位文字理解任務和參考表達分割任務。 PaLI-3 也在一系列分類視覺任務上有出色的表現。

此外研究者還專門做了消融實驗以與分類預訓練的ViT 基線模型比較,並進一步確認了預訓練視覺編碼器在有噪聲web 規模的圖像文本數據上的可行性,從而成為在分類數據上進行訓練的優先替代方案。

除了5B PaLI-3 模型之外,研究者還利用最近提出的SigLIP 方法,建立了一個參數擴展到2B​​ 的SOTA 多語言對比視覺模型。

模型介紹

架構

在更高的層面,PaLI-3 的架構遵循了Chen et al. (2023b;a):ViT 模型將圖像編碼為token,並與問題、提示和指令等文字輸入一起被傳遞到編碼器– 解碼器結構的transformer,從而產生文字輸出。

先看視覺組件。研究者使用SigLIP 訓練法,從對比預訓練的ViT-G/14 模型(參數約2B)初始化出PaLI-3 的視覺基幹。簡而言之,他們訓練了圖像嵌入ViT-G/14 模型和文本嵌入transformer 模型來分別嵌入圖像和文本,這樣一來,使用圖像和文本嵌入點積的sigmoid 交叉熵的二元分類器,能夠準確地分類各自的圖像和文字是否相互對應。

這類似於CLIP 和ALIGN,但更有效率、可擴展和穩健。同時這種方法是為了預先訓練ViT 影像嵌入元件,因此當將ViT 插入到PaLI 時,文字嵌入transformer 會被丟棄。

再來看完整的PaLI 模型。 ViT 影像編碼器的輸出在礦池化之前形成了視覺token,並線性地映射和添加到嵌入的輸入文字token。接著這些token 被傳遞到了預先訓練的3B UL2 編碼器– 解碼器模型,從而產生文字輸出。此模型的文字輸入通常包含有描述任務類型的提示,並為該任務編碼必要的文字輸入。

訓練

訓練過程包含多個階段。

階段0:單峰預訓練。影像編碼器依照SigLIP 訓練協議,影像編碼器的訓練解析度為224×224 ;文字編碼器– 解碼器是一個3B UL2 模型,依照Tay 等人所描述的混合降噪程序進行訓練。

階段1:多模態訓練。將影像編碼器與文字編碼器– 解碼器結合,然後,將這個組合得到的PaLI 模型在多模態任務和資料上進行訓練,此時,影像編碼器保持凍結,解析度還是224×224。透過對文字品質進行啟發式過濾,並使用SplitCap 訓練目標,再次從WebLI 資料集衍生出主要的混合元件。

階段2:提升解析度。高解析度輸入是一種被廣泛接受的提高性能的方法,這既是因為可以感知影像中的更多細節,也是因為透過增加序列長度來提高模型能力。本文透過解凍影像編碼器來提高PaLI-3 的分辨率,將檢查點保持在812×812 和1064×1064 分辨率。

任務遷移。最後,對於每個單獨的任務(基準),本文使用凍結的ViT 影像編碼器在任務的訓練資料上微調PaLI-3 模型;對於大多數任務,本文微調812×812 解析度檢查點,但對於兩個文檔理解任務,本文將解析度提高到1064×1064。

實驗及結果

實驗首先比較了在PaLI 框架下不同ViT 模型的結果對比,研究者考慮了兩種ViT 模型:Classif 和SigLIP。

結果如表1 所示,顯示雖然SigLIP 模型的少樣本線性分類有些落後,但透過使用PaLI-3,SigLIP 模型在更簡單的任務上(例如字幕和問答)提供了適度的增益,並且在更複雜的場景即在文字和空間理解任務上取得了巨大增益。

此外,研究者還在TextCaps、TextVQA、STVQA、OCRVQA、InfographicVQA、DocVQA、ChartQA、Scree2Words、 WidgetCap 資料集上評估了PaLI-3。結果如表2 所示,在使用外部OCR 系統的情況下,PaLI-3 僅比SOTA 方法低0.7 分。然而,在沒有這種外部系統的情況下,PaLI-3 比所有SOTA 方法的組合高出4.4 分。對於TextCaps、TextVQA、InfographicVQA 和DocVQA,PaLI-3 的優勢超多8 分甚至更多。

參考表達分割

研究者擴展了PaLI-3,使其能夠透過類語言輸出來預測分割遮罩。為此,他們利用了Ning et al. (2023) 的向量量化變分自編碼器(VQ-VAE)。 VQ-VAE 經過訓練可以學習128 個掩碼token,其編碼器可以將64 × 64 像素的分割遮罩標記為16 個遮罩token,解碼器可以轉換回來。

研究者訓練PaLI-3 來預測單一分割掩碼,首先輸出4 個座標作為文本,並表示為邊界框。接著是16 個遮罩token,表示邊界框內的遮罩。

表1 顯示對於此類定位任務,對比預訓練比分類預訓練更有效。下表3 顯示,完整的PaLI-3 模型在參考表達分割方面略微優於現有技術。

圖像理解

接下來研究者在一般視覺語言理解任務上評估了PaLI-3。與之前的工作一樣,他們沒有使用外部OCR 模組,因為這些基準測試很少涉及圖像中的文字。

結果表明,與最近的SOTA 模型相比,PaLI-3 的尺寸要小得多,但它在這些基準測試中表現出了非常強大的性能。對於COCO,PaLI-3 優於BEiT-3 以及17B 和55B PaLI 之外的所有模型。在VQAv2 和TallyQA 上,PaLI-3 超過了除PaLI-X 之外的所有先前模型。對於OKVQA 任務,PaLI-3 僅落後於PaLM-E (562B) 和PaLI-X (55B),但仍優於32-shot Flamingo (80B) 車型。

視訊字幕和問答

該研究在4 個視訊字幕基準上對PaLI-3 模型進行了微調和評估:MSR-VTT、VATEX、ActivityNet Captions 和Spoken Moments in Time。此外,研究在3 個視訊問答基準上進行了同樣的操作:NExT-QA、MSR-VTT-QA 和ActivityNet-QA。

儘管沒有使用視訊資料進行預先訓練,PaLI-3 仍以較小的模型尺寸實現了出色的視訊QA 結果:在MSR-VTT-QA 和ActivityNet-QA 上實現了最先進的性能,並在NextQA 上取得了具有競爭力的結果。在影像和視訊QA 上的持續改進凸顯了採用對比ViT 的好處。

此外,PaLI-3 還取得了非常好的視訊字幕結果,平均僅比SOTA 結果低3 個CIDEr 點。考慮到模型尺寸,PaLI-3 在性能和實用性方面似乎都是一個絕佳的選擇。

直接影像編碼器評估

研究者也評估了ViT-G 模型,ViT-G 可以理解為不是完整的PaLI-3,結果如表6 所示。

首先,該研究使用標準的ImageNet 基準測試及其兩個最受歡迎的變體來測試影像分類功能。結果表明,SigLIP 在top-1 和v2 準確率方面略有落後,但在ReaL 方面結果相當。

其次,研究報告了不同模型在Crossmodal-3600 基準上的結果。結果顯示SigLIP ViT-G 模型明顯優於較大的ViT-e 模型。

最後,研究也報告了線性probing 結果,結果顯示SigLIP 不及其他模型。

表7 和表8 評估了模型的公平性、偏差和其他潛在問題。

資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載

Total
0
Shares
Related Posts