AI 新智界訊,12 月21 日,北京智源研究院宣布發布具有370 億參數的多模態大模型Emu2。根據介紹,Emu2 在少樣本多模態理解任務上大幅超越Flamingo-80B、IDEFICS-80B 等主流多模態預訓練大模型,在包括VQAv2、OKVQA、MSVD、MM-Vet、TouchStone 在內的多項少樣本理解、視覺問答、主體驅動影像生成等任務上取得最優表現。 Emu2 表現出強大的多模態情境學習能力,甚至可以解決需要即時推理的任務,例如視覺提示和基於物件的生成。基於Emu2 微調的Emu2-Chat 可以精準理解圖文指令,實現更好的資訊感知、意圖理解和決策規劃。 Emu2-Gen 則可接受圖像、文字、位置交錯的序列作為輸入,實現靈活、可控、高品質的影像和視訊生成。研究團隊也表示,Emu2 可以作為各種多模態任務的基礎模型和通用介面。