大語言模型之後，電腦視覺是不是下個風口？

文章來源：大模型之家

作者：趙小滿

圖片來源：由無界AI生成

上月，Open AI發布了最新版本的GPT-4V使用戶能夠指示GPT-4分析用戶提供的圖像輸入最新功能，而這一消息引發行業關注，將其他模式（如圖像輸入）納入大型語言模型（ LLM）被視為人工智慧研究和開發的關鍵前沿，多模式LLM提供了擴大純語言系統影響的可能性。

從去年年底發布的人工智慧聊天機器人ChatGPT，到目前的GPT-4V，Open AI在大型多模態模型（LMM）擴展了具有多感官技能（如視覺理解）的大型語言模型（LLM），實現了更強的通用智能。

在GPT-4V發布不久後，微軟針對GPT-4V給出了166頁超詳細的使用指南，從簡單的輸入模式到視覺語言能力、與人類交互提示，再到時間視頻理解、抽象視覺推理和智商情緒智商測驗等，GPT-4V不僅能涵蓋日常生活中的互動體驗，甚至能夠實現在工業、醫療等領域的專業診斷評估等。

圖源：微軟（網頁翻譯僅供參考）

目前，GPT-4V在處理任意交錯多模態輸入方面前所未有的能力及其功能的通用性共同使 GPT-4V成為一個強大的多模態通才係統。此外，GPT-4V理解在輸入影像上繪製的視覺標記的獨特能力可以產生新的人機互動方法，例如視覺參考提示。

值得肯定的是，GPT-4V的初步探索有可能激發未來對下一代多模態任務公式的研究，利用和增強LMM解決現實問題的新方法，並更好地了解多模態基礎模型，也更成為電腦視覺發展方向的新探索。

大模型賦能電腦視覺新發展

或許談到多模態能力，很多人並不陌生，在國內有不少大模型在推出時就已經擁有多模態能力，能夠進行圖像識別與生成，但不得不承認的是，相比於LLM （大型語言模型），LMM（大型多模態模型）的發展還有很多漏洞待解決。

先前，大模型之家就體驗過多家擁有多模態能力的大模型，以基於AI框架昇思MindSpore「紫東太初」2.0版大模型平台、訊飛星火為例，在分析、推理及表達能力方面有待進步。

圖為：紫東太初

圖為：訊飛星火

值得注意的是，在今年4月，Meta提出分割一切的模型SAM（Segment Anything Model），SAM是一個提示型模型，其在1100萬張圖像上訓練了超過10億個掩碼，實現了強大的零樣本泛化，有業界人士表示，SAM突破了分割界限，大大促進了電腦視覺基礎模型的發展。

圖源：Meta

SAM本身是圖像的語義分割，該模型掌握了「物件」的概念，可以為任何圖像或視訊中的任何物件產生遮罩，即使是它在訓練中沒有見過的物件。

SAM模型和GPT-4V的出現，能夠將大語言模型安裝上“眼睛”，也正如Open AI在為GPT-4V生成前所做的部署準備，其中包括Be My Eyes，這是一個為視障用戶建構工具的組織，在模型生成前夕，可以想像大模型是一個會說話的“盲人”，但在加入視覺之後，具備多模態能力的大模型能夠看得懂圖、視頻等，這一功能的強大也將人工智慧發展推向新的方向。

大模型浪潮下，國內電腦視覺之路

在利用影像輸入、辨識及推理分析的功能，加入視覺功能後大模型能夠實現多領域開花，朝向「電腦視覺GPT」邁進。

圖源：華為

在工業方面，透過將視覺大模型應用到缺陷檢測等在製造過程中確保產品品質的重要步驟之中，能夠及時檢測故障或缺陷並採取適當的措施對於最大限度地降低營運和品質相關成本至關重要，目前國內華為、百度、訊飛等大模型產品均在工業領域有相關成果落實。

圖源：商湯科技

在醫療影像診斷方面，結合認知大模型的專業領域知識，加入視覺能力後，不僅能夠在各種醫學影像中進行分析，還能夠快速產生完整的放射學報告，具有作為放射學報告生成的AI助理的潛力，目前商湯基於醫學知識和臨床數據開發了中文醫療語言大模型“大醫”，具有提供導診、問診、健康諮詢、輔助決策等多場景多輪會話能力。

在自動駕駛方面，可以結合認知大模型在駕駛時的獲取的圖像資訊、動態行駛目標等，給出相應的駕駛決策和駕駛解釋，然後大模型將其轉化為自動駕駛的語言，透過Drive Prompt和自動駕駛系統做交互，從而實現智慧駕駛。

圖源：百度

以百度為例，在剛舉行的2023百度世界大會中，在智駕方面，透過Transformer和BEV等新技術徹底重建自動駕駛技術棧，感知能力獲得代際感提升，加速純視覺方案的成熟和普及。目前，百度Apollo純視覺高階智駕方案可應用於高速、城市、泊車等全局場景，將在今年第四季實現量產，這也是國內首個純視覺方案在城市場景落地。值得一提的是，去掉光達讓整車成本更低，提升了市場競爭力。

大模型之家認為，在大語言模型通用知識的加持下，電腦視覺迎來了更為明確的發展方向，從早期電腦視覺依靠重複記憶進行的實踐應用（如人臉辨識、物體辨識），探索視覺和語言的融合成為大模型和電腦視覺的新方向，從獨立發展到相互融合，人工智慧也在不斷探索和人更為相近的感官能力，能更好地捕捉影像中的細節和特徵，大模型的準確度得以提高，可以適應更多的場景和資料分佈，依託大模型的能寫會道，融合視覺能力，成為更智慧的化身。

當然，科技的發展必定會受到多面向因素的限制。大模型需要更多的計算資源和時間進行訓練，這可能限制了其可擴展性和實時性，龐大的訓練數據必定會受到算力的限制，特別是高性能的GPU、高速的內存和存儲，以及分散式訓練技術，而當下全球高性能的GPU市場中英偉達佔近90%份額，我國想要在這場AI競爭中占得高地，推動中國人工智慧算力的高品質發展成為當務之急。

總的來說，大模型融合視覺能力後具有許多優勢，但現階段也存在一些發展限制。隨著深度學習和運算資源的不斷發展，我們可以期待更先進的大模型和相關技術的出現，進一步推動電腦視覺在高解析度影像任務中的應用和突破。

大語言模型之後，電腦視覺是不是下個風口？

X Layer完成PP升級並啟動OKB Gas Token經濟模型優化

Coinbase重新啟動Stablecoin Bootstrap基金以提升USDC流動性

4E：ETH市值超越Netflix，Circle擬出售1000萬股股票

2025年Web3項目如何借助去中心化社交媒體進行有效營銷？

Lumiwave主網：激動人心的2026年第一季度發射，將革新IP區塊鏈

DeFi Technologies披露股權和存管不平衡問題，或將上報監管升級審查

專家解析為何XRP不符合ISO20022標準

特朗普現在告訴美國最大的銀行向首席經濟學家解僱“不討人喜歡”的預測

大語言模型之後，電腦視覺是不是下個風口？

Related Posts