AI多模態浪潮來了ChatGPT迎重磅升級算力需求噴發可期

原文來源：科創板日報

圖片來源：由無界AI生成

當地時間25日，OpenAI宣布ChatGPT迎來重磅更新：這個聊天機器人如今「會看、會說話、會聽」——換言之，ChatGPT加入了語音與圖像功能。未來兩週內，Plus用戶與企業用戶都能體驗新功能，開發人員等其他用戶群也預計在不久的將來體驗。

其中，最受外界關注的是ChatGPT的影像理解能力。據介紹，用戶可以向ChatGPT展示一張或多張圖片，追蹤為何燒烤爐無法啟動，檢查冰箱裡的菜能做什麼美食，或分析複雜K線走勢圖得出數據。若想讓ChatGPT關注圖片中的特定部分，也可以使用APP中的繪圖工具高亮標註。

在OpenAI給出的範例影片中可以看到，當使用者向ChatGPT發送一張自行車照片、詢問如何調低車墊時，ChatGPT不僅會自發性觀察自行車型號、辨識零件、給予詳細步驟，還會看說明書，並分辨使用者現有工具能否完成這項工作。

值得注意的是，同日發布的一篇論文中，OpenAI將此能看圖的模型稱為GPT-4V(ision)。該模型在2022年已完成訓練，之後在2023年早些時候開始早期測試訪問。

透過GPT-4V，今年3月OpenAI與Be My Eyes組織合作開發Be My AI，可為盲人與視力障礙人士描述外界世界。測試表明，Be My AI可為50萬盲人和視力障礙用戶提供工具，滿足他們在資訊、文化和就業方面的需求。

另外，OpenAI也測試了GPT-4V的驗證碼破解及地理定位能力，前者顯示模型具備解決謎題與執行複雜視覺推理任務的能力，後者則展現了模型在搜尋物品/地點的用處。但這兩項功能將涉及網路安全及隱私問題。
至於這次更新的另一個語音辨識與生成功能，OpenAI表示，用戶可以用這項功能為孩子講述睡前故事，還可以在吵架時作為幫手。

OpenAI與專業配音員合作，提供了5種不同的聲音。另外，公司也與Spotify展開合作，透過這項功能將播客翻譯為其他語言，同時保留播客主持人的聲音。

值得一提的是，數據顯示，近期ChatGPT流量回升。 SimilarWeb數據顯示，9月11日那一周，ChatGPT流量較前一周成長約12%。另一家分析公司Sensor Tower報告則指出，8月最後兩週全球ChatGPT應用程式用戶每週成長超過10%。據悉，流量成長的主要原因為學生開始返校，印度及巴西市場迎來成長。

▌多模態大模型成兵家必爭之地算力需求顯著攀升

如今，多模態功能已成為各家AI大模型的必爭之地。 Meta最近推出AudioCraft，透過AI生成音樂；GoogleBard及必應機器人都已部署多模式功能；蘋果也在試驗AI生成語音Personal Voice。

隨著AI感知、互動與生成能力快速發展，應用場景與生態也可望進一步豐富。而語音與影像資料大小顯著高於文本，券商指出，多模態大模型的訓練推理算力需求將大幅攀升。

例如被Google寄予厚望的多模態大模型Gemini，根據SemiAnalysi分析師Dylan Patel和Daniel Nishball透露，其已開始在TPUv5 Pod上進行訓練，算力高達~1e26 FLOPS，是訓練GPT-4所需算力的5倍。
華為副董事長、輪值董事長、CFO孟晚舟日前也表示，「人工智慧的發展，算力是核心驅動力。大模型需要大算力，算力大小決定著AI迭代與創新的速度，也影響經濟發展的速度。算力的稀缺和昂貴，已經成為限制AI發展的核心因素。”

國信證券指出，AI三元素（大模型、算力、應用）呈螺旋式促進關係。 AI三元素以「模型更新-算力晶片迭代、單位tokens成本降低-應用增加」循環往復，當三者中有一個要素噴發，就是強刺激期；三者同時沒有更新，就會進入停滯期，等待下次爆發。

多模態大模型是未來發展趨勢。透過將不同資料類型相互關聯結合，可以大幅提高模型準確性和魯棒性，應用場景進一步拓展。

同時，3月Google發布多模態具身視覺語言模型（VLM）PaLM-E，可用於機器人領域；7月Google發布新一代視覺-語言-動作（VLA）模型Robotics Transformer 2（RT-2），專用於機器人領域，看好大模型賦能機器人趨勢，分析師看好大模型賦能機器人。

AI多模態浪潮來了ChatGPT迎重磅升級算力需求噴發可期

加密AI興衰啟示錄：泡沫褪去，留下哪些火種？

Speciale Invest在INR 600億上支持DeepTech創業公司，專注於III類投資

FTX用戶加強訴訟，稱律師事務所Fenwick & West是其欺詐案的“關鍵”推手

跨鏈橋安全隱患剖析：28億美元損失揭示Web3基礎設施的致命弱點

特朗普一家為全球自由令牌推出15億美元的寶藏公司

XRP今日價格預測（8月12日）

策略性購買BTC火箭推動比特幣清算失衡至17,300%

比特幣的利潤率從122,000美元的高價降低； CPI報告Loom

AI多模態浪潮來了ChatGPT迎重磅升級算力需求噴發可期

Related Posts