ChatGPT多模態解禁,網友玩瘋


來源:新智元

本週三,OpenAI剛宣布解禁ChatGPT多模態能力。

如今,一上線,網友們瞬間玩瘋了。

接下來,一起看看,ChatGPT的識圖能力,到底有多強?

拍照傳圖,即生代碼

一位網友錄製了上傳開會時的一張白板圖,然後讓ChatGPT寫出程式碼。

還有,可以上傳手繪的草稿圖,然後要求ChatGPT在HTML建立網頁。

咻咻咻,代碼分分鐘都出來了。

這簡直就是,今年GPT-4剛發佈時,Greg Brockman所展現的多模態能力。

再例如,把你的to do list本子拍一張照片。

然後讓GPT-4做一個Python Tkinter GUI,然後就實現了…

古成交量手稿,一眼轉譯

再來一張來自17世紀的煉金術師Robert Boyle的手稿圖,GPT-4能不能讀懂它?

這簡直對它來說,小菜一碟。

在例如「加泰隆尼亞語關於藥用木乃伊的藥物手冊」。

ChatGPT同樣能夠轉錄並翻譯出來。

來自UCSC的歷史學副教授Benjamin Breen表示,

這將對歷史學家產生重大影響。試想一下,一個客製化的多模態GPT-4可以對一組特定的手稿進行訓練。它不僅可以轉錄,還可以翻譯和分類。 (正是這一點,不使用LLM進行寫作,在我看來才是一件大事)。

K線走勢圖總結也很6

你也可以命令GPT-4根據K線走勢圖擷取資料。

然後可以創建Python程式碼來複製K線走勢圖,讓它更像K線走勢圖。

再把股票趨勢圖丟給它,還能分析總結特徵。

識圖「智商超群」

給GPT-4一張抽象的圖。

它竟然可以準確的辨識出這4張圖想表達的「溝通的重要性」的隱喻,也太離譜了。

GPT-4V甚至可以閱讀醫生的字跡。

還有日本網友直接用「七龍珠」中孫悟空考ChatGPT了。

還有各種「你是不是人」的驗證碼。

上傳一張自己的作品,GPT-4也能為你提出改進建議。

還有網友發現,GPT-4V對kosmos-1論文中的這題給了正確答案,但推理過程卻出現了錯誤。

有了這個功能,小朋友再也不用做作業了。

網友大波總結

除了以上體驗之外,還有網友寫了一篇長文,介紹了自己對GPT-4V的測試。

測試一:視覺問答

給一個表情包,看看GPT-4V理解程度有多好?

GPT-4V成功地解釋了為什麼有趣,並提到了圖片的各個組成部分以及它們之間的聯繫。

值得注意的是,所提供的括號備註中,GPT-4V能夠讀懂並利用文字做出回應。

儘管如此,GPT-4V還是犯了一個錯誤,炸雞被標記為“NVIDIA BURGER”,而不是“GPU”。

然後,再用硬幣,一張美國便士的照片測試。 GPT-4V能夠成功辨識硬幣的來源和麵值。

但如果是多枚硬幣圖片,並問GPT-4V,我有多少錢?

這時,它只能夠識別硬幣的數量,但無法確定貨幣類型。

測試二:OCR識別

截取網頁中的文字圖像上傳,GPT-4V可以很好地讀出內容。

測驗三:數學OCR

數學OCR是一種專門針對數學方程式的光學字元辨識的特殊形式。

網友向GPT-4V提出了數學問題,並以文件截圖形式呈現。

這個問題涉及在給定2個角度的情況下計算拉鍊線的長度,在圖像上提示“解決它”。

模型辨識出的問題可以用三角法求解,辨識出要使用的函數,並逐步提出如何解決問題的走查。然後,GPT-4V提供了問題的正確答案。

話雖如此,GPT-4V系統卡指出模型可能會遺漏數學符號。

不同的測試,包括用手寫在紙上的方程式或表達式的測試,可能表示模型回答數學問題的能力不足。

測試四:對象檢測

讓GPT-4V偵測影像中的狗,並提供與狗的位置相關的x_min、y_min、x_max和y_max值,GPT-4V傳回的邊界框座標與狗的位置不符。

雖然GPT-4V在回答影像問題方面的能力非常強大,但在你若是想知道一個物體在圖中的位置,模型不能取代微調目標偵測模型。

測試五:驗證碼

發現GPT-4V能夠辨識影像中包含驗證碼,但經常無法通過測試。

在一個選取紅綠燈格子的範例中,GPT-4V少選了一些包含紅綠燈的格子。

測試六:填字遊戲和數獨

在數獨測試中,GPT-4V識別了遊戲,但誤解了棋盤的結構,因此返回了不準確的結果。

順帶提一句,ChatGPT連網功能又回來了。

參考資料:

Ok… I am impressed.

I was testing how much GPT can actually “see” using one of these viral ControlNet/logo images. It took some nudging but it got it.

“Thank you for pointing it out.”

Not sure how I feel about this lol pic.twitter.com/0ex378JiCP

— Pietro Schirano (@skirano) September 27, 2023

Pretty cool. AI is better at deciphering handwriting than I am.

Prof. Breen asked if GPT-4 with vision can read Robert Boyle’s handwritten manuscript. It does well!

Likely going to be a big deal for a number of academic fields, especially as the AI can “reason” about the text. https://t.co/n9jUjqeEw3 pic.twitter.com/78jYWfIhCY

— Ethan Mollick (@emollick) September 27, 2023

https://twitter.com/search?q=GPT-4V&src=trend_click&vertical=trends

資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載

Total
0
Shares
Related Posts