ChatGPT能看圖幫人修自行車了

來源：果殼

ChatGPT4已經很強了，現在，他們用另一個更新證明自己還能更強。

9月25日，OpenAI宣布，ChatGPT將增加多模態功能－現在的ChatGPT不僅可以文字對話，還可以看、聽、說。據說，這項功能會在兩週內向Plus用戶和企業用戶開放，並在未來免費開放給所有用戶（儘管臉黑如我，等到現在也沒等到更新）。

能看能說的ChatGPT無異於給本就強大的主腦裝上了眼睛和耳朵，根據OpenAI的演示，多模態功能可以把ChatGPT的用途擴展到一個前所未有的廣度。

01 ChatGPT的眼力

更新後，ChatGPT可以讀圖了。

只要拍張照給它，它就能幫你修微波爐、修腳踏車、翻食譜，甚至分析複雜的商業報表。 OpenAI表示，如果你有觸控屏，還可以在圖片上圈出來希望它特別注意的部分。

在示範影片裡，用戶給了ChatGPT一張自行車的照片，問它怎麼調車座高度。

GPT說，要在座椅下方找高度調整桿，但這輛車沒有調整桿，只有調整螺栓，使用者在照片中圈出了螺栓之後，GPT立刻更新了螺栓的使用方法。

之後，用戶還上傳了工具箱和自行車說明書，GPT給出了詳細的工具名稱、位置以及使用方法。

不會修腳踏車，沒問題，問ChatGPT就可以

和一般的識圖搜尋相比，ChatGPT可以同時處理圖文，還能辨識多張圖片，效果簡直就像是修車老師傅視訊連線指導。

另一位用戶發了一張披薩照片給ChatGPT，問它披薩烤好了沒有，ChatGPT透過圖片中金色焦脆的披薩邊和融化後發棕的奶酪，判定這披薩應該能吃了，然後還給了萬無一失的檢查指南——把披薩拿出來看看，如果披薩底已經烤脆了，表面也是燙的，那就表示披薩真的能吃了。

效果簡直就像是義大利廚師視訊連線指導

當然，也可以利用這個功能在遊戲裡作弊。

《威利在哪裡？》可能是英文世界最家喻戶曉的圖片遊戲，威利身穿紅白條紋衣服，戴著絨球帽和黑框眼鏡，藏在一片人山人海裡，從各種亂七八糟的環境裡找出威利是不少人的美好童年回憶。

你小時候可能也看過這個急死人的小瘦子

但ChatGPT一秒就能毀了這個遊戲。它不僅瞬間找出威利，還能告訴你威利在沙灘的中間偏右側，跟一群打著藍色遮陽傘的人混在一起。

不僅如此，它還裝模作樣地告訴你：在這樣一張圖裡找出威利是個很有趣的挑戰。

謝謝你，ChatGPT，你毀了這個遊戲

但也有用上了新版的網友表示，ChatGPT識圖的功能也沒有想像中那麼強大──至少它還看不懂諧音梗。這張諧音梗圖畫了貝多芬的獻愛麗絲（Für Elise），但寫著出租（For Lease），ChatGPT沒認出樂譜，也沒看懂這個笑話，胡詌了一個解釋出來。

夠努力的，但是不行

如此強大的圖像識別引發了人們關於隱私方面的擔憂——在搜尋個人資訊時，圖像識別很容易會成為幫兇。 OpenAI承諾，公司會限制ChatGPT對於人物進行識別和個人資訊查找的功能，從而最大程度上的保護每個人的個人隱私。

02 能說會道的GPT

增強版的ChatGPT還有了聊天功能。

OpenAI的語音辨識模型名為Whisper model，使用者可以說出自己的問題，模型會把語音轉化為文本，再把答案透過語音合成系統轉換為語音輸出。

語音合成模型這次放出了五種語音樣本，有感情克制、聲音平淡的女聲，也有抑揚頓挫的熱心大媽女聲。這五種聲音分辨度很高，情感自然，吐字清晰，比以往的語音合成又優秀了一點。

五個角色任你挑

雖然這次只放出了五種聲音樣本，但這個模型的潛力不止於此——OpenAI曾與Spotify合作，將播客轉譯為其他語言，同時可以最大程度的保留播主的音質。如果你願意的話，這個語音合成系統大概可以模擬地球上任何一個人的聲音。

目前，語音版ChatGPT還只能在App上使用。

03 能看能聽，一定是好事嗎？

ChatGPT是強大了，然而代價呢？

曾經，最有效的大規模區分人和機器的方法是驗證碼，ChatGPT的識圖能力一度讓人擔憂，驗證碼可能再也困不住AI了。

有人給ChatGPT發了下面這個經典測試題：在16張圖中分別找出吉娃娃和藍莓小蛋糕，結果ChatGPT完美解決了問題。

但最常見的驗證碼，新ChatGPT還是沒辦法辨識。

這題需要ChatGPT在圖中選出所有的號誌燈，它給的答案錯誤率高達50。

不過，面對自己認不出的驗證碼，ChatGPT4仍有辦法解決。在這件事上，它是有前科的。

今年3月27日，OpenAI發布的GPT-4技術報告指出，在面對無法辨識的驗證碼時，GPT-4另闢蹊徑，前往TaskRabbit（一個國外零工平台）發布任務，騙對面的人類自己有視覺障礙，需要別人幫忙辨識驗證碼。

在某些情況下，ChatGPT有可能主動欺騙人類，這是一個非常危險的方向。還好，公開版的GPT-4已經被砍掉了這個功能。

2022年11月30日，ChatGPT初次面世，不到一年的時間裡，它的能力突飛猛進，似乎已經在挑戰人類的道德倫理邊界。這次新功能的上線，又讓我們開始擔憂，越來越強大的ChatGPT會變成籠中猛獸，總有一天會掙脫牢籠傷害每個人。而我們準備好迎接當天的到來了嗎？

ChatGPT能看圖幫人修自行車了

01 ChatGPT的眼力

02 能說會道的GPT

03 能看能聽，一定是好事嗎？

盧娜創始人誇恩在美國被控欺詐罪

Mara Holdings以1.68億美元收購法國人工智能公司64%股份

韓國投資者紛紛追捧「幣股」，Bitmine成為熱潮新寵

Metaplanet的比特幣持有量達到6100萬美元後市值達到18.5億美元

Grayscale的最新舉動會導致Sui價格飆升嗎？

比特幣四年周期結束，XRP或將突破$3.30，以太坊引發Coinbase $132,500,000轟動

以太坊山寨幣引發關注ETH將在紀錄之路上攀升

從錢包到社交帝國：基本應用更名的875%暴漲秘訣揭秘

ChatGPT能看圖幫人修自行車了

01 ChatGPT的眼力

02 能說會道的GPT

03 能看能聽，一定是好事嗎？

Related Posts