GPT-4V學會用鍵鼠上網，人類眼睜睜看著它發文玩遊戲

文章來源：量子位

GPT-4V學會自動操縱電腦，這一天終於還是來了。

只需要給GPT-4V接入滑鼠和鍵盤，它就能依照瀏覽器介面上網：

甚至還能快速摸清楚「播放音樂」的播放器網站和按鈕，並為自己來一段music：

是不是有點細思極恐了？

這是一個MIT本科生小哥整出來的新活，名叫GPT-4V-Act。

只需要幾個簡單的工具，GPT-4V就能學會控制你的鍵盤和滑鼠，用瀏覽器上網發文、買東西甚至是玩遊戲。

要是用到的工具出bug了，GPT-4V甚至還能意識到、並試圖解決它。

來看看這是怎麼做到的。

教GPT-4V“自動上網”

GPT-4V-Act，本質上是一個基於Web瀏覽器的AI多模態助手（Chromium Copilot）。

它可以像人類一樣用滑鼠、鍵盤和螢幕「檢視」網頁介面，並透過網頁中的互動按鍵進行下一步操作。

要達到這種效果，除了GPT-4V以外，還用到了三個工具。

一個是UI介面，可以讓GPT-4V「看見」網頁截圖，也能讓使用者與GPT-4V互動。

這樣，GPT-4V就能將每一步運行思維都透過對話框的形式反映出來，使用者來決定是否要繼續讓它操作。

另一個是Set-of-Mark Prompting（SoM）工具，讓GPT-4V學會互動的一個工具。

這個工具由微軟發明，目的是更好地對GPT-4V進行提示詞工程。

相比讓GPT-4V直接“看圖說話”，這個工具可以將圖片關鍵細節拆分成不同的部分，並進行編號，讓GPT-4V有的放矢：

對於網頁端也是如此，Set-of-Mark Prompting用類似的方式讓GPT-4V知道從網頁瀏覽器的哪個部分找答案，並進行互動。

最後，還需要用到一個自動標註器（JS DOM auto-labeler），可以將網頁端所有能互動的按鍵標註出來，讓GPT-4V決定要按哪一個。

一套流程下來， GPT-4V不僅能準確判斷圖片上的哪些內容符合需求，還能準確找到交互按鍵，並學會「自動上網」。

這是個大項目，目前也只實現了部分功能，包括點擊、打字互動、自動標註等。

接下來，還有其他的一些功能要實現，例如試試AI打標器（目前網頁端的交互還是透過JS接口得知哪裡能交互，不是AI識別的）、以及提示用戶輸入詳細信息等。

此外，作者也提到，現階段GPT-4V-Act用法上還有一些要注意的地方。

例如，GPT-4V-Act可能會被網頁打開後鋪天蓋地的彈跳窗小廣告給“整懵了”，然後出現互動bug。

又例如，目前這種玩法可能會違反OpenAI的產品使用規定：

除非API允許，否則不得使用任何自動化或程式設計的方法從服務中提取資料並輸出，包括抓取、網路收集或網路資料提取。

所以用的時候也要低調一點（doge）

微軟SoM作者也來圍觀

這個項目在網路上發出後，吸引了不少人的圍觀。

像是小哥用到的微軟Set-of-Mark Prompting工具的作者，就發現了這個專案：

出色的工作

還有網友提到，甚至可以用來讓AI自己讀取驗證碼。

這在SoM專案中提到過，GPT-4V是能成功解讀驗證碼的（所以以後可能還真不知道是人還是機器在上網

）。

同時，也有網友已經在想像桌面串流自動化（desktop automation）的操作了。

對此作者回應：

AI自動標註器應該可以實現這個，我也確實在計劃製作一個更通用的Copilot。

不過目前GPT-4V還是要收費的，有沒有其他的實作方法？

作者也表示，目前還沒有，但確實可能會嘗試Fuyu-8B或LLaVAR這樣的開源模型。

免費的自動化桌面串流AI助手，可以期待一波了。

參考連結：
[1]https://github.com/ddupont808/GPT-4V-Act
[2]https://www.reddit.com/r/MachineLearning/comments/17cy0j7/d_p_web_browsing_uibased_ai_agent_gpt4vact/

GPT-4V學會用鍵鼠上網，人類眼睜睜看著它發文玩遊戲

2025全球數字經濟國際合作論壇在中國·海口成功召開

OpenAI CEO：推出GPT-5模型切換，付費用戶可選擇4o，4.5僅向Pro用戶開放

這波牛市，如何尋找Alpha 收益？

卓銳證券獲香港證監會批准開展虛擬資產存提幣業務

Bitmine計劃歷史悠久的245億美元以太坊收購

Cosmos Health 完成100 萬美元ETH 初始購買

郵政漲勢已經結束了嗎？

Bybit Web3通過新增八個代幣及直接交易選項實現擴展

GPT-4V學會用鍵鼠上網，人類眼睜睜看著它發文玩遊戲

Related Posts