GPT-5不遠了OpenAI推出網絡爬蟲GPTBot，自動抓取數據，可選擇性關閉

編輯：桃子好困

來源：新智元

導讀：就在剛剛，OpenAI推出了GPTBot——一個可以自動從整個互聯網抓取數據的網絡爬蟲。得到的這些數據則會被用來訓練像GPT-4和GPT-5這樣的AI模型

前段時間，抓取平台用戶數據風波，Reddit網友吵翻了天。

今天，OpenAI推出了一個網絡爬蟲工具GPTBot，能夠自動抓取網站的數據。

如何使用？

OpenAI在發布的文檔中表示，網絡爬蟲將過濾刪除需要付費強訪問的來源，同時也會刪除個人身份信息（PII）或違反其政策的文本。

GPTBot抓取的數據，被用來訓練GPT-4或GPT-5，能夠提升未來人工智能係統的準確性和能力。

可通過以下代碼識別該工具：

User agent token: GPTBotFull user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

禁止GPTBot訪問

另一方面，你也可以通過將GPTBot添加到站點robots. txt，來禁止其訪問網站。

這意味著，網站所有者必須自願採取措施，禁止OpenAI對自己的網站訪問，不將自己的數據用來訓練。

User-agent: GPTBotDisallow: /

自定義GPTBot訪問

你還可以通過以下代碼，來控制GPTBot對網站部分內容的訪問。

User-agent: GPTBotAllow: /directory-1/Disallow: /directory-2/

IP出口

對於OpenAI的爬蟲，將從OpenAI網站上記錄的IP地址塊調用網站。

網友熱議

OpenAI此舉引發了網友對用於訓練AI模型的網絡爬蟲的道德問題的討論。

「OpenAI甚至沒有適度引用。它是在製作衍生作品，卻沒有引用，從而掩蓋了它的事實。」

網友表示，終於有機會阻止OpenAI抓取你的網絡數據，來訓練模型。

還有人表示，ChatGPT瀏覽器插件已被移除一段時間，部分原因是它可以訪問付費牆後面的內容。

前段時間，OpenAI於7月18日向美國專利局提交了GPT-5的商標申請，暗示著公司正在訓練更高級的AI系統。

GPTBot顯然將幫助該OpenAI從互聯網上收集更多數據來訓練這個模型。

參考資料：

https://platform.openai.com/docs/gptbot

資訊來源：由0x資訊編譯自8BTC。版權歸作者所有，未經許可，不得轉載

GPT-5不遠了OpenAI推出網絡爬蟲GPTBot，自動抓取數據，可選擇性關閉

扎克伯格計劃再次重組Meta的人工智能業務

現在XRP錢包94%被出售，但這或許會有所不同的原因在於此

失去上漲趨勢後，比特幣攤位超過$112,000

索拉納新聞：Solana 達到100,000 TP

《社交網絡》中的不幸雙子兄弟，成功炒幣與上市

以太坊：華爾街與人工智能交彙的中心地帶

Unilabs Fund提升Litecoin開採，Cardano價格趨勢看跌，5000萬美元出售牆

首位發言人參加邁阿密Blockchain Futurist Conference，這是美國下一個重要的Web3活動

GPT-5不遠了OpenAI推出網絡爬蟲GPTBot，自動抓取數據，可選擇性關閉

Related Posts