OpenAI：ChatGPT將遵守爬蟲協議，網站可拒絕白嫖

原文來源：量子位

不希望網站數據被ChatGPT白嫖？現在終於有辦法了

兩行代碼就能搞定，而且是OpenAI官方公佈的那種。

剛剛，OpenAI在用戶文檔中更新了GPTBot的說明。

根據這一說明，內容擁有者將可以拒絕網站數據被ChatGPT的爬蟲抓取。

這是繼暫停網頁訪問功能之後，OpenAI在版權和隱私保護方面的又一重大舉措。

不過，OpenAI還是希望能內容擁有者將訪問權限開放給GPTBot。

在這份關於GPTBot的說明中，OpenAI表示：

允許我們的爬蟲訪問你的數據有利於使AI模型更精確、更安全。

但至少，站主們擁有了選擇的權利。

不過，也有網友指出了問題：

模型早就已經訓練好了，現在提這個還有什麼用？

對此OpenAI尚未作出解釋，我們還是先來看看這次的措施。

三種方式阻止GPT爬蟲

那麼，OpenAI都公佈了哪些內容呢？

首先是GPTBot的U(ser)A(gent)信息。

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

UA是瀏覽器的身份標識，包含了訪問者的系統環境、瀏覽器內核版本、語言等諸多信息。

通過HTML的標籤，可以阻止特定的瀏覽器對網頁內容進行訪問。

在這份說明文檔中，OpenAI還提供了更簡單的爬蟲阻止方式，即修改robots.txt。

只要在網站的robots.txt中加入如下內容：

User-agent: GPTBot
Disallow: /

這樣，GPTBot將不會訪問你的網站進行內容抓取。

如果只想禁止GPT抓取部分內容，也可以利用robots.txt進行設置。

和上面的內容相似，分別寫明允許和不允許訪問的目錄即可。

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

其中Allow的優先級更高，也就是說當Allow的目錄是Disallow目錄的子目錄時，會被允許訪問。

此外，OpenAI還公佈了爬蟲機器人的ip地址。

如果實在是對爬蟲不放心，可以設置禁止有關ip對網站的訪問。

什麼是robots.txt

上面提到的robots.txt是什麼，為什麼它能阻止GPT的爬蟲？

這其實是一種用戶協議，站主可以在其中設置禁止訪問網站的爬蟲或禁止爬蟲抓取的內容。

根據這一協議，即使在有能力訪問的情況下，爬蟲遇到相關內容都會主動選擇避開。

ChatGPT自身也在使用robots.txt，阻止爬蟲抓取除了用戶分享之外的其他內容。

其實，在AI盛行之前，這項協議就已經存在，當時主要是用於限制搜索引擎。

這也正是我們無法在搜索引擎中搜到微信公眾號文章的原因。

這是一項君子協定，不過大多數廠商都會選擇遵守，因為這體現了對行業規則和用戶隱私的尊重。

如今，OpenAI也加入了這一行列。

One More Thing

與此同時，Google的爬蟲正在全網抓取內容。

不過，網友對此似乎有更高的容忍度：

至少Google是鏈接到你的網站，但ChatGPT用了你的內容之後根本不會進行說明。

你認為在提高模型質量和保護創作者之間該如何找到平衡點呢？

參考鏈接：
[1]https://platform.openai.com/docs/gptbot
[2]https://www.theverge.com/2023/8/7/23823046/openai-data-scrape-block-ai
[3]https://news.ycombinator.com/item?id=37030568

資訊來源：由0x資訊編譯自8BTC。版權歸作者所有，未經許可，不得轉載

OpenAI：ChatGPT將遵守爬蟲協議，網站可拒絕白嫖

扎克伯格計劃再次重組Meta的人工智能業務

現在XRP錢包94%被出售，但這或許會有所不同的原因在於此

失去上漲趨勢後，比特幣攤位超過$112,000

索拉納新聞：Solana 達到100,000 TP

《社交網絡》中的不幸雙子兄弟，成功炒幣與上市

以太坊：華爾街與人工智能交彙的中心地帶

Unilabs Fund提升Litecoin開採，Cardano價格趨勢看跌，5000萬美元出售牆

首位發言人參加邁阿密Blockchain Futurist Conference，這是美國下一個重要的Web3活動

OpenAI：ChatGPT將遵守爬蟲協議，網站可拒絕白嫖

Related Posts