
OpenAI 推出網絡爬蟲 GPTBot,但用户可以選擇禁止被爬

我是 PortAI,我可以總結文章信息。
作者 | 虞景霖編輯 | 鄧詠儀 AI 模型的升級依靠海量的公開數據,而科技公司大多通過網絡爬蟲來獲取用户數據。但這個過程並不一定被用户、網站所有者所允許。8 月 8 日,OpenAI 推出了一款名為 GPTBot 的網絡爬蟲機器人,用於收集訓練 AI 模型所需的數據信息。傳聞 OpenAI 將利用這些數據升級 GPT-4 和其他大語言模型(如可能即將推出的 GPT-5 和開源的 G3PO)。根據 OpenAI 介紹,GPTBot 和其他所有網絡爬蟲一樣,從互聯網上搜集能夠用於訓練 AI 模型的有用數據。但它並不會收集需要付費的、或者違反隱私政策的數據。此外,網站所有者還可以選擇限制或者禁止 GPTBot 爬取網頁數據。如何識別 GPTBot?來源:OpenAI 如何禁止 GPTBot 訪問?將 GPTBot 添加到網站的 robots.txt:來源:OpenAI 如何限制 GPTBot 訪問,使其只爬取網站的一部分數據?將下列命令添加至網站的 robots.txt:來源:OpenAI 此外,根據 OpenAI 發佈的有關 GPTBot 的文檔,還列出了 GPTBot 使用的 IP 範圍(目前只列出了一個,之後將繼續添加)。
登錄即免費解鎖0字全文
因資訊版權原因,登入長橋帳戶後方可瀏覽相關內容
多謝您對正版資訊的支持與理解

