Latest News Yesterday News Quote List Topic List Quote List

OpenAI 推出網絡爬蟲 GPTBot，但用户可以選擇禁止被爬

36Kr

2023.08.08 08:39

我是 PortAI，我可以總結文章信息。

作者 | 虞景霖編輯 | 鄧詠儀 AI 模型的升級依靠海量的公開數據，而科技公司大多通過網絡爬蟲來獲取用户數據。但這個過程並不一定被用户、網站所有者所允許。8 月 8 日，OpenAI 推出了一款名為 GPTBot 的網絡爬蟲機器人，用於收集訓練 AI 模型所需的數據信息。傳聞 OpenAI 將利用這些數據升級 GPT-4 和其他大語言模型（如可能即將推出的 GPT-5 和開源的 G3PO）。根據 OpenAI 介紹，GPTBot 和其他所有網絡爬蟲一樣，從互聯網上搜集能夠用於訓練 AI 模型的有用數據。但它並不會收集需要付費的、或者違反隱私政策的數據。此外，網站所有者還可以選擇限制或者禁止 GPTBot 爬取網頁數據。如何識別 GPTBot？來源：OpenAI 如何禁止 GPTBot 訪問？將 GPTBot 添加到網站的 robots.txt:來源：OpenAI 如何限制 GPTBot 訪問，使其只爬取網站的一部分數據？將下列命令添加至網站的 robots.txt:來源：OpenAI 此外，根據 OpenAI 發佈的有關 GPTBot 的文檔，還列出了 GPTBot 使用的 IP 範圍（目前只列出了一個，之後將繼續添加）。