Latest News Yesterday News Quote List Topic List Quote List

OpenAI 推出网络爬虫 GPTBot，但用户可以选择禁止被爬

36Kr

2023.08.08 08:39

我是 PortAI，我可以总结文章信息。

作者 | 虞景霖编辑 | 邓咏仪 AI 模型的升级依靠海量的公开数据，而科技公司大多通过网络爬虫来获取用户数据。但这个过程并不一定被用户、网站所有者所允许。8 月 8 日，OpenAI 推出了一款名为 GPTBot 的网络爬虫机器人，用于收集训练 AI 模型所需的数据信息。传闻 OpenAI 将利用这些数据升级 GPT-4 和其他大语言模型（如可能即将推出的 GPT-5 和开源的 G3PO）。根据 OpenAI 介绍，GPTBot 和其他所有网络爬虫一样，从互联网上搜集能够用于训练 AI 模型的有用数据。但它并不会收集需要付费的、或者违反隐私政策的数据。此外，网站所有者还可以选择限制或者禁止 GPTBot 爬取网页数据。如何识别 GPTBot？来源：OpenAI 如何禁止 GPTBot 访问？将 GPTBot 添加到网站的 robots.txt:来源：OpenAI 如何限制 GPTBot 访问，使其只爬取网站的一部分数据？将下列命令添加至网站的 robots.txt:来源：OpenAI 此外，根据 OpenAI 发布的有关 GPTBot 的文档，还列出了 GPTBot 使用的 IP 范围（目前只列出了一个，之后将继续添加）。