跳转到主要内容

Anthropic是否从网络上抓取数据,网站所有者如何阻止爬虫?

本周更新

按照行业标准,Anthropic使用各种机器人从公共网络收集数据用于模型开发、搜索网络以及按用户指示检索网络内容。Anthropic使用不同的机器人来实现网站所有者的透明度和选择权。以下是Anthropic使用的三种机器人的信息,以及如何设置您的网站偏好来启用您希望访问您内容的机器人并限制您不希望的机器人。

机器人

用途

禁用后会发生什么

ClaudeBot

ClaudeBot通过收集可能有助于训练的网络内容来帮助增强我们生成式AI模型的实用性和安全性。

当网站限制ClaudeBot访问时,这表明该网站的未来材料应从我们的AI模型训练数据集中排除。

Claude-User

Claude-User为Claude AI用户提供支持。当个人向Claude提问时,它可能会使用Claude-User代理访问网站。

Claude-User允许网站所有者控制哪些网站可以通过这些用户发起的请求访问。在您的网站上禁用Claude-User会阻止我们的系统响应用户查询检索您的内容,这可能会降低您网站在用户导向的网络搜索中的可见性。

Claude-SearchBot

Claude-SearchBot浏览网络以提高用户搜索结果的质量。它专门分析在线内容以增强搜索响应的相关性和准确性。

在您的网站上禁用Claude-SearchBot会阻止我们的系统为搜索优化索引您的内容,这可能会降低您网站在用户搜索结果中的可见性和准确性。

作为我们构建安全可靠的前沿系统并推进负责任AI开发领域使命的一部分,我们分享我们收集数据的原则以及如何选择退出我们未来爬取的说明:

  • 我们的数据收集应该是透明的。Anthropic使用上述机器人访问网络内容。

  • 我们的爬取不应该具有侵入性或破坏性。我们通过谨慎考虑爬取相同域名的速度并在适当时遵守Crawl-delay来力求最小化干扰。

  • Anthropic的机器人尊重"不要爬取"信号,通过遵守robots.txt中的行业标准指令。

  • Anthropic的机器人尊重反规避技术(例如,我们不会尝试绕过我们爬取网站的验证码)。

为了限制爬取活动,我们支持robots.txt的非标准Crawl-delay扩展。一个例子可能是:

User-agent: ClaudeBot

Crawl-delay: 1

要阻止机器人访问您的整个网站,请将此添加到您顶级目录中的robots.txt文件。请为您希望选择退出的每个子域名都这样做。一个例子是:

User-agent: ClaudeBot

Disallow: /

选择退出被Anthropic机器人爬取需要按照上述方式修改robots.txt文件。其他方法如阻止Anthropic机器人运行的IP地址可能无法正确工作或持续保证选择退出,因为这样做会阻碍我们读取您的robots.txt文件的能力。此外,我们目前不公布IP范围,因为我们使用服务提供商的公共IP。这在未来可能会改变。

您可以在我们的帮助中心了解更多关于我们数据处理实践和承诺的信息。如果您有进一步的问题,或认为我们的机器人可能出现故障,请联系claudebot@anthropic.com。请从包含您要联系我们的域名的电子邮件地址联系,否则很难验证报告。

这是否解答了您的问题?