業界標準に従い、Anthropicはモデル開発のためにパブリックウェブからデータを収集し、ウェブを検索し、ユーザーの指示に従ってウェブコンテンツを取得するために、様々なロボットを使用しています。Anthropicは、ウェブサイト所有者の透明性と選択を可能にするために、異なるロボットを使用しています。以下は、Anthropicが使用する3つのロボットに関する情報と、あなたのコンテンツにアクセスさせたいものを有効にし、そうでないものを制限するためのサイト設定の方法です。
ボット | 用途 | 無効にした場合の影響 |
ClaudeBot | ClaudeBotは、生成AIモデルのトレーニングに貢献する可能性のあるウェブコンテンツを収集することで、生成AIモデルの有用性と安全性を向上させるのに役立ちます。 | サイトがClaudeBotのアクセスを制限すると、そのサイトの将来の素材がAIモデルのトレーニングデータセットから除外されるべきであることを示します。 |
Claude-User | Claude-UserはClaude AIユーザーをサポートします。個人がClaudeに質問をする際、Claude-Userエージェントを使用してウェブサイトにアクセスする場合があります。 | Claude-Userにより、サイト所有者はこれらのユーザー主導のリクエストを通じてアクセスできるサイトを制御できます。サイトでClaude-Userを無効にすると、ユーザークエリに応答してコンテンツを取得することができなくなり、ユーザー指向のウェブ検索におけるサイトの可視性が低下する可能性があります。 |
Claude-SearchBot | Claude-SearchBotは、ユーザーの検索結果の品質を向上させるためにウェブをナビゲートします。検索応答の関連性と精度を向上させるために、オンラインコンテンツを具体的に分析します。 | サイトでClaude-SearchBotを無効にすると、検索最適化のためのコンテンツのインデックス化ができなくなり、ユーザー検索結果におけるサイトの可視性と精度が低下する可能性があります。 |
安全で信頼性の高いフロンティアシステムを構築し、責任あるAI開発の分野を前進させるという使命の一環として、データ収集の原則と今後のクローリングをオプトアウトする方法について共有します:
データ収集は透明であるべきです。Anthropicは上記のボットを使用してウェブコンテンツにアクセスします。
クローリングは侵入的または破壊的であってはなりません。同じドメインをクローリングする速度について慎重に考慮し、適切な場合はCrawl-delayを尊重することで、最小限の混乱を目指しています。
Anthropicのボットは、robots.txtの業界標準指令を尊重することで「クローリング禁止」シグナルを尊重します。
Anthropicのボットは回避防止技術を尊重します(例:クローリングするサイトのCAPTCHAを回避しようとしません)。
クローリング活動を制限するために、robots.txtの非標準Crawl-delay拡張をサポートしています。この例は以下のようになります:
User-agent: ClaudeBot
Crawl-delay: 1
ウェブサイト全体からボットをブロックするには、トップレベルディレクトリのrobots.txtファイルに以下を追加してください。オプトアウトしたいすべてのサブドメインについて、これを行ってください。この例は以下のとおりです:
User-agent: ClaudeBot
Disallow: /
Anthropicボットによるクローリングをオプトアウトするには、上記の方法でrobots.txtファイルを変更する必要があります。Anthropicボットが動作するIPアドレスをブロックするなどの代替方法は、robots.txtファイルを読む能力を妨げるため、正しく動作しないか、持続的にオプトアウトを保証しない可能性があります。さらに、サービスプロバイダーのパブリックIPを使用しているため、現在IPレンジを公開していません。これは将来変更される可能性があります。
データ処理の実践とコミットメントについて詳しくは、ヘルプセンターをご覧ください。さらにご質問がある場合、またはボットが誤動作していると思われる場合は、claudebot@anthropic.comまでご連絡ください。報告を確認することが困難なため、お問い合わせいただくドメインを含むメールアドレスからご連絡ください。