В соответствии с отраслевыми стандартами, Anthropic использует различных роботов для сбора данных из публичного интернета для разработки моделей, поиска в интернете и получения веб-контента по запросу пользователей. Anthropic использует разных роботов для обеспечения прозрачности и выбора для владельцев веб-сайтов. Ниже представлена информация о трех роботах, которых использует Anthropic, и о том, как настроить предпочтения вашего сайта, чтобы разрешить доступ тем, кому вы хотите предоставить доступ к вашему контенту, и ограничить тех, кому не хотите.
Бот | Использование | Что происходит при его отключении |
ClaudeBot | ClaudeBot помогает повысить полезность и безопасность наших генеративных ИИ-моделей путем сбора веб-контента, который потенциально может способствовать их обучению. | Когда сайт ограничивает доступ ClaudeBot, это сигнализирует о том, что будущие материалы сайта должны быть исключены из наших наборов данных для обучения ИИ-моделей. |
Claude-User | Claude-User поддерживает пользователей Claude AI. Когда люди задают вопросы Claude, он может получать доступ к веб-сайтам, используя агент Claude-User. | Claude-User позволяет владельцам сайтов контролировать, к каким сайтам можно получить доступ через эти запросы, инициированные пользователями. Отключение Claude-User на вашем сайте предотвращает получение нашей системой вашего контента в ответ на пользовательский запрос, что может снизить видимость вашего сайта для веб-поиска, направляемого пользователями. |
Claude-SearchBot | Claude-SearchBot навигирует по интернету для улучшения качества результатов поиска для пользователей. Он анализирует онлайн-контент специально для повышения релевантности и точности поисковых ответов. | Отключение Claude-SearchBot на вашем сайте предотвращает индексацию нашей системой вашего контента для оптимизации поиска, что может снизить видимость и точность вашего сайта в результатах поиска пользователей. |
В рамках нашей миссии по созданию безопасных и надежных передовых систем и продвижению области ответственной разработки ИИ, мы делимся принципами, по которым мы собираем данные, а также инструкциями о том, как отказаться от нашего сканирования в будущем:
Наш сбор данных должен быть прозрачным. Anthropic использует описанных выше ботов для доступа к веб-контенту.
Наше сканирование не должно быть навязчивым или разрушительным. Мы стремимся к минимальным нарушениям, продуманно подходя к скорости сканирования одних и тех же доменов и соблюдая Crawl-delay там, где это уместно.
Боты Anthropic соблюдают сигналы "не сканировать", следуя отраслевым стандартным директивам в robots.txt.
Боты Anthropic соблюдают технологии защиты от обхода (например, мы не будем пытаться обойти CAPTCHA для сайтов, которые мы сканируем.)
Для ограничения активности сканирования мы поддерживаем нестандартное расширение Crawl-delay для robots.txt. Пример этого может быть:
User-agent: ClaudeBot
Crawl-delay: 1
Чтобы заблокировать бота для всего вашего веб-сайта, добавьте это в файл robots.txt в вашем каталоге верхнего уровня. Пожалуйста, делайте это для каждого поддомена, от которого вы хотите отказаться. Пример этого:
User-agent: ClaudeBot
Disallow: /
Отказ от сканирования ботами Anthropic требует изменения файла robots.txt описанным выше способом. Альтернативные методы, такие как блокировка IP-адреса(ов), с которых работают боты Anthropic, могут работать неправильно или не гарантировать постоянный отказ, поскольку это препятствует нашей способности читать ваш файл robots.txt. Кроме того, мы в настоящее время не публикуем диапазоны IP, поскольку используем публичные IP поставщиков услуг. Это может измениться в будущем.
Вы можете узнать больше о наших практиках и обязательствах по обработке данных в нашем Центре помощи. Если у вас есть дополнительные вопросы или вы считаете, что наши боты могут работать неправильно, пожалуйста, обращайтесь по адресу claudebot@anthropic.com. Пожалуйста, обращайтесь с электронной почты, которая включает домен, по поводу которого вы нам пишете, поскольку иначе сложно проверить сообщения.