60 Crawler in 7 Kategorien

Wer crawlt das Web, und wen hältst du draußen?

Datenbank aller relevanten Crawler: Suchmaschinen, AI/LLM-Trainer, SEO-Tools, Social-Vorschauen, Archive, Monitoring und Security-Scanner. Pro Bot der offizielle UA-Token, ein UA-Beispiel, die Verifikations-Methode und ein Link zur Anbieter-Doku.

Schnellauswahl:
  • Googlebot

    Google Suchmaschinen Empfohlen erlauben

    Indexierung für die Google-Websuche, der mit Abstand wichtigste Crawler im Web.

    Details
    UA-Token
    Googlebot
    UA-Beispiel
    Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    Verifikation
    rDNS auf googlebot.com / google.com (forward + reverse)
    Doku
    https://developers.google.com/search/docs/crawling-indexing/google-common-crawlers
  • Googlebot-Image

    Google Suchmaschinen Empfohlen erlauben

    Indexiert Bilder für die Google-Bildersuche.

    Details
    UA-Token
    Googlebot-Image
    UA-Beispiel
    Googlebot-Image/1.0
    Verifikation
    rDNS auf googlebot.com
    Doku
    https://developers.google.com/search/docs/crawling-indexing/google-common-crawlers
  • Googlebot-News

    Google Suchmaschinen Empfohlen erlauben

    Speist Google News mit aktuellen Artikeln.

    Details
    UA-Token
    Googlebot-News
    UA-Beispiel
    (nutzt Googlebot-UA, signalisiert nur per UA-Token)
    Verifikation
    rDNS auf googlebot.com
    Doku
    https://developers.google.com/search/docs/crawling-indexing/google-common-crawlers
  • Google-Extended

    Google AI / LLM Bewusst entscheiden

    Steuert die Nutzung von Inhalten für Gemini- und Vertex-AI-Training, ohne die Suche zu beeinflussen.

    Details
    UA-Token
    Google-Extended
    UA-Beispiel
    (kein eigener UA, nur Steuer-Token)
    Verifikation
    kein eigener Crawler, separates robots-Token
    Doku
    https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers#google-extended
  • AdsBot-Google

    Google Suchmaschinen Empfohlen erlauben

    Prüft Landing-Page-Qualität für Google Ads. Blocken bedeutet schlechtere Anzeigen-Bewertung.

    Details
    UA-Token
    AdsBot-Google
    UA-Beispiel
    AdsBot-Google (+http://www.google.com/adsbot.html)
    Verifikation
    rDNS auf googlebot.com
    Doku
    https://developers.google.com/search/docs/crawling-indexing/google-common-crawlers
  • Mediapartners-Google

    Google Suchmaschinen Empfohlen erlauben

    AdSense-Crawler zur Anzeigen-Auswahl. Nur relevant für Sites mit AdSense.

    Details
    UA-Token
    Mediapartners-Google
    UA-Beispiel
    Mediapartners-Google
    Verifikation
    rDNS auf googlebot.com
    Doku
    https://developers.google.com/search/docs/crawling-indexing/google-common-crawlers
  • Bingbot

    Microsoft Suchmaschinen Empfohlen erlauben

    Bing-Suche, speist auch Microsoft Copilot mit Suchergebnissen.

    Details
    UA-Token
    bingbot
    UA-Beispiel
    Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
    Verifikation
    rDNS auf search.msn.com
    Doku
    https://www.bing.com/webmasters/help/which-crawlers-does-bing-use-8c184ec0
  • DuckDuckBot

    DuckDuckGo Suchmaschinen Empfohlen erlauben

    Eigener DDG-Crawler zusätzlich zur Bing-Quelle.

    Details
    UA-Token
    DuckDuckBot
    UA-Beispiel
    DuckDuckBot/1.1; (+http://duckduckgo.com/duckduckbot.html)
    Verifikation
    IP-Liste publiziert
    Doku
    https://duckduckgo.com/duckduckgo-help-pages/results/duckduckbot/
  • YandexBot

    Yandex Suchmaschinen Je nach Markt

    Russische Suchmaschine mit Marktdominanz in Russland und Teilen Osteuropas.

    Details
    UA-Token
    YandexBot
    UA-Beispiel
    Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
    Verifikation
    rDNS auf yandex.ru / yandex.net / yandex.com
    Doku
    https://yandex.com/support/webmaster/robot-workings/check-yandex-robots.html
  • Baiduspider

    Baidu Suchmaschinen Je nach Markt

    Chinesische Suchmaschine, in China dominant.

    Details
    UA-Token
    Baiduspider
    UA-Beispiel
    Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
    Verifikation
    rDNS auf baidu.com / baidu.jp
    Doku
    https://help.baidu.com/question?prod_id=99&class=476&id=3001
  • Applebot

    Apple Suchmaschinen Empfohlen erlauben

    Spotlight, Siri und Safari-Vorschläge.

    Details
    UA-Token
    Applebot
    UA-Beispiel
    Mozilla/5.0 (Device; OS X) AppleWebKit (KHTML, like Gecko) Version Safari Applebot/0.1
    Verifikation
    rDNS auf applebot.apple.com
    Doku
    https://support.apple.com/en-us/119829
  • Applebot-Extended

    Apple AI / LLM Bewusst entscheiden

    Steuert die Nutzung von Inhalten für Apple-Intelligence-Training. Suche bleibt bei Block weiter aktiv.

    Details
    UA-Token
    Applebot-Extended
    UA-Beispiel
    (kein eigener UA, nur Steuer-Token)
    Verifikation
    kein eigener Crawler, separates robots-Token
    Doku
    https://support.apple.com/en-us/119829
  • Sogou web spider

    Sogou Suchmaschinen Je nach Markt

    Chinesische Suchmaschine, zweitgrößter Player nach Baidu.

    Details
    UA-Token
    Sogou web spider
    UA-Beispiel
    Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
    Verifikation
    UA-basiert
    Doku
    https://www.sogou.com/docs/help/webmasters.htm
  • Yeti (Naver)

    Naver Suchmaschinen Je nach Markt

    Koreanische Suchmaschine, in Südkorea Marktführer.

    Details
    UA-Token
    Yeti
    UA-Beispiel
    Mozilla/5.0 (compatible; Yeti/1.1; +https://naver.me/spd)
    Verifikation
    rDNS auf naver.com
    Doku
    https://searchadvisor.naver.com/guide/seo-basic-firewall
  • SeznamBot

    Seznam.cz Suchmaschinen Je nach Markt

    Tschechische Suchmaschine mit nennenswertem Marktanteil in Tschechien.

    Details
    UA-Token
    SeznamBot
    UA-Beispiel
    Mozilla/5.0 (compatible; SeznamBot/4.0; +http://napoveda.seznam.cz/seznambot-intro/)
    Verifikation
    IP-Range publiziert
    Doku
    https://napoveda.seznam.cz/cz/fulltext-hledani-v-internetu/seznambot/
  • GPTBot

    OpenAI AI / LLM Bewusst entscheiden

    Crawlt Inhalte für das Training neuer OpenAI-Modelle. Block verhindert Aufnahme in den Trainings-Korpus.

    Details
    UA-Token
    GPTBot
    UA-Beispiel
    Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)
    Verifikation
    IP-Range unter platform.openai.com publiziert
    Doku
    https://platform.openai.com/docs/bots
  • ChatGPT-User

    OpenAI AI / LLM Empfohlen erlauben

    Live-Fetch wenn ein ChatGPT-Nutzer eine konkrete URL anfragt oder einen Link postet.

    Details
    UA-Token
    ChatGPT-User
    UA-Beispiel
    Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ChatGPT-User/1.0; +https://openai.com/bot)
    Verifikation
    IP-Range publiziert
    Doku
    https://platform.openai.com/docs/bots
  • OAI-SearchBot

    OpenAI AI / LLM Empfohlen erlauben

    Speist die OpenAI-Suche und Citations in ChatGPT.

    Details
    UA-Token
    OAI-SearchBot
    UA-Beispiel
    Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot)
    Verifikation
    IP-Range publiziert
    Doku
    https://platform.openai.com/docs/bots
  • ClaudeBot

    Anthropic AI / LLM Bewusst entscheiden

    Crawlt Inhalte für das Training der Claude-Modelle.

    Details
    UA-Token
    ClaudeBot
    UA-Beispiel
    Mozilla/5.0 (compatible; ClaudeBot/1.0; +claudebot@anthropic.com)
    Verifikation
    siehe support.anthropic.com
    Doku
    https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler
  • Claude-User

    Anthropic AI / LLM Empfohlen erlauben

    Live-Fetch wenn Claude eine URL für einen Nutzer abruft.

    Details
    UA-Token
    Claude-User
    UA-Beispiel
    Mozilla/5.0 (compatible; Claude-User/1.0; +Claude-User@anthropic.com)
    Verifikation
    siehe Anthropic-Doku
    Doku
    https://support.anthropic.com/en/articles/8896518
  • Claude-SearchBot

    Anthropic AI / LLM Empfohlen erlauben

    Crawlt für Claude-Suchergebnisse und Web-Citations.

    Details
    UA-Token
    Claude-SearchBot
    UA-Beispiel
    Mozilla/5.0 (compatible; Claude-SearchBot/1.0)
    Verifikation
    siehe Anthropic-Doku
    Doku
    https://support.anthropic.com/en/articles/8896518
  • PerplexityBot

    Perplexity AI / LLM Empfohlen erlauben

    Speist den Perplexity-Index für die AI-Suche.

    Details
    UA-Token
    PerplexityBot
    UA-Beispiel
    Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)
    Verifikation
    IP-Range publiziert
    Doku
    https://docs.perplexity.ai/guides/bots
  • Perplexity-User

    Perplexity AI / LLM Empfohlen erlauben

    Live-Fetch für Perplexity-Anfragen. Respektiert robots.txt nicht.

    Details
    UA-Token
    Perplexity-User
    UA-Beispiel
    Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user)
    Verifikation
    IP-Range publiziert; ignoriert robots.txt (User-getriggert)
    Doku
    https://docs.perplexity.ai/guides/bots
  • CCBot

    Common Crawl AI / LLM Bewusst entscheiden

    Open-Web-Crawl, dient als Trainings-Quelle vieler LLMs (GPT, Llama und andere).

    Details
    UA-Token
    CCBot
    UA-Beispiel
    CCBot/2.0 (https://commoncrawl.org/faq/)
    Verifikation
    UA-basiert; AWS-IPs
    Doku
    https://commoncrawl.org/ccbot
  • Bytespider

    ByteDance AI / LLM Bewusst entscheiden

    ByteDance-, TikTok- und Doubao-LLM-Training. Berüchtigt für aggressives Crawling.

    Details
    UA-Token
    Bytespider
    UA-Beispiel
    Mozilla/5.0 (compatible; Bytespider; spider-feedback@bytedance.com)
    Verifikation
    UA-basiert
    Doku
    https://bytedance.com/contact
  • meta-externalagent

    Meta AI / LLM Bewusst entscheiden

    Meta-AI-Training (Llama-Modelle).

    Details
    UA-Token
    meta-externalagent
    UA-Beispiel
    meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
    Verifikation
    UA-basiert
    Doku
    https://developers.facebook.com/docs/sharing/webmasters/web-crawlers
  • Amazonbot

    Amazon AI / LLM Bewusst entscheiden

    Alexa und Amazon-LLM-Training.

    Details
    UA-Token
    Amazonbot
    UA-Beispiel
    Mozilla/5.0 (Linux; ; ) AppleWebKit/ (KHTML, like Gecko) Mobile Safari Amazonbot/0.1
    Verifikation
    UA-basiert
    Doku
    https://developer.amazon.com/amazonbot
  • cohere-ai

    Cohere AI / LLM Bewusst entscheiden

    Cohere-LLM-Training für Enterprise-Modelle.

    Details
    UA-Token
    cohere-ai
    UA-Beispiel
    cohere-ai
    Verifikation
    UA-basiert
    Doku
    https://cohere.com/legal
  • Diffbot

    Diffbot AI / LLM Bewusst entscheiden

    Strukturierte-Daten-Extraktion für den Diffbot Knowledge Graph.

    Details
    UA-Token
    Diffbot
    UA-Beispiel
    Mozilla/5.0 (compatible; Diffbot/0.1; +http://www.diffbot.com)
    Verifikation
    UA-basiert
    Doku
    https://docs.diffbot.com/docs
  • MistralAI-User

    Mistral AI / LLM Empfohlen erlauben

    Live-Fetch für Le Chat (Mistral) wenn ein Nutzer eine URL anfragt.

    Details
    UA-Token
    MistralAI-User
    UA-Beispiel
    MistralAI-User/1.0
    Verifikation
    UA-basiert
    Doku
    https://docs.mistral.ai
  • AhrefsBot

    Ahrefs SEO-Tools Bewusst entscheiden

    Backlink-Index für Ahrefs-Kunden. Block schützt vor Konkurrenz-Recherche.

    Details
    UA-Token
    AhrefsBot
    UA-Beispiel
    Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)
    Verifikation
    rDNS auf ahrefs.com / ahrefs.net
    Doku
    https://ahrefs.com/robot
  • AhrefsSiteAudit

    Ahrefs SEO-Tools Empfohlen erlauben

    Eigene Site-Audits durch Ahrefs-Kunden auf der eigenen Domain.

    Details
    UA-Token
    AhrefsSiteAudit
    UA-Beispiel
    Mozilla/5.0 (compatible; AhrefsSiteAudit/6.1; +http://ahrefs.com/robot/site-audit)
    Verifikation
    rDNS auf ahrefs.com
    Doku
    https://ahrefs.com/robot
  • SemrushBot

    Semrush SEO-Tools Bewusst entscheiden

    Backlink- und SERP-Index für Semrush-Kunden.

    Details
    UA-Token
    SemrushBot
    UA-Beispiel
    Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html)
    Verifikation
    IP-Range publiziert
    Doku
    https://www.semrush.com/bot/
  • MJ12bot (Majestic)

    Majestic SEO-Tools Bewusst entscheiden

    Majestic-Backlink-Index. Distributed Crawling.

    Details
    UA-Token
    MJ12bot
    UA-Beispiel
    Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/)
    Verifikation
    UA-basiert
    Doku
    https://mj12bot.com/
  • DotBot (Moz)

    Moz SEO-Tools Bewusst entscheiden

    Moz-Link-Index für die Domain Authority und Link Explorer.

    Details
    UA-Token
    DotBot
    UA-Beispiel
    Mozilla/5.0 (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot;)
    Verifikation
    UA-basiert
    Doku
    https://moz.com/help/moz-procedures/crawlers/dotbot
  • rogerbot (Moz)

    Moz SEO-Tools Empfohlen erlauben

    Moz-Pro-Site-Audit-Crawler für die eigene Site.

    Details
    UA-Token
    rogerbot
    UA-Beispiel
    rogerbot/1.2 (http://moz.com/help/pro/what-is-rogerbot-, rogerbot-crawler+pp@moz.com)
    Verifikation
    UA-basiert
    Doku
    https://moz.com/help/moz-procedures/crawlers/rogerbot
  • BLEXBot (WebMeUp)

    WebMeUp SEO-Tools Bewusst entscheiden

    Backlink-Index. Häufig sehr aggressiv im Crawl-Verhalten.

    Details
    UA-Token
    BLEXBot
    UA-Beispiel
    Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/)
    Verifikation
    UA-basiert
    Doku
    http://webmeup-crawler.com/
  • DataForSeoBot

    DataForSEO SEO-Tools Bewusst entscheiden

    SERP- und Backlink-Daten als API für Reseller und Tools.

    Details
    UA-Token
    DataForSeoBot
    UA-Beispiel
    Mozilla/5.0 (compatible; DataForSeoBot/1.0; +https://dataforseo.com/dataforseo-bot)
    Verifikation
    UA-basiert
    Doku
    https://dataforseo.com/dataforseo-bot
  • Screaming Frog SEO Spider

    Screaming Frog SEO-Tools Empfohlen erlauben

    Desktop-SEO-Crawler. Kann jede beliebige UA spoofen.

    Details
    UA-Token
    Screaming Frog SEO Spider
    UA-Beispiel
    Screaming Frog SEO Spider/19.0
    Verifikation
    Desktop-Tool, beliebige IP
    Doku
    https://www.screamingfrog.co.uk/seo-spider/
  • Sitebulb

    Sitebulb SEO-Tools Empfohlen erlauben

    Desktop-SEO-Audit-Tool.

    Details
    UA-Token
    Sitebulb
    UA-Beispiel
    Mozilla/5.0 (compatible; Sitebulb/...)
    Verifikation
    Desktop-Tool
    Doku
    https://sitebulb.com/
  • facebookexternalhit

    Meta Social / Messenger Empfohlen erlauben

    Holt Open-Graph-Tags für Facebook- und Instagram-Link-Vorschauen.

    Details
    UA-Token
    facebookexternalhit
    UA-Beispiel
    facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
    Verifikation
    IP-Liste publiziert
    Doku
    https://developers.facebook.com/docs/sharing/webmasters/web-crawlers
  • meta-externalfetcher

    Meta Social / Messenger Empfohlen erlauben

    On-demand Fetch innerhalb der Meta-AI-Produkte.

    Details
    UA-Token
    meta-externalfetcher
    UA-Beispiel
    meta-externalfetcher/1.1
    Verifikation
    UA-basiert
    Doku
    https://developers.facebook.com/docs/sharing/webmasters/web-crawlers
  • Twitterbot

    X (Twitter) Social / Messenger Empfohlen erlauben

    Holt Twitter-Card- und OG-Tags für die X-Vorschau in Tweets.

    Details
    UA-Token
    Twitterbot
    UA-Beispiel
    Twitterbot/1.0
    Verifikation
    UA-basiert
    Doku
    https://developer.twitter.com/en/docs/twitter-for-websites/cards/guides/getting-started
  • LinkedInBot

    LinkedIn Social / Messenger Empfohlen erlauben

    Link-Vorschau in LinkedIn-Posts.

    Details
    UA-Token
    LinkedInBot
    UA-Beispiel
    LinkedInBot/1.0 (compatible; Mozilla/5.0; Apache-HttpClient +http://www.linkedin.com)
    Verifikation
    UA-basiert
    Doku
    https://www.linkedin.com/help/linkedin/answer/a519723
  • Slackbot-LinkExpanding

    Slack Social / Messenger Empfohlen erlauben

    Slack-Link-Unfurling, holt OG-Tags zur Vorschau.

    Details
    UA-Token
    Slackbot-LinkExpanding
    UA-Beispiel
    Slackbot-LinkExpanding 1.0 (+https://api.slack.com/robots)
    Verifikation
    UA-basiert
    Doku
    https://api.slack.com/robots
  • Discordbot

    Discord Social / Messenger Empfohlen erlauben

    Discord-Link-Embeds in Channels und DMs.

    Details
    UA-Token
    Discordbot
    UA-Beispiel
    Mozilla/5.0 (compatible; Discordbot/2.0; +https://discordapp.com)
    Verifikation
    UA-basiert
    Doku
    https://discord.com/developers/docs/reference#user-agent
  • TelegramBot

    Telegram Social / Messenger Empfohlen erlauben

    Link-Preview in Telegram-Chats.

    Details
    UA-Token
    TelegramBot
    UA-Beispiel
    TelegramBot (like TwitterBot)
    Verifikation
    UA-basiert
    Doku
    https://core.telegram.org/
  • WhatsApp

    Meta Social / Messenger Empfohlen erlauben

    Link-Preview in WhatsApp-Chats.

    Details
    UA-Token
    WhatsApp
    UA-Beispiel
    WhatsApp/2.x
    Verifikation
    UA-basiert
    Doku
    https://developers.facebook.com/docs/sharing/webmasters/web-crawlers
  • Pinterestbot

    Pinterest Social / Messenger Empfohlen erlauben

    Pin-Vorschauen und Rich Pins.

    Details
    UA-Token
    Pinterestbot
    UA-Beispiel
    Mozilla/5.0 (compatible; Pinterestbot/1.0; +http://www.pinterest.com/bot.html)
    Verifikation
    UA-basiert
    Doku
    https://help.pinterest.com/en/business/article/pinterest-crawler
  • Reddit Bot

    Reddit Social / Messenger Empfohlen erlauben

    Link-Vorschau in Reddit-Submissions.

    Details
    UA-Token
    Reddit
    UA-Beispiel
    Mozilla/5.0 (compatible; redditbot/1.0; +http://www.reddit.com/feedback)
    Verifikation
    UA-basiert
    Doku
    https://www.redditinc.com/policies/
  • TikTokSpider

    ByteDance Social / Messenger Empfohlen erlauben

    Link-Vorschau in TikTok-Posts.

    Details
    UA-Token
    TikTokSpider
    UA-Beispiel
    TikTokSpider
    Verifikation
    UA-basiert
    Doku
    https://www.tiktok.com/
  • archive.org_bot

    Internet Archive Archive Empfohlen erlauben

    Wayback-Machine-Crawler für Web-Archivierung.

    Details
    UA-Token
    archive.org_bot
    UA-Beispiel
    Mozilla/5.0 (compatible; archive.org_bot +http://archive.org/details/archive.org_bot)
    Verifikation
    IP-Range publiziert
    Doku
    https://archive.org/details/archive.org_bot
  • UptimeRobot

    UptimeRobot Monitoring Empfohlen erlauben

    Verfügbarkeits-Monitoring durch eigene Konten der Site-Betreiber.

    Details
    UA-Token
    UptimeRobot
    UA-Beispiel
    Mozilla/5.0 (compatible; UptimeRobot/2.0; http://www.uptimerobot.com/)
    Verifikation
    IP-Liste publiziert
    Doku
    https://uptimerobot.com/
  • Pingdom

    SolarWinds Monitoring Empfohlen erlauben

    Uptime- und Performance-Monitoring von Pingdom-Kunden.

    Details
    UA-Token
    Pingdom
    UA-Beispiel
    Pingdom.com_bot_version_x.x_(http://www.pingdom.com/)
    Verifikation
    IP-Liste publiziert
    Doku
    https://www.pingdom.com/
  • StatusCake

    StatusCake Monitoring Empfohlen erlauben

    Verfügbarkeits-Monitoring von StatusCake-Kunden.

    Details
    UA-Token
    StatusCake
    UA-Beispiel
    StatusCake (https://www.statuscake.com)
    Verifikation
    IP-Liste publiziert
    Doku
    https://www.statuscake.com/
  • CensysInspect

    Censys Security-Scanner Bewusst entscheiden

    Internet-Wide Security-Scanning. Indexiert offene Services für Security-Researcher.

    Details
    UA-Token
    CensysInspect
    UA-Beispiel
    Mozilla/5.0 (compatible; CensysInspect/1.1; +https://about.censys.io/)
    Verifikation
    IP-Range publiziert
    Doku
    https://about.censys.io/
  • Shodan

    Shodan Security-Scanner Bewusst entscheiden

    Service- und Banner-Indexing für Security-Recherche.

    Details
    UA-Token
    Shodan
    UA-Beispiel
    Mozilla/5.0 (compatible; +http://www.shodan.io)
    Verifikation
    IP-Range publiziert
    Doku
    https://www.shodan.io/
  • Palo Alto Expanse

    Palo Alto Security-Scanner Bewusst entscheiden

    Attack-Surface-Mapping für Enterprise-Kunden.

    Details
    UA-Token
    expanse
    UA-Beispiel
    expanse, a Palo Alto Networks company, searches across the global IPv4 space
    Verifikation
    IP-Range publiziert
    Doku
    https://www.paloaltonetworks.com/cortex/cortex-xpanse
  • l9scan / leakix

    LeakIX Security-Scanner Bewusst entscheiden

    Vulnerability- und Leak-Indexing für offene Datenbanken und Services.

    Details
    UA-Token
    l9scan
    UA-Beispiel
    l9scan/2.0.0 (+https://leakix.net)
    Verifikation
    UA-basiert
    Doku
    https://leakix.net/
  • NetcraftSurveyAgent

    Netcraft Security-Scanner Empfohlen erlauben

    Webserver-Survey, Quelle für Netcraft Security-Reports.

    Details
    UA-Token
    NetcraftSurveyAgent
    UA-Beispiel
    Mozilla/5.0 (compatible; NetcraftSurveyAgent/1.0; +info@netcraft.com)
    Verifikation
    UA-basiert
    Doku
    https://www.netcraft.com/survey/

Standard

Wie robots.txt wirklich funktioniert.

Die robots.txt ist eine Textdatei im Root jeder Domain. Standardisiert ist sie seit September 2022 in RFC 9309, vorher war sie nur ein informelles Protokoll. Heute ist die Auswertung in den Crawlern der großen Suchmaschinen präzise und reproduzierbar.

Die Datei besteht aus Gruppen

Jede Gruppe beginnt mit einer oder mehreren User-agent:-Zeilen und enthält darunter Allow:-, Disallow:- und optional Crawl-delay:-Zeilen. Eine Gruppe endet, sobald die nächste User-agent:-Zeile beginnt.

# Beispiel robots.txt mit drei Gruppen
User-agent: Googlebot
Disallow: /search
Allow: /search/about

User-agent: GPTBot
Disallow: /

User-agent: *
Disallow: /admin
Disallow: /api/private
Crawl-delay: 5

Sitemap: https://example.com/sitemap.xml

Spezifitäts-Regel: längster passender Token gewinnt

Wenn ein Bot mehrere Gruppen findet, die auf seinen User-Agent passen, gilt der längste Token-Match. Beispiel: ein Crawler, der sich als Googlebot-Image identifiziert, sieht eine Gruppe für Googlebot und eine für Googlebot-Image. Er befolgt nur die für Googlebot-Image. Die User-agent: *-Gruppe gilt nur für Bots, die KEINE eigene namentliche Gruppe haben.

Wildcards und Pfad-Matching

  • * in einer Allow- oder Disallow-Regel matcht beliebig viele Zeichen. Disallow: /*.pdf blockt alle PDF-Dateien.
  • $ am Ende einer Regel verankert das Pfad-Ende. Disallow: /tmp$ blockt nur /tmp exakt.
  • Innerhalb der gleichen Gruppe gewinnt die längste passende Regel. Eine Allow: /api/public sticht eine generelle Disallow: /api aus.
  • Bei gleicher Länge gewinnt die weniger restriktive Regel (Allow vor Disallow). Konvention seit RFC 9309.

Crawl-Delay: nicht im RFC, aber respektiert

Crawl-delay: ist nicht Teil von RFC 9309, wird aber von Bing, Yandex, Baidu und vielen kleineren Crawlern befolgt. Der Wert ist die Wartezeit in Sekunden zwischen aufeinanderfolgenden Requests. Google ignoriert das Feld bewusst und stellt die Crawl-Frequenz manuell in der Search Console ein.

Sitemap-Verweise

Sitemap:-Zeilen stehen außerhalb der Gruppen. Sie listen absolute URLs zu XML-Sitemaps der Domain auf. Crawler lesen diese als zusätzlichen Hinweis, wo Inhalte zu finden sind.

Strategie

Welche Bots blocken? Ein Entscheidungsleitfaden.

Es gibt keine pauschale Antwort. Die richtige Auswahl hängt davon ab, welche Geschäftsmodelle deine Site verfolgt und gegen welche Verwendung deiner Inhalte du dich konkret schützen willst.

Content-Site oder Magazin

Suche unbedingt erlauben (Googlebot, Bingbot, OAI-SearchBot, Claude-SearchBot, PerplexityBot), denn das ist der Traffic-Kanal. AI-Training individuell entscheiden: wer pauschal nicht in LLM-Korpora landen will, blockt GPTBot, ClaudeBot, CCBot, Google-Extended, Applebot-Extended.

E-Commerce

Suchmaschinen alle zulassen, dazu Social-Bots für Link-Vorschauen (LinkedInBot, Twitterbot, facebookexternalhit, WhatsApp, Pinterestbot). AdsBot-Google MUSS erlaubt sein, sonst werden Google-Ads-Landing-Pages auf "Slow" markiert. AI-Training defensiv blocken (Produkt-Texte sind teuer in der Erstellung).

SaaS-Marketing-Site

Alles erlauben, was Sichtbarkeit bringt: Suche, Social, AI-Search-Bots (OAI-SearchBot, PerplexityBot, Claude-SearchBot). AI-Training ist Geschmackssache. Wenn die Marketing-Texte sowieso öffentlich repliziert werden dürfen: erlauben.

Dokumentations-Portal

Hier ist die Strategie genau umgekehrt: AI-Training EXPLIZIT erlauben, denn jeder Entwickler, der einen LLM-Assistant nutzt, profitiert davon, wenn deine Doku im Trainings-Korpus ist. Suche selbstverständlich. Crawl-Delay vorsichtig wählen.

Privater Blog oder Portfolio

Default ist "alles offen" und das ist meistens richtig. Eine robots.txt mit nur einem Sitemap-Verweis hilft Suchmaschinen mehr als alle Block-Listen der Welt. Wer trotzdem AI-Training rauslassen will: GPTBot, ClaudeBot, CCBot, Google-Extended, Applebot-Extended sind die Big Five.

News oder journalistische Site

Googlebot-News explizit erlauben. AI-Training ist hier das politische Thema: viele Verlage blocken pauschal, weil sie eigene Lizenzdeals mit AI-Anbietern verhandeln (NYT, Springer, FT). ChatGPT-User und Claude-User trotzdem zulassen, damit Nutzer-Anfragen funktionieren.

Grenzen

Was robots.txt nicht kann.

Sie ist eine Bitte, kein Zaun

Die Datei ist eine freiwillige Empfehlung. Böse Bots, Scraper, Wettbewerbs-Späher und Security-Scanner ignorieren sie regelmäßig. Wer wirklich blocken will, braucht harte Maßnahmen am Webserver: User-Agent-Filter, IP-Blocklisten, Rate-Limiting, fail2ban-Regeln, Web Application Firewalls (CrowdSec, ModSecurity). robots.txt sortiert nur die höflichen Bots aus.

Sie verhindert nicht die Indexierung

Eine per Disallow: blockierte URL kann trotzdem in den Suchergebnissen auftauchen, wenn andere Sites darauf verlinken. Google zeigt dann nur die URL ohne Snippet. Wer Indexierung verhindern will, muss das per <meta name="robots" content="noindex"> oder X-Robots-Tag-Header machen. WICHTIG: damit das Tag gelesen werden kann, darf die URL NICHT per robots.txt blockiert sein.

Sie schützt keine sensiblen Daten

Was in der robots.txt steht, ist öffentlich. Pfade, die du dort als Disallow: aufnimmst, gibst du damit jedem zur Lektüre frei. Wer wissen will, wo deine Admin-Konsole liegt, sucht zuerst dort. Sensible Pfade gehören NICHT in die robots.txt, sondern hinter Authentifizierung.

UA-Spoofing umgeht alles

Jeder Crawler kann seinen User-Agent frei wählen. Ein Scraper, der sich als Googlebot ausgibt, würde durch deine Googlebot-Allow-Regel rutschen. Schutz dagegen ist nur per Reverse-DNS-Lookup auf die offizielle Owner-Domain (googlebot.com, search.msn.com, applebot.apple.com) möglich.

FAQ

Häufige Fragen zu Bots und robots.txt.

Antworten auf die Fragen, die immer wieder kommen.

Halten sich alle Bots an robots.txt?

Nein. Die robots.txt ist eine freiwillige Empfehlung, kein technischer Zwang. Große, etablierte Anbieter (Google, Bing, OpenAI, Anthropic) respektieren die Datei. Aber: Perplexity-User ignoriert sie bewusst (Live-Fetches im Auftrag von Nutzern), Bytespider war 2023 bis 2024 dafür berüchtigt, sie zu übergehen, viele Scraper aus dem grauen und schwarzen Bereich bauen sich eigene UAs oder spoofen Googlebot. Wer wirklich blocken will, braucht Webserver-seitige UA- oder IP-Filter zusätzlich zur robots.txt.

Wenn ich Googlebot komplett blockiere, falle ich aus dem Index?

Ja, schrittweise. Google entfernt URLs, die über längere Zeit per robots.txt geblockt sind, aus dem Live-Index. Bestätigt wird das über den Search Console Bericht "Indexabdeckung". Eine versehentliche Disallow: /-Zeile für den Googlebot ist eine der häufigsten Ursachen für komplette Sichtbarkeitsverluste nach Relaunches. Schau in die Live-Ansicht der Search Console, bevor du etwas blockst.

Was ist der Unterschied zwischen GPTBot und ChatGPT-User?

GPTBot crawlt im Hintergrund Inhalte für das Training neuer Modelle. Wenn du den blockst, fließt deine Site nicht in den Trainings-Korpus ein, taucht aber weiterhin in ChatGPT-Suche und Citations auf, sofern du OAI-SearchBot zulässt. ChatGPT-User holt eine URL nur dann live, wenn ein Nutzer in ChatGPT explizit nach ihr fragt oder einen Link postet. Den zu blocken ist meistens schädlich, weil Nutzer dann keine Zusammenfassung deiner Seite in ChatGPT bekommen.

Macht es Sinn, AhrefsBot oder SemrushBot zu blockieren?

Kommt darauf an. Wenn du selbst Ahrefs- oder Semrush-Kunde bist und deine Konkurrenz mit ihren eigenen Daten füttern willst, lass beide drauf. Wenn du verhindern willst, dass die Konkurrenz dein Backlink-Profil so leicht analysieren kann, blockst du beide. Faustregel: kleine Sites profitieren vom Blocken, große Sites mit aktivem Off-Page-Tracking lassen sie erlaubt.

Welche Bots sind eigentlich gefährlich?

Gefährlich im Sinne von Sicherheit nicht. Sämtliche Bots in dieser Datenbank scrapen Inhalte und Header, sie greifen keinen Dienst an. Lästig sein können aggressiv crawlende Bots wie BLEXBot, MJ12bot, MegaIndex und einige Asia-spezifische Crawler. Security-Scanner (Censys, Shodan, Palo Alto Expanse, LeakIX) machen keinen Schaden, listen aber offene Services öffentlich auf, was Recon erleichtert.

Was bedeutet User-agent: * in der robots.txt?

Eine Catch-All-Gruppe, die für alle Bots gilt, die keine eigene, namentlich passende Gruppe haben. Wichtig zu verstehen: ein Bot, der zum Beispiel über User-agent: GPTBot eine eigene Gruppe hat, IGNORIERT die *-Gruppe komplett. Die Spezifitäts-Regel ist: längster passender User-Agent-Token gewinnt, * ist die schwächste Stufe.

Wie blockiere ich einen Bot, der robots.txt ignoriert?

Auf Webserver-Ebene über den User-Agent-Header. Beispiel für Nginx: if ($http_user_agent ~* (PerplexityBot|Bytespider|CCBot)) { return 444; }. Status 444 schließt die Verbindung ohne Antwort. Apache: per mod_rewrite mit RewriteCond. Wenn der Bot UAs spooft, brauchst du IP-Blocks oder rDNS-Prüfung gegen die offiziellen Owner-Domains.

Soll ich Google-Extended und Applebot-Extended blocken?

Das sind keine echten Crawler, sondern reine Steuer-Tokens. Google-Extended sagt nur Google: "nimm meine Inhalte nicht für Gemini- oder Vertex-AI-Training". Applebot-Extended das Gleiche für Apple Intelligence. Wenn du gegen LLM-Training bist, aber in der Suche bleiben willst, blockst du genau diese beiden und lässt Googlebot bzw. Applebot offen.

Ich will Suche erlauben, aber AI-Training verbieten. Welcher Block-Set ist richtig?

Block: GPTBot, ClaudeBot, CCBot, Bytespider, meta-externalagent, Amazonbot, Google-Extended, Applebot-Extended, cohere-ai. Erlaubt: Googlebot, Bingbot, OAI-SearchBot, Claude-SearchBot, PerplexityBot, ChatGPT-User, Claude-User, Mistral-User, Applebot. Mit dem Generator oben in der Sidebar lässt sich das in zwei Klicks zusammenstellen, "Alle AI-Trainer" deckt das im Wesentlichen ab.

Was passiert, wenn ich keine robots.txt habe?

Dann gilt: alle Bots dürfen alles. Eine fehlende Datei wird als implizites "voller Zugriff erlaubt" interpretiert. Status 404 oder 410 auf /robots.txt wird genauso behandelt. Aus SEO-Sicht ist eine vorhandene robots.txt, selbst wenn sie nur auf die Sitemap verweist, immer besser als keine.