Question 1

Halten sich alle Bots an robots.txt?

Accepted Answer

Nein. Die robots.txt ist eine freiwillige Empfehlung, kein technischer Zwang. Große, etablierte Anbieter (Google, Bing, OpenAI, Anthropic) respektieren die Datei. Aber: Perplexity-User ignoriert sie bewusst (Live-Fetches im Auftrag von Nutzern), Bytespider war 2023 bis 2024 dafür berüchtigt, sie zu übergehen, viele Scraper aus dem grauen und schwarzen Bereich bauen sich eigene UAs oder spoofen Googlebot. Wer wirklich blocken will, braucht Webserver-seitige UA- oder IP-Filter zusätzlich zur robots.txt.

Question 2

Wenn ich Googlebot komplett blockiere, falle ich aus dem Index?

Accepted Answer

Ja, schrittweise. Google entfernt URLs, die über längere Zeit per robots.txt geblockt sind, aus dem Live-Index. Bestätigt wird das über den Search Console Bericht "Indexabdeckung". Eine versehentliche Disallow: /-Zeile für den Googlebot ist eine der häufigsten Ursachen für komplette Sichtbarkeitsverluste nach Relaunches. Schau in die Live-Ansicht der Search Console, bevor du etwas blockst.

Question 3

Was ist der Unterschied zwischen GPTBot und ChatGPT-User?

Accepted Answer

GPTBot crawlt im Hintergrund Inhalte für das Training neuer Modelle. Wenn du den blockst, fließt deine Site nicht in den Trainings-Korpus ein, taucht aber weiterhin in ChatGPT-Suche und Citations auf, sofern du OAI-SearchBot zulässt. ChatGPT-User holt eine URL nur dann live, wenn ein Nutzer in ChatGPT explizit nach ihr fragt oder einen Link postet. Den zu blocken ist meistens schädlich, weil Nutzer dann keine Zusammenfassung deiner Seite in ChatGPT bekommen.

Question 4

Macht es Sinn, AhrefsBot oder SemrushBot zu blockieren?

Accepted Answer

Kommt darauf an. Wenn du selbst Ahrefs- oder Semrush-Kunde bist und deine Konkurrenz mit ihren eigenen Daten füttern willst, lass beide drauf. Wenn du verhindern willst, dass die Konkurrenz dein Backlink-Profil so leicht analysieren kann, blockst du beide. Faustregel: kleine Sites profitieren vom Blocken, große Sites mit aktivem Off-Page-Tracking lassen sie erlaubt.

Question 5

Welche Bots sind eigentlich gefährlich?

Accepted Answer

Gefährlich im Sinne von Sicherheit nicht. Sämtliche Bots in dieser Datenbank scrapen Inhalte und Header, sie greifen keinen Dienst an. Lästig sein können aggressiv crawlende Bots wie BLEXBot, MJ12bot, MegaIndex und einige Asia-spezifische Crawler. Security-Scanner (Censys, Shodan, Palo Alto Expanse, LeakIX) machen keinen Schaden, listen aber offene Services öffentlich auf, was Recon erleichtert.

Question 6

Was bedeutet User-agent: * in der robots.txt?

Accepted Answer

Eine Catch-All-Gruppe, die für alle Bots gilt, die keine eigene, namentlich passende Gruppe haben. Wichtig zu verstehen: ein Bot, der zum Beispiel über User-agent: GPTBot eine eigene Gruppe hat, IGNORIERT die *-Gruppe komplett. Die Spezifitäts-Regel ist: längster passender User-Agent-Token gewinnt, * ist die schwächste Stufe.

Question 7

Wie blockiere ich einen Bot, der robots.txt ignoriert?

Accepted Answer

Auf Webserver-Ebene über den User-Agent-Header. Beispiel für Nginx: if ($http_user_agent ~* (PerplexityBot|Bytespider|CCBot)) { return 444; }. Status 444 schließt die Verbindung ohne Antwort. Apache: per mod_rewrite mit RewriteCond. Wenn der Bot UAs spooft, brauchst du IP-Blocks oder rDNS-Prüfung gegen die offiziellen Owner-Domains.

Question 8

Soll ich Google-Extended und Applebot-Extended blocken?

Accepted Answer

Das sind keine echten Crawler, sondern reine Steuer-Tokens. Google-Extended sagt nur Google: "nimm meine Inhalte nicht für Gemini- oder Vertex-AI-Training". Applebot-Extended das Gleiche für Apple Intelligence. Wenn du gegen LLM-Training bist, aber in der Suche bleiben willst, blockst du genau diese beiden und lässt Googlebot bzw. Applebot offen.

Question 9

Ich will Suche erlauben, aber AI-Training verbieten. Welcher Block-Set ist richtig?

Accepted Answer

Block: GPTBot, ClaudeBot, CCBot, Bytespider, meta-externalagent, Amazonbot, Google-Extended, Applebot-Extended, cohere-ai. Erlaubt: Googlebot, Bingbot, OAI-SearchBot, Claude-SearchBot, PerplexityBot, ChatGPT-User, Claude-User, Mistral-User, Applebot. Mit dem Generator oben in der Sidebar lässt sich das in zwei Klicks zusammenstellen, "Alle AI-Trainer" deckt das im Wesentlichen ab.

Question 10

Was passiert, wenn ich keine robots.txt habe?

Accepted Answer

Dann gilt: alle Bots dürfen alles. Eine fehlende Datei wird als implizites "voller Zugriff erlaubt" interpretiert. Status 404 oder 410 auf /robots.txt wird genauso behandelt. Aus SEO-Sicht ist eine vorhandene robots.txt, selbst wenn sie nur auf die Sitemap verweist, immer besser als keine.

Wer crawlt das Web, und wen hältst du draußen?

CensysInspect

Shodan

Palo Alto Expanse

l9scan / leakix

NetcraftSurveyAgent

Wie robots.txt wirklich funktioniert.

Die Datei besteht aus Gruppen

Spezifitäts-Regel: längster passender Token gewinnt

Wildcards und Pfad-Matching

Crawl-Delay: nicht im RFC, aber respektiert

Sitemap-Verweise

Welche Bots blocken? Ein Entscheidungsleitfaden.

Content-Site oder Magazin

E-Commerce

SaaS-Marketing-Site

Dokumentations-Portal

Privater Blog oder Portfolio

News oder journalistische Site

Was robots.txt nicht kann.

Sie ist eine Bitte, kein Zaun

Sie verhindert nicht die Indexierung

Sie schützt keine sensiblen Daten

UA-Spoofing umgeht alles

Häufige Fragen zu Bots und robots.txt.