robots.txt für KI-Crawler: Crawlability und KI-Sichtbarkeit optimieren
Definition: robots.txt für KI-Crawler bezeichnet die gezielte Konfiguration der robots.txt-Datei, um KI-Trainingsbots wie GPTBot oder ClaudeBot einerseits und KI-Retrieval-Bots für die Live-Suche (OAI-SearchBot, PerplexityBot) andererseits gezielt zu steuern. Ziel ist es, das Crawl Budget zu schützen und gleichzeitig die Sichtbarkeit in KI-generierten Suchantworten wie ChatGPT Search, Perplexity oder Google AI Overviews zu maximieren.
robots.txt für KI-Crawler: Crawlability und KI-Sichtbarkeit optimieren
Warum robots.txt für KI-Crawler neu gedacht werden muss
Lange war die robots.txt-Datei eine überschaubare Angelegenheit: Googlebot erlauben, unerwünschte Bots sperren, fertig. Die KI-Ära hat diese Gleichung grundlegend verändert. Heute unterscheidet allein Anthropic zwischen drei separaten Crawlern: ClaudeBot für Trainingsdaten, Claude-SearchBot für das Live-Retrieval in Suchantworten und Claude-User für das Browsing-Plugin. OpenAI trennt analog dazu GPTBot (Training) von OAI-SearchBot (Live-Suche) und ChatGPT-User.
Diese Differenzierung ist kein technisches Detail — sie entscheidet darüber, ob Inhalte in ChatGPT Search, Perplexity oder Google AI Overviews erscheinen. Wer pauschal alle KI-Bots sperrt, schützt zwar seine Texte vor dem Training fremder Sprachmodelle, verschwindet aber gleichzeitig aus den KI-Suchantworten, in denen Millionen Nutzer täglich recherchieren.
Laut einer arXiv-Studie (2025) stieg die aktive Blockierung von KI-Crawlern durch seriöse Websites von 23 % im September 2023 auf knapp 60 % im Mai 2025. Ein großer Teil dieser Sperren trifft dabei nicht nur Trainingsbots, sondern auch Retrieval-Crawler — ein Fehler mit direkten Folgen für die KI-Sichtbarkeit.
KI-Crawler im Überblick: GPTBot, ClaudeBot und Co.
Um robots.txt zielgenau zu konfigurieren, müssen Website-Betreiber die wichtigsten KI-Crawler und ihren jeweiligen Zweck kennen. Die folgende Tabelle gibt einen strukturierten Überblick:
| Crawler | User Agent | Anbieter | Zweck | Empfehlung |
|---|---|---|---|---|
| GPTBot | GPTBot | OpenAI | Trainingsdaten | Blockieren möglich |
| OAI-SearchBot | OAI-SearchBot | OpenAI | ChatGPT Search Live-Retrieval | Erlauben für KI-Sichtbarkeit |
| ChatGPT-User | ChatGPT-User | OpenAI | Browsing-Plugin | Erlauben |
| ClaudeBot | ClaudeBot | Anthropic | Trainingsdaten | Blockieren möglich |
| Claude-SearchBot | Claude-SearchBot | Anthropic | Retrieval für Live-Antworten | Erlauben für KI-Sichtbarkeit |
| PerplexityBot | PerplexityBot | Perplexity | Live-Suche & Retrieval | Erlauben für KI-Sichtbarkeit |
| Google-Extended | Google-Extended | KI-Trainingsdaten | Blockieren möglich | |
| Googlebot | Googlebot | Suche & AI Overviews | Immer erlauben |
Laut einer Cloudflare-Analyse (2025) kletterte GPTBot von Platz 9 im Mai 2024 auf Platz 3 der aktivsten Webcrawler weltweit — ein Anstieg, der zeigt, wie intensiv KI-Unternehmen das Web für Trainingsdaten und Suchantworten indexieren.
Crawl Budget und KI-Sichtbarkeit im Zusammenhang
Crawl Budget beschreibt die Anzahl an Seiten, die ein Crawler innerhalb eines bestimmten Zeitraums auf einer Website besucht. Dieses Budget ist endlich — jede Seite, die ein ineffizienter Bot crawlt, steht Googlebot nicht mehr zur Verfügung.
Der SEOmator GEO Data Report (2026) liefert hier aufschlussreiche Zahlen: ClaudeBot crawlt im Durchschnitt 23.951 Seiten pro generiertem Referral-Klick. Zum Vergleich: DuckDuckGo erreicht ein Verhältnis von 1,5:1, PerplexityBot liegt bei 111:1 und Microsoft Copilot bei 33:1. Ein ungesteuerter ClaudeBot konsumiert also massenhaft Serverressourcen, ohne nennenswerten Traffic zurückzusenden — es sei denn, der Claude-SearchBot ist für die KI-Suche explizit freigeschaltet.
Konkret: Eine Website mit 500 indexierten Seiten kann durch unkontrollierten KI-Crawler-Traffic bis zu 30 % ihres Crawl Budgets an reine Trainingsbots verlieren, ohne davon in KI-Suchantworten zu profitieren. Gezielte robots.txt-Konfiguration schützt das Budget und lenkt Retrieval-Bots gleichzeitig auf die relevantesten Seiten.
Wer verstehen möchte, wie KI-Sichtbarkeit systematisch gemessen wird, findet in der geaio-Analyse einen spezialisierten Ausgangspunkt. Ergänzend lohnt es sich, KI-Sichtbarkeit bei Perplexity und ChatGPT zu tracken, um Crawling-Änderungen nach robots.txt-Anpassungen direkt zu messen.
robots.txt Schritt für Schritt konfigurieren
Eine KI-optimierte robots.txt folgt einem klaren Prinzip: Trainingscrawler selektiv einschränken, Retrieval-Crawler für die Live-Suche freigeben, Googlebot uneingeschränkt erlauben. Ein funktionsfähiges Beispiel: