robots.txt für KI-Crawler: Crawlability und KI-Sichtbarkeit optimieren

· von geaio

Definition: robots.txt für KI-Crawler bezeichnet die gezielte Konfiguration der robots.txt-Datei, um KI-Trainingsbots wie GPTBot oder ClaudeBot einerseits und KI-Retrieval-Bots für die Live-Suche (OAI-SearchBot, PerplexityBot) andererseits gezielt zu steuern. Ziel ist es, das Crawl Budget zu schützen und gleichzeitig die Sichtbarkeit in KI-generierten Suchantworten wie ChatGPT Search, Perplexity oder Google AI Overviews zu maximieren.

robots.txt für KI-Crawler: Crawlability und KI-Sichtbarkeit optimieren

Warum robots.txt für KI-Crawler neu gedacht werden muss

Lange war die robots.txt-Datei eine überschaubare Angelegenheit: Googlebot erlauben, unerwünschte Bots sperren, fertig. Die KI-Ära hat diese Gleichung grundlegend verändert. Heute unterscheidet allein Anthropic zwischen drei separaten Crawlern: ClaudeBot für Trainingsdaten, Claude-SearchBot für das Live-Retrieval in Suchantworten und Claude-User für das Browsing-Plugin. OpenAI trennt analog dazu GPTBot (Training) von OAI-SearchBot (Live-Suche) und ChatGPT-User.

Diese Differenzierung ist kein technisches Detail — sie entscheidet darüber, ob Inhalte in ChatGPT Search, Perplexity oder Google AI Overviews erscheinen. Wer pauschal alle KI-Bots sperrt, schützt zwar seine Texte vor dem Training fremder Sprachmodelle, verschwindet aber gleichzeitig aus den KI-Suchantworten, in denen Millionen Nutzer täglich recherchieren.

Laut einer arXiv-Studie (2025) stieg die aktive Blockierung von KI-Crawlern durch seriöse Websites von 23 % im September 2023 auf knapp 60 % im Mai 2025. Ein großer Teil dieser Sperren trifft dabei nicht nur Trainingsbots, sondern auch Retrieval-Crawler — ein Fehler mit direkten Folgen für die KI-Sichtbarkeit.

KI-Crawler im Überblick: GPTBot, ClaudeBot und Co.

Um robots.txt zielgenau zu konfigurieren, müssen Website-Betreiber die wichtigsten KI-Crawler und ihren jeweiligen Zweck kennen. Die folgende Tabelle gibt einen strukturierten Überblick:

CrawlerUser AgentAnbieterZweckEmpfehlung
GPTBotGPTBotOpenAITrainingsdatenBlockieren möglich
OAI-SearchBotOAI-SearchBotOpenAIChatGPT Search Live-RetrievalErlauben für KI-Sichtbarkeit
ChatGPT-UserChatGPT-UserOpenAIBrowsing-PluginErlauben
ClaudeBotClaudeBotAnthropicTrainingsdatenBlockieren möglich
Claude-SearchBotClaude-SearchBotAnthropicRetrieval für Live-AntwortenErlauben für KI-Sichtbarkeit
PerplexityBotPerplexityBotPerplexityLive-Suche & RetrievalErlauben für KI-Sichtbarkeit
Google-ExtendedGoogle-ExtendedGoogleKI-TrainingsdatenBlockieren möglich
GooglebotGooglebotGoogleSuche & AI OverviewsImmer erlauben

Laut einer Cloudflare-Analyse (2025) kletterte GPTBot von Platz 9 im Mai 2024 auf Platz 3 der aktivsten Webcrawler weltweit — ein Anstieg, der zeigt, wie intensiv KI-Unternehmen das Web für Trainingsdaten und Suchantworten indexieren.

Crawl Budget und KI-Sichtbarkeit im Zusammenhang

Crawl Budget beschreibt die Anzahl an Seiten, die ein Crawler innerhalb eines bestimmten Zeitraums auf einer Website besucht. Dieses Budget ist endlich — jede Seite, die ein ineffizienter Bot crawlt, steht Googlebot nicht mehr zur Verfügung.

Der SEOmator GEO Data Report (2026) liefert hier aufschlussreiche Zahlen: ClaudeBot crawlt im Durchschnitt 23.951 Seiten pro generiertem Referral-Klick. Zum Vergleich: DuckDuckGo erreicht ein Verhältnis von 1,5:1, PerplexityBot liegt bei 111:1 und Microsoft Copilot bei 33:1. Ein ungesteuerter ClaudeBot konsumiert also massenhaft Serverressourcen, ohne nennenswerten Traffic zurückzusenden — es sei denn, der Claude-SearchBot ist für die KI-Suche explizit freigeschaltet.

Konkret: Eine Website mit 500 indexierten Seiten kann durch unkontrollierten KI-Crawler-Traffic bis zu 30 % ihres Crawl Budgets an reine Trainingsbots verlieren, ohne davon in KI-Suchantworten zu profitieren. Gezielte robots.txt-Konfiguration schützt das Budget und lenkt Retrieval-Bots gleichzeitig auf die relevantesten Seiten.

Wer verstehen möchte, wie KI-Sichtbarkeit systematisch gemessen wird, findet in der geaio-Analyse einen spezialisierten Ausgangspunkt. Ergänzend lohnt es sich, KI-Sichtbarkeit bei Perplexity und ChatGPT zu tracken, um Crawling-Änderungen nach robots.txt-Anpassungen direkt zu messen.

robots.txt Schritt für Schritt konfigurieren

Eine KI-optimierte robots.txt folgt einem klaren Prinzip: Trainingscrawler selektiv einschränken, Retrieval-Crawler für die Live-Suche freigeben, Googlebot uneingeschränkt erlauben. Ein funktionsfähiges Beispiel: