robots.txt für KI-Crawler: Crawlability und KI-Sichtbarkeit optimieren

2. Mai 2026 · von geaio

Definition: robots.txt für KI-Crawler bezeichnet die gezielte Konfiguration der robots.txt-Datei, um KI-Trainingsbots wie GPTBot oder ClaudeBot einerseits und KI-Retrieval-Bots für die Live-Suche (OAI-SearchBot, PerplexityBot) andererseits gezielt zu steuern. Ziel ist es, das Crawl Budget zu schützen und gleichzeitig die Sichtbarkeit in KI-generierten Suchantworten wie ChatGPT Search, Perplexity oder Google AI Overviews zu maximieren.

robots.txt für KI-Crawler: Crawlability und KI-Sichtbarkeit optimieren

Warum robots.txt für KI-Crawler neu gedacht werden muss

Lange war die robots.txt-Datei eine überschaubare Angelegenheit: Googlebot erlauben, unerwünschte Bots sperren, fertig. Die KI-Ära hat diese Gleichung grundlegend verändert. Heute unterscheidet allein Anthropic zwischen drei separaten Crawlern: ClaudeBot für Trainingsdaten, Claude-SearchBot für das Live-Retrieval in Suchantworten und Claude-User für das Browsing-Plugin. OpenAI trennt analog dazu GPTBot (Training) von OAI-SearchBot (Live-Suche) und ChatGPT-User.

Diese Differenzierung ist kein technisches Detail — sie entscheidet darüber, ob Inhalte in ChatGPT Search, Perplexity oder Google AI Overviews erscheinen. Wer pauschal alle KI-Bots sperrt, schützt zwar seine Texte vor dem Training fremder Sprachmodelle, verschwindet aber gleichzeitig aus den KI-Suchantworten, in denen Millionen Nutzer täglich recherchieren.

Laut einer arXiv-Studie (2025) stieg die aktive Blockierung von KI-Crawlern durch seriöse Websites von 23 % im September 2023 auf knapp 60 % im Mai 2025. Ein großer Teil dieser Sperren trifft dabei nicht nur Trainingsbots, sondern auch Retrieval-Crawler — ein Fehler mit direkten Folgen für die KI-Sichtbarkeit.

KI-Crawler im Überblick: GPTBot, ClaudeBot und Co.

Um robots.txt zielgenau zu konfigurieren, müssen Website-Betreiber die wichtigsten KI-Crawler und ihren jeweiligen Zweck kennen. Die folgende Tabelle gibt einen strukturierten Überblick:

Crawler	User Agent	Anbieter	Zweck	Empfehlung
GPTBot	`GPTBot`	OpenAI	Trainingsdaten	Blockieren möglich
OAI-SearchBot	`OAI-SearchBot`	OpenAI	ChatGPT Search Live-Retrieval	Erlauben für KI-Sichtbarkeit
ChatGPT-User	`ChatGPT-User`	OpenAI	Browsing-Plugin	Erlauben
ClaudeBot	`ClaudeBot`	Anthropic	Trainingsdaten	Blockieren möglich
Claude-SearchBot	`Claude-SearchBot`	Anthropic	Retrieval für Live-Antworten	Erlauben für KI-Sichtbarkeit
PerplexityBot	`PerplexityBot`	Perplexity	Live-Suche & Retrieval	Erlauben für KI-Sichtbarkeit
Google-Extended	`Google-Extended`	Google	KI-Trainingsdaten	Blockieren möglich
Googlebot	`Googlebot`	Google	Suche & AI Overviews	Immer erlauben

Laut einer Cloudflare-Analyse (2025) kletterte GPTBot von Platz 9 im Mai 2024 auf Platz 3 der aktivsten Webcrawler weltweit — ein Anstieg, der zeigt, wie intensiv KI-Unternehmen das Web für Trainingsdaten und Suchantworten indexieren.

Crawl Budget und KI-Sichtbarkeit im Zusammenhang

Crawl Budget beschreibt die Anzahl an Seiten, die ein Crawler innerhalb eines bestimmten Zeitraums auf einer Website besucht. Dieses Budget ist endlich — jede Seite, die ein ineffizienter Bot crawlt, steht Googlebot nicht mehr zur Verfügung.

Der SEOmator GEO Data Report (2026) liefert hier aufschlussreiche Zahlen: ClaudeBot crawlt im Durchschnitt 23.951 Seiten pro generiertem Referral-Klick. Zum Vergleich: DuckDuckGo erreicht ein Verhältnis von 1,5:1, PerplexityBot liegt bei 111:1 und Microsoft Copilot bei 33:1. Ein ungesteuerter ClaudeBot konsumiert also massenhaft Serverressourcen, ohne nennenswerten Traffic zurückzusenden — es sei denn, der Claude-SearchBot ist für die KI-Suche explizit freigeschaltet.

Konkret: Eine Website mit 500 indexierten Seiten kann durch unkontrollierten KI-Crawler-Traffic bis zu 30 % ihres Crawl Budgets an reine Trainingsbots verlieren, ohne davon in KI-Suchantworten zu profitieren. Gezielte robots.txt-Konfiguration schützt das Budget und lenkt Retrieval-Bots gleichzeitig auf die relevantesten Seiten.

Wer verstehen möchte, wie KI-Sichtbarkeit systematisch gemessen wird, findet in der geaio-Analyse einen spezialisierten Ausgangspunkt. Ergänzend lohnt es sich, KI-Sichtbarkeit bei Perplexity und ChatGPT zu tracken, um Crawling-Änderungen nach robots.txt-Anpassungen direkt zu messen.

robots.txt Schritt für Schritt konfigurieren

Eine KI-optimierte robots.txt folgt einem klaren Prinzip: Trainingscrawler selektiv einschränken, Retrieval-Crawler für die Live-Suche freigeben, Googlebot uneingeschränkt erlauben. Ein funktionsfähiges Beispiel:

← Alle Artikel