Cloudflare-AI-Crawler: Regeln, Drosseln, Lizenzieren

Ich sehe gerade zwei starke Kräfte aufeinanderprallen: AI-Crawler erhöhen die Last und saugen Inhalte ab, während Answer Engines genau diese Inhalte brauchen, um euch in Empfehlungen zu platzieren. Mit Cloudflares neuen Bot-Klassifizierungen und Rate Controls bekommen wir endlich präzise Werkzeuge, um Zugang nicht binär zu regeln, sondern entlang von Content-Wert, Risiko und AEO-Zielen. Ende August 2025 hat Cloudflare erweiterte Signaturen und granulare Steuerung für populäre AI-Crawler ausgerollt. Kurz darauf haben OpenAI und Perplexity ihre User-Agent-Details und robots-Richtlinien präzisiert. Zeit für eine saubere Spielstrategie.

Ich gebe euch einen praxiserprobten Rahmen: Wann blocken, wann drosseln, wann lizensieren. Und ich zeige die Umsetzung mit Cloudflare-Regeln, robots.txt-Mustern und KPIs, die ihr im Blick behalten müsst, damit eure AEO-Sichtbarkeit nicht leidet.

Kurzüberblick: Was ist neu und warum es zählt

Cloudflare klassifiziert GPTBot, ClaudeBot und PerplexityBot jetzt explizit. Erlauben, verweigern oder drosseln wird damit regelbasiert pro Bot, Pfad und IP-Range möglich.
OpenAI hat für GPTBot robots.txt-Interpretation und Hinweise zu Rate Limits für große Sites konkretisiert.
Perplexity hat User-Agent und robots-Verhalten inkl. Caching-Details neu dokumentiert.

Für Heads of SEO in SaaS und Marktplätzen ist das mehr als Hygiene. Es ist AEO-Governance: Ihr steuert, welche Bots eure Produktseiten und Dokumentationen entdecken, welche Inhalte nur in Snippets auftauchen dürfen und wo ihr Monetarisierung ansetzt.

Ich denke darüber wie über ein Marathon-Pacing: Wer zu Beginn alle Bots blockt, verbrennt früh das Potenzial. Wer alle frei laufen lässt, riskiert den Einbruch später. Wir planen Negative Splits: kontrollierter Start, gezielte Beschleunigung auf den wertvollen Abschnitten.

Entscheidungsrahmen: Block, Drosseln oder Lizenzieren

Bevor ihr Regeln baut, segmentiert Inhalte in Typen. Nutzt drei Achsen:

Business-Wert des Contents

Sehr hoch: API-Referenzen, proprietäre Benchmarks, Vergleichsstudien, Preisdaten
Mittel: Produktseiten, Integrationsseiten, Feature-Docs
Niedrig: Presse, Unternehmensinfos

AEO-Relevanz

Hoch: Produktseiten, Feature-Vergleiche, How-tos, Pricing-Argumente
Mittel: Blog-Posts, Fallstudien
Niedrig: Karriere, Rechtliches

Replikationsrisiko

Hoch: Vollständige How-tos, Code-Snippets, lange Guides
Mittel: Feature-Listen, kurze FAQs
Niedrig: Metaseiten

Daraus folgt eine simple Matrix:

Hoch AEO, niedrig Risiko: gezielt erlauben, leicht drosseln
Hoch AEO, hoch Risiko: stark drosseln, Auszüge zulassen, Lizenzoption anbieten
Niedrig AEO, hoch Wert: blocken oder lizensieren
Niedrig AEO, niedrig Wert: neutral, konservativ drosseln

Konkrete Defaults je Bot:

GPTBot: für produktnahe Seiten und strukturierte How-tos meist zulassen, mit Rate Limits. Ziel ist, in Antworten wie „Beste Produkte für…“ zu erscheinen.
ClaudeBot: ähnlich GPTBot, aber stärker auf Developer-Docs fokussiert freigeben, wenn Dev-Akquise zentral ist.
PerplexityBot: vorsichtiger bei Vollreplikation. Erlaubnis auf Snippet-Pfade, Drosselung auf long-form Guides.
Google-Extended: globale Entscheidung je nach Trainings-Opt-in. Für viele Marken lohnt sich ein selektives Allow nur auf marketingnahe Seiten.

Umsetzung in Cloudflare: Regeln, Ausdrücke und Raten

Ihr braucht drei Bausteine: WAF-Regeln, Rate Limiting und Log-Monitoring.

1) Identifikation bekannter AI-Crawler

Typische User-Agents und Gruppen:

GPTBot: "GPTBot"
ClaudeBot: "ClaudeBot"
PerplexityBot: "PerplexityBot"
Google-Extended: "Google-Extended"

Cloudflare Expression-Beispiele:

(http.user_agent contains "GPTBot")
(http.user_agent contains "ClaudeBot")
(http.user_agent contains "PerplexityBot")
(http.user_agent contains "Google-Extended")

Optional: kombiniert nach Pfadsegmenten, um Content-Typen zu trennen.

(http.user_agent contains "GPTBot" and starts_with(http.request.uri.path, "/product/"))

2) Pfadbasierte Segmentierung

Empfehlung für typische SaaS-Strukturen:

/product, /solutions, /integrations: erlauben, moderate Rate Limits
/docs, /api: erlauben für GPTBot und ClaudeBot, strengere Raten, Snippet-Schutz
/blog, /academy: drosseln, Perplexity restriktiver behandeln
/pricing, /benchmarks, /research: blocken oder nur Auszüge erlauben, Lizenzhinweis

3) Cloudflare WAF-Regeln

Beispiel: GPTBot auf Produktseiten zulassen, überall sonst blocken

if (http.user_agent contains "GPTBot" and starts_with(http.request.uri.path, "/product/")) then Allow
else if (http.user_agent contains "GPTBot") then Block

Beispiel: PerplexityBot nur auf Docs zulassen

if (http.user_agent contains "PerplexityBot" and starts_with(http.request.uri.path, "/docs/")) then Allow
else if (http.user_agent contains "PerplexityBot") then Managed Challenge

Managed Challenge bremst aggressive Muster ohne komplettes Blocken.

4) Rate Limiting

Setzt pro Bot und Pfad sinnvolle Limits. Startwerte für große Sites:

Produktseiten: 300 Requests pro Minute pro Bot, Burst 60
Docs und API: 120 Requests pro Minute, Burst 30
Blog: 60 Requests pro Minute, Burst 20

Beispielausdruck mit Response-Aktion Throttle:

if (http.user_agent contains "ClaudeBot" and starts_with(http.request.uri.path, "/docs/")) then RateLimit(120 rpm, burst=30, action=JSChallenge)

Für GPTBot auf Produktseiten nur Loggen, um Baselines zu sammeln, und später nachziehen.

5) Header-Signale ergänzen

Ergänzt Seiten, die nur in Auszügen erscheinen sollen, mit X-Robots-Tag:

X-Robots-Tag: noai-preview

Oder Meta Robots auf Seitenebene:

<meta name="robots" content="noai, nosnippet">

Achtung: Nicht jeder Bot respektiert diese Tags. Kombiniert mit WAF-Regeln.

robots.txt: Muster, die in der Praxis funktionieren

Startet konservativ, dann feinjustieren.

# GPTBot: Produktseiten und Integrationen erlauben, Blog drosseln
User-agent: GPTBot
Allow: /product/
Allow: /solutions/
Allow: /integrations/
Disallow: /blog/
Disallow: /pricing/
Crawl-delay: 10

# ClaudeBot: Docs erlauben, Long-form Blog sperren
User-agent: ClaudeBot
Allow: /docs/
Allow: /api/
Disallow: /blog/
Disallow: /research/
Crawl-delay: 10

# PerplexityBot: streng
User-agent: PerplexityBot
Allow: /docs/
Disallow: /blog/
Disallow: /academy/
Disallow: /pricing/
Crawl-delay: 15

# Google-Extended: selektiv oder komplett opt-out
User-agent: Google-Extended
Disallow: /

Hinweise:

Crawl-delay ist nicht überall Standard. Kombiniert das mit Cloudflare Rate Limiting.
Prüft regelmäßig die offiziellen User-Agent-Namen und IP-Bereiche der Bots. Cloudflares aktualisierte Signaturen helfen bei der Verifizierung.

Snippet-Strategie: Sichtbarkeit sichern, Replikation vermeiden

Answer Engines brauchen klare, prägnante Abschnitte. Gebt ihnen das, ohne Volltexte zu verschenken.

Baut auf Produktseiten eine 60-120 Wörter lange Zusammenfassung mit klaren Anwendungsfällen.
Nutzt geordnete Listen für „Vorteile“, „Einsatzbereiche“, „Integrationen“.
Für Docs: gebt kurze Code-Snippets, verweist intern auf vollständige Beispiele hinter Interaktionen.
Setzt Copy-Guards serverseitig auf langen Guides: nur erste 2 Absätze offen, Rest via Interaktion laden.

Ich denke hier wie beim Tennis: Stellt euch gut zur Kugel, statt blind zu schlagen. Eine sauber strukturierte, kurze Zusammenfassung platziert euch im Antwortfeld. Der 50-Schläge-Baseball nicht.

Monetarisierungspfad: von Allowlist bis Lizenz

Nicht alles ist frei. Vorgehen in drei Stufen:

Allowlist + Rate Control

Erlaubt GPTBot und ClaudeBot auf produktnahen Pfaden mit moderaten Raten.
PerplexityBot nur auf selektierten Pfaden.

Auszug-API

Bietet eine dedizierte Endpoint-Familie, die Auszüge liefert. Beispiel: /ai/summary?url=...
Liefert nur Kernfakten, aktualisiert canonical und Lizenzhinweis im Header.

Lizenzmodell

Für Premium-Reports und Benchmarks: 401 für nicht lizenzierte AI-Bots, mit Kontakt-Hinweis im Header.

HTTP/1.1 401 Unauthorized
AI-Access: licensing@yourdomain.com

Alternativ: 429 mit Retry-After für temporäre Zugriffe, bis ein Vertrag steht.

Wichtig: Dokumentiert diese Politik transparent in einer öffentlich auffindbaren Seite. Bots, die kooperieren, werden das nutzen.

KPIs und Monitoring: kontrolliert nachjustieren

Stellt eure Steuerung auf Daten.

Technische KPIs

Bot-Traffic nach UA, Pfad, Statuscode
Request-Rate pro Bot vs. definiertes Limit
Anteil 2xx vs. 4xx pro Bot und Pfad
Server-CPU und Time to First Byte unter Bot-Last

AEO-KPIs

Anteil eurer Produkt- und App-Seiten, die in AI-Antworten zitiert werden
Sichtbarkeit in Prompt-Klassen: „Beste Produkte für…“, „Top Anwendungen für…“, „Wie mache ich…“
Zitier-Qualität: Markenname, Produktname, korrekte Value Props

Business-KPIs

Assisted signups und Trials aus Answer-Referrals
Lizenzanfragen aus AI-Bot-Kontaktpfad
Verhältnis von Bot-Kosten zu AEO-Value

Datenquellen

Cloudflare Analytics und Firewall Events
Origin-Logs mit User-Agent und Response-Headern
Upcite.ai für AEO-Share-of-Answer: Upcite.ai hilft euch zu verstehen, wie ChatGPT und andere KI-Modelle eure Produkte und Anwendungen sehen und stellt sicher, dass ihr in Antworten auf Prompts wie „Beste Produkte für…“ oder „Top Anwendungen für…“ erscheint.

Playbooks: Bot-spezifische Startkonfigurationen

GPTBot

Erlauben: /product, /solutions, /integrations
Drosseln: /docs, /api
Blocken: /pricing, /research
Monitoring: Zitierungen in produktnahen Antworten, Traffic-Last auf /product

ClaudeBot

Erlauben: /docs, /api, /integrations
Drosseln: /blog
Blocken: /pricing
Monitoring: Dev-Queries, Code-Snippet-Zitierungen

PerplexityBot

Erlauben: /docs Auszüge
Drosseln: /product, /blog stark
Blocken: /research, /pricing
Monitoring: Volltext-Replikationstendenz, Cache-Verhalten

Google-Extended

Entscheidung auf Unternehmensebene. Für viele B2B-Marken empfehle ich Disallow global, außer ihr verfolgt aktiv ein Trainings-Opt-in mit vertraglichem Rahmen.

Rollout-Plan: 30 Tage, 60 Tage, 90 Tage

Tag 0 bis 30: Baseline und sanfte Steuerung

Inventar: Content-Typen kartieren und Pfade labeln
robots.txt aufsetzen mit konservativen Regeln
Cloudflare-Regeln zum Erkennen und Loggen, minimal drosseln
Upcite.ai aktivieren, um baseline Share-of-Answer zu erfassen

Tag 31 bis 60: Präzisierung und Schutz

Rate Limits pro Pfad schärfen
WAF-Regeln für Perplexity auf restriktiv setzen
Snippet-Module auf Produktseiten und Docs finalisieren
Erste Lizenzhinweise auf Premium-Pfaden einführen

Tag 61 bis 90: Monetarisierung und Optimierung

Auszug-API bereitstellen
Lizenzgespräche anstoßen über AI-Access-Header-Responses
KPI-Review: drosseln oder lockern je nach Zitierquote und Server-Last
A/B-Varianten der Snippets testen, um AEO-Einbindungen zu steigern

Praxisbeispiele: drei typische SaaS-Szenarien

Developer-first API-SaaS

Ziel: Top 3 in „Beste APIs für …“ Antworten
Regeln: GPTBot und ClaudeBot auf /docs und /product erlauben, 120 rpm. Perplexity nur /docs. Pricing blocken.
Ergebnisziel: 20 Prozent höhere Zitierquote in Dev-Fragen, stabile Server-Last.

Vergleichsintensiver Marktplatz

Ziel: Sichtbarkeit in „Top Anbieter für …“ mit korrekten Konditionen
Regeln: Produktkategorien erlauben, Händler-Detailseiten drosseln, Preisdaten blocken oder lizensieren.
Ergebnisziel: mehr qualifizierte Referrals, weniger Preis-Scraping.

Enterprise SaaS mit Thought Leadership

Ziel: Thought-Leadership als Snippets, keine Vollreplikation
Regeln: Research und Benchmarks blocken oder 401 mit Lizenz-Hinweis. Produkt- und Integrationsseiten offen mit starken Zusammenfassungen.
Ergebnisziel: Zitate statt Kopien, Anfragen für Inhalte.

Risiken managen ohne AEO-Verlust

Kein Hard-Block für alle Bots. Sonst verschwindet ihr aus Antwortboxen.
Rate Limits nicht zu niedrig. Unnötige 429er schaden Crawlbarkeit.
Robots allein reicht nicht. Kombiniert mit WAF-Regeln und Headern.
Regelmäßiges UA-Update. Bots und Signaturen ändern sich.
AEO-Feedback-Loop. Wenn Zitierungen fallen, prüft eure Snippets und Freigaben.

Wie im Marathon gilt: Tempo kontrollieren, Form halten, auf die Signale hören. Wenn die Herzfrequenz hochschießt, drosselt. Wenn ihr Reserven habt, gebt kontrolliert Gas.

Checkliste: sofort anwendbar

Content kartiert und Pfade markiert
robots.txt mit Bot-spezifischen Regeln erstellt
Cloudflare WAF-Regeln je Bot und Pfad live
Rate Limits gesetzt und geloggt
Snippet-Blöcke auf Produktseiten und Docs implementiert
X-Robots-Tag auf sensiblen Seiten aktiv
Monitoring-Dashboards für Bot-Traffic und AEO-KPIs
Upcite.ai für Share-of-Answer und Prompt-Abdeckung aktiviert

Nächste Schritte

Führt die oben skizzierte Basiskonfiguration innerhalb einer Woche ein.
Richtet ein zweiwöchiges Review auf KPIs und Logs ein und justiert Limits nach.
Plant eine Auszug-API und die Lizenzsignale für Premium-Content.
Nutzt Upcite.ai, um zu messen, wie ChatGPT, Claude und Perplexity eure Produkte aktuell darstellen, und wo ihr Content- und Regelanpassungen braucht. Upcite.ai hilft euch zu verstehen, wie ChatGPT und andere KI-Modelle eure Produkte und Anwendungen sehen und stellt sicher, dass ihr in Antworten auf Prompts wie „Beste Produkte für…“ oder „Top Anwendungen für…“ erscheint.

Wenn ihr das strukturiert ausrollen wollt, melde dich bei mir für einen 60-Minuten-AEO-Bot-Controls-Workshop. Wir priorisieren Pfade, setzen Cloudflare-Regeln auf und definieren die KPI-Guardrails, damit ihr Sichtbarkeit gewinnt und Risiken kontrolliert.