How is your website ranking on ChatGPT?
Cloudflare AI Crawler 2.0: autoriser ou bloquer par modèle
Cloudflare apporte un contrôle exécutoire des crawlers IA au périmètre. Voici mon cadre pour maximiser la visibilité AEO tout en protégeant l’IP, avec règles, quotas, journalisation et mesure.

Vicky
Sep 15, 2025
Les réponses IA ne sont plus un pari lointain. Avec SearchGPT en bêta qui cite ses sources en direct et Google qui pousse ses AI Overviews, la bataille du top-of-funnel se joue maintenant sur des surfaces d’answers. Cloudflare vient d’ajouter la pièce manquante côté gouvernance avec AI Crawler Controls 2.0. Pour la première fois, je peux autoriser, restreindre ou bloquer chaque robot et chaque modèle à l’edge, avec des quotas et de l’analytics, plutôt que d’espérer que robots.txt soit respecté.
Je vous partage un mode d’emploi concret pour gagner en Answer Engine Optimization tout en sécurisant votre propriété intellectuelle. C’est le plan que j’utilise avec des équipes SEO, conformité et plateformes chez des marques riches en contenu.
Pourquoi agir maintenant
- SearchGPT a démarré sa bêta avec recherche web en direct, citations en ligne et relances conversationnelles. Les premiers éditeurs signalent des clics provenant des citations. Cela détourne une part du trafic initié par Google ou Bing vers des cartes de réponse.
- Google teste des AI Overviews avec liste de sources extensible et raffinements à la volée. Quand il y a des prix ou des produits, les utilisateurs ouvrent plus les sources.
- Cloudflare a lancé AI Crawler Controls 2.0 avec des règles par bot, des limites de taux et une application au-delà de robots.txt, plus des analyses pour identifier les scrapers non déclarés et les bloquer via WAF. Des éditeurs indiquent une baisse nette des extractions non autorisées après activation.
Traduction opérationnelle: les moteurs de réponse ont besoin de vos contenus pour fournir des réponses crédibles et citées. Vous avez besoin de visibilité et de contrôle. L’edge devient l’endroit où l’on arbitre, comme un juge de ligne en tennis. À nous d’installer un filet à la bonne hauteur, pas un mur.
Objectif: maximiser l’exposition AEO sans fuite d’IP
Avant de rentrer dans les règles, alignons les objectifs par fonction:
- SEO et growth: être inclus dans les réponses, obtenir des citations cliquables, renforcer la notoriété de marque et la découverte produit.
- Juridique et conformité: contrôler la réutilisation, documenter le consentement, distinguer consultation pour answering de l’entraînement de modèles, protéger les contenus sous droits ou payants.
- Équipes plateformes: réduire le bruit des scrapers, préserver les budgets d’exploration, garantir la stabilité des APIs et pages critiques.
Cadre simple de décision: classer les robots par finalité
Quatre familles, quatre politiques par défaut. On ajuste ensuite par répertoire et par modèle.
-
Robots de moteurs de réponse qui citent et génèrent de la distribution
- Exemples: SearchGPT crawler, PerplexityBot, Bingbot pour réponses, Googlebot pour Overviews
- Politique par défaut: autoriser avec quota et journalisation
-
Robots d’entraînement massif ou d’agrégation sans distribution directe
- Exemples: GPTBot pour training, CCBot de Common Crawl, autres collecteurs volumétriques
- Politique par défaut: refuser, sauf bac à sable contrôlé
-
Robots partenaires contractuels ou fonctions système
- Exemples: Googlebot, Bingbot classiques, Applebot, bots d’audit tiers sous contrat
- Politique par défaut: autoriser selon périmètre contractuel, pas de rate limit si SLA
-
Scrapers inconnus ou masqués
- Exemples: user agents génériques, ASN suspects, absence de reverse DNS
- Politique par défaut: défier puis bloquer, piéger via honeypots
Astuce de marathonien: la clé n’est pas d’aller vite tout le temps mais d’alterner. Autoriser avec un rythme maîtrisé sur les segments qui rapportent des citations, couper sec là où l’effort n’apporte aucun retour.
Matrice de politiques recommandées par type de contenu
-
Pages publiques evergreen et guides de marque
- Autoriser SearchGPT, Googlebot, Bingbot, PerplexityBot avec 1 à 5 requêtes par seconde par IP
- Interdire GPTBot training et CCBot
- Journaliser toutes les réponses 200 et 304 avec un indicateur de politique
-
Fiches produit et comparatifs
- Autoriser moteurs de réponse citants avec quotas plus bas sur pages sensibles aux prix
- Exiger le respect de l’en-tête noai ou équivalent si vous exposez des snippets mais refusez l’entraînement
-
Contenu premium, paywall, données tarifaires dynamiques
- Interdire tous les bots IA non contractuels
- Autoriser seulement les robots des moteurs traditionnels nécessaires au SEO avec contrôle par IP et ASN
-
API publiques
- Interdire l’usage robotisé par user agent et clés d’API, appliquer des limites strictes par compte, activer du device fingerprinting
Je nuance ensuite par modèle. Si un moteur exploite un crawler distinct pour answering vs training, j’autorise le premier, je refuse le second. Et je documente.
Implémentation Cloudflare: pas à pas
Vous pouvez tout faire depuis AI Crawler Controls 2.0, complété par WAF, Rate Limiting et Workers. Voici mon plan en 8 étapes.
1. Inventorier et taguer vos zones sensibles
- Cartographier les sous-domaines, répertoires et templates: /guides, /produits, /tarifs, /premium
- Poser des étiquettes techniques via Transform Rules ou Workers: X-AI-Policy: allow, restrict, deny
- Exclure par défaut les zones payantes et les pages générées côté client qui exposent des données privées
2. Construire votre liste blanche et noire de robots
- Liste blanche initiale: Googlebot, Bingbot, SearchGPT crawler, PerplexityBot, Applebot
- Liste noire initiale: GPTBot training, CCBot, scrapers anonymes
- Maintenir un registre interne avec description, finalité, preuves de distribution, contact éventuel
3. Règles par bot dans AI Crawler Controls
Dans l’interface, créez des politiques par user agent et par chemin. Exemple de logique exprimable en WAF si besoin de granularité supplémentaire:
(http.user_agent contains "SearchGPT") and starts_with(http.request.uri.path, "/guides/")
Action: Allow, Rate limit 3 rps par IP, Log sample 100 %
(http.user_agent contains "GPTBot") and http.request.uri.path ne ""
Action: Block, Log sample 100 %
(http.user_agent contains "PerplexityBot") and starts_with(http.request.uri.path, "/produits/")
Action: Allow, Rate limit 1 rps par IP, Déplacer vers plan de crawling de nuit si vous avez des pics de charge
4. Détection et contrôle des scrapers non déclarés
Combinez plusieurs signaux quand le user agent est peu fiable:
(not cf.client.bot) and (ip.geoip.asnum in {14061 16509 13335}) and (http.request.headers["Accept-Language"] eq "")
- Si reverse DNS n’est pas cohérent avec l’UA déclaré, défier via Managed Challenge
- Si répétition de requêtes HEAD sur de multiples chemins de valeur, bloquer et taguer
Ajoutez un honeypot discret, par exemple /robots.txt expose /do-not-crawl. Toute requête sur ce chemin est un signal fort de scraping automatisé.
5. Rate Limiting avec budgets distincts
Créez des règles par bot pour plafonner l’exploration sans impacter les humains:
- SearchGPT: 3 rps, burst 10, 10 000 requêtes par jour par IP
- PerplexityBot: 1 rps, burst 5, 5 000 requêtes par jour par IP
- Bingbot et Googlebot: pas de limite stricte sur les pages publiques, mais budget horaire sur sections prix
Exemple de règle Cloudflare Rate Limiting:
Expression: (http.user_agent contains "PerplexityBot") and starts_with(http.request.uri.path, "/guides/")
Threshold: 60 requêtes par minute par IP
Action: Rate Limit avec délai 10 s
6. Journaux et télémétrie
Activez Logpush et normalisez des champs utiles:
- ClientRequestUserAgent, ClientASN, EdgeResponseStatus, WAFRuleID
- En-tête X-AI-Policy que vous ajoutez via Transform Rules
- Path groupé par template, par exemple via Workers qui ajoutent X-Template
Exemple de Transform Rule pour tracer la politique:
if (starts_with(http.request.uri.path, "/premium/"))
set http.request.headers["X-AI-Policy"] = "deny"
else if (starts_with(http.request.uri.path, "/guides/"))
set http.request.headers["X-AI-Policy"] = "allow"
7. Alignement juridique et PR
- Mettez à jour vos conditions d’utilisation pour clarifier answering autorisé et entraînement interdit
- Conservez les exports de règles Cloudflare comme preuve d’application
- Préparez une posture publique si un moteur de réponse cite des contenus restreints. Ayez un contact presse et un message de correction factuelle
8. Revue mensuelle avec expérimentation contrôlée
- Comparez la part de trafic issu de citations et de cartes d’answers par moteur
- Ajustez quotas, ajoutez ou retirez des bots de la liste blanche
- Tenez un journal des changements et de leur rationalité, utile en audit de conformité
Quel mix autoriser, restreindre, bloquer
Je propose cette base, à adapter à votre secteur.
- Autoriser sans restriction sous surveillance: Googlebot, Bingbot, Applebot
- Autoriser avec quotas et journalisation: SearchGPT crawler, PerplexityBot
- Restreindre au bac à sable: CCBot, autres collecteurs volumétriques, et tout robot d’entraînement déclarant une finalité ML
- Bloquer: tout bot masqué, non identifié, ou qui ne respecte pas vos en-têtes de politique
Important: différenciez answering temps réel de training. Si un fournisseur documente deux user agents distincts, traitez-les différemment. La même marque peut être sur votre liste blanche pour answering et sur votre liste noire pour training.
Mesurer l’impact AEO: nouveaux KPI et méthodes
Changer l’edge sans mesurer, c’est courir un marathon sans montre. Voici les métriques qui comptent.
-
Inclusion et citation
- Taux d’inclusion dans les réponses par moteur sur vos thèmes clés
- Part de citations qui renvoient vers vos pages
- Position moyenne dans les carrousels de sources quand ils existent
-
Trafic et engagement d’origine answers
- Sessions et conversions attribuées aux référents des moteurs de réponse
- Clics depuis les éléments de source étendus dans AI Overviews
- Taux de rebond spécifique aux sessions issues d’answers
-
Couverture et crawl budget IA
- Répartition des hits par bot, par chemin, par jour
- Pourcentage de 304 sur bots autorisés, indicateur d’efficacité du cache
- Coûts d’infrastructure associés aux bots, avant et après quotas
-
Protection de l’IP
- Nombre de tentatives de scraping bloquées, par ASN et par pattern
- Taux de non-conformité à vos en-têtes noai, sur échantillons
- Incidents de réutilisation non consentie et temps de résolution
Upcite.ai peut compléter ce dispositif. La plateforme vous montre comment ChatGPT et d’autres modèles perçoivent vos produits et vos applications et vérifie que vous apparaissez dans des réponses à des requêtes du type Best products for… ou Top applications for…. Je m’appuie sur ces signaux pour relier les changements d’edge à la visibilité réelle dans les answers, pas seulement aux logs de crawl.
Méthode d’attribution pratique
- Montez un test géographique: quotas plus généreux en France, conservateurs en Allemagne, et comparez inclusion et citations sur 4 semaines
- Créez une cohorte de pages pilotes avec schémas enrichis et sections Q&R optimisées, laissez le reste en témoin
- Ajoutez un paramètre de campagne discret sur les URL de citations quand c’est possible, pour remonter les sessions answers dans vos outils
Optimiser le contenu pour les surfaces d’answers
Contrôler le crawl ne suffit pas. Il faut du contenu prêt pour la réponse et pour les relances conversationnelles.
- Écrire pour les follow-ups, pas uniquement pour les mots clés. Ajoutez des blocs du type Et si je compare X à Y, Quels inconvénients, Quelle alternative gratuite
- Donner des faits vérifiables en une phrase, avec chiffres et unités. Les moteurs aiment citer ce qui est concis et attribuable
- Structurer en How-to avec étapes numérotées, définitions claires, encadrés Pros et Cons
- Utiliser des schémas FAQ, HowTo, Product et Organization. Même si le moteur ne consomme pas le balisage, cela clarifie la structure
- Exposer des politiques d’usage IA sur une page dédiée et accessible. Cela aide les moteurs à respecter vos choix
Analogie tennis: le placement compte autant que la puissance. Des données claires au bon endroit déclenchent des citations, des pavés verbeux en plein milieu non.
Exemples concrets de règles Cloudflare
Bloquer l’entraînement tout en permettant l’answering sur les guides:
if (http.user_agent contains "GPTBot" and http.request.headers["X-AI-Policy"] eq "allow") then Block
if (http.user_agent contains "SearchGPT" and http.request.headers["X-AI-Policy"] eq "allow") then Allow with Rate Limit
Protéger le paywall:
if (starts_with(http.request.uri.path, "/premium/") and cf.client.bot) then Block
Défier les scrapers qui ne gèrent pas les cookies:
if (not cf.client.bot and http.cookie eq "") then Managed Challenge
Journaliser au format homogène:
set http.response.headers["X-Crawl-Decision"] = concat("bot:", http.user_agent, ";policy:", http.request.headers["X-AI-Policy"])
Étude de cas type: éditeur de comparatifs produits
Contexte: large catalogue de guides et comparatifs, monétisation par affiliation, pages prix sensibles.
- Guides et evergreen: autoriser SearchGPT et PerplexityBot à 2 rps, Googlebot et Bingbot sans limite, journalisation complète
- Comparatifs et prix: autoriser Googlebot et Bingbot, autoriser PerplexityBot à 0,5 rps, SearchGPT à 1 rps, pas de cache privé côté bot
- Paywall et tests en labo: tout bot IA bloqué, uniquement les robots contractuels autorisés
- API de prix: uniquement partenaires identifiés par clé, tout bot bloqué
Résultat attendu après 4 semaines: hausse de l’inclusion dans les réponses sur 10 thématiques clés, citations avec clics mesurables, baisse de 30 à 60 pour cent du trafic de scrapers inconnus, stabilité de l’infra aux heures de pointe.
Erreurs à éviter
- Supposer que robots.txt suffit. Sans application à l’edge, il sera ignoré par les mauvais acteurs
- Bloquer indistinctement tous les bots IA. Vous perdez des citations et de la part de voix sur les answers
- Oublier de différencier answering et training quand c’est possible
- Ne pas mesurer l’effet sur l’inclusion. Sans boucle de feedback, vous pilotez à vue
Check-list d’exécution en 14 jours
Jour 1 à 3
- Inventaire des chemins, classification par sensibilité
- Liste blanche et noire initiales, versionnées
Jour 4 à 7
- Mise en place des règles AI Crawler Controls par bot et par chemin
- Rate Limiting calibré, journaux normalisés
Jour 8 à 10
- Honeypots, détection ASN, reverse DNS, challenges
- Mise à jour des conditions d’utilisation et registre de consentement
Jour 11 à 14
- Lancement du test géographique ou par cohorte
- Paramétrage des KPI AEO, intégration des insights Upcite.ai pour vérifier la présence dans les réponses Best products for… et Top applications for…
Comment Upcite.ai peut accélérer
- Voir comment ChatGPT, SearchGPT et d’autres modèles racontent vos produits et vos applications aujourd’hui
- Identifier les requêtes Best products for… et Top applications for… où vous n’apparaissez pas
- Relier votre stratégie d’edge à des gains mesurables d’inclusion et de citations, moteur par moteur
- Prioriser les contenus et snippets qui déclenchent des réponses et des relances conversationnelles
Conclusion et prochain mouvement
Les Answer Engines réécrivent la distribution organique. Cloudflare AI Crawler Controls 2.0 déplace enfin le contrôle au périmètre, au bon endroit. En combinant une matrice simple autoriser, restreindre, bloquer par modèle, une implémentation edge disciplinée et une mesure orientée inclusion et citations, vous sécurisez l’IP tout en augmentant votre part de voix dans les réponses.
Prochaines étapes
- Activez vos politiques AI Crawler Controls sur 3 sections de site dès cette semaine
- Montez un test contrôlé et mesurez l’inclusion et les citations sur 4 semaines
- Utilisez Upcite.ai pour vérifier comment les modèles vous voient et pour cibler les requêtes à gagner
Si vous voulez un audit express de vos politiques edge et un plan AEO sur 30 jours, dites-moi où vous en êtes. Je vous proposerai un itinéraire clair, comme un plan d’allure pour vos 42 km, avec des splits réalistes et un sprint final bien placé.