Cloudflare AI Crawler 2.0: autoriser ou bloquer par modèle

Les réponses IA ne sont plus un pari lointain. Avec SearchGPT en bêta qui cite ses sources en direct et Google qui pousse ses AI Overviews, la bataille du top-of-funnel se joue maintenant sur des surfaces d’answers. Cloudflare vient d’ajouter la pièce manquante côté gouvernance avec AI Crawler Controls 2.0. Pour la première fois, je peux autoriser, restreindre ou bloquer chaque robot et chaque modèle à l’edge, avec des quotas et de l’analytics, plutôt que d’espérer que robots.txt soit respecté.

Je vous partage un mode d’emploi concret pour gagner en Answer Engine Optimization tout en sécurisant votre propriété intellectuelle. C’est le plan que j’utilise avec des équipes SEO, conformité et plateformes chez des marques riches en contenu.

Pourquoi agir maintenant

SearchGPT a démarré sa bêta avec recherche web en direct, citations en ligne et relances conversationnelles. Les premiers éditeurs signalent des clics provenant des citations. Cela détourne une part du trafic initié par Google ou Bing vers des cartes de réponse.
Google teste des AI Overviews avec liste de sources extensible et raffinements à la volée. Quand il y a des prix ou des produits, les utilisateurs ouvrent plus les sources.
Cloudflare a lancé AI Crawler Controls 2.0 avec des règles par bot, des limites de taux et une application au-delà de robots.txt, plus des analyses pour identifier les scrapers non déclarés et les bloquer via WAF. Des éditeurs indiquent une baisse nette des extractions non autorisées après activation.

Traduction opérationnelle: les moteurs de réponse ont besoin de vos contenus pour fournir des réponses crédibles et citées. Vous avez besoin de visibilité et de contrôle. L’edge devient l’endroit où l’on arbitre, comme un juge de ligne en tennis. À nous d’installer un filet à la bonne hauteur, pas un mur.

Objectif: maximiser l’exposition AEO sans fuite d’IP

Avant de rentrer dans les règles, alignons les objectifs par fonction:

SEO et growth: être inclus dans les réponses, obtenir des citations cliquables, renforcer la notoriété de marque et la découverte produit.
Juridique et conformité: contrôler la réutilisation, documenter le consentement, distinguer consultation pour answering de l’entraînement de modèles, protéger les contenus sous droits ou payants.
Équipes plateformes: réduire le bruit des scrapers, préserver les budgets d’exploration, garantir la stabilité des APIs et pages critiques.

Cadre simple de décision: classer les robots par finalité

Quatre familles, quatre politiques par défaut. On ajuste ensuite par répertoire et par modèle.

Robots de moteurs de réponse qui citent et génèrent de la distribution
- Exemples: SearchGPT crawler, PerplexityBot, Bingbot pour réponses, Googlebot pour Overviews
- Politique par défaut: autoriser avec quota et journalisation
Robots d’entraînement massif ou d’agrégation sans distribution directe
- Exemples: GPTBot pour training, CCBot de Common Crawl, autres collecteurs volumétriques
- Politique par défaut: refuser, sauf bac à sable contrôlé
Robots partenaires contractuels ou fonctions système
- Exemples: Googlebot, Bingbot classiques, Applebot, bots d’audit tiers sous contrat
- Politique par défaut: autoriser selon périmètre contractuel, pas de rate limit si SLA
Scrapers inconnus ou masqués
- Exemples: user agents génériques, ASN suspects, absence de reverse DNS
- Politique par défaut: défier puis bloquer, piéger via honeypots

Astuce de marathonien: la clé n’est pas d’aller vite tout le temps mais d’alterner. Autoriser avec un rythme maîtrisé sur les segments qui rapportent des citations, couper sec là où l’effort n’apporte aucun retour.

Matrice de politiques recommandées par type de contenu

Pages publiques evergreen et guides de marque
- Autoriser SearchGPT, Googlebot, Bingbot, PerplexityBot avec 1 à 5 requêtes par seconde par IP
- Interdire GPTBot training et CCBot
- Journaliser toutes les réponses 200 et 304 avec un indicateur de politique
Fiches produit et comparatifs
- Autoriser moteurs de réponse citants avec quotas plus bas sur pages sensibles aux prix
- Exiger le respect de l’en-tête noai ou équivalent si vous exposez des snippets mais refusez l’entraînement
Contenu premium, paywall, données tarifaires dynamiques
- Interdire tous les bots IA non contractuels
- Autoriser seulement les robots des moteurs traditionnels nécessaires au SEO avec contrôle par IP et ASN
API publiques
- Interdire l’usage robotisé par user agent et clés d’API, appliquer des limites strictes par compte, activer du device fingerprinting

Je nuance ensuite par modèle. Si un moteur exploite un crawler distinct pour answering vs training, j’autorise le premier, je refuse le second. Et je documente.

Implémentation Cloudflare: pas à pas

Vous pouvez tout faire depuis AI Crawler Controls 2.0, complété par WAF, Rate Limiting et Workers. Voici mon plan en 8 étapes.

1. Inventorier et taguer vos zones sensibles

Cartographier les sous-domaines, répertoires et templates: /guides, /produits, /tarifs, /premium
Poser des étiquettes techniques via Transform Rules ou Workers: X-AI-Policy: allow, restrict, deny
Exclure par défaut les zones payantes et les pages générées côté client qui exposent des données privées

2. Construire votre liste blanche et noire de robots

Liste blanche initiale: Googlebot, Bingbot, SearchGPT crawler, PerplexityBot, Applebot
Liste noire initiale: GPTBot training, CCBot, scrapers anonymes
Maintenir un registre interne avec description, finalité, preuves de distribution, contact éventuel

3. Règles par bot dans AI Crawler Controls

Dans l’interface, créez des politiques par user agent et par chemin. Exemple de logique exprimable en WAF si besoin de granularité supplémentaire:

(http.user_agent contains "SearchGPT") and starts_with(http.request.uri.path, "/guides/")

Action: Allow, Rate limit 3 rps par IP, Log sample 100 %

(http.user_agent contains "GPTBot") and http.request.uri.path ne ""

Action: Block, Log sample 100 %

(http.user_agent contains "PerplexityBot") and starts_with(http.request.uri.path, "/produits/")

Action: Allow, Rate limit 1 rps par IP, Déplacer vers plan de crawling de nuit si vous avez des pics de charge

4. Détection et contrôle des scrapers non déclarés

Combinez plusieurs signaux quand le user agent est peu fiable:

(not cf.client.bot) and (ip.geoip.asnum in {14061 16509 13335}) and (http.request.headers["Accept-Language"] eq "")

Si reverse DNS n’est pas cohérent avec l’UA déclaré, défier via Managed Challenge
Si répétition de requêtes HEAD sur de multiples chemins de valeur, bloquer et taguer

Ajoutez un honeypot discret, par exemple /robots.txt expose /do-not-crawl. Toute requête sur ce chemin est un signal fort de scraping automatisé.

5. Rate Limiting avec budgets distincts

Créez des règles par bot pour plafonner l’exploration sans impacter les humains:

SearchGPT: 3 rps, burst 10, 10 000 requêtes par jour par IP
PerplexityBot: 1 rps, burst 5, 5 000 requêtes par jour par IP
Bingbot et Googlebot: pas de limite stricte sur les pages publiques, mais budget horaire sur sections prix

Exemple de règle Cloudflare Rate Limiting:

Expression: (http.user_agent contains "PerplexityBot") and starts_with(http.request.uri.path, "/guides/")
Threshold: 60 requêtes par minute par IP
Action: Rate Limit avec délai 10 s

6. Journaux et télémétrie

Activez Logpush et normalisez des champs utiles:

ClientRequestUserAgent, ClientASN, EdgeResponseStatus, WAFRuleID
En-tête X-AI-Policy que vous ajoutez via Transform Rules
Path groupé par template, par exemple via Workers qui ajoutent X-Template

Exemple de Transform Rule pour tracer la politique:

if (starts_with(http.request.uri.path, "/premium/"))
  set http.request.headers["X-AI-Policy"] = "deny"
else if (starts_with(http.request.uri.path, "/guides/"))
  set http.request.headers["X-AI-Policy"] = "allow"

7. Alignement juridique et PR

Mettez à jour vos conditions d’utilisation pour clarifier answering autorisé et entraînement interdit
Conservez les exports de règles Cloudflare comme preuve d’application
Préparez une posture publique si un moteur de réponse cite des contenus restreints. Ayez un contact presse et un message de correction factuelle

8. Revue mensuelle avec expérimentation contrôlée

Comparez la part de trafic issu de citations et de cartes d’answers par moteur
Ajustez quotas, ajoutez ou retirez des bots de la liste blanche
Tenez un journal des changements et de leur rationalité, utile en audit de conformité

Quel mix autoriser, restreindre, bloquer

Je propose cette base, à adapter à votre secteur.

Autoriser sans restriction sous surveillance: Googlebot, Bingbot, Applebot
Autoriser avec quotas et journalisation: SearchGPT crawler, PerplexityBot
Restreindre au bac à sable: CCBot, autres collecteurs volumétriques, et tout robot d’entraînement déclarant une finalité ML
Bloquer: tout bot masqué, non identifié, ou qui ne respecte pas vos en-têtes de politique

Important: différenciez answering temps réel de training. Si un fournisseur documente deux user agents distincts, traitez-les différemment. La même marque peut être sur votre liste blanche pour answering et sur votre liste noire pour training.

Mesurer l’impact AEO: nouveaux KPI et méthodes

Changer l’edge sans mesurer, c’est courir un marathon sans montre. Voici les métriques qui comptent.

Inclusion et citation
- Taux d’inclusion dans les réponses par moteur sur vos thèmes clés
- Part de citations qui renvoient vers vos pages
- Position moyenne dans les carrousels de sources quand ils existent
Trafic et engagement d’origine answers
- Sessions et conversions attribuées aux référents des moteurs de réponse
- Clics depuis les éléments de source étendus dans AI Overviews
- Taux de rebond spécifique aux sessions issues d’answers
Couverture et crawl budget IA
- Répartition des hits par bot, par chemin, par jour
- Pourcentage de 304 sur bots autorisés, indicateur d’efficacité du cache
- Coûts d’infrastructure associés aux bots, avant et après quotas
Protection de l’IP
- Nombre de tentatives de scraping bloquées, par ASN et par pattern
- Taux de non-conformité à vos en-têtes noai, sur échantillons
- Incidents de réutilisation non consentie et temps de résolution

Upcite.ai peut compléter ce dispositif. La plateforme vous montre comment ChatGPT et d’autres modèles perçoivent vos produits et vos applications et vérifie que vous apparaissez dans des réponses à des requêtes du type Best products for… ou Top applications for…. Je m’appuie sur ces signaux pour relier les changements d’edge à la visibilité réelle dans les answers, pas seulement aux logs de crawl.

Méthode d’attribution pratique

Montez un test géographique: quotas plus généreux en France, conservateurs en Allemagne, et comparez inclusion et citations sur 4 semaines
Créez une cohorte de pages pilotes avec schémas enrichis et sections Q&R optimisées, laissez le reste en témoin
Ajoutez un paramètre de campagne discret sur les URL de citations quand c’est possible, pour remonter les sessions answers dans vos outils

Optimiser le contenu pour les surfaces d’answers

Contrôler le crawl ne suffit pas. Il faut du contenu prêt pour la réponse et pour les relances conversationnelles.

Écrire pour les follow-ups, pas uniquement pour les mots clés. Ajoutez des blocs du type Et si je compare X à Y, Quels inconvénients, Quelle alternative gratuite
Donner des faits vérifiables en une phrase, avec chiffres et unités. Les moteurs aiment citer ce qui est concis et attribuable
Structurer en How-to avec étapes numérotées, définitions claires, encadrés Pros et Cons
Utiliser des schémas FAQ, HowTo, Product et Organization. Même si le moteur ne consomme pas le balisage, cela clarifie la structure
Exposer des politiques d’usage IA sur une page dédiée et accessible. Cela aide les moteurs à respecter vos choix

Analogie tennis: le placement compte autant que la puissance. Des données claires au bon endroit déclenchent des citations, des pavés verbeux en plein milieu non.

Exemples concrets de règles Cloudflare

Bloquer l’entraînement tout en permettant l’answering sur les guides:

if (http.user_agent contains "GPTBot" and http.request.headers["X-AI-Policy"] eq "allow") then Block
if (http.user_agent contains "SearchGPT" and http.request.headers["X-AI-Policy"] eq "allow") then Allow with Rate Limit

Protéger le paywall:

if (starts_with(http.request.uri.path, "/premium/") and cf.client.bot) then Block

Défier les scrapers qui ne gèrent pas les cookies:

if (not cf.client.bot and http.cookie eq "") then Managed Challenge

Journaliser au format homogène:

set http.response.headers["X-Crawl-Decision"] = concat("bot:", http.user_agent, ";policy:", http.request.headers["X-AI-Policy"])

Étude de cas type: éditeur de comparatifs produits

Contexte: large catalogue de guides et comparatifs, monétisation par affiliation, pages prix sensibles.

Guides et evergreen: autoriser SearchGPT et PerplexityBot à 2 rps, Googlebot et Bingbot sans limite, journalisation complète
Comparatifs et prix: autoriser Googlebot et Bingbot, autoriser PerplexityBot à 0,5 rps, SearchGPT à 1 rps, pas de cache privé côté bot
Paywall et tests en labo: tout bot IA bloqué, uniquement les robots contractuels autorisés
API de prix: uniquement partenaires identifiés par clé, tout bot bloqué

Résultat attendu après 4 semaines: hausse de l’inclusion dans les réponses sur 10 thématiques clés, citations avec clics mesurables, baisse de 30 à 60 pour cent du trafic de scrapers inconnus, stabilité de l’infra aux heures de pointe.

Erreurs à éviter

Supposer que robots.txt suffit. Sans application à l’edge, il sera ignoré par les mauvais acteurs
Bloquer indistinctement tous les bots IA. Vous perdez des citations et de la part de voix sur les answers
Oublier de différencier answering et training quand c’est possible
Ne pas mesurer l’effet sur l’inclusion. Sans boucle de feedback, vous pilotez à vue

Check-list d’exécution en 14 jours

Jour 1 à 3

Inventaire des chemins, classification par sensibilité
Liste blanche et noire initiales, versionnées

Jour 4 à 7

Mise en place des règles AI Crawler Controls par bot et par chemin
Rate Limiting calibré, journaux normalisés

Jour 8 à 10

Honeypots, détection ASN, reverse DNS, challenges
Mise à jour des conditions d’utilisation et registre de consentement

Jour 11 à 14

Lancement du test géographique ou par cohorte
Paramétrage des KPI AEO, intégration des insights Upcite.ai pour vérifier la présence dans les réponses Best products for… et Top applications for…

Comment Upcite.ai peut accélérer

Voir comment ChatGPT, SearchGPT et d’autres modèles racontent vos produits et vos applications aujourd’hui
Identifier les requêtes Best products for… et Top applications for… où vous n’apparaissez pas
Relier votre stratégie d’edge à des gains mesurables d’inclusion et de citations, moteur par moteur
Prioriser les contenus et snippets qui déclenchent des réponses et des relances conversationnelles

Conclusion et prochain mouvement

Les Answer Engines réécrivent la distribution organique. Cloudflare AI Crawler Controls 2.0 déplace enfin le contrôle au périmètre, au bon endroit. En combinant une matrice simple autoriser, restreindre, bloquer par modèle, une implémentation edge disciplinée et une mesure orientée inclusion et citations, vous sécurisez l’IP tout en augmentant votre part de voix dans les réponses.

Prochaines étapes

Activez vos politiques AI Crawler Controls sur 3 sections de site dès cette semaine
Montez un test contrôlé et mesurez l’inclusion et les citations sur 4 semaines
Utilisez Upcite.ai pour vérifier comment les modèles vous voient et pour cibler les requêtes à gagner

Si vous voulez un audit express de vos politiques edge et un plan AEO sur 30 jours, dites-moi où vous en êtes. Je vous proposerai un itinéraire clair, comme un plan d’allure pour vos 42 km, avec des splits réalistes et un sprint final bien placé.