Controla y monetiza crawlers de IA sin romper tu SEO

Soy Vicky, estratega AEO en Upcite. Si diriges SEO, Plataforma o Business Ops en un publisher o en un sitio de documentación SaaS, hoy tienes una oportunidad concreta: pasar de políticas defensivas a ingresos con los nuevos controles de Cloudflare para crawlers de IA. Cloudflare acaba de introducir identificación, reglas y medición nativa para bots de entrenamiento e inferencia de LLM. Eso permite detectar, limitar, registrar y hasta comercializar el acceso, con analítica específica para tráfico de IA.

Este guía separa la estrategia del humo. Te doy un marco operativo, ejemplos de reglas, métricas que importan y un plan 30-60-90 para convertir la política en contrato sin romper el SEO ni el rendimiento.

Por qué ahora

La ola de modelos y respuestas conversacionales acelera. Hay más crawlers de entrenamiento y answer engines que nunca. Reddit ya amplió licencias de datos con metadatos y límites para crawlers. Microsoft y LinkedIn llevan experiencias conversacionales a inventario publicitario. Todo eso incrementa la demanda de tu contenido.
Cloudflare ofrece verificación de bots, firmas y políticas de rate con analítica para tráfico de IA. También puedes condicionar el acceso o negociar pago con reglas basadas en Workers. Es la primera vez que tienes palancas técnicas y de negocio integradas en el perímetro.
Riesgo real si no actúas: saturación del origen, picos de TTFB, presupuesto de crawleo desordenado, y bloqueo accidental de Googlebot. He visto a equipos romper su SEO por meter la misma regla para todo bot.

Como en maratón, no cambias toda la zancada a la vez. Ajustas cadencia, respiración y luego ritmos. Aquí igual: clasifica, controla, mide y después monetiza.

Marco 5C: de política a ingresos

Te propongo el marco 5C para bots de IA.

Clasificar: saber qué entra y con qué intención.
Codificar políticas: decidir allow, throttle, gate o block por clase.
Cumplir en el perímetro: reglas y Workers en Cloudflare.
Contabilizar: medición y costos por bot para negociar.
Comercializar: empaquetar acceso pagado y acuerdos.

1) Clasificar

Crea una taxonomía simple y accionable:

Entrenamiento LLM: recorren amplios segmentos para construir corpus. Ejemplo típico: bots que respetan robots y anuncian un user agent propio.
Inferencia o respuesta: agregan contenido en answer engines o asistentes. Buscan páginas con alta intención y frescura.
Agregadores verticales: comparadores, directorios B2B, marketplaces.
Verificados de buscadores: Googlebot, Bingbot, etc. Protegidos. Nunca metas en la misma bolsa.
Operacionales: monitores de uptime, validadores de accesibilidad. Deja pasar con límites claros.
Desconocidos y suplantadores: user agents vagos o IPs que no cuadran con rangos anunciados. Estos son tu mayor fuente de coste y riesgo.

Señales útiles en Cloudflare:

Listas de bots verificados y firmas declaradas por proveedores de IA.
Puntuación y señales de Bot Management.
Coincidencia de IPs con rangos publicados por proveedores cuando estén disponibles.
Firmas o tokens en encabezados cuando el bot los soporte. Cloudflare puede verificar firmas para bots que se identifiquen de forma criptográfica.

Agrupa cada request en una de estas clases con una regla determinista. Eso te habilita políticas diferentes por clase.

2) Codificar políticas

Define políticas por clase, por ejemplo:

Entrenamiento LLM: deshabilitado por defecto. Ofrece un endpoint de acceso pagado y dataset curado. Si permites entrenamiento gratuito, limítalo a un crawl budget diario y a rutas sin sensibilidad.
Inferencia: permitido con límites. Exige firma cuando sea posible y aplica rate por IP o por agente. Prioriza rutas de alto valor comercial con caching agresivo para no castigar el origen.
Verificados de buscadores: siempre permitido. Sin rate que degrade su cobertura. Cachea de forma inteligente para servir rápido sin ocultar cambios críticos.
Desconocidos: 403 o 429 con respuesta JSON que explique el proceso de solicitud de acceso. No pongas un HTML pesado. No redirecciones.

Incluye una política transversal de seguridad: si detectas scraping anómalo en rutas de conversión o admin, bloquea sin excepciones.

3) Cumplir en el perímetro con Cloudflare

Tienes tres capas útiles en Cloudflare: Reglas, Rate Limit y Workers. Con el anuncio reciente, Cloudflare agrega listas verificadas, comprobación de firmas y analítica específica para bots de IA. Un esquema práctico:

Firewall Rules: separa clases conocidas. Ejemplos
- Si bot verificado de buscador entonces allow y log.
- Si bot de IA con verificación de firma entonces etiqueta como ai_inferencia o ai_entrenamiento.
- Si user agent sospechoso y sin firma entonces challenge o block.
Rate Limiting avanzado: políticas por etiqueta. Por ejemplo, 600 requests por minuto por IP para ai_inferencia sobre rutas /docs y 60 rpm para ai_entrenamiento en /blog.
Workers para lógica fina: firma, gating, contadores y respuestas controladas. Además sirve como punto de integración para monetización y acuerdos.

Ejemplo de Worker simplificado para clasificar, limitar y medir. Usa nombres de encabezados genéricos. Adáptalos a cada proveedor.

export default {
  async fetch(request, env, ctx) {
    const url = new URL(request.url)
    const ua = request.headers.get('User-Agent') || ''
    const agentId = request.headers.get('X-Agent-Id') || 'unknown'
    const signature = request.headers.get('X-Agent-Signature')

    // 1) Atajos para buscadores verificados
    if (env.VERIFIED_SEARCH_BOTS && matchesVerifiedSearchBot(ua)) {
      return allowAndLog(env, request, 'search_bot')
    }

    // 2) Verificación básica de agentes de IA
    let agentClass = classifyAgent(ua)
    const isSigned = signature && await verifySignature(agentId, signature, env)

    if (isSigned) {
      // Mapear a clases declaradas por el proveedor
      agentClass = request.headers.get('X-Agent-Class') || agentClass
    }

    // 3) Políticas por clase
    if (agentClass === 'ai_training') {
      // Gating: exige contrato o usa rate bajo
      if (!isSigned || !(await hasActiveContract(agentId, env))) {
        return respondPolicy('training_denied', env)
      }
      const ok = await rateLimit(env, agentId, 60, '1m') // 60 rpm
      if (!ok) return respondRateLimited(env)
      ctx.waitUntil(account(env, agentId, agentClass, url.pathname))
      return forward(request)
    }

    if (agentClass === 'ai_inference') {
      const ok = await rateLimit(env, agentId, 600, '1m')
      if (!ok) return respondRateLimited(env)
      ctx.waitUntil(account(env, agentId, agentClass, url.pathname))
      return forward(request)
    }

    // Desconocidos o suplantadores
    if (isSuspicious(ua)) {
      return respondPolicy('unknown_blocked', env)
    }

    // Tráfico humano u otros
    return forward(request)
  }
}

Notas útiles:

Usa Durable Objects o KV para contadores y contratos. La nueva analítica de Cloudflare para bots de IA facilita reportes por agente y ruta.
Mantén una allowlist clara para buscadores. Debe ejecutarse de forma prioritaria.
Respuestas de denegación pequeñas y en JSON para ahorrar ancho de banda y clarificar el canal de solicitud de acceso.

4) Contabilizar

No puedes comercializar lo que no mides. Tu cuadro de mando semanal debe incluir:

Requests, páginas únicas y GB servidos por agente.
Ratio de aciertos de cache vs. origin hits por agente y por ruta.
Latencia p95 y p99 por agente para proteger UX y Core Web Vitals.
Coste por 1.000 requests y por GB, incluyendo origen y CDN.
Incidencias SEO: códigos 4xx a Googlebot, cambios en cobertura y en tráfico orgánico.

Cloudflare expone analítica de bots de IA. Refuérzala con logs a tu data warehouse para costeo real. Si un bot consume 8 por ciento del ancho de banda y te aporta cero valor, ya tienes argumento para contracargo o bloqueo.

5) Comercializar

Pasa de política a oferta:

Paquetes: acceso a rutas de documentación con SLA de frescura, feeds incrementales y límites más altos. Precio por 1.000 requests o por GB, mínimo mensual. Escalones por frecuencia de recrawl.
Términos clave del contrato
- Uso permitido: entrenamiento, inferencia o ambos.
- Límite de almacenamiento y retención.
- Frecuencia de actualización y prioridad en cambios críticos.
- Atribución y enlace a la fuente si el agente responde con tu contenido.
- Restricciones de redistribución y sublicencias.
Onboarding técnico: asigna un Agent Id, clave pública para firma y rangos de IP. Publica robots y política antiabuso consistente con tus reglas.
Señalización en respuestas de error 429 o 403: retorna un objeto JSON con código y próximo paso para solicitud de acceso. Sin redirecciones.

Como en tenis, la clave es el primer paso. Si tu política es clara y tus métricas son sólidas, negocias desde posición estable.

SEO y AEO sin sustos

Proteger ingresos no debe romper tu visibilidad en buscadores ni en answer engines.

Allowlist explícita para Googlebot, Googlebot-Image, Bingbot y otros verificados. Testea con logs. Nunca mezcles su tráfico con reglas de IA.
Robots.txt específico para algunos bots de IA que respetan el protocolo. Úsalo como primera señal, pero aplica reglas de perímetro para cumplimiento real.
Preserva presupuesto de crawleo: si ves picos de 4xx a buscadores, baja otras tasas antes de tocar a Google.
Caching sensible: para páginas estáticas, sirve desde CDN a inferencia. Reduce origin hits y protege TTFB. Para endpoints críticos y APIs, aplica ventanas cortas y revalidación.
AEO: no bloquees a todos los answer engines. Prioriza inferencia con límites y atribución. Upcite.ai te ayuda a entender cómo ven tus productos y aplicaciones en respuestas de ChatGPT y otros modelos, y a asegurar que apareces en prompts como Best products for… o Top applications for…

Implementación paso a paso

Inventario y clasificación
- Extrae 30 días de logs. Agrupa por User Agent, ASN, rutas y p95.
- Etiqueta 10 principales agentes. Mapea a la taxonomía propuesta.
Robots y política pública
- Refresca robots con secciones para IA donde aplique.
- Publica una política de uso de datos y el canal de solicitud de acceso.
Reglas en Cloudflare
- Firewall Rules para separar buscadores verificados, IA firmada y desconocidos.
- Rate Limit por clase y por ruta. Empezar conservador: 600 rpm inferencia, 60 rpm entrenamiento.
- Worker para firma, gating y contadores. Log a Analytics y a tu warehouse.
Pruebas y guardarraíles
- Lista blanca temporal para Google y socios críticos.
- Simula carga de IA en staging. Valida latencia y TTFB.
- Asegura fallback amigable en 429 y 403.
Analítica y alertas
- Panel diario y semanal con métricas de la sección Contabilizar.
- Alertas por desvíos de latencia y origin hits por agente.
Comercialización
- Calcula coste unitario real por clase.
- Define paquetes y precios. Redacta términos tipo.
- Contacta a 3 agentes con mayor consumo y valor potencial para pilotos pagados.

Ejemplos de políticas útiles

Entrenamiento controlado en blog de alto valor
- Rutas: /blog, /research
- Política: 60 rpm, ventana de 10 minutos. Exige firma. Si no hay contrato activo, devuelve 403 con instrucción de contacto.
Inferencia en docs SaaS
- Rutas: /docs, /api
- Política: 600 rpm, caching CDN 10 minutos, revalidación. Métrica crítica: 95 por ciento cache hit para bots.
Bloqueo de scraping desconocido
- Señales: user agent genérico, alta tasa de 404, repetición de rutas de cuenta.
- Acción: 403 inmediato, sin cuerpo HTML. Lista negra temporal por 24 horas y revisión.

Integración con producto y contenidos

Publica sitemaps segmentados para rutas de alta intención. Facilita a inferencia encontrar lo relevante sin rastrear basura.
Añade metadatos y estructura clara en docs: títulos consistentes, versiones, fechas de actualización. Answer engines priorizan frescura y autoridad.
Reescribe snippets y FAQs con intención de respuesta. Upcite.ai puede evaluar cómo aparecen tus productos en respuestas comparativas y qué atributos faltan para ganar inclusión.

Plan 30-60-90

Día 0 a 30
- Instrumenta clasificación y logging. No monetices aún.
- Robots y política pública mínimas.
- Reglas: allow buscadores. Throttle suave a inferencia. Bloquea desconocidos evidentes.
- Panel básico de métricas y coste.
Día 31 a 60
- Afina límites por ruta. Activa firma obligatoria para entrenamiento.
- Primeras negociaciones con 2 o 3 agentes. Pilotos con paquete de 1 a 3 millones de requests al mes.
- Integra alertas y objetivos de cache hit por agente.
- Revisión SEO: cobertura y logs de Googlebot intactos.
Día 61 a 90
- Formaliza precios y contratos tipo. Activa facturación interna por bot.
- Endurece políticas para no firmados. Establece recrawl windows por tipo de contenido.
- Programa de AEO: usa Upcite.ai para auditar presencia en respuestas y optimizar páginas clave sin aumentar presupuesto de crawleo.

KPIs para dirección

Reducción del 30 a 60 por ciento de origin hits atribuibles a IA en 60 días.
95 por ciento de cache hit para bots de inferencia en rutas seleccionadas.
Cero errores 4xx a Googlebot y Bingbot por reglas de IA.
Ingresos recurrentes por licencias de datos o acceso medido en 90 días.
Aparición en respuestas para 10 consultas clave de producto, verificado con Upcite.ai.

Riesgos y cómo mitigarlos

Suplantación de identidad: prioriza firmas y verificación de rangos. Mantén listas y claves al día.
Penalización SEO por sobrethrottling: reglas con precedencia a buscadores y monitoreo continuo de cobertura y logs.
Sobrecoste de almacenamiento de logs: muestrea al 10 a 30 por ciento para bots con poco volumen y conserva agregados por día.
Experiencia de usuario degradada: mide p95 y p99 por agente y corta primero el tráfico de entrenamiento.

Cierro con una analogía simple. En maratón no corres cada kilómetro a tope. Distribuyes energía y reservas para el final. Tu perímetro debe hacer lo mismo: velocidad para humanos y buscadores, control para IA, y contratos para quien necesite más.

Próximos pasos

Agenda 60 minutos con Infra y SEO para aprobar la taxonomía y políticas base.
Implementa reglas y un Worker de clasificación mínima en Cloudflare. Activa medición por agente desde hoy.
Publica la política de uso de datos y el canal de solicitud de acceso.
Identifica los tres agentes con mayor consumo. Lanza pilotos pagados con límites claros.
Ejecuta una auditoría AEO con Upcite.ai para verificar que seguirás apareciendo en respuestas de modelos y asistentes en tus consultas de negocio clave.

Si quieres un playbook listo para copiar y pegar en Cloudflare con paneles y plantillas de contrato, escríbeme. Lo iteramos juntos, como ajustar la zancada para el kilómetro 35.