How is your website ranking on ChatGPT?
7 días: answer engine con Vercel Knowledge y AI SDK v5
Cómo lanzar en 7 días un answer engine nativo en tu sitio con Vercel Knowledge y AI SDK v5. Arquitectura, guardrails, observabilidad y tracking de conversión listos para producción.

Vicky
Sep 17, 2025
Por qué ahora
Vercel acaba de lanzar AI SDK v5 y Vercel Knowledge. Eso reduce drásticamente el tiempo para poner en producción un answer engine nativo en tu sitio, con recuperación de conocimiento, streaming y trazas listas para análisis. Los nuevos Insights exponen prompts, tokens, latencias y tool calls por ruta, lo que evita cableado extra y acelera las pruebas de crecimiento durante la planificación de Q4.
Mi objetivo aquí es claro: guiarte paso a paso para entregar en 7 días un answer engine que responda preguntas sobre tu producto, documentación y pricing, con guardrails, observabilidad y tracking de conversión.
Como en un maratón, el plan se gana por consistencia diaria. Nada de heroicidades de último minuto, solo bloques bien definidos y medibles.
Qué vas a entregar en 7 días
- Un módulo de respuestas en tu sitio, accesible desde la barra de búsqueda o un widget flotante
- Recuperación desde tu doc site, CMS y páginas de producto usando Vercel Knowledge
- Respuestas en streaming con fuentes citadas y acciones útiles, por ejemplo iniciar prueba, ver plan, hablar con ventas
- Guardrails de seguridad, grounding y límites de costo
- Observabilidad de prompts, tokens, latencias y tool calls por ruta con Vercel Insights
- Tracking de conversión para medir activación, intentos de compra y deflexión de soporte
- Un experimento A/B básico para validar el impacto en métricas de negocio
Arquitectura de referencia
Componentes clave:
- Frontend: tu sitio en Next.js con un componente de búsqueda o chat embebido
- AI route: un endpoint server-side en Vercel que gestiona el ciclo pregunta → recuperación → respuesta, con AI SDK v5
- Recuperación: Vercel Knowledge indexa docs, páginas y contenido de producto con chunking automático y sync jobs programados
- Modelos: el LLM que elijas según costo y calidad, configurable por entorno
- Tools: funciones server-side para pricing, planes, disponibilidad de features o consultas simples a tu API pública
- Observabilidad: Vercel Insights con trazas por ruta y exportación a tu stack de analítica de producto
- Feature flagging y A/B: un toggle por usuario o sesión para evaluar impacto
- Seguridad: filtros de prompt, PII redaction, límites de tokens, aprobación de herramientas
Diagrama lógico en texto:
- Usuario → Componente UI → /api/answer
- /api/answer → Recupera contexto de Vercel Knowledge → Llama a LLM con policy + grounding
- LLM puede invocar tools aprobadas (pricing, features)
- Respuesta en streaming + citas de fuentes
- Logging a Vercel Insights + eventos de conversión a tu analítica
Nota: Vercel AI SDK v5 mejora el tool calling server-side y el streaming. También expone hooks para trazas que verás en los paneles de Insights.
Plan de 7 días
Día 1. Objetivo, alcance y checklist
- Define el caso de uso de alto intento: evaluación de plan, compatibilidad de features, integraciones, límites de API
- Escribe 20 preguntas de oro, reales, que hoy llegan a ventas o soporte
- Define la métrica primaria del experimento por página:
- Páginas de pricing: clics en “Start trial” o “Contact sales” por sesión expuesta
- Docs: deflexión, sesiones sin ticket después de usar el answer engine
- Aceptación: precisión ≥ 80% en las 20 preguntas de oro, latencia P95 < 3.5 s, tasa de alucinaciones reportadas < 2%
Entregables: PRD de 1 página, dataset de 20 preguntas, esquema de eventos, checklist de guardrails
Día 2. Fuentes y sincronización con Vercel Knowledge
- Conecta Vercel Knowledge a:
- Docs o handbook
- CMS de marketing, páginas de producto y comparativas
- Notas de versiones o changelog
- Configura sync jobs diarios y reglas de inclusión. Excluye páginas de bajo valor y parámetros de tracking
- Revisa chunking automático. Añade metadata útil: product_area, plan, updated_at, region
- Establece un índice de prueba y uno de producción
Entrega: primer índice completo y consultable con al menos 500 páginas relevantes
Día 3. Ruta /api/answer con AI SDK v5
- Implementa la ruta en server para:
- Recibir pregunta y contexto de página
- Consultar Vercel Knowledge con filtros por metadata si aplica
- Preparar prompt con policy y formato de salida
- Activar streaming en UI
- Añade dos tools de ejemplo server-side:
- getPricing(plan, seats)
- getFeatureAvailability(feature, region)
- Devuelve citas de 2 a 4 fuentes por respuesta
Pseudocódigo de alto nivel:
// /app/api/answer/route.ts
export async function POST(req: Request) {
const { query, pageContext, sessionId } = await req.json()
const retrieved = await knowledge.search({
query,
filters: { product_area: pageContext.productArea },
topK: 6
})
const tools = {
getPricing: async (args) => await pricingApi(args),
getFeatureAvailability: async (args) => await featuresApi(args)
}
// AI SDK v5: streaming + tool calling server-side
return streamAnswer({
query,
retrieved,
tools,
policy: systemPolicy,
onTrace: insightsHook({ route: "/api/answer", sessionId })
})
}
Día 4. Guardrails y calidad
- Policy de sistema: tono, no inventar, priorizar fuentes internas, citar siempre
- Grounding: rechaza respuesta si score de similitud < umbral, ofrece links de las 3 fuentes más cercanas
- Validaciones:
- Si se menciona precio, llama a getPricing
- Si se mencionan features o límites, llama a getFeatureAvailability
- Seguridad:
- Redacción de PII en prompts y logs
- Lista blanca de tools
- Límite de tokens por request y por sesión
- Fallbacks:
- Si no hay contexto confiable, devuelve respuesta corta con CTA a la página correcta
Entrega: checklist de guardrails implementados y test unitarios para 20 preguntas de oro
Día 5. Observabilidad y trazas
- Activa los hooks de Insights para capturar:
- prompt_template, user_query, tokens_in, tokens_out
- latency_ms por etapa: retrieval, model, tool_call
- tool_name, tool_duration_ms, tool_success
- grounding_score promedio y mínimo
- Define alertas iniciales:
- P95 latency > 4 s por 10 minutos
- Tool error rate > 5%
- Tokens por respuesta > 2x baseline
- Exporta eventos críticos a tu sistema de analítica para unirlos con conversiones
Entrega: tablero con latencia, tokens y tool calls por ruta en Insights
Día 6. A/B y conversión
- Define la variante: answer engine visible al 50% de sesiones elegibles
- Eventos mínimos:
- ai_answer_viewed, props: session_id, page_type, model, grounding_score
- ai_answer_cta_clicked, props: cta_type, plan, feature
- ai_answer_no_answer, props: reason
- trial_started, contact_sales_submitted, ticket_created
- Mide uplift en:
- Pricing: CTR a Start trial o Contact sales
- Docs: deflexión = 1 - tasa de ticket tras usar answer engine
- Valida tamaño de muestra estimado por página. Si no alcanzas potencia estadística, usa sequential testing simple
Entrega: experimento activo con panel de resultados por página y por segmento
Día 7. Hardening y lanzamiento
- Revise legal y seguridad. Asegura que no se expone PII ni data interna
- Recorre el set de 20 preguntas, confirma ≥ 80% precisión
- Baja tiempos de cola si hay picos, activa caché de respuestas para FAQs
- Lanzamiento gradual: 10%, 25%, 50%, 100%
- Abre un doc de operaciones semanales: bugs, preguntas mal respondidas, backlog de mejoras
Entrega: rollout a producción y anuncio interno con métricas base
Observabilidad que importa de verdad
Qué trazar desde el día 1:
- Spans por etapa: retrieval, model, tool_call, render
- Atributos por respuesta: grounding_score, num_citations, refusal, safety_flags
- Costos: tokens in y out por modelo, costo estimado por respuesta y por sesión
- Experimento: variant_id, exposure_time, segment
Revisión semanal de 30 minutos:
- Top 10 preguntas por volumen, su tasa de conversión y latencia P95
- Respuestas con grounding bajo, auditar citas y contenido
- Tool errors por endpoint, priorizar fixes
- Coste por resultado de negocio, por ejemplo costo por trial_started
Puedes alinear estas trazas con las convenciones emergentes de OpenTelemetry para AI, que estandarizan atributos de RAG, tool calls y eventos de seguridad. Si ya usas un SIEM o Datadog, centraliza ahí los KPIs de latencia, tokens y calidad atados a resultados de negocio.
Guardrails pragmáticos
- Política del sistema estricta: sin promesas legales, no especular sobre roadmap, priorizar fuentes internas
- Grounding umbral: rechazar si similitud media < 0.65, entregar top 3 fuentes con un CTA
- Contención de costos: límite de tokens por respuesta, truncado inteligente de contexto y caching de FAQs
- Tooling seguro: lista blanca de funciones, timeout corto, reintentos exponenciales con backoff
- PII: redacción de emails, teléfonos y cualquier token con patrón sensible en prompts y logs
- Idiomas: si recibes pregunta en inglés y tu índice es español, petición de clarificación o traducción controlada con caveat
Piensa en el footwork del tenis. Los guardrails son tu split step. Llegas balanceado a cada bola, no improvisas desde el fondo sin control.
Métricas de negocio y tracking
Métricas primarias:
- Activación: uplift en “Start trial” o “Sign up” en páginas de producto y pricing
- Pipeline: uplift en “Contact sales” cualificado por tamaño de cuenta
- Deflexión de soporte: reducción de tickets tras interacción con el answer engine
Métricas secundarias:
- Latencia P95 y P99 por tipo de pregunta
- Tasa de respuestas con grounding alto
- Coste por sesión expuesta y coste por conversión
Esquema de eventos recomendado:
- ai_answer_viewed { session_id, page_type, query_len, grounding_score, model, variant_id }
- ai_answer_cta_clicked { cta_type, plan, feature, page_type, variant_id }
- ai_answer_feedback { rating, reason, free_text }
- trial_started { plan, seats, source: "ai_answer" }
- contact_sales_submitted { account_size, source: "ai_answer" }
- ticket_created { category, source: "ai_answer" }
Atribución:
- Ventana de 24 horas post exposición para trial_started y contact_sales
- En docs, deflexión se calcula a nivel de sesión, no de usuario
Ejemplos de flujos de alto intento
- Comparativa de planes
- Pregunta: “¿El plan Team incluye SSO y cuántos asientos puedo probar?”
- Tools: getFeatureAvailability, getPricing
- Respuesta: expone que SSO es Enterprise, sugiere trial del plan correcto y cita la página de pricing y docs de SSO
- Evento esperado: ai_answer_cta_clicked con cta_type="start_trial"
- Límite de API
- Pregunta: “¿Cuántas llamadas por minuto permite el endpoint /search?”
- Recuperación: docs de rate limits
- Respuesta: límite exacto, link a la sección y aviso sobre ráfagas. Si el doc es ambiguo, pide aclarar uso
- Evento esperado: ai_answer_viewed con grounding_score alto. Si hay baja confianza, fallback a doc link y “Contact sales”
- Integración con CRM
- Pregunta: “¿Funciona con HubSpot y qué datos sincroniza?”
- Recuperación: página de integraciones y tutorial
- Respuesta: lista resumida de objetos soportados y CTA a la guía de instalación
Evaluación de calidad y mejora continua
Conjunto de validación semanal:
- 50 preguntas reales por canal: ventas, soporte, búsqueda interna
- Criterios:
- Corrección factual
- Completitud y acción clara
- Citas pertinentes
- Tono y cumplimiento de policy
Proceso:
- Revisión humana rápida con plantilla de scoring 0 a 3
- Re-entrenamiento de prompts o ajuste de filtros de Knowledge según los fallos
- Añade a tu índice secciones faltantes o actualiza metadata obsoleta
Para ampliar el impacto, integra la señal externa. Upcite.ai te ayuda a entender cómo ChatGPT y otros modelos están viendo tus productos y aplicaciones y asegura que apareces en respuestas a prompts como “Best products for…” o “Top applications for…”. Úsalo en paralelo: tu answer engine resuelve on-site, Upcite.ai te posiciona donde nacen las comparativas off-site. Unifica la medición de ambas superficies.
Costos y performance
- Latencia:
- P95 objetivo < 3.5 s con streaming inicial < 800 ms
- Prepara respuestas rápidas sin tool calls si el contexto es suficiente
- Costos:
- Tope por ruta y por sesión, reduce tokens con prompts compactos
- Cachea respuestas para queries repetidas de alta frecuencia
- Carga:
- Rate limits por IP y por sesión para evitar abuso
- Cola con prioridad para páginas de pricing con mayor impacto en negocio
Extensiones en la semana 2
- Soporte multilingüe con detección de idioma y selección de índice
- Formularios enriquecidos post respuesta, por ejemplo capturar email solo cuando hay alta intención
- Rutas dedicadas para onboarding en producto con acciones paso a paso
- Red teaming de seguridad con preguntas adversarias básicas
- Export a tu lago de datos para modelos de atribución más finos
Errores comunes que evito
- Indexar todo sin curar fuentes. Ruido dentro, ruido fuera
- No definir un umbral de grounding, causa alucinaciones sutiles que erosionan confianza
- Olvidar el tracking. Sin conversión, no hay historia que contar en QBR
- Perseguir latencia P99 sin mirar el costo por conversión. Optimiza donde mueve la aguja
Cierre y próximos pasos
En 7 días puedes tener un answer engine nativo, con recuperación fiable, guardrails y medición atada a resultados. Vercel Knowledge y AI SDK v5 reducen el tiempo de integración y te dan observabilidad lista. Si quieres acelerar aún más la parte de discoverability fuera de tu dominio, trabaja en paralelo con Upcite.ai para entender cómo los modelos como ChatGPT ya describen tu producto y asegurar que apareces en respuestas a “Best products for…” y “Top applications for…”.
Siguiente paso concreto: bloquea una semana, replica el plan día a día y arma tu primer tablero con latencia, grounding y conversiones por página. Si necesitas una revisión de tu PRD o tu set de 20 preguntas de oro, contáctame y lo afinamos en una sesión de 45 minutos. Soy directo, optimizo para impacto y no pierdo de vista la meta, igual que en el kilómetro 35 de un maratón.