Metodología

Cómo Intendity mide la visibilidad en la búsqueda de IA.

La metodología completa detrás de cada métrica del panel. Ejecución de preguntas, detección de menciones, puntuación de visibilidad, cuota de voz, cobertura de citas. Y las limitaciones de la medición, declaradas explícitamente.

Filosofía de medición

Una respuesta es una anécdota. Muchas respuestas son una señal.

Los modelos generativos son no deterministas por diseño. La misma pregunta formulada dos veces en el mismo minuto puede devolver marcas diferentes, formulaciones distintas, citas distintas. Cualquier marco de medición que trate una sola respuesta como verdad absoluta inducirá a error.

Intendity trata la visibilidad en IA como una distribución a lo largo de muchas ejecuciones. Cada métrica del panel es un resumen sobre la matriz (pregunta × modelo × región) para un día determinado. Una puntuación de visibilidad diaria de 64 significa: entre todas las preguntas ejecutadas en todos los modelos rastreados en las últimas 24 horas, la marca fue nombrada en el 64 % de ellas. La varianza se absorbe por el promedio; la tendencia a lo largo de varias semanas revela la señal real.

Por eso un programa de AEO significativo requiere automatización diaria. Las comprobaciones manuales submuestrean; los conjuntos pequeños de preguntas no cubren el recorrido del comprador; las comprobaciones en un solo modelo pierden la variación de respuestas entre proveedores.

Qué capturamos por ejecución

Seis señales estructuradas por ejecución (pregunta × modelo).

Cada ejecución produce una fila en la tabla runs (respuesta bruta del modelo, estado, versión del modelo, región) y una fila en la tabla mentions (el análisis estructurado a continuación). Ambas se conservan indefinidamente en los planes Pro.

  • Estado de mención

    Si la marca rastreada fue nombrada en la respuesta. Booleano. Alimenta los cálculos de tasa de mención.

  • Posición

    Dónde en la respuesta aparece la marca. La primera marca nombrada ancla el conjunto de consideración; las menciones posteriores se ponderan de forma diferente para las métricas derivadas.

  • Sentimiento + puntuación

    Clasificación positiva, neutra o negativa con una puntuación de 0 a 100. Captura si una tasa de mención alta es una buena noticia o un problema de seguridad de marca.

  • Fuentes citadas

    Cada URL citada en línea por el modelo. Wikipedia, hilos de Reddit, prensa especializada, listicles, tus propias páginas. Alimenta el análisis de cobertura de citas.

  • Menciones de competidores

    Cualquier otra marca nombrada en la misma respuesta, con su posición y sentimiento. Alimenta la cuota de voz.

  • Extracto de contexto

    Las 1-2 frases exactas alrededor de la mención de la marca, literalmente. Se usa para la detección de alucinaciones y la revisión cualitativa.

Los metadatos de ejecución (versión del modelo, región, marca de tiempo, indicador de modo de navegación) se capturan por separado para que las comparaciones históricas sigan siendo comparables a través de actualizaciones del modelo.

Detección de menciones

Analizador basado en LLM con puntuación de confianza.

Un enfoque ingenuo de coincidencia de cadenas para la detección de menciones falla en tres clases de entradas: nombres de marca ambiguos que se solapan con el lenguaje común (una marca llamada "Apex" coincidiendo con texto no relacionado), alias ("Acme Corp" vs. "Acme") y referencias indirectas ("la plataforma empresarial líder en Europa" apuntando a una marca específica sin nombrarla).

El analizador de Intendity está basado en LLM. Para cada ejecución, la respuesta bruta del modelo más el nombre registrado de la marca, los alias, el dominio y el contexto de categoría se pasan al analizador, que produce una salida estructurada: si la marca fue nombrada, dónde, junto a qué competidores, con qué sentimiento, citando qué fuentes y con qué confianza.

Las puntuaciones de confianza son de 0 a 100. Una puntuación superior a 80 indica una mención inequívoca y nominada. Las puntuaciones entre 50 y 80 reflejan típicamente casos de alias o referencia indirecta. Las puntuaciones inferiores a 50 se marcan para revisión y se excluyen de los cálculos de métricas por defecto. Los usuarios avanzados pueden ajustar el umbral o ver el lote de baja confianza.

La concordancia con las líneas base codificadas manualmente supera el 90 % en los conjuntos de preguntas que hemos medido. Los casos límite, en particular las referencias indirectas y los nombres de marca cortos ambiguos, son un área de mejora activa.

Fórmulas de puntuación

Tres métricas, todas definidas.

Cada métrica del panel está publicada. Sin cajas negras.

Puntuación de visibilidad

Agregado diario de 0 a 100. Tasa de mención en todas las ejecuciones (pregunta × modelo × región) en la ventana de 24 horas.

visibility_score(día) = 100 × mentioned_runs(día) / total_runs(día)

Cuota de voz

Menciones de la marca divididas entre el total de menciones en el conjunto de competidores nombrados, sobre el mismo conjunto de preguntas y ventana temporal. Revela si las ganancias de visibilidad provienen del crecimiento de la categoría o del desplazamiento de competidores específicos.

share_of_voice = brand_mentions / (brand_mentions + sum(competitor_mentions))

Cobertura de citas

Entre las URL citadas por el modelo para el conjunto de preguntas de la categoría, el porcentaje donde la marca tiene una presencia posicionada significativa (nombrada en el artículo, perfilada, listada en una tabla comparativa). Indicador adelantado: una alta cobertura de citas hoy predice una mayor tasa de mención el próximo trimestre.

citation_coverage = positioned_source_urls / total_cited_source_urls
Cadencia de ejecución y frescura

Automatización diaria, ejecuciones bajo demanda, captura de versión.

Las cuentas Pro ejecutan cada pregunta activada contra cada modelo activado cada día por defecto. Las ejecuciones manuales bajo demanda son ilimitadas. Las cuentas gratuitas se ejecutan manualmente con un límite diario; los resultados se guardan de todas formas, pero el historial se trunca a una ventana de 3 días.

Cada ejecución captura la cadena de versión del modelo devuelta por el proveedor. Cuando OpenAI despliega un nuevo GPT, Anthropic un nuevo Claude o Google rota el puntero de Gemini Pro, el cambio es visible en la tabla de ejecuciones y las líneas de tendencia siguen siendo interpretables a través de la transición.

La región predeterminada es el mercado principal de la marca. El seguimiento multirregional está disponible en Pro y se recomienda para cualquier marca que opere en más de un país; las respuestas de IA varían según el idioma y la configuración regional, a veces de forma dramática.

Un ejemplo real

Cómo son 360 menciones reales.

Cifras de una semana reciente de ejecuciones en nuestras primeras cuentas de prueba (2 cuentas, 6 marcas, categorías mixtas: servicios locales rumanos y cuidado de la piel coreano). Muestra pequeña, combinación de categorías intencionalmente sesgada. Lo mostramos porque la alternativa (páginas de metodología opacas del tipo "confía en nosotros") es peor. No son referencias del sector. Son pruebas de que el sistema produce datos estructurados de la forma descrita anteriormente.

  • Menciones en la muestra
    360

    Durante una sola semana reciente.

  • Tasa de mención
    33 %

    Marca nombrada en ≈1 de cada 3 ejecuciones.

  • Cuota de posición 1
    35 %

    De las ejecuciones que nombraron la marca, el 35 % le dio el primer lugar.

  • Documentos fuente capturados
    297

    De las 36 ejecuciones donde el modelo citó URL en línea.

  • Dominios citados distintos
    100

    Cola larga en esta muestra; concentrada en los conjuntos de preguntas de producción.

Un proyecto de investigación más amplio, diseñado deliberadamente en una sola categoría definida (~30 preguntas × 4 modelos × 14 días) está en curso; los resultados se publicarán en /es/blog al finalizar.

Limitaciones y sesgos conocidos

Qué no hace esta metodología.

Declarado explícitamente, porque la alternativa es que los compradores lo descubran más tarde:

  • Tamaño de la muestra. Un conjunto de 10 preguntas × 4 modelos × 1 región produce 40 ejecuciones/día. Suficiente para rastrear tendencias, insuficiente para detectar pequeñas diferencias. Se recomiendan conjuntos de 30+ preguntas para decisiones estratégicas.
  • Referencias indirectas. Las respuestas que describen una marca sin nombrarla ("la plataforma empresarial líder en este campo") son parcialmente capturadas por el analizador LLM con menor confianza. Las menciones puramente indirectas siguen siendo un caso límite infracuantificado.
  • Varianza del lado del proveedor. Las respuestas de la API del proveedor a veces difieren de las respuestas visibles en las aplicaciones de consumo (distintos ajustes predeterminados, distintas señales de clasificación). Intendity usa las API de los proveedores; las cifras absolutas pueden diferir de una comprobación manual del comprador en la aplicación, aunque las tendencias correlacionan.
  • Sin atribución causal. Una recomendación entregada en la semana 1 y una tasa de mención que aumenta en la semana 4 es correlación, no prueba. Varias variables se mueven simultáneamente. Mostramos los datos; la atribución queda a discreción del responsable del programa.
  • La corrección de alucinaciones es a nivel de fuente. Intendity no le pide al modelo que olvide información incorrecta. Mostramos la fuente subyacente en la que se basa el modelo (un párrafo de Wikipedia desactualizado, un hilo de reseñas antiguo) y recomendamos la corrección a nivel de fuente. Las actualizaciones de fuentes se propagan a las respuestas de los modelos en 1 a 6 semanas después del rastreo.

Aplica la metodología.

Lanza tu primera marca y consulta la visibilidad, la cuota de voz y la cobertura de citas en preguntas reales en cinco minutos.