Méthodologie

Comment Intendity mesure la visibilité dans la recherche IA.

La méthodologie complète derrière chaque métrique du tableau de bord. Exécution de prompts, détection des mentions, scoring de visibilité, part de voix, couverture des citations. Et les limites de la mesure, explicitement déclarées.

Philosophie de mesure

Une réponse est une anecdote. Beaucoup de réponses sont un signal.

Les modèles génératifs sont non-déterministes par conception. Le même prompt posé deux fois dans la même minute peut retourner des marques différentes, des formulations différentes, des citations différentes. Tout cadre de mesure qui traite une seule réponse comme vérité absolue induira en erreur.

Intendity traite la visibilité IA comme une distribution sur de nombreuses exécutions. Chaque métrique du tableau de bord est un résumé sur la matrice (prompt × modèle × région) pour un jour donné. Un score de visibilité quotidien de 64 signifie : parmi tous les prompts exécutés sur tous les modèles suivis dans les 24 dernières heures, la marque a été nommée dans 64 % d'entre eux. La variance est absorbée par la moyenne ; la tendance sur plusieurs semaines révèle le vrai signal.

C'est pourquoi un programme AEO significatif nécessite une automatisation quotidienne. Les vérifications manuelles sous-échantillonnent ; les petits ensembles de prompts sous-couvrent le parcours acheteur ; les vérifications sur un seul modèle ratent la façon dont les réponses varient selon les fournisseurs.

Ce que nous capturons par exécution

Six signaux structurés par exécution (prompt × modèle).

Chaque exécution produit une ligne dans la table runs (réponse brute du modèle, statut, version du modèle, région) et une ligne dans la table mentions (l'analyse parsée ci-dessous). Les deux sont conservées indéfiniment sur les plans Pro.

  • Statut de mention

    Si la marque suivie a été nommée dans la réponse. Booléen. Alimente les calculs du taux de mention.

  • Position

    Où dans la réponse la marque apparaît. La première marque nommée ancre le set de considération ; les mentions ultérieures sont pondérées différemment pour les métriques dérivées.

  • Sentiment + score

    Classification positive, neutre ou négative avec un score de 0 à 100. Capture si un taux de mention élevé est une bonne nouvelle ou un problème de sécurité de marque.

  • Sources citées

    Chaque URL citée inline par le modèle. Wikipedia, fils Reddit, presse spécialisée, listicles, vos propres pages. Alimente l'analyse de couverture des citations.

  • Mentions de concurrents

    Toute autre marque nommée dans la même réponse, avec sa position et son sentiment. Alimente la part de voix.

  • Extrait de contexte

    Les 1 à 2 phrases exactes autour de la mention de marque, textuellement. Utilisé pour la détection d'hallucinations et la révision qualitative.

Les métadonnées d'exécution (version du modèle, région, horodatage, flag de mode de navigation) sont capturées séparément afin que les comparaisons historiques restent comparables à travers les mises à jour de modèle.

Détection des mentions

Parseur basé sur LLM avec scoring de confiance.

Une approche naïve de correspondance de chaîne pour la détection des mentions échoue sur trois classes d'entrées : les noms de marque ambigus qui se chevauchent avec le langage commun (une marque appelée "Apex" correspondant à un texte non connexe), les alias ("Acme Corp" vs "Acme") et les références indirectes ("le CRM d'entreprise leader en Europe" pointant vers une marque spécifique sans la nommer).

Le parseur d'Intendity est basé sur LLM. Pour chaque exécution, la réponse brute du modèle plus le nom enregistré de la marque, les alias, le domaine et le contexte de catégorie sont transmis au parseur, qui produit une sortie structurée : la marque a-t-elle été nommée, où, aux côtés de quels concurrents, avec quel sentiment, citant quelles sources, avec quelle confiance.

Les scores de confiance sont de 0 à 100. Un score supérieur à 80 indique une mention sans ambiguïté et nommément. Les scores entre 50 et 80 reflètent typiquement des cas d'alias ou de référence indirecte. Les scores inférieurs à 50 sont marqués pour révision et exclus des calculs de métriques par défaut. Les utilisateurs avancés peuvent ajuster le seuil ou afficher le lot à faible confiance.

L'accord avec les baselines codées manuellement est supérieur à 90 % sur les ensembles de prompts que nous avons mesurés. Les cas limites – notamment les références indirectes et les noms de marque courts ambigus – sont un domaine d'amélioration active.

Formules de scoring

Trois métriques, toutes définies.

Chaque métrique du tableau de bord est publiée. Pas de boîtes noires.

Score de visibilité

Agrégat quotidien de 0 à 100. Taux de mention sur toutes les exécutions (prompt × modèle × région) dans la fenêtre de 24 heures.

visibility_score(jour) = 100 × mentioned_runs(jour) / total_runs(jour)

Part de voix

Mentions de marque divisées par le total des mentions dans le set de concurrents nommés, sur le même ensemble de prompts et fenêtre temporelle. Révèle si les gains de visibilité proviennent de la croissance de la catégorie ou du déplacement de concurrents spécifiques.

share_of_voice = brand_mentions / (brand_mentions + sum(competitor_mentions))

Couverture des citations

Parmi les URL citées par le modèle pour l'ensemble de prompts de la catégorie, le pourcentage où la marque a une présence positionnée significative (nommée dans l'article, profilée, listée dans un tableau comparatif). Indicateur avancé : une couverture de citations élevée aujourd'hui prédit un taux de mention plus élevé au trimestre prochain.

citation_coverage = positioned_source_urls / total_cited_source_urls
Cadence d'exécution et fraîcheur

Automatisation quotidienne, exécutions à la demande, capture de version.

Les comptes Pro exécutent chaque prompt activé contre chaque modèle activé chaque jour par défaut. Les exécutions manuelles à la demande sont illimitées. Les comptes gratuits s'exécutent manuellement avec un plafond quotidien ; les résultats sont quand même sauvegardés mais l'historique est tronqué à une fenêtre de 3 jours.

Chaque exécution capture la chaîne de version du modèle retournée par le fournisseur. Lorsque OpenAI déploie un nouveau GPT, Anthropic un nouveau Claude ou Google fait pivoter le pointeur Gemini Pro, le changement est visible dans la table des exécutions et les lignes de tendance restent interprétables à travers la transition.

La région par défaut est le marché principal de la marque. Le suivi multi-régions est pris en charge sur Pro et recommandé pour toute marque opérant dans plus d'un pays – les réponses IA varient selon la langue et la locale, parfois de manière dramatique.

Un exemple réel

À quoi ressemblent 360 mentions réelles.

Chiffres d'une semaine récente d'exécutions sur nos premiers comptes de test (2 comptes, 6 marques, catégories mixtes – services locaux roumains et soins de la peau coréens). Petit échantillon, mix de catégories intentionnellement biaisé. Nous le montrons parce que l'alternative – des pages de méthodologie opaques du genre "faites-nous confiance" – est pire. Ce ne sont pas des benchmarks industriels. Ce sont des preuves que le système produit des données structurées de la forme décrite ci-dessus.

  • Mentions dans l'échantillon
    360

    Sur une seule semaine récente.

  • Taux de mention
    33 %

    Marque nommée dans ≈1 exécution sur 3.

  • Part de position 1
    35 %

    Des exécutions nommant la marque, 35 % lui ont attribué la première place.

  • Documents sources capturés
    297

    Sur les 36 exécutions où le modèle a cité des URL inline.

  • Domaines cités distincts
    100

    Long tail dans cet échantillon ; concentré dans les ensembles de prompts de production.

Un projet de recherche plus large, délibérément conçu sur une seule catégorie définie (~30 prompts × 4 modèles × 14 jours) est en cours ; les résultats seront publiés sur /fr/blog à la fin.

Limites et biais connus

Ce que cette méthodologie ne fait pas.

Déclaré explicitement, parce que l'alternative est que les acheteurs les découvrent plus tard :

  • Taille d'échantillon. Un ensemble de prompts de 10 prompts × 4 modèles × 1 région produit 40 exécutions/jour. Suffisant pour suivre les tendances, insuffisant pour détecter de petites différences. Des ensembles de 30+ prompts sont recommandés pour les décisions stratégiques.
  • Références indirectes. Les réponses qui décrivent une marque sans la nommer ("la plateforme d'entreprise leader dans ce domaine") sont partiellement capturées par le parseur LLM avec une confiance plus faible. Les mentions purement indirectes restent un cas limite sous-compté.
  • Variance côté fournisseur. Les réponses API des fournisseurs s'écartent parfois des réponses visibles dans les applications grand public (paramètres par défaut différents, signaux de classement différents). Intendity utilise les API des fournisseurs ; les chiffres absolus peuvent différer d'une vérification manuelle de l'acheteur dans l'application, bien que les tendances corrèlent.
  • Pas d'attribution causale. Une recommandation livrée en semaine 1 et un taux de mention qui augmente en semaine 4 sont une corrélation, pas une preuve. Plusieurs variables bougent simultanément. Nous affichons les données ; l'attribution est à la discrétion du responsable du programme.
  • La correction d'hallucination est au niveau de la source. Intendity ne demande pas au modèle d'oublier de mauvaises informations. Nous montrons la source sous-jacente sur laquelle le modèle s'appuie (un paragraphe Wikipedia obsolète, un fil d'avis dépassé) et recommandons la correction au niveau de la source. Les mises à jour de sources se propagent dans les réponses des modèles en 1 à 6 semaines après le re-crawl.

Appliquez la méthodologie.

Lancez votre première marque et consultez la visibilité, la part de voix et la couverture des citations sur de vrais prompts en cinq minutes.