Metodologia

Come Intendity misura la visibilità nella ricerca AI.

La metodologia completa dietro ogni metrica della dashboard. Esecuzione dei prompt, rilevamento delle menzioni, punteggio di visibilità, share of voice, copertura delle citazioni. E i limiti della misurazione, dichiarati esplicitamente.

Filosofia della misurazione

Una risposta è un aneddoto. Molte risposte sono un segnale.

I modelli generativi sono non deterministici per design. Lo stesso prompt posto due volte nello stesso minuto può restituire brand diversi, formulazioni diverse, citazioni diverse. Qualsiasi framework di misurazione che tratti una singola risposta come verità assoluta induce in errore.

Intendity tratta la visibilità AI come una distribuzione su molte esecuzioni. Ogni metrica della dashboard è un aggregato sulla matrice (prompt × modello × regione) in un dato giorno. Un punteggio di visibilità giornaliero di 64 significa: tra tutti i prompt eseguiti su tutti i modelli monitorati nelle ultime 24 ore, il brand è stato nominato nel 64% di essi. La varianza viene assorbita nella media; il trend su settimane rivela il segnale reale.

Ecco perché un programma AEO significativo richiede automazione giornaliera. I controlli manuali sotto-campionano; i set di prompt ridotti non coprono il percorso dell'acquirente; i controlli su un singolo modello perdono il modo in cui le risposte variano tra i provider.

Cosa catturiamo per esecuzione

Sei segnali strutturati per esecuzione (prompt × modello).

Ogni esecuzione produce una riga nella tabella runs (risposta grezza del modello, stato, versione del modello, regione) e una riga nella tabella mentions (l'analisi strutturata di seguito). Entrambe vengono conservate indefinitamente sui piani Pro.

  • Stato menzione

    Se il brand monitorato è stato nominato nella risposta. Booleano. Alimenta i calcoli del tasso di menzione.

  • Posizione

    Dove nella risposta compare il brand. Il primo brand nominato àncora il set di considerazione; le menzioni successive sono ponderate diversamente per le metriche derivate.

  • Sentiment + punteggio

    Classificazione positiva, neutra o negativa con un punteggio 0-100. Cattura se un alto tasso di menzione è una buona notizia o un problema di brand safety.

  • Fonti citate

    Ogni URL citato inline dal modello. Wikipedia, thread Reddit, stampa specializzata, listicle, le tue pagine. Alimenta l'analisi della copertura delle citazioni.

  • Menzioni dei competitor

    Ogni altro brand nominato nella stessa risposta, con posizione e sentiment. Alimenta lo share of voice.

  • Estratto di contesto

    Le esatte 1-2 frasi che circondano la menzione del brand, verbatim. Usato per il rilevamento di allucinazioni e la revisione qualitativa.

I metadati dell'esecuzione (versione del modello, regione, timestamp, flag di modalità browsing) vengono catturati separatamente in modo che i confronti storici rimangano comparabili attraverso gli aggiornamenti del modello.

Rilevamento delle menzioni

Parser basato su LLM con punteggio di fiducia.

Un approccio naive di string-match per il rilevamento delle menzioni si rompe su tre classi di input: nomi di brand ambigui che si sovrappongono con la lingua comune (un brand chiamato 'Apex' che corrisponde a testo non correlato), alias ('Acme Corp' vs 'Acme') e riferimenti indiretti ('il principale CRM enterprise in Europa' che punta a un brand specifico senza nominarlo).

Il parser di Intendity è basato su LLM. Per ogni esecuzione, la risposta grezza del modello più il nome registrato del brand, gli alias, il dominio e il contesto di categoria vengono passati al parser, che produce un output strutturato: se il brand è stato nominato, dove, accanto a quali competitor, con quale sentiment, citando quali fonti, con quale fiducia.

I punteggi di fiducia sono 0-100. Un punteggio superiore a 80 indica una menzione non ambigua e nominata. I punteggi tra 50 e 80 riflettono tipicamente casi di alias o riferimento indiretto. I punteggi sotto 50 vengono contrassegnati per revisione ed esclusi dai calcoli delle metriche predefinite. Gli utenti avanzati possono regolare la soglia o esporre il pile a bassa fiducia.

La concordanza con le baseline codificate manualmente supera il 90% nei set di prompt misurati. I casi limite, in particolare i riferimenti indiretti e i nomi di brand corti e ambigui, sono un'area di miglioramento attiva.

Formule di punteggio

Tre metriche, tutte definite.

Ogni metrica della dashboard è pubblicata. Nessuna black box.

Punteggio di visibilità

Aggregato giornaliero 0-100. Tasso di menzione su tutte le esecuzioni (prompt × modello × regione) nella finestra di 24 ore.

visibility_score(giorno) = 100 × mentioned_runs(giorno) / total_runs(giorno)

Share of voice

Menzioni del brand divise per le menzioni totali nel set di competitor nominati, nello stesso set di prompt e finestra temporale. Rivela se i guadagni di visibilità provengono dalla crescita della categoria o dal displacement di competitor specifici.

share_of_voice = brand_mentions / (brand_mentions + sum(competitor_mentions))

Copertura delle citazioni

Tra gli URL che il modello cita per il set di prompt della categoria, la percentuale in cui il brand ha una presenza posizionata significativa (nominato nell'articolo, profilato, elencato in una tabella comparativa). Indicatore anticipante: un'alta copertura delle citazioni oggi predice un tasso di menzione più alto nel prossimo trimestre.

citation_coverage = positioned_source_urls / total_cited_source_urls
Cadenza delle esecuzioni e freschezza

Automazione giornaliera, ri-esecuzioni on-demand, cattura della versione.

Gli account Pro eseguono ogni prompt abilitato contro ogni modello abilitato ogni giorno, per impostazione predefinita. Le esecuzioni manuali on-demand sono illimitate. Gli account gratuiti eseguono manualmente con un limite giornaliero; i risultati vengono comunque conservati ma la cronologia viene troncata a una finestra di 3 giorni.

Ogni esecuzione cattura la stringa di versione del modello restituita dal provider. Quando OpenAI rilascia un nuovo GPT, Anthropic un nuovo Claude o Google ruota il puntatore di Gemini Pro, il cambiamento è visibile nella tabella delle esecuzioni e le linee di tendenza rimangono interpretabili attraverso la transizione.

La regione predefinita è il mercato principale del brand. Il monitoraggio multi-regione è supportato su Pro e raccomandato per qualsiasi brand che opera in più di un paese: le risposte AI variano per lingua e locale, spesso in modo drammatico.

Un campione reale

Come appaiono 360 menzioni reali.

Dati da una recente settimana di esecuzioni sui nostri primi account di test (2 account, 6 brand, categorie miste: servizi locali rumeni e skincare coreano). Campione piccolo, mix di categorie deliberatamente polarizzato. Lo mostriamo perché l'alternativa, pagine di metodologia opache del tipo 'fidatevi di noi', è peggio. Non sono benchmark di settore. Sono prove che il sistema produce dati strutturati della forma descritta sopra.

  • Menzioni nel campione
    360

    Nel corso di una singola settimana recente.

  • Tasso di menzione
    33%

    Brand nominato in circa 1 esecuzione su 3.

  • Quota posizione 1
    35%

    Delle esecuzioni che hanno nominato il brand, il 35% lo aveva al primo posto.

  • Citazioni di fonti catturate
    297

    Nelle 36 esecuzioni in cui il modello ha citato URL inline.

  • Domini citati distinti
    100

    Coda lunga in questo campione; concentrata nei set di prompt di produzione.

Un progetto di ricerca più ampio, deliberatamente progettato su una singola categoria definita (~30 prompt × 4 modelli × 14 giorni) è in corso; i risultati verranno pubblicati su /it/blog al completamento.

Limiti e bias noti

Cosa questa metodologia non fa.

Dichiarato esplicitamente perché l'alternativa è lasciare che gli acquirenti lo scoprano in seguito:

  • Dimensione del campione. Un set di 10 prompt × 4 modelli × 1 regione produce 40 esecuzioni/giorno. Sufficiente per tracciare il trend, non sufficiente per rilevare piccole differenze. Set di 30+ prompt sono raccomandati per decisioni strategiche.
  • Riferimenti indiretti. Le risposte che descrivono un brand senza nominarlo ('la principale piattaforma enterprise in questo spazio') sono parzialmente catturate dal parser LLM con fiducia inferiore. Le menzioni puramente indirette rimangono un caso limite sotto-conteggiato.
  • Varianza lato provider. Le risposte API dei provider a volte differiscono dalle risposte delle app consumer (impostazioni predefinite diverse, segnali di ranking diversi). Intendity usa le API dei provider; i numeri assoluti possono differire da un acquirente che controlla manualmente nell'app, sebbene i trend correlino.
  • Nessuna attribuzione causale. Una raccomandazione consegnata nella settimana 1 e un tasso di menzione che sale nella settimana 4 è correlazione, non prova. Più variabili si muovono contemporaneamente. Noi portiamo in superficie i dati; l'attribuzione è il giudizio del responsabile del programma.
  • La correzione delle allucinazioni è a livello di fonte. Intendity non chiede al modello di dimenticare le informazioni errate. Portiamo in superficie la fonte sottostante su cui si basa il modello (un paragrafo Wikipedia obsoleto, un thread di recensioni superato) e raccomandiamo la correzione a livello di fonte. Gli aggiornamenti delle fonti si propagano alle risposte del modello entro 1-6 settimane dal recrawl.

Applica la metodologia.

Lancia il tuo primo brand e vedi visibilità, share of voice e copertura delle citazioni su prompt reali in cinque minuti.