Metodologie

Cum măsoară Intendity vizibilitatea în căutarea AI.

Metodologia completă din spatele fiecărei metrici din dashboard. Execuția prompturilor, detectarea menționărilor, scorul de vizibilitate, share of voice, acoperirea citărilor. Și limitele măsurătorii, declarate explicit.

Filozofia măsurătorii

Un singur răspuns este o anecdotă. Multe răspunsuri sunt semnal.

Modelele generative sunt prin design non-deterministe. Același prompt pus de două ori în același minut poate returna alte branduri, alte formulări, alte citări. Orice cadru de măsurare care tratează un singur răspuns drept adevăr absolut va induce în eroare.

Intendity tratează vizibilitatea AI ca pe o distribuție pe multe execuții. Fiecare metrică din dashboard este un agregat pe matricea (prompt × model × regiune) într-o anumită zi. Un scor zilnic de vizibilitate de 64 înseamnă: din toate prompturile rulate pe toate modelele monitorizate în ultimele 24 de ore, brandul a fost numit în 64 % din ele. Variațiile sunt absorbite în medie; trendul pe săptămâni dezvăluie semnalul real.

De aceea, un program AEO consistent are nevoie de automatizare zilnică. Verificările manuale sub-eșantionează; seturile mici de prompturi sub-acoperă călătoria cumpărătorului; verificările pe un singur model ratează modul în care răspunsurile se schimbă între furnizori.

Ce capturăm per rulare

Șase semnale structurate per execuție (prompt × model).

Fiecare rulare produce un rând în tabelul runs (răspunsul brut al modelului, statusul, versiunea modelului, regiunea) și un rând în tabelul mentions (analiza parsată de mai jos). Ambele se păstrează permanent pe planurile Pro.

  • Stare menționare

    Dacă brandul monitorizat a fost numit în răspuns. Boolean. Stă la baza calculelor de rată de menționare.

  • Poziție

    Unde apare brandul în răspuns. Primul brand numit ancorează setul de luare în considerare; menționările ulterioare sunt cântărite diferit pentru metricile derivate.

  • Sentiment + scor

    Clasificare pozitivă, neutră sau negativă, cu un scor 0-100. Capturează dacă o rată mare de menționare este o veste bună sau o problemă de siguranță a brandului.

  • Surse citate

    Fiecare URL pe care modelul l-a citat inline. Wikipedia, threaduri Reddit, presa de specialitate, topuri, paginile tale. Stă la baza analizei acoperirii citărilor.

  • Menționări de competitori

    Toate celelalte branduri numite în același răspuns, cu poziția și sentimentul lor. Stă la baza share of voice.

  • Extras de context

    Cele 1-2 propoziții care înconjoară menționarea brandului, verbatim. Folosit pentru detectarea halucinațiilor și pentru revizuire calitativă.

Metadatele rulării (versiunea modelului, regiunea, marca de timp, indicatorul de mod browsing) sunt capturate separat, ca să rămână comparabile la fel cu la fel între actualizările de modele.

Detectarea menționării

Parser bazat pe LLM, cu scor de încredere.

O abordare naivă, prin string-match, pentru detectarea menționării se rupe în trei cazuri: nume de brand ambigue care se suprapun cu limba comună (un brand numit "Apex" care se potrivește cu text fără legătură), aliasuri ("Acme Corp" vs "Acme") și referințe indirecte ("liderul CRM enterprise din Europa", indicând un brand specific fără să îl numească).

Parserul Intendity este bazat pe LLM. Pentru fiecare rulare, răspunsul brut al modelului plus numele înregistrat al brandului, aliasurile, domeniul și contextul de categorie sunt trimise parserului, care produce ieșire structurată: dacă brandul a fost menționat, unde, alături de care competitori, cu ce sentiment, citând ce surse, cu ce încredere.

Scorurile de încredere sunt 0-100. Un scor de peste 80 indică o menționare numită fără ambiguitate. Scorurile între 50 și 80 reflectă de obicei aliasuri sau referințe indirecte. Scorurile sub 50 sunt marcate pentru revizuire și excluse din calculele implicite. Utilizatorii avansați pot ajusta pragul sau pot afișa stiva cu încredere scăzută.

Acordul cu baseline-urile codate manual depășește 90 % pe seturile de prompturi pe care le-am măsurat. Cazurile-limită (în special referințele indirecte și numele de brand scurte și ambigue) sunt o zonă activă de îmbunătățire.

Formulele de scor

Trei metrici, toate definite.

Fiecare metrică din dashboard este publică. Fără cutii negre.

Scor de vizibilitate

Agregat zilnic 0-100. Rata de menționare pe toate execuțiile (prompt × model × regiune) din fereastra de 24 de ore.

visibility_score(zi) = 100 × mentioned_runs(zi) / total_runs(zi)

Share of voice

Menționările brandului împărțite la totalul menționărilor din setul numit de competitori, în același set de prompturi și aceeași fereastră de timp. Arată dacă creșterile de vizibilitate vin din creșterea categoriei sau din înlocuirea unor competitori specifici.

share_of_voice = brand_mentions / (brand_mentions + sum(competitor_mentions))

Acoperirea citărilor

Din URL-urile pe care modelul le citează pentru setul de prompturi al categoriei, procentul în care brandul are o prezență poziționată semnificativă (numit în articol, profilat, listat într-un tabel comparativ). Indicator predictiv: o acoperire mare a citărilor astăzi prezice o rată mai bună de menționare în trimestrul următor.

citation_coverage = positioned_source_urls / total_cited_source_urls
Cadența rulărilor și prospețimea datelor

Automatizare zilnică, re-rulări la cerere, capturare a versiunii.

Conturile Pro rulează implicit fiecare prompt activ împotriva fiecărui model activ, în fiecare zi. Rulările manuale la cerere sunt nelimitate. Conturile Free rulează manual, cu o limită zilnică; rezultatele sunt totuși salvate, dar istoricul este trunchiat la o fereastră de 3 zile.

Fiecare rulare capturează șirul versiunii de model returnat de furnizor. Când OpenAI lansează un GPT nou, Anthropic lansează un Claude nou sau Google rotește pointerul Gemini Pro, schimbarea este vizibilă în tabelul de rulări, iar liniile de trend rămân interpretabile între tranziții.

Regiunea implicită este piața principală a brandului. Monitorizarea multi-regiune este suportată pe Pro și recomandată pentru orice brand care operează în mai multe țări. Răspunsurile AI variază în funcție de limbă și locale, adesea dramatic.

Un eșantion real

Cum arată 360 de menționări reale.

Cifre dintr-o săptămână recentă de rulări pe primele noastre conturi de test (2 conturi, 6 branduri, categorii mixte: servicii locale din România și skincare coreean). Eșantion mic, mix de categorii deliberat părtinitor. Le arătăm pentru că alternativa, paginile de metodologie de tip "ai încredere în noi", este mai rea. Acestea nu sunt benchmark-uri de industrie. Sunt dovezi că sistemul produce date structurate de forma descrisă mai sus.

  • Menționări în eșantion
    360

    Pe parcursul unei singure săptămâni recente.

  • Rata de menționare
    33%

    Brandul a fost numit în aproximativ 1 din 3 rulări.

  • Cota poziției 1
    35%

    Din rulările care au numit brandul, 35 % l-au plasat pe primul loc.

  • Citări de surse capturate
    297

    Pe 36 de rulări în care modelul a citat URL-uri inline.

  • Domenii distincte citate
    100

    Coadă lungă în acest eșantion; concentrată în seturile de prompturi de producție.

Un proiect de cercetare mai mare, conceput intenționat pentru o singură categorie definită (~30 de prompturi × 4 modele × 14 zile) este în curs; rezultatele vor fi publicate la /ro/blog când se finalizează.

Limite și prejudecăți cunoscute

Ce nu face această metodologie.

Declarat explicit, fiindcă alternativa ar fi ca acești cumpărători să le descopere mai târziu:

  • Mărimea eșantionului. Un set de 10 prompturi × 4 modele × 1 regiune produce 40 de rulări/zi. E suficient pentru a urmări trendul, nu suficient pentru a detecta diferențe mici. Pentru decizii strategice, sunt recomandate seturi de 30+ prompturi.
  • Referințe indirecte. Răspunsurile care descriu un brand fără să îl numească ("platforma enterprise lider în domeniu") sunt parțial capturate de parserul LLM, cu încredere mai scăzută. Menționările pur indirecte rămân o categorie sub-numărată.
  • Variație din partea furnizorului. Răspunsurile API ale furnizorilor diferă uneori de cele din aplicațiile pentru consumatori (alte valori implicite, alte semnale de clasare). Intendity folosește API-urile furnizorilor; cifrele absolute pot diferi față de un cumpărător care verifică manual din aplicație, dar trendurile sunt corelate.
  • Fără atribuire cauzală. O recomandare livrată în săptămâna 1 și o rată de menționare care crește în săptămâna 4 reprezintă corelație, nu dovadă. Mai multe variabile se mișcă simultan. Noi scoatem datele la suprafață; atribuirea este judecata responsabilului de program.
  • Corectarea halucinațiilor se face la nivel de sursă. Intendity nu îi cere modelului să uite informațiile greșite. Scoatem la suprafață sursa de bază pe care se sprijină modelul (un paragraf vechi din Wikipedia, un thread de recenzii depășit) și recomandăm reparația la nivel de sursă. Actualizările sursei se propagă în răspunsurile modelului în 1-6 săptămâni de la re-crawl.

Aplică metodologia.

Rulează primul tău brand și vezi vizibilitatea, share of voice și acoperirea citărilor pe prompturi reale, în cinci minute.