fredag den 8. januar 2010

Googles resultatopgørelser

Jeg får en gang imellem spørgsmål om ulogiske resultattal i Googles fundopgørelser. Sidste år var der en forbavset bruger som undrede sig over at hun med en OR-søgning fik færre resultater end med en hvert af de søgeord hun havde brugt. Det er ulogisk: En OR-søgning vil jo uvægerligt altid være større end resultatet fra hvert af de enkelte søgeord.
Fx skulle en søgning på diabetes OR sukkersyge, gerne give et større resultat end blot at søge på diabetes. Faktisk skulle antallet af fund gerne være noget imellem summen af resultaterne af hver af søgningerne på diabetes og sukkersyge.
Og i dag var der så en bruger som undrede sig over at have brugt nogle afgrænsninger i Googles nye funktion, Valgmuligheder. Her havde han afgrænset fra Alle år til Seneste år og Seneste uge. Her skulle man jo så forvente at det ville give færre hits. Men i stedet viste resultatopgørelsen at der var flere hits.
Der er sikkert flere eksempler. Jeg er selv stødt ind i nogle, og prøvede derfor en gang at finde ud af om fundopgørelserne nu også er pålidelige. Og det er de ikke! Faktisk har jeg fundet unøjagtigheder på flere hundrede gange det som står i den blå statistiklinje over resultaterne. Jo flere resultater, jo større unøjagtighed.
Prøv selv. Det du skal gøre er at prøve at finde allersidste side i søgningerne. De vil ofte vise nogle gange anderledes tal end dem i statistiklinjen. Her har jeg fx tilsyneladende fundet over 36.000 fund


Det lyder jo af voldsomt meget. Men vær ikke bange for at efterprøve søgninger der giver op til 50.000 fund. Ofte vil det nemlig vise sig, at der kun er 50-80 sider med fund. Prøv nu at bladre frem til sidste side. I dette tilfælde burde det jo logisk set være side 3600. Men se nu:

Keine hexerei. Jeg behøvede kun at bladre frem til side 49! Altså omkring 490 fund! Langt fra de over 36.000. Jeg har endnu ikke nogle eksempler på at dette lille trick ikke skulle afsløre de miserable resultatopgørelser. Den dag det sker, falder min forklaring naturligvis sammen. Forklaringen finder du formentligt allersidst i søgningen. Her skriver Google nemlig at:
For at vise dig de mest relevante resultater, har vi udeladt nogle af de resultater, der i meget høj grad ligner de 483, der allerede er vist. Hvis du vil, kan du gentage søgningen, så de resultater, der er udeladt, kommer med.
Hvad det så er for resultater, kan man kun gisne om. Men det er sikkert udmærket at der er filtreret meget fra. Så kan man så undre sig over at Googles resultatopgørelser er så unøjagtige. En årsag kan være at det også kræver maskinkraft at give meget nøjagtige opgørelser. Og vi vil jo allesammen gerne have at det tager under et splitsekund at få vist resultaterne.

2 kommentarer:

Rebekka sagde ...

Jeg kunne forestille mig, at de fleste søgemaskiner stadigvæk bruger mængden af søgeresultater/indekserede sider som argument over for deres annoncekunder. I så tilfælde vil det jo være en dårlig ide at justere tallet nedad.

Luhr sagde ...

Google er ikke funderet direkte i boolesk logik - selv om de logiske operatorer måske kan give det indtryk. Man kan derfor ikke regne sig frem til hvor mange resultater man burde få, blot ved at lægge sammen og trække fra.

Google udvider automatisk søgestrengen med morfologiske variationer af søgetermerne, samt synonymer og evt. andre tæt relaterede termer.
Søg fx på "ai". I søgeresultatet er både "Artificial intelligence", "Amnesty International" og "Air India" fremhævet med fed skrift, hvilket betyder at disse ord indgår som søgetermer. Google har altså selv udvidet søgningen med disse ekstra termer.

Disse udvidelser afhænger af hvilke termer der indgår i søgestrengen, og søgningen er altså langt mere kompleks end blot kombination af termer vha. boolesk logik.

Med hensyn til om antallet er resultater er korrekt, forklarer Google selv at der, for at sikre korte søgetider, er tale om et estimat og ikke et eksakt tal.

Det tyder på at uanset antallet af påståede resultater, vil Google aldrig vise mere end de første 1000 - og ofte langt færre. Flere blogs henviser til et dokument, hvor Google skulle have forklaret hvorfor, men det dokument er tilsyneladende ikke længere tilgængeligt. Jeg har i hvert fald ikke kunnet finde frem til det...