mandag den 29. september 2003

Højst forvirrende udvalg af fund!
Det har ofte undret mig at en lille søgemaskine som Teoma fra tid til anden giver bedre resultater end de to store, Google og All The Web. Men kun nogen gange. Og det har ligeledes undret mig at Google og All The Web ofte finder mange resultater ved en søgning, men at det så blot er mange ældre udgaver af den samme side. Kort sagt: hvilken søgemaskine medtager mest ”støj”, dvs. ubrugelige søgeresultater.
Så jeg satte mig for at finde ud af om der var noget system i det. Og det nedslående svar er: Nej, det er det ikke! Fire søgemaskiner, Alltheweb, Altavista, Google og Altavista blev udsat for 5 fuldstændig ens søgninger. De fem søgninger var udvalgt efter et fælles kriterium: De 4 skulle alle være fra et internetsted som enhver søgemaskine med respekt for sig selv burde have med: Folkebibliotekernes Netguide, Library Of Congress, Natur- und Tierpark Goldau og Jerusalem Post. Det sidste var denne weblog.
Den side som søgemaskinerne skulle finde, var en underside som havde været på internettet i mange måneder – og som altså burde være indekseret i søgemaskinernes database. Det var siden ”Søgetips” i FNG, ”About” hos Library of Congress, dyreparkens restaurant, hovedmenuen på Jerusalem post og webloggens marts 2003 arkiv.
Resultatet peger i alle retninger og giver egentlig ingen anvisninger på hvad man skal stille op som internetsøger. Alle var fælles om at finde naturparken – og alle fandt kun dette ene fund. Og stort set alle var enige om at webloggens martsarkiv ikke skulle indekseret – undtagen Google. Og det var især arkiv-funktionen (altså dette at gemme gamle udgaver) som skabte forvirring. Både Alltheweb og Google gemmer gamle udgaver af internetsider, men mens Google havde gemt stort set alle gamle udgaver af webloggen (på nær 3), så havde kun All The Web gemt gamle udgaver af Jerusalem Post (66 mod Googles kun 9) og af FNG (5). Faktisk viste det sig at selv om Google har indekseret FNG, så har den altså ikke indekseret siden ”Søgetips”, selv om denne har været på i årevis i mindst 4 forskellige udgaver!
Testen gav ikke noget klart svar på om All The Web eller Google indeholder flest gamle udgaver. Kun at det er de to som gør det! For det viste sig at hverken Teoma eller Altavista indeholdt særligt mange ældre udgaver.
Google finder som oftest mange flere søgeresultater end de andre søgemaskiner, men kigger man nøje på dem, viser det sig at ganske mange af dem faktisk kun er forskellige udgaver af den samme side. Godt nok viser Google så kun de nyeste med mulighed for at ”lignende sider” eller angiver i slutningen af oversigten at man kan se samtlige fund. All The Web viser bare de ældre udgaver i en skønsom blanding med de øvrige fund. Så spørgsmålet er egentlig: Hvor kvalitativt bedre er Google og All The Web i forhold til Teoma og Altavista? Er det bare fordi Google har formået at skabe sig et ”brand” som det ”man” bruger?
Testen viser at det stort set lige meget hvilken af de fire søgemaskiner man bruger hvis man kun er interesseret i nye sider. Hvis man derimod gerne vil læse gamle sider også, skal man vælge Google og All The Web. Testen stiller flere spørgsmål end den havde sat sig for at besvare. Og især stiller den spørgsmålstegn ved hvor meget det egentligt er værd med alle disse.
Jeg har dog en ganske udokumenteret fornemmelse: All The Web er bedre til at finde skandinaviske sider end Google er. Denne fornemmelse kan jeg kun begrunde i mange års brug og sammenligner af søgninger i de to søgemaskiner.
Men da det er robotter som fylder søgemaskinernes databaser, vil det aldrig være muligt direkte at sammenligne. Så indtil vi en dag finder en metode, bygger den slags vurderinger udelukkende på stikprøver og på fornemmelser. Desværre.

Ingen kommentarer: