mandag den 8. november 2004

Datosøgning i søgemaskiner – spild af tid!
Dato-søgning er et problem i søgemaskiner. Groft sagt kan søgemaskinerne kun søge på opdateringsdatoer. Hvilket jo intet siger om sidernes aktualitet! En 10 år gammel side kan få rettet et komma – og således få en spritny opdateringsdato. Uden at det siger noget om indholdets aktualitet. De fleste servere skriver automatisk opdateringsdato på.
Her kort om problemerne i Google, Yahoo og Teoma.
Hele problematikken opstår af at der ikke i html er muligt at angive et felt hvor tekstforfattere kan skrive hvor gammelt/nyt deres dokument er. Selv hvis de ville holde sig til sandheden. Derfor må søgemaskinerne i teorien forlade sig på andre oplysninger:
- Hvornår er dokumentet lagt ud på serveren (opdateringsdatoen),
- hvornår søgemaskinen første gang fandt dokumentet,
- bruge metadata i selve dokumentet (hvilket kun en forsvindende del af dokumenterne har) og
- analysere dokumentets datoangivelser.
Det første er som nævnt praksis. De tre sidste kun muligheder som ingen søgemaskiner i dag bruger.
Selv hvis søgemaskiner ville kunne bruge alle muligheder, er der problemer med at datoer bliver angivet forskelligt rundt omkring i verden: dag/måned/år, år/måned/dag, måned/dag/år osv. Ikke engang i USA er der enighed om en fælles rækkefølge.
Tre stikprøver viste at datosøgning er værre end selv teorien lader ane! Stikprøvespørgsmålene var: cubakrisen, bill clinton og karen hækkerup. Disse illustrerer ganske godt problemerne. Google og Yahoo har opdelt i 4 tidsperioder: 3 måneder, 6 måneder, 1 år og alle år. Teoma kan underdele yderligere. Men i stikprøverne er valgt de samme intervaller som Yahoo og Google. Og Teomas yderligere underdelinger er i øvrigt rent blændværk!
Får man skåret noget af resultaterne? En sammenligning mellem dokumenter uden datoafgrænsning og den mindste afgrænsning (3 måneder) var ikke imponerende. Tallene varierer noget, men svinger mellem 5-20 % i Google og Yahoo og 80% i Teoma. Tilsyneladende er Teoma her mest effektiv. Men også her snyder tallene. De er blændværk.
Og hvad med resten? Har du fået noget ud af at få skåret noget væk?Generelt: nej. Det gør du ikke! Webmastere er meget dygtige til at opdatere deres hjemmesider – uden i øvrigt at ændre på indholdet. Fx er en genganger i alle søgemaskiner et link skrevet i 2002, men opdateret september 2004. Absolut ikke det eneste!
Interesserede kan eksperimentere videre. Min konklusion er klar: det er tidsspilde at bruge datoafgrænsningerne i de avancerede søgebillede.
Inspiration til denne stikprøve er en meget grundig undersøgelse, som Dirk Lewandowski har lavet af de tre søgemaskiner. Linket kan ses nedenfor og anbefales kun til nørder.
Hvis du alligevel insisterer på at der kan laves dato-søgning: Læs Research Buzz: Google bruger den julianske kalender. Opgiv alt om at prøve at regne det ud selv, med mindre du er ekspert! Afprøv fx det nævnte værktøj (My Vasco) nedenfor for at se hvor svært det vil være (kig under Show me more details).
Link
Dirk Lewandowskis undersøgelse: www.durchdenken.de/lewandowski/doc/oir2004.php
Research Buzz om Googles julianske kalender: www.researchbuzz.org/archives/001405.shtml
Værktøj til at omsætte almindelige datoer til Google: world.myvasco.com/daterange.htm

Ingen kommentarer: