mandag den 6. november 2006

Søgemaskiner gemmer (ikke) sider

I mange år har jeg troet at Google gemte alt på internettet. Men gør den nu også det? En lille test viste at ’hvis’ Google gør, så er det i hvert fald umuligt (besværligt) at finde.
At finde udgaver af en bestemt internetside er ganske simpelt. Hvis du fx er ude på at finde udgaver af siden om Google Books i Google-Guide, så søger du blot med:
[ inurl:googleguide inurl:flere inurl:print ]
Det er nemlig denne sides helt specifikke internetadresse. Denne søgning giver et resultat, med mulighed for at klikke på ”gentage søgningen, så de resultater, der er udeladt, kommer med
Dette viser tre resultater. Så det må vel være alle udgaverne? Svaret er at det er det ikke. Jeg har nemlig selv lavet siden, og jeg ved at der har været mange tidligere udgaver af den side. Godt nok viser resultatet to forskellige udgaver (alt efter om du klikker i cache for den nyeste gemte eller i linket). To af cache-udgaver (fra den 20. oktober og den 25. oktober) viser en udgave fra 30. august 2006, mens den anden (fra den 2. november) viser en udgave fra 1. november. Så vidt så godt. Men hvor er resten blevet af? Jeg lavede siden for over et år siden, og kontrollerede dengang at de var kommet med i Googles indeks.
Nu kunne det jo være at det var fordi kun de nyeste blev vist i søgeresultatet hvis du søger med inurl. Så derfor er det også nødvendigt at efterprøve om gammel tekst giver resultat. En sådan tekst kan du finde på Wayback Machine. Denne gang valgte jeg at finde Louise Freverts side. Dem har Wayback Machine gemt 25 udgaver af i tidsrummet 2002 til 2004. Men gentagne søgninger på enkelte karakteristiske sætninger gav intet resultat i Google.
Konklusionen af denne superkort test er altså: Google gemmer ikke gamle sider. Det ser ud som om disse bliver overskrevet med de nyeste udgaver af siden. Og at de gamle ’forsvinder’. Herefter er der kun databaser som Wayback Machine at læne sig op ad.
Bliver det så bedre når du benytter Yahoo? Nej, det gør det ikke. Jeg prøvede, og det gav nogenlunde samme resultat.

Ingen kommentarer: