fredag den 16. maj 2003

Hvad går vi glip af?
De store søgemaskiner, Google og Alltheweb, har indekseret ca. 3 mia internetsider, eller langt under en tredjedel af alt hvad der findes. Hvad er det så disse søgemaskiner ikke indekserer? Og er det de ikke indekserer overhovedet noget værd? Hvis det ikke er noget værd, er der jo ingen grund til at bekymre sig om det!
Microdoc News har ved en enkelt stikprøve prøvet at finde ud af hvad vi går glip af. (se 10. maj 2003). Microdoc News har åbenbart fundet ud af en teknik som gør det muligt at efterspore samtlige steder på internettet hvor et bestemt ord (i eksemplet Googlology) optræder. Dette resultat sammenlignede de så med hvad Google fandt. Forskellen burde være det som vi går glip af. Resultatet af stikprøven viste:
Google indekserer omkring 1/3 af alle sider på internettet. Især internetsider ældre end 3-6 måneder er ikke med. Enten fordi de ikke er blevet indekseret, eller fordi Google ”mister” dem. (Husk derfor altid at bruge flere søgemaskiner. Selv om der er mange gengangere, finder andre søgemaskiner som regel noget andet).
Google medtager ca. halvdelen af alle weblogsider
Google medtager ca. 37% af alle .edu-sider
Google medtager ca. 29% af ”main stream” internetsider (Microdoc må mene landespecifikke og de øvrige generiske domæner). Google synes at indeksere omkring 80% af de op til 3 måneder gamle intersider i denne kategori.
Google medtager ca. 45% af nyheds-, informations- og emnekatalogsider
Google medtager 8 % af junksider (Geocities o.lign.) – og gudskelov for at det tal er meget lavt!
Derudover viste analyser af stikprøven at Google er tilbøjelig til at indeksere meget nye internetsider fra weblogs, .edu-sider og nyhedssider (op til 3 måneder gamle). (Op til 98%!). Endelig synes Google at ignorere internetsteder med få oplysninger.
Microdoc udleder heraf at Google tilsyneladende koncentrerer indekseringen om de internetsteder hvor der sker noget, dvs. de som opdateres ofte (dvs. inden for de sidste 3-6 måneder). At være i Googles indeks er således ikke en garanti for evigt ophold dér. Mange synes at ryge ud igen hvis de ikke opdateres.
Microdocs undersøgelse besvarer kun delvis det indledende spørgsmål. Mange udmærkede internetsider er ikke blevet opdateret i flere år. Så det i sig selv er ikke noget fravælgelseskriterium. Omvendt så har Google jo også sådanne sider med. Det modsiger Microdocs undersøgelse.
Hvis Google ”kun” har indekseret 1/3 af internettet, ja så lyder det faktisk ret fornuftigt at .edu-sider og nyhedssider er overrepræsenteret, mens junksider er kraftigt underrepræsenteret. Men det besvarer stadig ikke hvad det er vi går glip af.
Til slut: Alt dette har intet at gøre med den forkerte forestilling om at alt findes på internettet. Og at grunden til at man ikke finder det i søgemaskinerne er at man ikke søger godt nok. Lad det stå fast: Langt fra alt er på internettet og det er altså kun muligt at finde det som er lagt ud!

Ingen kommentarer: