lørdag den 20. august 2005

Yahoo dobbelt så stor som Google?
Matthew Cheney, Mike Perry og Orville Vernon Burton fra University of Illinois at Urbana-Champaign and the National Center for Supercomputing Applications har efterprøvet om det nu også kan passe at Yahoo har 20 mia. internetsider. (bl.a. omtalt på denne weblog den 10. august).
Artiklen gennemgår metodologien til den lille undersøgelse. Og de mange problemer, som der gennem tiderne har været med at opstille troværdige metoder. Forskerne har valgt at undersøge hvad de kalder ”the more obscure documents of the web”. Ud fra den simple betragtning, at hvis man søger med de samme emneord i de to søgemaskiner, burde Yahoo finde dobbelt så mange resultater som Google. De har dog holdt sig til lidt over 10.000 søgninger med under 1.000 resultater pga. usikkerheden med optællingen af større søgninger. Modsat hvad man skulle forvente, fandt Yahoo i gennemsnit kun 37 % af Google. Også selv om man tager forbehold overfor gengangere.
Jeg ved selvfølgelig ikke, hvordan de har regnet den ud. Men der er noget som i den forbindelse har undret mig. Tag et par tilfældige søgninger. Kig på hvor mange søgemaskinen fortæller den har fundet. Og begynd dernæst at bladre indtil sidste resultat. Undervejs rasler antallet ned. Oftest til under det halve, men ikke ualmindeligt til helt op til 1/10. Så spørgsmålet er hvor meget sådanne optællinger egentligt er værd.
Heller ikke Rusty Search, som er en ny sammenligningsprojekt, indikerer at Yahoo skulle have dobbelt så meget som Google. Her er sammenligninger mellem søgemaskiner fremstillet mere grafisk, så det måske er en anelse mere overskueligt. Den sammenligner Google, Yahoo, Ask og MSN.
Uanset hvad, så mener jeg dog at undersøgelsen har ret i at Yahoo ikke på noget tidspunkt viser dobbelt så mange fund. Tværtimod er der færre fund i Yahoo. Så mystikken om det dobbelte antal sider i Yahoo kunne pege på at Yahoo enten lyver, eller at Google har indekseret langt flere sider, end de selv oplyser. Eller at ingen af dem har styr på hvor mange sider de egentligt har indekseret. Det sidste er nok nærmest på sandheden.
I foråret anslog forskere ved Iowa universitet at internettet måske rummer 11,5 mia. dokumenter (se bl.a. indslag i Internetsøgning). Og der er langt op til de ca. 20 mia.
Tabellerne kan ses i artiklen.
Links
Undersøgelsen.
Via Phil Bradley.
Internetsøgning om Yahoo.
Introduktion til Rusty Brick via Phil Bradleys blog.

Ingen kommentarer: