onsdag den 10. september 2003

Mystik omkring antal websider i Google.
Microdoc News gør opmærksom på en meget mystisk opgørelse over websider i Google. Googles forside reklamerer med at have indekseret over 3,3 mia. websider. Men passer det? Ordet The må vel siges at være et ord som optræder på samtlige engelske websider på internettet. Søger man på det i Google (søgning: +the idet ordet ellers opfattes som stopord), får man som resultat over 5,2 mia websider! Altså ca. 60% flere websider end Google reklamerer med at have indekseret! Og hertil kommer jo så det antal websider hvor ordet the ikke optræder, nemlig mange ikke-engelske websider.
Det samme sker i øvrigt hvis man søger på andre lignende ord som fx and (3,4 mia.) og to (3,4 mia.).
Det samme sker ikke i All The Web og Altavista. De opgiver antallet af websider hvor ordet the optræder til hhv. 1,5 mia. og 175 mill. (and: 1,4 og 160 mill.; to: 1,4 mia. og 168 mill.). Hvilket er langt mere i overensstemmelse med den størrelse de selv angiver at have.
Der kan kun være to forklaringer på dette: Enten angiver Google alt for høje tal på hvor mange websider den finder, eller også er Google database omtrent dobbelt så stor som den reklamerer med. Det sidste kan næppe skade nogen. Men det første – det er da snyd, specielt hvis det gælder for alle søgninger.
Microdoc News: microdoc-news.info/home/NewsOnGoogle, se 2. September 2003

Ingen kommentarer: