tirsdag den 6. september 2011

Googles søgealgoritme

Du har sikkert bemærket det, og det har også et navn. Dette at du i dine søgninger får en masse kopier af det samme indhold, blot med forskellige adresser.  Dette skyldes at nogen har lavet scaper sites. Det er spamhjemmesider som kopierer alt deres indhold fra andre hjemmesider, ved at bruge web scraping. Sikkert imod deres vilje er open content-hjemmesider storleverandører til disse scraper sites. Nogle gange kan sådanne scraper sites endda manipulere sig til højere ranking end de originale sider.

Problemet er eskaleret i 2011, og er nu så omfattende, at Google på det seneste har prøvet at bekæmpe effekten fra disse scraper sites via sin søgealgoritme. Søgemastodonten har endog appelleret om hjælp fra internetsamfundet til at identificere problemerne.

Der er for så vidt ikke noget ulovligt, endsige odiøst i web scraping, med mindre den kopierer noget ulovligt, fx i forhold til ophavsretslovgivningen. Der er oven i købet firmaer som sælger de nødvendige programmer. Og hele ideen i open content er jo netop at ting kan genbruges. Problemet er når dette tager et sådant omfang (hvad hensigten end er) at søgeresultaterne bliver væsentlig dårligere.

Du behøver ikke engang at betale for det, men kan selv lave det, hvis du er blot en smule fortrolig med html. Der findes talrige vejledninger i hvordan hvis du laver en almindelig websøgning på web scraping. Fx denne post.

Hvis du har brug for en kort introduktion til kernen i al Google-søgning - nemlig søgealgoritmen - så kig på den video, som Google selv har produceret. Det er selvfølgelig selskabets egen version af sandheden, men den giver et indtryk af hvor vigtigt det er for Google hele tiden at justere sorteringen i forhold til ændringer på internettet.

Om Google vil lykkes med det, vil tiden vise. I det store og hele lykkedes det da at bekæmpe en af de største plager i internettets spæde start, link farme. Så vi kan håbe at også dette fænomen vil blive udmanipuleret fra søgeresultaterne.

Der har været en del artikler om fænomenet i Search Engine Land:
Search Engine Land.
Search Engine Land.
Search Engine Land.
Search Engine Land.

Ingen kommentarer: