tirsdag den 1. oktober 2002

Hvordan sorterer søgemaskiner?
En af de mest afgørende forskelle på om en søgemaskine er anvendelig eller ej er om den sorterer fundene godt; det nytter jo ikke noget at en søgemaskine kan finde 400 hits når de bedste først rangerer som nr. 357 på listen. Det er de færreste søgere som kigger mere end de 30-40 første fund igennem.
Alle søgemaskiner har hver deres egen måde at sortere deres fund. De fleste oplyser om hvilke kriterier de sorterer efter, men ikke hvor meget hvert enkelt kriterium vægter. Det er en ”fabrikshemmelighed”.
De ældste 1. generations søgemaskiner som Altavista og Hotbot sorterede (og sorterer stadig) efter principper som bibliotekarer kan nikke genkendende til: Optræder søgeordet i webadressen? i titlen på websiden? i teksten? (og i givet fald: hvor mange gange og hvor højt oppe) og forskellige andre kriterier. (Med et fagudtryk: Term relevancy ranking).
Problemet for denne form for sortering er to ting: Internettet fungerer ikke som et bibliotek, snarere som et journalistisk arkiv, og derudover påvirkes søgemaskinerne af kommercielle interesser og eventyrere som blot er interesserede i at gøre opmærksom på sig selv eller lege med nettet. De første søgemaskiners sorteringsprincipper var og er meget sårbare. På godt og ondt foregår den på webmasternes egne præmisser.
Det er godt nok så længe webmasterne er redelige, men ondt hvis webmasterne forsøger at misbruge denne sorteringsmåde. Bl.a. er der gået sport i at prøve at få ens side til at ”hitte” i søgemaskinerne. Så mange at de er nok til at finansiere sider som www.searchenginehell.com som har specialiseret sig i at få folks hjemmesider til at hitte.
Efter 1. generationssorteringen gik udviklingen gået i to retninger: Den ene gik i retning af at underdele fundene maskinelt i forskellige mapper. Et eksempel er den nu hedengangne Northernlight. Den anden gik i retning af at fravriste webmasterne eneretten; det var Google.
Mappeinddeling af fund er i princippet en god ide, men i praksis har den vist sig at være problematisk. Blandt de bedste er metasøgemaskinen Vivisimo. Den ligner Northernligt meget.
Googles sorteringsteknik blev opfundet af Sergey Brin og Lawrence Page på Stanford University. De brugte de nævnte principper, men tilføjede et ”popularitetsprincip”. Groft sagt består det i at sorteringen for det første kikker på hvor mange andre sider som linker til den fundne side og for det andet om det er særligt kompetente sider som linker til ens fund. Særligt højtrangerende sider kan fx være Yahoo! Derved vristede de sorteringen ud af webmasternes hænder. Dette for at undgå at ondsindede webmastere slår sig sammen og anbefaler hinanden. I praksis har Googles sorteringsteknik vist sig at fungere. I de fleste tilfælde er kvalitetssiderne øverst!
Endelig findes der så de maskiner som prøver at kombinere og udbygge de to retninger. Wisenut prøver at kombinere Googles principper med mappeinddeling. Det samme gælder Alltheweb. I praksis ser det nu også ud til at alle maskiner lærer af hinanden og i større eller mindre omfang prøver at samkøre de to retninger.
Teknikken til at sortere udvikler sig til stadighed. Sidst søgemaskinen Teoma. Udover de traditionelle tekstanalytiske metode og popularitet bruger firmaet som noget nyt hvad de selv kalder ”Subject-specific popularity”. Det går ud på at undersøge om de sider som linker til et fund nu også er om samme emne som det man er ude efter. (Se også weblog fra 4.9.2002)


Ingen kommentarer: