tirsdag den 25. november 2003

Indbyggede problemer i søgemaskinerne.
I de sidste 3-4 år har søgemaskinerne groft sagt ikke udviklet sig kvalitativt. De har forfinet deres søgekvaliteter, men ikke i væsentlig grad. Der er ingen tvivl om at Google pagerank-system betød et kvalitativt spring frem. Altså princippet med at jo flere der linker til en side, desto højere vil den blive anbragt på listen over søgeresultater. Men systemet har nogle dårlige sider som webmastere udnytter. De er kort sagt blevet dygtigere til at konkurrere for at komme til tops på listerne for at promovere deres sider. Men det er ikke altid, faktisk sjældent, til gavn for internetsøgere.
Nedenfor nogle eksempler på denne udvikling. Meningen med at nævne disse problemer er at det irriterer stadig flere internetsøgere. Ved at gøre opmærksom på det, kunne vi måske påvirke søgemaskinemagerne til at forbedre deres teknik. Selv kan vi dog godt kompensere for nogle af ulemperne, men som oftest må vi resignere og vente på at søgemaskinerne leverer os noget andet værktøj at arbejde med.
Pagerank favoriserer debat, handel, spørgesider m.v.
Her er et af de svageste punkter ved princippet om at jo flere der linker til ens side, desto højere kommer siden til tops: Enhver der har søgt på Google for nyligt, vil opdage at listerne bliver mere og mere fyldt med henvisninger til sider hvor der er debatter, spørgsmål/svar (mest irrelevante i forhold til det man søger på), weblogs, kommercielle sider (internethandel) og lignende sider. Det som man har søgt på, omtales så kun i ganske få linjer. Dette skyldes at disse sider har få, men aktive brugere. Det kan være debatsiger som der linkes til fordi debatdeltagerne ønsker at gøre opmærksom på sig selv. Det kan fx være en internetside uden anden information end tusindvis af debatindlæg fra enten fanatiske bilister eller fanatiske cyklister.
Internethandelssiderne er et helt kapitel for sig. Ofte vil internetsøgere komme ud for at skulle have noget at vide om en bestemt kunstner, en musiker, forfatter, eller et emne som samtidig kan være et handelsprodukt (alt fra stueplanter, automobiler og bøger). På grund af de mange links til internethandler som Amazon.com, Ebay, planteskoler, gartnerier osv. osv. vil internetsøgeren blive bestormet med fund om hvor man kan købe en bog, cd eller en stueplante. Selv om man sådan set bare ønskede at vide noget om emnet – ikke prisen og hvor man kunne købe noget!
Producenters udnyttelse af pseudonymer
Mange produkter (især fra USA) som sælges via internettet, har (eller har taget) navn efter populære søgeord så de derved kommer på intetanende internetsøgeres fundlister. Det kan være firmaer fra før internettet såsom Apple eller fra efter såsom Voodoo. Her er internetsøgere dog ikke helt magtesløse: Ved enten at benytte ikke-kommandoer eller ved at indskrænke sine søgninger med flere emneord vil det som regel være muligt at udelukke disse sider. Men det kræver altså lidt ekstra tænkearbejde. Et eksempel på at udelukke sider med ikke-kommandoer kunne være: voodoo –digital, eventuelt også udelukke internethandlende med –site:com. Ved at putte emneordet haiti bag voodoo får man også indskrænket sin søgning betydeligt. Andre gange er det ikke så enkelt, idet det kan være svært at afgøre hvad det er der forurener ens søgning.
Seriøse sider gemmes i pdf
Et tredje problem er den måde som seriøse forskere publicerer deres materiale. I bedste mening for at præsentere stoffet så fint som muligt gør de sig stort umage med at lave pdf-filer eller lægger deres dokumenter ned i databaser ligesom aviserne lægger deres avisarkiver derned. I tilfældet pdf vil deres dokumenter blive rangeret meget lavt, da mange søgemaskiner overhovedet ikke registrerer pdf-filer, og hvis de gør, da kun indekserer en meget lille del af tekstmængden fordi det drejer sig om meget store filer. Og i bedste fald er der få eller ingen links til disse sider, hvorfor de måske slet ikke bliver fundet af søgemaskinerne – og hvis de gør: bliver rangeret meget lavt.

Ingen kommentarer: