torsdag den 22. marts 2007

Tanker bag en søgemaskine

Noget så kedsommeligt som en patentansøgning kan fortælle om tankegangen bag søgemaskinerne. Google Blogoscoped har fundet frem til en patentansøgning fra 2005 om Google Blogsearch. Heri redegør firmaet for nogle af de skjulte mekanismer bag sorteringen og udvælgelsen af posterne.
Det mere interessante står i afsnittet ”Determining a Quality Score for a Blog Document”, punkterne 0037 ff. Her beskriver patentansøgningen mere nøjagtigt hvilke indikatorer Google Blogsearch anser for at være positive. Det drejer sig om:
  • Weblogindslaget er med i blogrolls, i kvalitetsblogrolls. Dokumentet beskriver hvad kvalitetsblogrolls er for noget.
  • Weblogindslaget er tagget. Ifølge dokumentet skulle det nemlig betyde at ophavet har evalueret indholdet.
  • Der er henvisninger til det fra andre kilder. Her nævnes bl.a. emails og chat. Dette punkt er lidt uklart, men det er alment kendt at Google bruger data fra Gmail og dokumenter til at præcisere søgninger. Ikke sådan at forstå at Google læser emails mv., men maskinelt bruger ordene.
  • Weblogindslagets pagerank. Vel ikke nogen overraskelse. Det er netop måske kernepunktet i hele Googles succes.
  • Populariteten hos forskellige nyhedssites. Bl.a. hvor mange klik der har været på et bestemt indslag.
Så meget om det som Blogsearch opfatter som positive indikatorer. På samme måde kan de negative indikatorer også være vigtige at kigge på. Punkterne handler næsten alle sammen om at finde ud af hvordan spam opfører sig, og så dernæst at ’straffe’ en sådan opførsel. Her nævner patentet følgende:
  • Hvor ofte webloggen bliver opdateret. Spammere bruger nemlig at lave nye poster hele tiden indenfor ganske kort tid, eller med regelmæssige intervaller (fx hvert tiende minut). På denne måde kan Blogsearch forsøge at finde ud af om der er tale om misbrug.
  • Indholdet. Her uddyber dokumentet at der er tale om hvor der er uoverensstemmelse mellem webloggens feed og så det faktiske indhold på webloggen. Eventuelt med gentagne indslag.
  • Hvor lange indslagene er. Her påpeget dokumentet at mange automatisk genererende poster har samme eller næsten samme længde. Med andre ord, spam.
  • Hvor mange links den indeholder. Her kan der igen være tale om såkaldte linkfarme, som udelukkende har til hensigt at opgradere andre siders pagerank.
  • Reklamer. Hvis der er mange reklamer i posterne.
Alt i alt er dokumentet meget tung læsning, fordi det er formuleret i et meget juridisk og teknisk sprog. Du kan finde det i sin helhed på nedenstående link.
Link
Google Blogoscoped.
Patentansøgning til Google Blogsearch.

Ingen kommentarer: