onsdag den 30. november 2005


Stavekontrol på Google
Googles stavekontrol er indrettet anderledes end andre søgemaskiners: de sammenligner stavemåder ved opslag i online-ordbøger som fx Dictionary.com. Googles bygger på maskinelt oplagrede ”erfaringer” eller sammenligninger fra mange søgninger. Forstået på den måde: hvis et ord ikke er blevet søgt på før, vil Google sammenligne ordet med et lignende ord som der er blevet søgt på mange gange før. Dernæst kommer den velkendte ”mente du” eller ”did you mean” under søgefeltet.
Google bygger på konceptet om at hovedparten af de som søger, trods alt staver korrekt. Derudover er Google tilsyneladende også i stand til at differentiere efter hvorfra man søger. Prøv fx på den engelske udgave at søge på forkert stavede danske ord, fx
[ internetsøging ] (der skal mangle et n) . Den finder ikke nogen resultater. Prøv samme søgning på [ internetsøging ] i den danske udgave. Her finder den heller ingen resultater, men spørger om: Mente du internetsøgning. Med mulighed for ny søgning.
Prøv at presse den til yderligheder med [ interntsgng ]. Også her finder den ordet internetsøgning. Først efter yderligere at fjerne bogstaver, går det galt.
Det er dog åbenbart kun for små sprog den engelske ikke ”retter” gale stavemåder. En søgning på forkert stave tyske ord, fx [ sucmacine ] finder det korrekt tyske ord suchmaschine. Og en søgning på [ refrijetadur ] finder også det korrekte spanske ord for køleskab, refrigerador.
Det er vel overflødigt at skrive at Yahoo og andre søgemaskiner ikke finder de korrekte stavemåder. Til gengæld må man så finde sig i det lille ”mente du ” eller ”did you mean” på mange ord, som så vitterligt er stavet rigtigt. Trøst dig med at du med din søgning har hjulpet til med at give ordet status som korrekt stavet.

2 kommentarer:

Jesper Rønn-Jensen sagde ...

Tak for en god og velskrevet artikel. Det er nogle interessante overvejelser, du har gjort dig.

Adam Bosworth (arbejder for Google) fortæller lidt om søgealgoritmen et godt stykke inde i denne præsentation "Database Requirements in the Age of Scalable Services" fra IT Conversations

http://www.itconversations.com/shows/detail571.html

Han fortæller at søgeforslagene ikke bygger på sprog. De har ikke en gigantisk stavekontrol eller synonymordbog. I stedet har Google registreret hvad folk søgte på efter de stavede forkert. Smart ide!

"I'm a big believer in stupidity", siger han på et tidspunkt, og jeg er tilbøjelig til at give ham ret. Keep it simple, stupid.

Anonym sagde ...

Dte er nok rigtigt, Erik