onsdag den 16. april 2008

Det usynlige web

Det usynlige internet er søgemaskinernes smertensbarn. Det er fortrinsvis databaser som søgemaskinerne ikke indekserer fordi de kræver at man først udfylder et søgefelt. Og det kan de selvfølgelig ikke finde ud af da de netop er - maskiner. De hidtil bedste bud har været søgemaskiner som på en eller anden måde har fået fingre i en database. Og de bud har ikke været særlig gode. Completeplanet er det bedste, men rent ud sagt, ikke anbefalelsesværdig.
Det er derfor interessant når Googleblog skriver at Google nu har forsøgt at udforske htmil-koder til at finde disse websider. Metoden er først at finde en kvalitetside, derefter foretage en række søgninger. Det er sådan set også den metode som almindelige dødelige har skullet gøre, altså bare manuelt. Når Google går ind i det, betyder det at de bruger deres imponerende teknologi. Hvis den altså kan bruges til det.
Indtil videre er det dog ifølge Googleblog et meget begrænset antal websider der således bliver støvsuget. Og Google vil respektere hvis databaseindehaverne ikke vil have deres dokumenter indekseret i Google. Ligeledes påvirker de nye fund heller ikke PageRank.
For at gøre det lidt mere håndgribeligt wil det altså fx betyde at Retsinformations dokumenter i teorien vil kunne søges på Google, eller Infomedia, hvis eller de fik lov til det (hvad de højst sandsynligt ikke gør). Hvis Google skulle lykkes med dette projekt, vil det betyde et umådeligt ryk i informationsmængden. For nogle år siden skønnede flere eksperter at antallet af dokumenter på det usynlige internet er omkring 500 mia, mod det synliges omkring 15 mia.
Link
Googleblog.
Pandia post.
Search Engine Land.

3 kommentarer:

Anonym sagde ...

Bare lige et lille indspark:

Retsinformations dokumenter er allerede indekseret og kan fremsøges i google. Se f.eks. denne søgning, som fremfinder Lov om folkeskolen.

Erik Høy sagde ...

Hej Anonym
Det er rigtigt at nogen af Retsinformations dokumenter er indekseret. Det skyldes at der er nogen som har oprettet et link til dem. Lige så snart der eksisterer et sådant link, vil Google også finde dokumentet. Meget efterspurgte love som fx Folkeskolen vil på denne måde kunne findes i Googles indeks, sammen med hegnsloven og lov om social service.
Men det gælder ikke for alle de dokumenter, som ingen linker til Og det er trods alt langt hovedparten. Prøv fx med "Lov om oprettelse af Færøernes Stift". Retsinformations dokument kan du ikke finde på Google (med mindre Google når du læser dette har annammet mit link: https://www.retsinformation.dk/Forms/R0710.aspx?id=7).
Bemærk spørgsmålstegnet i linket. Sådanne link bruger Google ikke. Det er først når samtlige dokumenter ligger i Googles indeks at Google kan blive en pålidelig søgemaskine til Retskinformation.

Anonym sagde ...

Nå ja selvfølgelig :-) Jeg havde lige glemt det med at google følger links. Hmm, det er vist lille-fredag!