mandag den 23. september 2002

Find rundt på det usynlige web
Det usynlige web er de dokumenter på internettet som søgemaskinerne ikke finder: 1) databaser, 3) de sider som søgemaskinerne ud fra deres udvælgelsespolitik vælger at udelukke og endelig 3) de sider som søgemaskinerne aldrig finder fordi ingen linker til dem.
For databasernes vedkommende gør tekniske barrierer at søgemaskinerne ikke finder resultater fra dem. Det er nemlig nødvendigt enten at skrive noget i et søgefelt eller at vælge mellem forskellige kombinationer på en synlig side for at få dokumenter frem fra databaser. Rent teknisk betyder en sådan søgning at databasen skaber (genererer) resultatet alt efter hvad du spørger om, og det gemmes ikke bagefter. Disse resultater kaldes med en teknisk betegnelse dynamisk genererede. Fx når du søger på en bestemt forfatter i bibliotekernes online-kataloger.
Et godt eksempel er bible.gospelcom.net/bible?. Denne søgemaskine søger på samtlige ord i Bibelen på knap 30 sprog, inklusive dansk. Indstil maskinen på Danish og skriv dit bibelcitat for at finde ud af hvor citatet stammer fra.
Ud over databaser er der de synlige sider hvor det er nødvendigt at bruge login og password for at komme på. Typisk intranet-sider, men også mange leksika, specialiserede søgebaser o.lign.
Mange søgemaskiner vælger at udelukke andre formater end html. Ikke af tekniske årsager. Både søgemaskiner som Google og Alltheweb er blandt de få undtagelser som tager andet end html-format med. For et overblik kan man kigge i deres avancerede søgebilleder: www.alltheweb.com/advanced (se under ”embedded content”) og http://www.google.com/advanced_search?hl=da (kig under rullegardinet ud for ”filtype”) . Allthewebs siges at være den største, den har 180 mill. Multimediefiler, 132 mill. ftp-filer og 2 mill. MP3-filer, udover pdf og macromedia flash.
Men det mest almindelige er at søgemaskiner ikke indekserer formater som word, wordperfect, powerpoint, flash og shockwave. Og selv om fx Hotbot reklamerer med at den kan, så er det ikke sikkert at den har indekseret særligt meget, ejheller at den indekserer alt i et dokument!
Ydermere udelukker søgemaskiner adresser som indeholder ?. Disse bruges af webmastere til såkaldte script-kommandoer.
Hvordan finder man så disse databaser og udelukkede sider? Man bliver nødt til at dele søgeprocessen op i to trin: 1) Find steder på det synlige web hvorfra du kan søge i det dybe web, det vil typisk være specialiserede søgemaskiner. 2) dernæst gå i gang man at lave sin søgning herfra. Selvfølgelig ud fra det søgesprog og søgemuligheder som denne database giver.
Mht. trin 1 er der flere muligheder:
Prøv at finde databaser i de gode emnekataloger. De står ikke for sig, men har du en mistanke om at de findes, så prøv under emnet i Folkebibliotekernes netguide. Opsøg her fx emnet slægtsforskning. FNG har medtaget ca. 24 websteder og blandt dem er der flere gode databaser. Da FNG ligeledes har gode annoteringer er det let at se hvad du kan forvente at finde her. På internationalt plan kan du benytte Librarians Index to the internet lavet af bibliotekarer i USA eller Open Directory dmoz.org.
Gå frisk til den i ordsøgemaskinerne! Skriv dit søgeord efterfulgt af ordet database. Ordet er heldigvis det samme på dansk og engelsk. Kik på de første hits og se om der er søgefunktioner i nogen af dem. Fx søg på slægtsforskning database i Google. Allerede første hit er godt: www2.db.dk/ns/slaegt.htm det er et emnekatalog over søgbare databaser. En rigtig godbid.
Der findes nogle ganske få søgemaskiner som har specialiseret sig i at afsøge dele af det usynlige internet. Generelt om disse gælder at de er meget svære at bruge og meget svære at sætte sig ind i brugen af. De er ligeledes meget små. Flere af dem søger endvidere på det synlige web, og det er ikke altid lige klart hvilke resultater der stammer fra det usynlige web. Flere af dem henviser bare til forskellige steder hvor man kan søge efter databaser. Søgesproget i søgefelterne langt fra fuldkomment. Her er nogle adresser til de dristige:
Direct Search, http://www.freepint.com/gary/direct.htm Søgefunktionen giver næsten aldrig nogen hits. Men der er en oversigt over kategorier et stykke nede på siden. Hovedparten af siden er så et næsten fuldstændigt uoverskueligt emne- og alfabetisk opdelt katalog over hvad der er indekseret.
The invisible web, www.invisibleweb.com siger at den har over 10.000 søgemaskiner til databaser. Den er inddelt i en snes hovedkategorier. Den er nok mest anvendelig til akademikere, studerende og forskere.
www.internets.com er et slags emnekatalog med et halvt hundrede hovedindgange
www.incywinky.com påstår at have omkring 100.000 dokumenter, men af dem er altså kun få databaser!
www.completeplanet.com
Mange gode informationer ligger gemt i avisernes databaser. Den største, Polinfo, kræver betaling. Men flere aviser har frit tilgængelige databaser: Information, Jyllandsposten, en del af Politiken. Man kan også prøve om udenlandske aviser har databaser. En oversigt over udenlandske aviser kan man finde på www.abyznewslinks.com. Den oplyser ikke hvilke aviser der har arkiver. Man er henvist til at klikke sig ind på den enkelte avis og så selv undersøge det.
En stadig større del af informationer puttes ned i det usynlige web. Det skyldes at det er langt lettere for domæneindehaverne at have oplysninger her end på det synlige web. Dels fylder det mere, dels bliver siderne så enorme. (forestil dig fx en avis’ avisarkiv lagt ud på det synlige web)
Når alt dette er sagt, skal jeg dog også bemærke at jeg har fundet talrige undtagelser til disse bemærkninger! Hvilket må tilskrives anarkiet på internettet
Se også dette weblogs tidligere artikel om pdf-filer 28.8.02.

Ingen kommentarer: