onsdag den 28. august 2002

Specielle filer, pdf-filer og det usynlige net.
De fleste søgemaskiner kan finde tekst i html-format, billeder og lyd (mp3). Disse filer kan åbnes af de kendte browsere som Explorer og Netscape, eventuelt med lidt assistance fra software i form af medieafspillere som RealPlayer, MediaPlayer o.lign.
Men fra internettet er der også adgang til en række fil-typer som ikke alle søgemaskiner finder. Et eksempel er pdf-filer. Dette er en fil-type – dokumenter - som bliver mere og mere almindelig på internettet. De fleste kender den, enten når Acrobat Reader automatisk åbner dem, eller når de får besked på at de først skal downloade Acrobat Reader for at læse filen. Andre eksempler er doc-filer (Word), excell-regneark og rtf-filer.
De fleste af den slags filer ligger ikke åbent fremme på det synlige web, men befinder sig i det usynlige web.
Det usynlige web består af databaser. Det karakteristiske for disse databaser er at man ikke kan navigere (klikke) sig frem til dem, men selv aktivt skal gå ind og skrive søgeord i et søgefelt på en bestemt hjemmeside. Det gælder fx bibliotekernes kataloger på internettet. På andre sider har webmasteren gjort dette arbejde for en, dvs. indlagt søgestrenge som automatisk henter disse filer frem.
Det gælder fx Silkeborg Biblioteks ”Mimers Brønd”. Et klik på bøger om astrologi udløser en søgning: http://www.bibliotek.dk/linkme.zap?ccl=em%3Dastrologi%3F+ikke+cl%3D99.4+ikke+ma%3Dskø+og+ma=bå&target=DfaFolk
Oversat til godt dansk betyder det at man automatisk foretager en emnesøgning i Bibliotek.dk på astrologi og udelukker bl.a. 99.4 og skønlitteratur!
Antallet af dokumenter på det usynlige web er ca. 500 mia. dokumenter, mens det synlige internet "kun" har ca. 3 mia. dokumenter. Mange af det usynlige webs dokumenter er ligegyldige, andre kræver adgangskode og penge på bordet først, men en betragtelig del indeholder vigtigere information end der ligger på det synlige internet.
Fælles for dem er imidlertid at dokumenter skrevet i sådanne filtyper ikke registreres af de fleste søgemaskiner. De ”overser” dem simpelt hen.
Som en af de få har Google udviklet en teknik som kan finde disse specielle filer som Adobe (ps og pdf), Word (doc), Excel (xls), Powerpoint (ppt), og rich text (rtf).
Og hvad skal du så bruge det til? Jo, i sig selv er det ikke et kvalitetskriterium at et dokument er skrevet i pdf-format. Men i praksis er det. Støder du på omtale af rapport i en avis eller en låner "har hørt noget om nogle forskningsresultater..." kan det ofte være noget en journalist har bearbejdet ud fra en undersøgelse eller en rapport, som ligger som pdf-fil på nettet.
Du kan søge pdf-filer på to måder: 1) I Googles avancerede søgebillede. Kig ud for ”Filtype” og klik rullegardinet ned (normalt står den på ”alle filer”). Herefter vælger du ”pdf” og skriver søgeord øverst i en af de fire søgelinjer. 2) ved i det enkle søgebillede at skrive filetype:pdf og dit søgeord.
Pdf-filer rangerer lavt i Googles sortering. Det skyldes at Google sorterer efter hvor mange der linker til en side. Og da der jo normalt ikke linkes/kan linkes til det skjulte web, ja så viser Google dem altså sidst.
Det kræver træning, bevares. En pdf-filsøgning på Nørrebrosagen giver ikke noget. Derimod giver søgning på piratkopiering et godt resultat. Søger du vildt på ordet og afgrænser til dansk får du 3.770 hits. En yderligere afgrænsning til pdf-filer giver 109 hvoraf der allerede blandt de første er gode hits fra Europaparlamentet, Antipiratgruppen og Koda.
Med lidt snilde kan også Alltheweb søge på pdf-filer. Efter søgeordet kan du skrive url.all:pdf, eller vælg det avancerede søgebillede og skriv pdf i feltet Must include, hvorefter du klikker på in the url i rullegardinet. Det lader til at Alltheweb tager mere af pdf-dokumenterne med. Google ser ud til at stoppe ved 120K, mens Alltheweb ser ud til at indeksere hele pdf-dokumentet.

Ingen kommentarer: