Internetsøgning: august 2002

onsdag den 28. august 2002

Specielle filer, pdf-filer og det usynlige net.
De fleste søgemaskiner kan finde tekst i html-format, billeder og lyd (mp3). Disse filer kan åbnes af de kendte browsere som Explorer og Netscape, eventuelt med lidt assistance fra software i form af medieafspillere som RealPlayer, MediaPlayer o.lign.
Men fra internettet er der også adgang til en række fil-typer som ikke alle søgemaskiner finder. Et eksempel er pdf-filer. Dette er en fil-type – dokumenter - som bliver mere og mere almindelig på internettet. De fleste kender den, enten når Acrobat Reader automatisk åbner dem, eller når de får besked på at de først skal downloade Acrobat Reader for at læse filen. Andre eksempler er doc-filer (Word), excell-regneark og rtf-filer.
De fleste af den slags filer ligger ikke åbent fremme på det synlige web, men befinder sig i det usynlige web.
Det usynlige web består af databaser. Det karakteristiske for disse databaser er at man ikke kan navigere (klikke) sig frem til dem, men selv aktivt skal gå ind og skrive søgeord i et søgefelt på en bestemt hjemmeside. Det gælder fx bibliotekernes kataloger på internettet. På andre sider har webmasteren gjort dette arbejde for en, dvs. indlagt søgestrenge som automatisk henter disse filer frem.
Det gælder fx Silkeborg Biblioteks ”Mimers Brønd”. Et klik på bøger om astrologi udløser en søgning: http://www.bibliotek.dk/linkme.zap?ccl=em%3Dastrologi%3F+ikke+cl%3D99.4+ikke+ma%3Dskø+og+ma=bå&target=DfaFolk
Oversat til godt dansk betyder det at man automatisk foretager en emnesøgning i Bibliotek.dk på astrologi og udelukker bl.a. 99.4 og skønlitteratur!
Antallet af dokumenter på det usynlige web er ca. 500 mia. dokumenter, mens det synlige internet "kun" har ca. 3 mia. dokumenter. Mange af det usynlige webs dokumenter er ligegyldige, andre kræver adgangskode og penge på bordet først, men en betragtelig del indeholder vigtigere information end der ligger på det synlige internet.
Fælles for dem er imidlertid at dokumenter skrevet i sådanne filtyper ikke registreres af de fleste søgemaskiner. De ”overser” dem simpelt hen.
Som en af de få har Google udviklet en teknik som kan finde disse specielle filer som Adobe (ps og pdf), Word (doc), Excel (xls), Powerpoint (ppt), og rich text (rtf).
Og hvad skal du så bruge det til? Jo, i sig selv er det ikke et kvalitetskriterium at et dokument er skrevet i pdf-format. Men i praksis er det. Støder du på omtale af rapport i en avis eller en låner "har hørt noget om nogle forskningsresultater..." kan det ofte være noget en journalist har bearbejdet ud fra en undersøgelse eller en rapport, som ligger som pdf-fil på nettet.
Du kan søge pdf-filer på to måder: 1) I Googles avancerede søgebillede. Kig ud for ”Filtype” og klik rullegardinet ned (normalt står den på ”alle filer”). Herefter vælger du ”pdf” og skriver søgeord øverst i en af de fire søgelinjer. 2) ved i det enkle søgebillede at skrive filetype:pdf og dit søgeord.
Pdf-filer rangerer lavt i Googles sortering. Det skyldes at Google sorterer efter hvor mange der linker til en side. Og da der jo normalt ikke linkes/kan linkes til det skjulte web, ja så viser Google dem altså sidst.
Det kræver træning, bevares. En pdf-filsøgning på Nørrebrosagen giver ikke noget. Derimod giver søgning på piratkopiering et godt resultat. Søger du vildt på ordet og afgrænser til dansk får du 3.770 hits. En yderligere afgrænsning til pdf-filer giver 109 hvoraf der allerede blandt de første er gode hits fra Europaparlamentet, Antipiratgruppen og Koda.
Med lidt snilde kan også Alltheweb søge på pdf-filer. Efter søgeordet kan du skrive url.all:pdf, eller vælg det avancerede søgebillede og skriv pdf i feltet Must include, hvorefter du klikker på in the url i rullegardinet. Det lader til at Alltheweb tager mere af pdf-dokumenterne med. Google ser ud til at stoppe ved 120K, mens Alltheweb ser ud til at indeksere hele pdf-dokumentet.

fredag den 23. august 2002

Statistik
Statistik er et område hvor internettet virkelig har en aktualitetsberettigelse. De færreste biblioteker har råd til at abonnere på de nyeste statistikker. Alene Danmarks Statistiks boglige og periodiske udgivelser ville kunne ruinere et mindre bibliotek. Ydermere udkommer papirudgaverne ofte med så stor forsinkelse, at de er uaktuelle og kun har historisk interesse.
Der er altså al mulig grund til at bruge internettet. Men det er svært at finde statistik på internettet. Internettet bruger som bekendt ikke formkoder (som fx tekst, musik, statistik). Derfor kan de almindelige søgemaskiner kun bruges med en stor træning. Som regel et halsbrækkende foretagende. En gang imellem kan man være heldig hvis man: kombinerer ord som statistics og statistik med sine søgeord, kombinerer med årstal, land.
En anden måde er at forestille sig hvor en statistikkilde kunne være: Ønsker du statistik om rygning i Danmark kunne du prøve Tobaksskaderådets hjemmeside, eller Philip Morris. På begge sider vil du kunne finde statistik rundt omkring på deres hjemmesider.
Eller endnu bedre: finde en portal. En sådan har Danmarks Statistiks Bibliotek lavet.
www.dst.dk/bibliotek
Det har udarbejdet en linkside til en lang række virksomheder, organisationer og institutioner som udarbejder statistik, både i Danmark og udlandet.
De findes under menuen ”links til andre statistikkilder”. Den er opdelt i tre: ”Danmark”, ”Nationale statistikbureauer” og ”internationale organisationer”.
”Danmark” fører til et lille emnekatalog med den nævnte linksamling. Desværre fører linkene kun til hovedsiden. Man skal selv finde rundt i undersiderne. Det kan betyde en del leden rundt.
”Nationale statistikbureauer” er let at finde rundt i. Alverdens lande er simpelt hen listet op alfabetisk, det er bare med at trykke på landet.
De ”internationale organisationer” omfatter EU, OECD, FN med alle underorganisationer, Verdensbanken og øvrige (meget kort!).
Danmarks Statistiks oversigt kan suppleres af Folkebibliotekernes netguide,
www.fng.dk
Den har et lidt tilfældigt udvalg opdelt på Danmark, Norden og Europa
Af internationale portaler til statistik kan jeg nævne to i hver sin ende af detaljeringsgraden:
www.geohive.com Meget generel og oversigtlig. Den er groft sagt opdelt i global, regional og national statistik, og giver kun de helt overordnede tal. Og nogle diagrammer. Her er også links til landenes statistikbureauer.
www.berinsteinresearch.com Vælg menuen Resources/statistics. Og vælg bogstav i indexet (fx t – tobacco). Den er modsat Geohive for forskere.
Men uanset hvad: mundheldet om de tre former for løgn (hvid løgn, sort løgn og statistik) gælder om noget på internettet! Holder du dig ikke inden for de ovennævnte links, så kan du hurtigt komme ud i utroværdig statistik. Så tjek ekstra grundigt de sider som du finder.

torsdag den 22. august 2002

Billedsøgning
Hvordan virker søgemaskinernes billedsøgninger egentlig? For det er vel klart for enhver at søgemaskinerne ikke kan ”se” hvad der er på et billede.
Søgemaskiner søger efter grafiske filer. De ender på fx .gif, .jpg, .jpeg, .bmp o.lign. Dernæst tjekker de hvad disse grafiske filer i øvrigt hedder.
Eksempel: på Zoologisk Haves hjemmeside er der et billede af en giraf. Dette billede har adressen:
www.zoo.dk/site/06Zoo_nyheder/01Nyheder/01Pressemeddelelser/40Giraf/Giraf4.gif
Det er altså en .gif-fil. Når søgemaskinen har fundet denne fil i sin database kigger den på hvad der i øvrigt står i filnavnet. Der står ordet giraf to steder. Uheldigvis står der faktisk ”40giraf” og ”giraf4”, så hvis søgemaskinen ikke er i stand til at ignorere tallene finder den ikke dette billede.
Der er også andre faldgruber så gode billeder ikke er med i søgningen. Den berømte Hamburg Zoo har fx nogle særdeles gode billeder af elefanter. Et af dem har denne adresse:
www.zoohamburg.de/bilder/ele2.jpg
En billedsøgning ville finde denne på endelsen .jpg. Men uheldigvis står der intet om elefant i navnet, der står kun ”ele2”! Dvs. at man skal søge med ele2 for at finde dette billede, man finder den ikke hvis man søger med ”elefant” eller ”elephant”.
Til gengæld får man så et billede af en præmieoverrækkelse fra en Karnevalsfest i Gotha med nogle tyske mænd med narrehatte på – uden antydning af elefanter. Titlen på dette billede er nemlig:
www.geschwisterweisheit.de/images/elefant.jpg
Fordi det forestiller Geschwisterweisheit’ens overrækkelse af den lokale elefantorden…
Nogle få søgemaskiner søger også på hjemmesider hvis titel tyder på at der er billeder om et bestemt emne. Dette er selvfølgelig en meget dårlig måde at søge på. ”fynske billeder photo gallery” kunne tyde på at der var billeder, men næppe fra Fyn.
Praksis viser imidlertid at hvis man ikke er kræsen, så er billedsøgning i fx Alltheweb, Google og Ixquick ganske fortrinlige. Alle kan findes i de specielle ”faneblade” over søgefelterne i enkel søgning. Alle tre søgemaskiner finder normalt gode hits hurtigt og viser i miniformat de fundne billeder som man så kan klikke sig videre på.
Til mere præcise søgninger er det dog sjældent nok. De færreste generelle søgemaskiner bruger håndkraft til at finde billeder og derfor kan det godt betale sig at bruge specielle billed-emnekataloger hvis ens billedsøgning skal være nøjagtig.

onsdag den 21. august 2002

Trunkering
En af bibliotekarers mest anvendte søgeteknikker er at trunkere en søgning. Mest almindeligt er højretrunkering. I biblioteksbaserne er det normalt et spørgsmålstegn, fx betyder udenrigsminister? at man vil søge på alle ord der starter med udenrigsminister. Dvs. ord som udenrigsministeren, udenrigsministeriet, udenrigsministersekretær, osv.
Med internetsøgemaskiner forholder det sig helt anderledes. For det første er ikke ?, men * det mest almindelige trunkeringstegn. For det andet er det meget få søgemaskiner som anvender trunkering. Den største, alltheweb, anvender således ikke trunkering, ejheller Wisenut. Google bruger *, men ikke til trunkering! I Google betyder * en slags "ordmaskering". Prøv fx med "lars * trier" og "lars trier". Her betyder * at du har "maskeret" et helt ord (fx von). Husk, at der skal mellemrum på begge sider af *.
Metasøgemaskinen Ixquick bruger almindelig trunkering med * (de kalder det et jokertegn). Microsofts søgemaskine giver også mulighed for at trunkere. Her skal du gå ind i den avancerede søgning og afkrydse i feltet "enable stemming"
Konklusionen er altså: Hvis du vil trunkere, så brug Ixquick eller MSN. Hvis du kan nøjes med en slags ordmaskering, så brug bare Google. I Wisenut, Alltheweb (og Google) er du altså nødt til at foretage lige så mange forskellige søgninger som der er afledninger af et ord.

tirsdag den 20. august 2002

Internetsøgning specielt for børn
Det kan tit være et problem at finde velegnede kvalitetssider til børn. De fleste søgemaskiner er ikke indrettet specielt til børn. Derfor må man kende nogen som kun søger for disse. Nedenstående er et lille udvalg som kan bruges af forældre og lærere i folkeskolen:
www.infoguide.dk En af de bedste
www.mimers.dk Silkeborg Bibliotek
www.dotbot.dk
www.nethunden.dk Ikke for god søgemaskine
scienceforfamilies.allinfo-about.com Ældste folkeskole-klasser
boerneporten.dk svingende kvalitet. En del kommercielle.
www.laerernet.dk privat, men mange gode links, opgaver

søndag den 18. august 2002

Tænk journalistisk, ikke bibliotekarisk når du søger på internettet.
Bibliotekerne har standardiseret deres kataloger: formater, emneord, hvilke elementer der skal med i bogposterne osv. Men sådan er det ikke på internettet. Vidste du at bibliotekernes emneord er standardiserede? Det betyder at du skal søge på Fremmedlegionen, ikke fremmedlegion eller den franske fremmedlegion. For kun Fremmedlegionen er det standardiserede emneord. Sådan er det selvfølgelig ikke på internettet. Der hersker anarki og vilkårlighed.
Derfor er det godt at holde sig følgende for øje når du skriver i søgefelterne: Brug så vidt muligt anførselstegn, prøv at søge ved hjælp af sætninger og søg med ufuldstændige sætninger. Hvorfor nu det? Jo, tag fx spørgsmålet: hvem byggede Rundetårn? Det står garanteret på internettet. Søger du bare på det standardiserede emneord Rundetårn får du alt for mange poster. Tænk på hvordan denne oplysning vil stå på nettet: "I 1600 og hvidkål byggede Christian den 4 Rundetårn", eller "Christian d. 4 byggede Rundetårn i 1600 og hvidkål". Hvordan finder du så en sådan sætning? Jo, du skriver fx: "byggede Rundetårn", eller "Rundetårn blev opført" e.lign. Vupti, så får du langt mere præcise svar. (OK, jeg ved godt at Chr. 4 ikke stod med murerske og mørtel og byggede Rundetårn, det var bare et eksempel).

Vær ikke enøjet: Brug andre søgemaskiner end Google.
Google har siden sommeren 2001 været den mest foretrukne søgemaskine blandt internetsøgere. Og med god grund: den er hurtig, sorterer godt og er vældig stor. Men den har en meget alvorlig fejl: pga. det særlige page-rank-system hvor ofte-citerede websteder rangeres højt kommer nye kvalitetssider først øverst efter lang tid, måske først efter ca. 1 år. Eller når tilstrækkeligt mange henviser til siden. Men for øvrigt er man også godt på herrens mark hvis man ikke finder det man søger blandt de 20-30 første hits. Google har nemlig ikke særlig mange gode muligheder for at forfine resultaterne.
Men hvilken maskine skal man så også bruge? Tja, der er gode bud som www.wisenut.com og den endnu meget lille www.teoma.com. De er begge nye. Men der er såmænd også et særdeles kvalificeret bud fra den "gamle garde", alltheweb. Førhen også kendt som Fast. Alltheweb er aktuelt større end Google! Dens quick-and-dirty-resultater er ikke så godt sorterede som Googles. Men til gengæld har den en maskinel underinddeling af resultaterne i mapper som nogen gange - ofte - kan føre os til rigtig gode resultater. Mit bud på en Google-ligeværdig søgemaskine er altså alltheweb. Prøv den. Måske internettets mest oversete søgemaskine...

Billede af dette weblogs bestyrer kan ses her

Sider