onsdag den 28. maj 2003

Link-søgning i søgemaskiner.
Linksøgning går ud på at finde ud af hvilke sider som linker til en bestemt side. Det kan være nyttigt i to tilfælde: En internetsideproducent kan være interesseret i at se hvor mange steder som omtaler vedkommendes side, en internetsøger kan for at kvalitetskontrollere en side kigge på hvilken type internetsider som anbefaler den fundne side.
En stikprøve skulle vise hvilken søgemaskine som skaffede flest oplysninger. Fem tilfældige adresser blev udvalgt: www.bibliotek.kk.dk, erikhoy.blogspot.com, www.islam.dk, www.libdex.com og www.daypop.com. I Altavista og Google foregår link-søgning ved at skrive: link:[adresse] i søgelinjen. Altså fx: link:erikhoy.blogspot.com. I Alltheweb kan man undlade link: og bare skrive internetadressen. I Alltheweb kan man i øvrigt både få en oversigt over hvilke sider som linker til og hvilke sider som indeholder ordene (i internetadressen). Dette sidste er en god facilitet, idet ikke alle angiver en internetadresse som et link. Bagsiden ved det er dog at der er utrolig megen støj i form af gentagelser.
Stikprøverne var ret entydige.
Der var overraskende stor forskel på hvor gode søgemaskinerne er til at spore links. Ikke uventet er tre bedste er Alltheweb, Altavista og Google. Mere overraskende er det måske at Altavista overgår de andre to, både i mængde og præcision!
De tre fandt aldeles ikke det samme antal link. Generelt fandt Altavista flest. Og et nærmere eftersyn viste at der var mange gengangere både på Alltheweb og på Google, og også en del på Altavista. Hverken Google eller Alltheweb havde fundet særlig mange links som ikke var med på Altavista. Alltheweb må dog siges at være bedre end Google, idet den også søger på internetadressen selv om den ikke er angivet som et link.
Konklusionen af denne lille stikprøve viser altså at Altavista er at foretrække ved linksøgning. Den gamle, frønnede kæmpe kan altså stadig væk lidt! I anden række kan man så prøve Google og Alltheweb – for fuldkommenhedens skyld.
Lidt tankevækkende er det at Google ikke er den bedste. Dels er den jo den største, dels bygger Googles sortering i særlig høj grad netop på page rank-princippet, dvs. på princippet om hvor mange som linker til en bestemt side. Men hvis Google ikke er i stand til at lokalisere disse links, hvad så….?

torsdag den 22. maj 2003

Hvordan finder man danske internetsider i (danske) søgemaskiner?
Her er to måder:
Den ene er at bruge de store ordsøgemaskiner Google, Alltheweb og Altavista, samt emnekatalogerne Yahoo og Dmoz (Open Directory). Ordsøgemaskinerne kan alle indstilles på at søge på danske sider, enten ved at afklikke i den enkle søgning eller ved at lave feltsøgning på sider med topdomænet .dk. (Se eventuelt indslaget om feltsøgning i arkivet, 4.11.2002). Emnekataloget Yahoo har en dansk udgave. I Open Directory åbner man menuen World (nederst) og klikker på Dansk. D.d. var der ca. 34.500 henvisninger. Open Directory bruger danske personer til at lægge sider ind. Niveauet er naturligvis noget springende, men det er sådan set et generelt fænomen, også hos de nedennævnte.
Den anden er at prøve en dansk søgemaskine. Her ser markedet mildest talt broget ud! Mange søgemaskiner har danske brugergrænseflader, men søger i virkeligheden i de store internationale (se arkivet, 18.3.2003). De er derfor ikke med i oversigten. De øvrige falder i tre meget klare målgrupper: Generelle, fritid og erhverv samt børn og unge.
Generelle søgemaskiner:
www.123portal.dk (T. E. Design). Ligner lidt et eksperiment I hvordan man kunne lave en søgemaskine.
www.jubii.dk Danmarks største emnekatalog. Indeholder over 80.000 links til danske hjemmesider, sorteret i 3000 kategorier.
kosmosnet.dk Kosmos Gateway er et lille emnekatalog med ca. 2.000 links ordnet efter bibliotekernes decimalklassesystem. Mange udenlandske links. Det særlige er at emnekataloget samler ”metalinks”, dvs. internetsider med links til andre sider. To bibliotekarer er blandt udgiverne. Alfabetisk emneoversigt.
www.ofir.dk Den kendte email-side har også et dansk emnekatalog. Præget af kommercielle sider, uanset emne. Det er ikke særlig godt vedligeholdt og indeholder mange døde links.
www.slider.dk ordsøgemaskine og emnekatalog. Ikke særlig stort, men udsøgt udvalg. Kun danske sider. Firmaet Slider er udenlandsk.
www.sol.dk Stor dansk emneguide med søgemaskine (alltheweb). Danske og udenlandske sider.
Søgemaskiner som fortrinsvis er til fritids- og erhvervsbrug:
www.1klik.dk Slogan er Internet for familien. Fritid, erhverv, har mange forskellige portalfunktioner – hvis man ellers har tid til at sætte sig ind i dem. En af de bedre portaler. Kombineret søgemaskine og indeks til danske web-dokumenter. Mulighed for at begrænse søgninger til 1klik.dk's emneindeks, filmdatabase, TV-programbase eller jobdatabase. Fungerer som portal, dvs. tilbyder en lang række særlige services herunder en WAP-portal.
www.eniro.dk (tidl. Kvasir). Søgefunktionen er identisk med Google. Eniro er et nordisk foretagende (ENRO) i stil med Krak, dvs. vejviserspørgsmål.
www.guide2www.dk er fra Peter Asschenfeldt Internet. Af udseende ligner det en af utallige andre emnekataloger, men skinnet bedrager. Det er i virkeligheden en erhvervsguide til virksomheder i Danmark. Emnekataloget dækker fortrinsvis erhvervsliv og fritid (hus, have o. lign.). Reklamer popper flittigt op
www.im-online.dk Endnu en temaguide. Profilen er her nok mest dating og erotik (telefonsex, cybersex, i den boldgade) – emnekataloget med mest fritid ligner mest et figenblad. Ophav er firmaet Intermedia.
www.onix.dk Emnekatalog med tvivlsom søgefunktion. Lavet af J. L.-gruppen.
Søgemaskiner for børn og unge
www.boerneporten.dk Børneporten. Mest for, ja børn. Mulighed for at indstille til 0-6, 6-12, 12-16 og voksen. Emnekatalog der er enkelt at bruge med ikoner på en triumfbuelignende port. Søgefunktionen fungerer ikke særlig godt!. Børneporten er heller ikke meget for at fortælle hvem de er. Den administreres af en person fra Vordingborg.
www.dotbot.dk De danske folkebibliotekers børnenetguide ”Kloge Åge”. Emnekatalog med gode alfabetiske indgange.
www.infoguide.dk Indeholder over 10.000 links for grundskoler og ungdomsuddannelser. De er ordnet efter skolefag, men har også et godt alfabetisk register.
www.ookay.dk Ookay: Ungdommelig pudsig søgemaskiner og katalog. Medier, computer, visse hverdagsservice (falck, netdoktor o. lign.). Ophav ukendt. Hvis man skal gætte ud fra reklamer, så Radio 2, Ung Web. Pudsige links til hvordan man bestiller take-away-mad via nettet.
Sammenfattende synes jeg ikke at nogen i dette udvalg er et alternativ til de solide danske emnekataloger som Jubii (specielt Jubii-Guiden) og Folkebibliotekernes Netguide, FNG. Men de er ikke desto mindre interessante forsøg i underskoven af udforskere af internettet og til gavn for nye ideer til hvordan vi alle sammen hurtigere kan finde rundt.
Et hurtigt regnestykke viser nemlig, at hvis en person skulle gennemse samtlige ca. 10 mia. internetsider og kunne bruge 1 sekund på hver side uden pauser, ja så ville det tage op imod 80 år. Altså en umulig opgave! Intet menneske på denne jord vil nogen sinde bare kunne nå at danne sig et overblik over hvad der findes.
Et omfattende oversigt er på home3inet.tele.dk/elgo/index.htm. Den er desværre ikke særlig opdateret og derfor fuld af døde links.

fredag den 16. maj 2003

Hvad går vi glip af?
De store søgemaskiner, Google og Alltheweb, har indekseret ca. 3 mia internetsider, eller langt under en tredjedel af alt hvad der findes. Hvad er det så disse søgemaskiner ikke indekserer? Og er det de ikke indekserer overhovedet noget værd? Hvis det ikke er noget værd, er der jo ingen grund til at bekymre sig om det!
Microdoc News har ved en enkelt stikprøve prøvet at finde ud af hvad vi går glip af. (se 10. maj 2003). Microdoc News har åbenbart fundet ud af en teknik som gør det muligt at efterspore samtlige steder på internettet hvor et bestemt ord (i eksemplet Googlology) optræder. Dette resultat sammenlignede de så med hvad Google fandt. Forskellen burde være det som vi går glip af. Resultatet af stikprøven viste:
Google indekserer omkring 1/3 af alle sider på internettet. Især internetsider ældre end 3-6 måneder er ikke med. Enten fordi de ikke er blevet indekseret, eller fordi Google ”mister” dem. (Husk derfor altid at bruge flere søgemaskiner. Selv om der er mange gengangere, finder andre søgemaskiner som regel noget andet).
Google medtager ca. halvdelen af alle weblogsider
Google medtager ca. 37% af alle .edu-sider
Google medtager ca. 29% af ”main stream” internetsider (Microdoc må mene landespecifikke og de øvrige generiske domæner). Google synes at indeksere omkring 80% af de op til 3 måneder gamle intersider i denne kategori.
Google medtager ca. 45% af nyheds-, informations- og emnekatalogsider
Google medtager 8 % af junksider (Geocities o.lign.) – og gudskelov for at det tal er meget lavt!
Derudover viste analyser af stikprøven at Google er tilbøjelig til at indeksere meget nye internetsider fra weblogs, .edu-sider og nyhedssider (op til 3 måneder gamle). (Op til 98%!). Endelig synes Google at ignorere internetsteder med få oplysninger.
Microdoc udleder heraf at Google tilsyneladende koncentrerer indekseringen om de internetsteder hvor der sker noget, dvs. de som opdateres ofte (dvs. inden for de sidste 3-6 måneder). At være i Googles indeks er således ikke en garanti for evigt ophold dér. Mange synes at ryge ud igen hvis de ikke opdateres.
Microdocs undersøgelse besvarer kun delvis det indledende spørgsmål. Mange udmærkede internetsider er ikke blevet opdateret i flere år. Så det i sig selv er ikke noget fravælgelseskriterium. Omvendt så har Google jo også sådanne sider med. Det modsiger Microdocs undersøgelse.
Hvis Google ”kun” har indekseret 1/3 af internettet, ja så lyder det faktisk ret fornuftigt at .edu-sider og nyhedssider er overrepræsenteret, mens junksider er kraftigt underrepræsenteret. Men det besvarer stadig ikke hvad det er vi går glip af.
Til slut: Alt dette har intet at gøre med den forkerte forestilling om at alt findes på internettet. Og at grunden til at man ikke finder det i søgemaskinerne er at man ikke søger godt nok. Lad det stå fast: Langt fra alt er på internettet og det er altså kun muligt at finde det som er lagt ud!

torsdag den 15. maj 2003

Mere billedsøgning: British Library.
British Library har åbnet sin omfattende billedbase af manuskripter, kort, musik, filateli m.m. (de oplyser desværre ikke hvor stor). British Library er Englands “Kongelige Bibliotek”, er et af verdens allerstørste biblioteker og har materialer som er omkring 3.000 år gamle.
De oplyser selv at de mest efterspurgte billedmaterialer er historiske illustrationer af dyr, men biblioteket har også specialiteter som indianske malerier, tegneserier og frimærker.
Basen er ligetil at søge i. Men det er lidt uforudsigeligt hvad der kommer frem. Den kan jo kun finde det som er på British Library. Her er nogle umiddelbare erfaringer fra stikprøver:
Mellem to ord sætter søgefeltet automatisk Og (Boolsk)
Trunkering foregår med %.
Bemærk at ”billeder” også er skanninger af tekstsider. Hvis man fx søger på Cromwell får man også skanninger af breve fra Martin Luther hvori Cromwell nævnes.
For at få et indtryk af hvad man kan få ud, kan man fx prøve at søge på Aristotle (dansk: Aristoteles). De otte fund er: et par billeder hvor Aristotle optræder i titlen, et par billeder hvis ophav angives som Pseudo-Aristotle. Eller søge på Bacon. Det udløser en ordsøgning i talebobler! Man får fx tegninger fra 1800-tals satiremagasinet Punch hvor ordet bacon optræder i taleboblerne.
Den avancerede søgning er fortrinsvis til brug på stedet (Britisk Library). Men for søgere som ikke sidder der, er dog også mulighed for at søge på værktitler, ophav og illustrator.
Billedkvaliteten er helt i top. Bortset fra at alle billeder er mærket med British Library nederst. Det er ikke en søgemaskine som egner sig til generel billedsøgning, men udelukkende til specialiteter.
Se en systematisk gennemgang af billedsøgning i arkivet fra 4.4.2003.

fredag den 9. maj 2003

Hvad søger internetsøgere efter?
Totalt set er det nok umuligt at finde ud af. Men Lycos offentliggør fra tid til anden en top 50-liste over de mest anvendte søgeord i Lycos. Om den så er repræsentativ for alle søgemaskiner står hen i det uvisse. Hvis resultaterne står til troende, så må man konkludere følgende:
Den altoverskyggende del af søgningerne vedrører kun 2 fritidsinteresser: musik/popstjerner og sport (af flere slags). Hele 44 af de 50 emner kan rubriceres under dette felt. De 6 resterende er fordelt på medienyheder: SARS (4) og Irak (30). Derudover er Mors Dag (10) og Bibelen (31) repræsenteret ved siden af to populære skoleemner i USA: Civil War og World War Two.
Dette afspejler sig også i de emnelister som Lycos laver over de mest efterspurgte søgninger inden for specielle emner. Af de 14 emner er der kun et par stykker som ikke vedrører ”fritidsområdet”.
Listen er dog renses for ”beskidte emner”. Derfor laver Lycos også en ”rå” udgave. Overraskende nok er denne ikke synderligt forskelligt fra den ”rensede” udgave. Faktisk er der kun et par pornosider ekstra med her – og ikke blandt top 10.
De fleste andre søgemaskiner laver lignende undersøgelser, men for de flestes vedkommende angiver de dem ikke som ”top-10-lister”. Fx har Alltheweb en funktion hvor man kan se hvilke ti ord folk aktuelt søger på. Hvis man søger på noget, er der nederst et link til ”See our last 10 queries”. Denne kan løbende opdateres (klik på ”Refresh this list”. Den ændrer sig fra sekund til sekund! Da jeg prøvede, bekræftede den meget godt Lycos-oversigterne.
Det stemmer også overens med hvilke søgemaskiner folk foretrækker. Search Engine Watch har en statistik fra i år om hvilke søgemaskiner folk bruger mest. Når bort ses fra Google, så foretrækker folk AOL, Yahoo, MSN search, Ask Jeeves, Info Space og Altavista.
Dette er helt irrationelt set i forhold til en effektiv søgestrategi: Trænede internetsøgere foretrækker søgemaskiner som Alltheweb eller Teoma. AOL, Yahoo og MSN bruger oven i købet resultater fra fx Google! Årsagen til at disse søgemaskiner er populære, kan være at de er emnekataloger der netop henvender sig til det ”brede” internetpublikum.
Det sætter et kvalitativt perspektiv på Danmarks Statistiks kvartalsvise undersøgelser af hvad folk bruger internettet til. Her svarer 66 % at de bruger det til informationssøgning. Det taler jo meget for at danskerne er et oplyst folk. Eller hvad? Hvis ”informationssøgning” dækker over søgning efter information om sport og popstjerner, så er det en temmelig ensidig informationssøgning.
Firmaet OneStat har for nyligt lavet en statistik over hvor mange ord folk søger med ad gangen. Flest bruger to ord (29,22%), dernæst et og tre (hhv. 24,76% og 24,33%). Resten bruger 4 eller flere ord. Men denne undersøgelse siger selvfølgelig ikke noget om hvad der så bliver søgt på.
Som et kuriosum kan nævnes at MSN har offentliggjort en liste over de mindst brugte søgeord. Det er om at gå med bænkebidere, stednavne med ”z”, en zoo-himmel samt andre helt personlige interesseområder. MSN's marketingdirektør for søgning siger: “Ikke alle er til hårdt nyhedsstof, tjekkede berømtheder og sladder.” (Kilde: IT-avisen 6. maj 2003)

lørdag den 3. maj 2003

Check dine funds ophav.
Af og til er det nyttigt at finde andenhånds-oplysninger om et bestemt internetsted. Hvis man ikke kender ophavet, bør man undersøge det nærmere, hvis man skal bruge oplysningerne seriøst.
Undtagelser er sider med topdomænet .gov og .edu. (Topdomænet er det sidste led i internetadressen, eventuelt før undersiderne – de er markeret med /skråstreg). .gov er USA’s føderale og de enkelte staters regeringer. .edu er USA's højere læreanstalter. Alle andre, både landekoderne (.dk m.fl.) og de generiske domæner (.com, .org m.fl.), bør man være kritisk over for.
Internetsider med topdomænet .dk kan man undersøge hos DK-hostmaster. De administrerer .dk-topdomænet. Her kan man få oplyst hvem der har registreret siden, hvem der er ”fuldmægtig” og hvem der betaler. Brug søgefaciliteterne under Domæne/finde (se menuen yderst til venstre på siden).
DK-hostmaster henviser også til 3 Who-Is-databaser hvorfra man kan søge oplysninger om internetsider med andre landes topdomæner, samt 1 database til at søge på .com, .org og .net.
Det er altså nogenlunde nemt at checke lande-topdomæner. Men det gælder ikke de generiske topdomæner. Den overordnede instans for topdomæner er ICANN (The Internet Corporation for Assigned Names and Numbers). Denne har imidlertid uddelegeret administrationen af topdomæner til en række underorganisationer. Fx er topdomænet .org uddelegeret til PIR (Public Interest Registry). Disse underorganisationer har så igen uddelegeret registreringsretten.
Et samlet overblik over dette nærmest uoverskuelige hierarki kan fx ses på www.iana.org/domain-names.htm (IANA er ICANN’s forgænger). Her er link til landekoder, generiske domæner og infrastrukturdomænet .arpa. Fra denne oversigt kan man så prøve om der er en database i stil med dk-hostmaster som man kan søge oplysninger i.
En anden mulighed er at bruge søgemaskiner. Et eksempel: www.kic-l.dk/okkulte/satanisme.htm. Det er klogt at koncentrere sig om hovedsiden, altså www.kic-l.dk. Det der står efter skråstregen er jo kun undersider (i eksemplet /okkulte/satanisme). Internetsiden oplyser selv at det er Kristent Informations Center, og deres formål og hensigt lyder smuk, tilforladelig og sympatisk.
Men hvad siger andenhåndsoplysninger?
I Alltheweb skrives internetadressen (www.kic-l.dk) i søgefeltet. Tryk search. Nu kommer en lille 5-punktsoversigt frem. Det interessante punkt er Discover who owns… Her finder man ud af at siden ejes af Forlaget Lychnos ved Jørgen Molin. På Kristent Informations Centers side fandt vi også Ellen Molin, så den er god nok. Herudfra kan man finde ud af hvilke type bøger forlaget udgiver. Og man kan lave en søgning (fx i Alltheweb) på Jørgen Molin. Diverse kilder oplyser her at de er frikirkepræster, uddriver onde ånder, er imod homoseksuelle præster, rockmusik og ”Tryllefløjten” m.m. (Husk dog også at checke disse kilder!)
www.alexa.com er en anden mulighed. (Alexa bruges bl.a. af ez2www.com). Skriv kristent informations center. Tryk dernæst på Site Info (nederst i fundet). Dette giver nu en række oplysninger om: sidens egen præsentation af sig selv, ”folk der besøger denne side besøger også…”, kontaktadresse og eventuelt nogle besøgendes kommentarer til siden. Oplysningerne om hvilke andre sider, som de besøgende på KIC bruger, kan give et fingerpeg om hvad siden kan bruges til. I eksemplet kan man se at det må være den yderste margen af folkekirken.
Den eneste ulempe ved disse måder at undersøge ophav er at ingen kan knække internetadressen længere tilbage end 2 domæneled. Det er et problem ved adresser som www.kkb.bib.dk og www.bibliotek.kk.dk. I begge tilfælde går alle kun to led tilbage, altså til bib.dk og kk.dk, mens leddene kkb og bibliotek ikke undersøges.
Læs også artiklen i InfoToday, maj/juni 2003: Who was, Whois, and Who Will BE: Domain name ownership research