mandag den 29. september 2003

Højst forvirrende udvalg af fund!
Det har ofte undret mig at en lille søgemaskine som Teoma fra tid til anden giver bedre resultater end de to store, Google og All The Web. Men kun nogen gange. Og det har ligeledes undret mig at Google og All The Web ofte finder mange resultater ved en søgning, men at det så blot er mange ældre udgaver af den samme side. Kort sagt: hvilken søgemaskine medtager mest ”støj”, dvs. ubrugelige søgeresultater.
Så jeg satte mig for at finde ud af om der var noget system i det. Og det nedslående svar er: Nej, det er det ikke! Fire søgemaskiner, Alltheweb, Altavista, Google og Altavista blev udsat for 5 fuldstændig ens søgninger. De fem søgninger var udvalgt efter et fælles kriterium: De 4 skulle alle være fra et internetsted som enhver søgemaskine med respekt for sig selv burde have med: Folkebibliotekernes Netguide, Library Of Congress, Natur- und Tierpark Goldau og Jerusalem Post. Det sidste var denne weblog.
Den side som søgemaskinerne skulle finde, var en underside som havde været på internettet i mange måneder – og som altså burde være indekseret i søgemaskinernes database. Det var siden ”Søgetips” i FNG, ”About” hos Library of Congress, dyreparkens restaurant, hovedmenuen på Jerusalem post og webloggens marts 2003 arkiv.
Resultatet peger i alle retninger og giver egentlig ingen anvisninger på hvad man skal stille op som internetsøger. Alle var fælles om at finde naturparken – og alle fandt kun dette ene fund. Og stort set alle var enige om at webloggens martsarkiv ikke skulle indekseret – undtagen Google. Og det var især arkiv-funktionen (altså dette at gemme gamle udgaver) som skabte forvirring. Både Alltheweb og Google gemmer gamle udgaver af internetsider, men mens Google havde gemt stort set alle gamle udgaver af webloggen (på nær 3), så havde kun All The Web gemt gamle udgaver af Jerusalem Post (66 mod Googles kun 9) og af FNG (5). Faktisk viste det sig at selv om Google har indekseret FNG, så har den altså ikke indekseret siden ”Søgetips”, selv om denne har været på i årevis i mindst 4 forskellige udgaver!
Testen gav ikke noget klart svar på om All The Web eller Google indeholder flest gamle udgaver. Kun at det er de to som gør det! For det viste sig at hverken Teoma eller Altavista indeholdt særligt mange ældre udgaver.
Google finder som oftest mange flere søgeresultater end de andre søgemaskiner, men kigger man nøje på dem, viser det sig at ganske mange af dem faktisk kun er forskellige udgaver af den samme side. Godt nok viser Google så kun de nyeste med mulighed for at ”lignende sider” eller angiver i slutningen af oversigten at man kan se samtlige fund. All The Web viser bare de ældre udgaver i en skønsom blanding med de øvrige fund. Så spørgsmålet er egentlig: Hvor kvalitativt bedre er Google og All The Web i forhold til Teoma og Altavista? Er det bare fordi Google har formået at skabe sig et ”brand” som det ”man” bruger?
Testen viser at det stort set lige meget hvilken af de fire søgemaskiner man bruger hvis man kun er interesseret i nye sider. Hvis man derimod gerne vil læse gamle sider også, skal man vælge Google og All The Web. Testen stiller flere spørgsmål end den havde sat sig for at besvare. Og især stiller den spørgsmålstegn ved hvor meget det egentligt er værd med alle disse.
Jeg har dog en ganske udokumenteret fornemmelse: All The Web er bedre til at finde skandinaviske sider end Google er. Denne fornemmelse kan jeg kun begrunde i mange års brug og sammenligner af søgninger i de to søgemaskiner.
Men da det er robotter som fylder søgemaskinernes databaser, vil det aldrig være muligt direkte at sammenligne. Så indtil vi en dag finder en metode, bygger den slags vurderinger udelukkende på stikprøver og på fornemmelser. Desværre.

onsdag den 24. september 2003

Teknik på internettet.
Der sker ikke så meget på søgemaskinefronten lige nu. Dette indslag er derfor teknisk. Det handler altså ikke så meget om søgning, men de tekniske forudsætninger som tit er nødvendige når man søger – hvad gør man når….?
Kend Din PC er en dansk side. Den retter sig nu ikke specielt til internettet (det er kun en af menuerne), men til pc-brugere generelt. Der er altså også tekstbehandling, databaser, postsystem m.v. Alt sammen Microsoft. For internetsøgere er det menuen Internet Explorer 5.5 der er interessant. Den gennemgår alle de mange faciliteter som ligger i Explorers værktøjslinjer og lidt om hvordan man søger på internettet.
Den kan eventuelt bruges til et hurtigt opslag i stil med: ”Hvordan er det nu man gemmer en webside?”, men det kræver at man kender lidt til siden i forvejen.
How Stuff Works er et emnekatalog for en masse teknik som man kan blive nødt til at bruge. Det er på engelsk, så det kræver et elementært kendskab til engelsk, men er i øvrigt dejligt fri for indforstået fagsprog! Hovedemnerne befinder sig øverst oppe: computer, bil, elektronik, videnskab, hjemme, underholdning, penge, rejser, folk.
For internetsøgere er især menuerne computer og elektronik interessante. Under menuen computer er ca. 40 valgmuligheder, alt fra hvordan søgemaskiner til webservere virker. Under elektronik kan man finde alt det tilbehør som en internetsøger ofte har brug for at vide noget om – og her er i øvrigt også ganske gode forklaringer på mange af de mest almindelige computerudtryk.
Artiklerne er ganske korte, men meget informative. Faktisk bedre end i mange af de såkaldte leksika og opslagsbøger om internettet. Nybegyndere kan ved surfing rundt på How Stuff Works lære ganske meget.
Link:
Kend din PC: www.kenddinpc.dk
How Stuff Works: www.howstuffworks.com

onsdag den 17. september 2003

Ti råd til bedre søgninger.
Websearch har ti gode råd til den trænede internetsøger for at forbedre sine søgninger. Flere af disse temaer har tidligere været i Internetsøgning. Pga. rådenes overskuelighed følger de her - med kommentarer. Rådene er henvendt til videnskabelige forskere, men kan udmærket bruges af alle andre – med lidt tilretning.
1. Bedre spørgsmål giver bedre svar. Det kan man gøre på flere måder: Brug så vidt muligt anførselstegn, byt om på rækkefølgen af dine søgeord for at få ændret sorteringen af fundene, prøv at søge ved hjælp af sætninger og søg med ufuldstændige sætninger. Tag fx spørgsmålet: hvem byggede Rundetårn? Søgning på Rundetårn giver alt for mange poster. Men sætninger fx: "byggede Rundetårn", eller "Rundetårn blev opført" giver mere præcise svar. Fornuftige webmastere giver deres sider en titel som fortæller hvad siden indeholder. Den står øverst oppe i den mørkeblå streg). Er titlen det samme som ens søgeord, er det et indicium på at siden er relevant. (Se internetsøgning om søgesprog 8.12.02 og feltsøgning 4.11.02)
2. Brug nyhedsgrupper lavet af eksperter, søg I anerkendte kvalitetstidsskrifter og emnespecifikke emnekataloger til at finde forskningsmateriale som ikke kan findes af de normale søgemaskiner. Fx kan Science Direct søge i mere end 1,800 sådanne kvalitetstidsskrifter. Open Directory et andet med mere end 55,000 tilknyttede som har samlet over 3.8 millioner websider. Søgemaskiner kan også bruges til at finde sådanne emnespecifikke emnekataloger ved at søge med emnet +"web directory". En såkaldt uægte kommandosøgning (se Internetsøgning 19.8.03).
3. Abonner på emailnyheder. Imange internetsteder tilbyder at udsende nyhedsbreve for at du kan holde dig ajour på internettet. Derudover er der aviser og søgemaskiner som Google (Google alerts) kan lave automatiske søgninger med jævne mellemrum. (Se også Internetsøgning, 22.1.2003).
4. Avancerede søgeteknikker. Det omfatter brug af søgesprog og feltsøgning (Internetsøgning har særskilte temaer herom, se oversigten over arkivet øverst).
5. Søge artikler og indekser. Sådanne indekser befinder sig normalt på det usynlige internet og findes derfor ikke af almindelige søgemaskiner. Her henviser Science Direct til videnskabelige baser, men der er også andre steder, såsom Find Articles, avisernes arkiver og andre.
6. Download forskellige værktøjer. Søgemaskiner som Google og Teoma tilbyder at man kan lægge værktøjslinjer under de normale til browsere som Internet Explorer. Her findes tit nogle ekstra faciliteter. I Google fx mulighed for at stoppe popups og en grafisk visning af siders ”ranking”.
7. Føre regnskab med tidligere søgninger. Dette er ikke et råd som jeg finder meget bevendt. Selvfølgelig skal man da lære af tidligere søgninger, men det er nok mest forskere som har brug for at undgå at de kommer til at lave de samme søgninger flere gange.
8. Find indflydelsesrige forskere på det emne som du er interesseret i. Dette er ikke særligt udviklet i Danmark, men i USA findes der faktisk emnekataloger over den slags forskere, fx ISIHighlyCited.com. Man kan både søge på navn, land og emne. Her vil man fx kunne finde en snes danske forskere tilknyttet universiteter og forskningscentre (Risø). En anden måde at er finde ud af hvem der linker til en bestemt side. (Se Internetsøgning 28.5.03)
9 Vælg den rigtige søgemaskine. Google er et godt førstevalg fordi den er stor, sorterer bedre end de fleste, har mange typer filformater med, arkiverer mange gamle internetsider og giver henvisninger til dmoz (Open Directory). Alltheweb er en anden god søgemaskine som har en fremragende avanceret søgning og ydermere kan søge på mange forskellige typer multimediefiltyper. Scirus er mere for de videnskabeligt interesserede med over 135 millioner videnskabsrelaterede websider, dvs. de mere ”folkelige” er sorteret fra på forhånd. Scirus har også de føromtalte kvalitetsartikler med.
10. Bliv ekspert. Dette er nok mest et råd til folk som vil hjælpe andre med at holde sig ajour med internettet. Læs derfor originalartiklen fra Webresearch Guide.
Link:
Webresearch Guide of ScienceDirect: http://www.webresearch.sciencedirect.com/
All The Web: www.alltheweb.com
Find Articles: www.findarticles.com
Google: www.google.com
ISI highly cited : isihighlycited.com
Open Directory: dmoz.org
Science Direct: www.sciencedirect.com/science/journals
Scirus: www.scirus.com

lørdag den 13. september 2003

Nye indspark til at få gang i internettet
Nye undersøgelser både i USA og Danmark tyder på at internettet er ved at nå et mætningspunkt blandt brugerne. I hvert fald når det gælder søgning af information. Enkelte tendenser tyder endog på at nogle dropper internettet fordi det er for uoverskueligt. Det var forudsigeligt: Internettet er ikke noget man ”bare” bruger, det er noget som kræver at man lærer det. Reklamer kan have været med til at opbygge illusion om hvor let det skulle være, jf. telefonreklamen hvor en person på ingen tid finder ud af Danmarks højeste punkt. Men er efterfølgende blevet skuffede.
Folkebibliotekerne har i de sidste mange år afholdt introduktioner for deres brugere om hvordan man finder information på internettet. Både for nybegyndere og for mere trænede brugere. Og ganske gratis eller for små penge.
Nu er Danmarks Radio og Københavns Kommunes Kursuscenter også gået i gang. Forhåbentligt vil dette medføre at flere bruger internettet mere effektivt. Københavns Kommunes Biblioteker har en gruppe ”rejsende undervisere” som har forskellige tilbud om at søge på internettet: avanceret internetsøgning, det usynlige internet og søgning i specielle emner. Dette udbud er rettet mod de som er villige til at betale for at få en mere dybtgående og længerevarende kursus.
Interesserede kan kigge på:
Danmarks Radio: www.dr.dk/klikstart
Københavns Kommunes Biblioteker, De Rejsende Undervisere: www.bibliotek.kk.dk/rejsende_undervisere

onsdag den 10. september 2003

Mystik omkring antal websider i Google.
Microdoc News gør opmærksom på en meget mystisk opgørelse over websider i Google. Googles forside reklamerer med at have indekseret over 3,3 mia. websider. Men passer det? Ordet The må vel siges at være et ord som optræder på samtlige engelske websider på internettet. Søger man på det i Google (søgning: +the idet ordet ellers opfattes som stopord), får man som resultat over 5,2 mia websider! Altså ca. 60% flere websider end Google reklamerer med at have indekseret! Og hertil kommer jo så det antal websider hvor ordet the ikke optræder, nemlig mange ikke-engelske websider.
Det samme sker i øvrigt hvis man søger på andre lignende ord som fx and (3,4 mia.) og to (3,4 mia.).
Det samme sker ikke i All The Web og Altavista. De opgiver antallet af websider hvor ordet the optræder til hhv. 1,5 mia. og 175 mill. (and: 1,4 og 160 mill.; to: 1,4 mia. og 168 mill.). Hvilket er langt mere i overensstemmelse med den størrelse de selv angiver at have.
Der kan kun være to forklaringer på dette: Enten angiver Google alt for høje tal på hvor mange websider den finder, eller også er Google database omtrent dobbelt så stor som den reklamerer med. Det sidste kan næppe skade nogen. Men det første – det er da snyd, specielt hvis det gælder for alle søgninger.
Microdoc News: microdoc-news.info/home/NewsOnGoogle, se 2. September 2003

tirsdag den 9. september 2003

Sære filtyper – og hvad man bruger dem til
De største søgemaskiner kan søge på mange forskellige filformater udover html-formatet. (Som er det mest almindelige). Men hvad skal man egentlig bruge de andre formater til? Hvad er fordelen ved at kunne søge på specielle filformater. Svaret er at det i nogle tilfælde kan betale sig, i andre er det fuldstændigt ligegyldigt.
Man skal være klar over at visse filformater kræver at man har programmer til at åbne dem. Det gælder ikke tekstfiler som html, rtf og doc. De kan normalt ses i Internet Explorer og Word. Men det gælder pdf (Adobe Acrobat Reader), audio-filer (lyd – og eventuelt billede) og video-filer (billeder og lyd). Til det formål er det praktisk at downloade Windows Media Player og Real Player. De kan tage de fleste af filformaterne. Se link nederst.
Her er nogle af de almindeligste formater som man kan støde på – eller ligefrem bruge til at afgrænse sin søgning:
Au audio(lyd)format der også viser billeder. Kan afspilles i fx Real Player.
Avi „Audio Video Interleave“. Videoformat til Windows. Udviklet i midten af 1990’erne for at spare plads ved at bruge en mindre opløsning. Kan fx afspilles i Windows Media eller Real PlayerPlayer.
doc Word-dokumenter. Det er det som de fleste forbinder med almindelig tekstbehandling. Som rtf-formatet er det svært at se hvorfor man skulle søge specielt på dette format.
xls Excell er Microsoft Offices regnearksprogram. Dvs. Hvis man er interesseret I at se tabeller kan man afgrænse sin søgning med dette format.
FTP (File Transfer Protocol). Kan afspilles i Real Player. Overfører filer fra et system til et andet.
Midi audioformat Er computergeneret musik. Nogle elsker det, de fleste hader det. Næppe noget man ligefrem sætter på grammofonen, men nok snarere for lige at huske hvordan et bestemt musikstykke lyder. Afspilles i de fleste musikafspillere, fx Windows Media Player
Mov videoformat. Jeg har lidt problemer med at finde en afspiller hertil, men Quick Time siges at kunne afspille dem.
MP3. Musik komprimeret til ca 1/10. Det mest populære download-musikformat på internettet.
pt Powerpoint er noget som foredragsholdere bruger. Fungerer som et gammeldags lysbilledforedrag, dog ofte med en masse tekst. Foredragsholdere kan bruge det som inspiration. Almindelige internetsøgere vil kunne bruge det til en almindelig introduktion til et emne. Formatet skulle ikke volde de store problemer på¨de fleste nyere computere.
pdf kræver at man har Adobes Acrobatreader. Helst i nyeste version. Den er i øvrigt gratis. Kan med fordel bruges hvis man fortrinsvis søger efter rapporter, undersøgelser mv. fordi skribenter af sådanne ofte bruger pdf.
Ps Postscript er som pdf-filer konstrueret af Adobe. Det bruges til komplicerede geometriske figurer, fx kurver og transformationer. Det er altså fortrinsvis teknikere, matematisk interesserede osv. som har glæde af at søge på det format.
Qt videoformat
rtf Rich Text ligner meget doc-filer, altså et tekstformat. De kan som regel åbnes uden de store problemer, da selv WordPad kan åbne dem (det følger stort set med alle pc i dag). Jeg kan ikke umiddelbart se nogen grund til at søge specielt på dette tesktformat.
sd Star Office er et alternativ til Microsofts Officepakke. Det er mest kendt fra pressen som det system nogle kommuner og virksomheder bruger i protest mod Microsofts monopol. Hvilket også betyder at det er svært at få Microsofts produkter til at åbne disse filer. Det kræver at man downloader Staroffice. Hvis man er interesseret, findes der både gratis sprogrammer, tilhørende vejledninger osv. Gratis på internettet.
SWF Flashformat fra Macromedia
Wav audioformat. Et meget tungt format som derfor kun bruges til korte audiofiler.
Wordperfect Var før Word det førende tekstbehandlingsprogram. Som Word og rtf er det svært at se hvad man kan bruge en afgrænsning til.
I de søgemaskiner som kan afgrænse til disse formater, kan man enten vælge at gå til den avancerede søgning, eller man kan bruge søgemaskinens feltkode for format. Den er normalt filtype:
Til slut: Det lyder for begynderen måske lidt besværligt med alle disse forskellige formater. Men tag en dyb indånding og prøv at downloade de nedenstående programmer. De åbner for en helt ny verden af lyd og levende billeder!
Jeg oplever mest doc, rtf og Wordperfect filer som forstyrrende elementer. På den anden side kan det jo også være godt at kunne udelukke den slags! Det kan ske ved at sætte et minustegn foran filformatet, fx –filtype:doc.
Links:
Star Office, dansk kogebog: www.aaa.dk/staroffice/kogebog.html
Windows Media player, download: www.microsoft.com/windows/windowsmedia/default.aspx
Real Player, download: www.real.com/realone/?src=realplayer
Quick Time: www.apple.com/quicktime/download/

tirsdag den 2. september 2003

Universiteter og forskningsmaterialer på internettet.
På universiteter forskes. Så på deres internetsider burde være en masse forskningsmateriale at hente på internettet - eller hur? Snakker vi danske universiteter, er svaret nej: Det er muligt at finde henvisninger til forskning, men stort set intet i fuldtekst.
Anderledes er det i udlandet. Især de højere læreanstalter i USA lægger megen dokumentation og forskning ud på internettet. De er svære at finde, det tager tid! Det må man være klar over, men til gengæld er resultatet så godt til fx dybdeborende journalistik, studerende ved universiteter og i det hele taget til internetsøgere som gerne vil have meget veldokumenteret stof.
En oversigt over læreanstalterne i USA får man på Global Computing. Hovedsiden viser et kort med staterne. Desværre er listen er lavet til folk som søger skoler i et bestemt område i USA, ikke til folk som gerne vil søge baggrundsmateriale. Den geografiske indgang betyder at man ikke kan se hvilke specialer der er på de enkelte universiteter. Så enten skal man vide det på forhånd eller man må gå den trælse vej gennem staterne. Det lønner sig dog som regel med lidt tålmodighed.
Lidt hjælp er der at hente i oversigterne fordi de højere læreanstalters navn ofte beskriver deres speciale, fx Chiropractic College, Podiatric Medicine, Institute of Technology, Arts and Science, School of Design osv. Men står der bare University, må man ind på den enkelte side for at se hvad det har specialiseret sig i. Det står som regel på hovedsiden. Dokumenterne gemmer sig så under overskrifter som Research, Documentation, Library og Publications
På University of Rochester i New York kan man se at det har specialiseret sig i medicin og sygepleje. Lidt mere uklart er det på University of New York. Mange veje fører til dokumenterne. En er at bruge den almindelige søgefunktion. Prøv fx islam. Den henviser ud over studieretninger også til afhandlinger o. lign. Kig især efter pdf-filerne som er det foretrukne format for den slags. Denne søgebase henviser også til artikler uden for universitetet.
I linkhenvisningerne nedenfor har jeg givet nogle eksempler på universiteter med gode dokumentsider.
En anden slags oversigt over højere læreanstalter i USA er IPEDS. Det er en guide til colleges og universiteter i USA. Den er også lavet for studerende som søger ind på universiteter. Og emnesøgningen resulterer ofte i flere tusinde, fordi hvis bare institutionen har et lille kursus i emnet, kommer den med i oversigten.
En tredje måde er at bruge de almindelige søgemaskiner. Her kan man kombinere en feltsøgning som afgrænser til højere læseanstalter i USA (edu) med en søgning i titelfeltet. Det er muligt på de fleste søgemaskiner med feltsøgekoden title, i Google intitle:. Fx title:environment domain:edu. Man skal ikke ret langt ned I søgningen før man finder forskellige tidsskrifter med artikler om det emne.
Hvorfor ikke bare bruge søgemaskiner? For det første får man alt muligt andet end forskningsmateriale med. Og for det andet søger søgemaskiner ikke i det usynlige internet. Og det er netop link til det usynlige internet som man i vid udstrækning finder på universiteternes internetsider.
Umiddelbart lyder det måske lidt trættende. Der er dog en sidegevinst for folk der godt kan lide at opleve: Mange af universiteterne er rene guldgruber af spændende emner. Det kan være lige som at bladre i et godt leksikon: Man var egentlig bare ude efter at finde ud af Anker Jørgensens fødselsdato, men ender op med at læse om pungdyrenes sælsomme verden, se vidunderlige billeder fra Patagoniens vide sletter eller en artikel om liberalismens historie.
Links:
Global Computing: www.globalcomputing.com/university.htm
Harvard University: www.harvard.edu Har specialafdelinger.
IPEDS: www.nces.ed.gov/ipeds/cool/Search.asp
Massachusett Institute of Technology: web.mit.edu Mere end teknologi….
University of California, Berkeley: www.berkeley.edu
University of New York: www.nyu.edu
University of Rochester: www.rochester.edu