torsdag den 31. oktober 2002

WEBsiderne – nyt tidsskrift om internet.
Hvordan klarer man sig uden en programoversigt til sit 264-kanals tv? Hvordan finder man rundt på internettet uden en oversigt over websteder? Det kunne være filosofien bag det nye magasin WEBsiderne. Udkom første gang 31. oktober.
Bladet består af lige dele temaartikler og et katalog. Temaartiklerne er om konkurrencer (det er vel obligatorisk….), oversigtsartikler, feature-artikler og nogle anmeldelser. Kataloget præsenterer kort ca. 150 forskellige websteder fordelt på ca. 40 emner, fra børnesider over sport og rejser til undervisning/uddannelse og natur/teknik. Her får webstederne karakter for indhold, brugervenlighed og coolness. Folkebibliotekernes Netguide (FNG) topscorede i de to første, men bundede i coolness.
Det rare ved magasinet er læseren får lejlighed til i ro og mag at læse om enten et emne som måtte interessere, eller falder over nogle emner som ser spændende ud. I stedet for på må og få og uden mål og med at surfe rundt på internettet. Lidt ligesom at kigge i et tv-program: hvad ser spændende ud, man behøver jo ikke at åbne for det.
Magasinet kan læses af det brede familiepublikum med et minimalt kendskab til internettet. Måske med tryk på de unge. Emnemæssigt er der en klar overvægt til det spilleglade, fritid, bolig, mad og underholdning. Lidt i stil med de kulørte ugeblade. Ikke noget med terrorister, ozonlag eller de fattige i Afrika her!
Magasinets lækre udseende vil forhåbentligt kunne lokke nogle flere til at bruge internettet. Danmarks Statistiks nyeste undersøgelse af brugen af internettet viser at de lavt uddannede dropper internettet. De opgiver måske at sætte sig ind i komplicerede søgemaskiner og teknik. Med dette magasin har de fået en rigtig appetitvækker til mange timers underholdning.
Som bibliotekar kan man så i sit stille sind ønske sig at denne interesse også vil udvikle sig til at de søger noget mere ”tungt” stof på internettet, som fx baggrundsstof til nyhederne eller endog videnskabelige websteder. Dem findes der efterhånden mange af, med mindst lige så stor ”coolness” som underholdningssiderne….

onsdag, september 18, 2002 (genudgivelse)
Posted 9:44 PM by Hovedbibliotekets It-funktion
Metasøgning.
Metasøgning giver mulighed for at søge i flere søgemaskiner, netguider, nyhedsgrupper osv. på én gang. Daniel Bazac, "a seasoned Internet information researcher", skriver i LLRX.com (Law Library Resource Xchange) om metasøgemaskiner, som han mener er groft undervurderet. Hans favorit er ez2www, som får prædikatet the best! Mere end halvdelen af de kvalitetsmetasøgemaskiner, han skriver om og vurderer som gode, er fuldstændig ukendte for mig, til gengæld er min (hidtidige) yndlingsmetasøger Ixquick kun "worth a try".
Farvel Ixquick - goddag ez2www

onsdag, september 04, 2002 (genudgivelse)
Posted 9:05 PM by Hovedbibliotekets It-funktion
Google er Gud, Teoma Jesus (?), men glem ikke de gode gamle indekser.
Mens vi går og venter på forbedringer i søgemaskinerne, bl.a. ser maskinkatalogisering ud til at blive et af de næste skridt, så må vi ikke helt glemme guiderne, altså FNG med familie.
Den største (vistnok) er Open Directory Project, som i skrivende stund henviser til over 3.8 million sites, redigeres af 51,500 editors og indeholder 460,000 categories. Måske kender du til Open Directory Project fra f.eks. Google, som bruger OPD-data, når man foretager en søgning i fanebladet "Katalog". Fordelen ved ODP er selvfølgelig omfanget, svagheden er de mange editors, der nogle gange placerer links i mærkværdige kategorier.


onsdag den 30. oktober 2002

Google cached - et andet eksempel fra det virkelige liv.
Forleden fik jeg god brug for det øjebliksbillede, som Google gemmer i cached. Et spørgsmål i Biblioteksvagten gik på oplysninger om en deltager i sidste års Popstars konkurrence, Pernille fra Åbenrå.
Af en eller anden grund ser TV2 ud til at have fjernet sidste års website?? En Google-søgning på pernille og åbenrå gav som første resultat en meget lovende henvisning. Men desværre - dødt link! Klik på cached og så har man teksten, som i øvrigt var den eneste henvisning, jeg fandt.
Tak til Google for lagerkapaciteten.

Google-specialiteter
Mange synes Google er søgemaskinen pr. excellence. Men bruger du alle dens specialiteter? Her er tre specialiteter som alle måske ikke er lige opmærksomme på:
Feltsøgninger
Specielt to feltsøgninger er brugbare: topdomæner og titler. Du skal have et elementært kendskab til topdomæner. Dvs. vide at topdomænet .com er virksomheder som tjener penge), .edu er højere læreanstalter i USA, .gov er føderale- og statslige regeringer, .org er partier, nonprofitable foreninger og virksomheder. Og at hver land har sit eget landedomænenavne, fx .dk for Danmark, .se for Sverige, .de for Tyskland osv..
Topdomæner som ikke er landekoder kan du med fordel udnytte til at frasortere uvedkommende hits. Desværre dur de mest kun for sider fra USA. Skal du finde faglige og videnskabelige websider om den kolde krig, kan man med fordel indskrænke sin søgning til at søge på universitetssider i USA (.edu). I Google sker det på to måder: i den enkle søgning ved at skrive ”cold war” site:edu eller ved i den avancerede søgning at skrive edu i feltet domæner. Danske universiteter har topdomænet .dk. De lægger stort set intet forskningsmateriale ud. Man kan dog prøve at skrive universitet eller københavns universitet efter søgeordet for at få danske sider med, men ofte vil det vise sig at være henvisninger til forelæsninger på universitetet eller blot en litteraturhenvisning.
Titler er et andet godt felt at afgrænse til. Titlen kan du se helt øverst oppe på din skærm. Det er den mørkeblå linje øverst, mellem Explorer-symbolet og maximier-minimer-knapperne.
Indskrænker du din søgning til kun at søge i titler, får du altså kun de sider frem hvor webmasteren har valgt at kalde sin side det samme som dit søgeord. Altså et stærkt indicium på at her er noget meget relevant. Igen har du to søgemuligheder på Google, enten ved i enkel søgning at skrive fx allintitle:voodoo, eller ved i den avancerede søgning at afklikke ”i sidens titel” ud for Fremkomster.
Henvisninger til Open Directory
En af Googles store svagheder er hvis den ikke viser nogle brugbare hits på de første to-tre sider. Her har Google imidlertid givet en mulighed for at finde tilsvarede kategorier i emnekataloget Open Directory. Ovenikøbet hele to steder. Findes der en særlig kategori for ens søgeord angives den øverst oppe over alle fundene. Prøv fx voodoo; her henviser den til en kategori i Open Directory:
Kategori: Society > Religion and Spirituality > African > Diasporic > Vodou, Vodun, Voodoo
Kan Google ikke finde en overordnet kategori I Open Directory, henviser den i stedet enkelte hits i Open Directory. Prøv fx med "peace conference" hague 1899. Her er ingen generelle kategorier øverst, men til gengæld angiver Google ved de enkelte hits flg.:
Kategori: Society > History > By Time Period > Nineteenth Century > Wars and Conflicts
Google viser hvor dine søgeord står…
Hvem kender ikke det at man gerne vil undersøge et hit, klikker på det og når siden toner frem tænker: Hvorfor f… kommer den frem”? Trænede surfere vil vide at man kan bruge browseren til at finde ud af det: Aktiver menuen Rediger, dernæst Søg på denne side (eller genvejstasterne ctrl+b). Men det kræver altså lidt ekstra arbejde.
Googles Cached-funktion gør det imidlertid nemmere. Cached-funktionen er godt nok beregnet til noget andet. Som bekendt er søgemaskiners hits ikke et billede af det aktuelle internet, men en billede af internettet som det så ud da søgemaskinens søgerobotter hentede internetdokumentet til søgemaskinens database. Med Googles cached-funktion får man både en mulighed for at se hvordan de så ud dengang og hvordan det ser ud aktuelt. Jeg har altid svært ved at finde nogen situationer hvor dette kan være nyttigt. Der er som regel en grund til at noget er blevet ændret. Men måske kan det have en betydning i USA hvor regeringen siden 11. september er begyndt at censurere internetsider.
Men cached-funktionen kan bruges til noget helt andet. Den high-lighter nemlig dine søgeord. Klikker man på denne funktion (som ligger i nederste linje af hvert hit), får man en lille boks frem øverst oppe hvor der står med hvilke farver ens søgeord er highlighted.
Prøv fx at søge på ”peace conference” hague 1899. Tryk på cached ved en given post. Så kommer dokumentet frem med en lille boks for oven hvor Google oplyser at frasen peace conference er overstreget med gult, hague med blåt og 1899 med grønt. Tilbage er så blot at rulle dokumentet hurtigt igennem og lægge mærke til hvor disse farver optræder.

mandag den 28. oktober 2002

Programmer til internetsøgning
Efter at Google har sat sig godt og grundigt på søgemaskinemarkedet, synes der at være indtrådt en slags stilstand i videreudviklingen af søgemaskiner. Til gengæld dukker programmer op som prøver at perfektionere søgningen for folk der bruger internettet meget og til mange forskellige ting.
Her er nogle eksempler på programmer som er gratis og hurtige at downloade til sin computer. For begge gælder at de er noget langsomme:
Gobox (download: gobox.net) er et program som lægger en lille, flytbar søgeboks på skærmen, Man kan minimere den så den ikke fylder særligt meget. Gobox søger i de tre store søgemaskiner: Google, AOL og Yahoo. Derudover kan man bl.a. søge på nyheder (fra Yahoo), sende email, finde geografiske steder på kort og lave stavekontrol. Samt noget som mest er for folk fra USA: auktionssider, online-indkøb, telefonnumre i USA og aktiekurser
Webferret (download herfra). Webferret har både en enkel søgning og en avanceret søgning med fire funktioner. Version 5.0 oplyser også at den kan fjerne bannerreklamer – det har jeg dog ikke kunnet få den til. Webferret oplyser ikke om hvor den søger, men den søger i mindst tre søgemaskiner: AOL, Alltheweb og Altavista. Derudover nogle internetboghandlere som Kanoodle og Findwhat/ebay (og Overture). Webferret giver en form for overblik fordi hvert fund kun fylder en linje. Til gengæld får man ikke så meget at vide om hvad det er, men holder man musen over et fund, fremkommer en lille forklarende boks.
For begge programmers vedkommende gælder at de er fri for reklame og popup. Da jeg gennemprøvede dem, opdagede jeg hvor meget jeg egentligt har vænnet mig til disse irriterende tidsspilde-foreteelser.
Men hvorfor ikke bare bruge metasøgemaskiner, dvs. søgemaskiner som søger i flere søgemaskiner på en gang? Jeg har prøvet et par søgninger for at sammenligne fund i såvel Ixquick som Vivisimo. De anses for nogle af de bedste metasøgemaskiner. Af en eller anden grund finder Gobox og Webferret noget mere (eller andet) end de gør, om end noget af det perifert.

søndag den 27. oktober 2002

Husk at opdatere søgemaskiners fund.
I denne uge kunne denne weblog nyde godt af at Google viser internetsiderne som de så ud da søgemaskinens søgerobot hentede resultatet ned i søgemaskinens database.
Webloggen mistede nemlig torsdag i sidste uge hele septembers arkiv pga. min uforsigtige eksperimenteren med layouten.
Noget af problemet blev løst ved at søge efter webloggen på Google. (Det kan man fx gøre ved at søge på ordet internetsøgning i søgefeltet, dernæst klikker man på ”cached” i fundets nederste linje. Den er et øjebliksbillede af siden da Google gennemsøgte nettet). Google opbevarer nemlig hele websiden. Her lykkedes det så at finde en del af indlæggene fra de forsvundne datoer.
Denne lille episode minder os om at hvis man vil være helt sikker på at få her-og-nu-udgaven af en internetside som man har fundet i en søgemaskine, så skal man huske at trykke på knappen ”opdater” i browseren. For gode søgemaskiner som Google og Alltheweb, som er ret gode til at opdatere deres databaser, betyder det ikke noget.
Webloggen har mistet hele arkivet for september måned! Derfor denne genudgivelse. Der kommer en ny senere i denne uge....
Find rundt på det usynlige web
Det usynlige web er de dokumenter på internettet som søgemaskinerne ikke finder: 1) databaser, 3) de sider som søgemaskinerne ud fra deres udvælgelsespolitik vælger at udelukke og endelig 3) de sider som søgemaskinerne aldrig finder fordi ingen linker til dem.
For databasernes vedkommende gør tekniske barrierer at søgemaskinerne ikke finder resultater fra dem. Det er nemlig nødvendigt enten at skrive noget i et søgefelt eller at vælge mellem forskellige kombinationer på en synlig side for at få dokumenter frem fra databaser. Rent teknisk betyder en sådan søgning at databasen skaber (genererer) resultatet alt efter hvad du spørger om, og det gemmes ikke bagefter. Disse resultater kaldes med en teknisk betegnelse dynamisk genererede. Fx når du søger på en bestemt forfatter i bibliotekernes online-kataloger.
Et godt eksempel er bible.gospelcom.net/bible?. . Denne søgemaskine søger på samtlige ord i Bibelen på knap 30 sprog, inklusive dansk. Indstil maskinen på Danish og skriv dit bibelcitat for at finde ud af hvor citatet stammer fra.
Ud over databaser er der de synlige sider hvor det er nødvendigt at bruge login og password for at komme på. Typisk intranet-sider, men også mange leksika, specialiserede søgebaser o.lign.
Mange søgemaskiner vælger at udelukke andre formater end html. Ikke af tekniske årsager. Både søgemaskiner som Google og Alltheweb er blandt de få undtagelser som tager andet end html-format med. For et overblik kan man kigge i deres avancerede søgebilleder: www.alltheweb.com/advanced (se under ”embedded content”) og www.google.com/advanced_search?hl=da (kig under rullegardinet ud for ”filtype”) . Allthewebs siges at være den største, den har 180 mill. Multimediefiler, 132 mill. ftp-filer og 2 mill. MP3-filer, udover pdf og macromedia flash.
Men det mest almindelige er at søgemaskiner ikke indekserer formater som word, wordperfect, powerpoint, flash og shockwave. Og selv om fx Hotbot reklamerer med at den kan, så er det ikke sikkert at den har indekseret særligt meget, ejheller at den indekserer alt i et dokument!
Ydermere udelukker søgemaskiner adresser som indeholder ?. Disse bruges af webmastere til såkaldte script-kommandoer.
Hvordan finder man så disse databaser og udelukkede sider? Man bliver nødt til at dele søgeprocessen op i to trin: 1) Find steder på det synlige web hvorfra du kan søge i det dybe web, det vil typisk være specialiserede søgemaskiner. 2) dernæst gå i gang man at lave sin søgning herfra. Selvfølgelig ud fra det søgesprog og søgemuligheder som denne database giver.
Mht. trin 1 er der flere muligheder:
Prøv at finde databaser i de gode emnekataloger. De står ikke for sig, men har du en mistanke om at de findes, så prøv under emnet i Folkebibliotekernes netguide. Opsøg her fx emnet slægtsforskning. FNG har medtaget ca. 24 websteder og blandt dem er der flere gode databaser. Da FNG ligeledes har gode annoteringer er det let at se hvad du kan forvente at finde her. På internationalt plan kan du benytte Librarians Index to the internet lavet af bibliotekarer i USA eller Open Directory.
Gå frisk til den i ordsøgemaskinerne! Skriv dit søgeord efterfulgt af ordet database. Ordet er heldigvis det samme på dansk og engelsk. Kik på de første hits og se om der er søgefunktioner i nogen af dem. Fx søg på slægtsforskning database i Google. Allerede første hit er godt: www2.db.dk/ns/slaegt.htm det er et emnekatalog over søgbare databaser. En rigtig godbid.
Der findes nogle ganske få søgemaskiner som har specialiseret sig i at afsøge dele af det usynlige internet. Generelt om disse gælder at de er meget svære at bruge og meget svære at sætte sig ind i brugen af. De er ligeledes meget små. Flere af dem søger endvidere på det synlige web, og det er ikke altid lige klart hvilke resultater der stammer fra det usynlige web. Flere af dem henviser bare til forskellige steder hvor man kan søge efter databaser. Søgesproget i søgefelterne langt fra fuldkomment. Her er nogle adresser til de dristige:
Direct Search, www.freepint.com/gary/direct.htm Søgefunktionen giver næsten aldrig nogen hits. Men der er en oversigt over kategorier et stykke nede på siden. Hovedparten af siden er så et næsten fuldstændigt uoverskueligt emne- og alfabetisk opdelt katalog over hvad der er indekseret.
The invisible web, www.invisibleweb.com siger at den har over 10.000 søgemaskiner til databaser. Den er inddelt i en snes hovedkategorier. Den er nok mest anvendelig til akademikere, studerende og forskere.
www.internets.com er et slags emnekatalog med et halvt hundrede hovedindgange
www.incywinky.com påstår at have omkring 100.000 dokumenter, men af dem er altså kun få databaser!
www.completeplanet.com
Mange gode informationer ligger gemt i avisernes databaser. Den største, Polinfo, kræver betaling. Men flere aviser har frit tilgængelige databaser: Information, Jyllandsposten, en del af Politiken. Man kan også prøve om udenlandske aviser har databaser. En oversigt over udenlandske aviser kan man finde på www.abyznewslinks.com. Den oplyser ikke hvilke aviser der har arkiver. Man er henvist til at klikke sig ind på den enkelte avis og så selv undersøge det.
En stadig større del af informationer puttes ned i det usynlige web. Det skyldes at det er langt lettere for domæneindehaverne at have oplysninger her end på det synlige web. Dels fylder det mere, dels bliver siderne så enorme. (forestil dig fx en avis’ avisarkiv lagt ud på det synlige web)
Når alt dette er sagt, skal jeg dog også bemærke at jeg har fundet talrige undtagelser til disse bemærkninger! Hvilket må tilskrives anarkiet på internettet
Se også dette weblogs tidligere artikel om pdf-filer 28.8.02.

mandag den 21. oktober 2002

Kosmetiske fornyelser på Yahoo.
I det seneste års tid har udviklingen på søgemaskineområdet stået stille. I stedet har de enkelte overlevende søgemaskiner forsøgt sig med forbedringer. Senest Yahoo!s engelske version. Ifølge Yahoo! er dette kun begyndelsen, så dette indslag er sådan set bare for at gøre opmærksom på at man åbenbart skal holde et øje med det legendariske emnekatalog. Yahoo! er stadig en af de bedste søgemaskiner på internettet - med eller uden fornyelser.
Da jeg testede Yahoo! (søndag den 20. oktober) var der sket en del i fremvisningen. Efter søgning ser man i en linje under søgelinjen tre muligheder for at afgrænse: The web, Directory og News. Dette svarer så vidt jeg kan se til den gamle opdeling i websteder/søgerobot, kategorier og nyheder. Den eneste ændring jeg kan se, er at Yahoo! har slået henvisninger til websteder i emnekataloget sammen med resultater fundet af søgerobotten (der jo som bekendt er Google).
The web. Det er her man havner efter søgningen. Fundene herfra er opdelt i Inside Yahoo! (handel, køb og salg o.lign.), Directory Category Matches (dvs. kategorier i I Yahoo!s emnekatalog hvor man har mulighed for at klikke over i flere forskellige kategorier som er beslægtede med ens emneord) og endelig Web Matches (tilsyneladende er det en blanding af Yahoo!s egne websteder og en Google-søgning). Nyt er henvisningspile til lignende sider og kategorier i Yahoo!s emnekatalog.
Directory. Dette svarer til den ovenfor nævnte Directory Category Matches.
News opdeles i Sponsor Matches og Yahoo News Story Matches. Yahoo! er en udmærket nyhedstjeneste, se dette weblog fra 8/10 2002.
Det virker lidt kunstigt både at have en Directory (næstøverste linje) og Directory Category Matches (under web-søgning) som er fuldstændig ens.
Yahoo! har også ændret sin avancerede søgning. Man kan vælge mellem ”fewer options” og ”more options” (minder en hel del om Googles avancerede søgning) og mellem at søge på web eller i Yahoo Directory Listings. Det sidste synes at lede hen i nøjagtig det samme som man får under Directory Category Matches, så i dette tilfælde er det en omvej at bruge den avancerede søgning.
Er De forvirret? Det er jeg også lidt: Det eneste nye er tilsyneladende at man har fået flere muligheder for at køre rundt i de samme få muligheder.
Også den avancerede søgning giver de kendte og gængse muligheder inden for søgesprog og feltsøgninger. Ændringerne er ikke slået igennem på den danske Yahoo! Den ser ud som den altid har gjort. Det ser også ud til kun at være kosmetiske ændringer: Google fortsætter sideløbende med Yahoo!s egne webfund, på trods af at søgemaskinen flere gange har udtrykt at de på langt sigt er ude på at udvikle deres egen teknologi (underforstået: uafhængigt af Google?).

mandag den 14. oktober 2002

Verdens mest oversete adressesøgetips.
I sommers udkom endnu en bog om internetsøgning: Peder Fjordvang: Søgning og research på internettet. Som snart sagt enhver anden af den type indeholdt den ikke et af de mest elementære og effektive søgetrick: adressesøgning i Explorers adresselinje.
Nu kommer en afsløring: søger du internetadressen på Rudkøbing Efterskole, Statens museum for kunst eller Frederiksberg Seminarium? Jamen, så skriv bare rudkøbing efterskole i adresselinjen. Og skriv bare med ø (og æ og å) og mellemrum. Explorer opfatter automatisk det som en forespørgsel på en internetadresse i MSN’s omfattende database.
Fjordvang anbefaler som de fleste andre lærebøger gættemetoden: man skriver www, gætter på et domænenavn og et topdomæne (.dk, .edu, .org osv.). Gættemetoden kan være nyttig. Men den er alt for langsom, usikker og kræver en god portion held. Og vigtigst: den er for det meste helt unødvendig! Den er kun nødvendig hvis en internetadresse ikke findes i MSN’s database. Men det sker sjældent.
Explorers adresselinje har en indbygget ”nummeroplysningsfunktion”. Den svarer til at man i gamle dage ringede op til nummeroplysningen og spurgte efter nummeret på fx Rudkøbing Efterskole. Dengang gav man sig jo heller ikke af med at gætte på telefonnummeret ved at ringe til flere hundrede telefonnumre med Rudkøbings områdenummer.
Explorers adressesøgningsfunktion søger i MSN’s database alle de steder hvor Rudkøbing Efterskole optræder i en adresse. Først viser den websteder, dernæst websider hvor Rudkøbing Efterskole optræder. Og viser først fund fra Danmark, dernæst USA. Findes der kun et websted, åbner Explorer automatisk dette. Ellers fremkommer en liste med fund, som man så kan afprøve.
Man skal aktivt afbryde denne søgefunktion for ikke at kunne adressesøge på denne måde. Hvis det er sket, kan man gøre en ud af to ting:
Man kan slå adressesøgningsfunktionen til igen via browserens menulinje: Funktioner, internetindstillinger, vælg fanebladet Avanceret. Næsten nederst i denne er der nogle afklikningsmuligheder. En af dem er Søg ikke fra adresselinjen. Hvis den er slået fra skal man fjerne fluebenet. Tryk herefter anvend og OK. Herefter skulle du kunne søge i adresselinjen igen.
Man kan klikke adressesøgefunktionen frem fra browseren, det er knappen Søg. Den befinder sig normalt ved siden af Startside. Herefter kommer en søgeboks frem i venstre side af skærmen som man så kan skrive i.
Det nemmeste er at indstille adresselinjen til adressesøgning.
Er man først blevet fortrolig med denne form for adressesøgning, kan den også bruges til en slags emnesøgning. De fleste webmastere kalder nemlig deres sider for noget karakteristisk. Fx har mange automobilforhandlere en underside med tilbud om brugtbiler, som de kalder … ja, brugtbiler. Tilsvarende kalder mange webmastere deres websider med oversigter over skoler for gymnasieskoler, folkeskoler eller bare skoler.
Derfor kan man med fordel bare skrive disse ord i adresselinjen. Prøv selv!

tirsdag den 8. oktober 2002

Hvordan finder du nyheder på nettet?
Google lancerede i slutningen af september en nyhedssøgning. Langt fra den første – og efter min mening langt fra den bedste. Faktisk har de fleste større søgemaskiner nyhedssøgninger, ligesom der findes nyhedssøgemaskiner, både ordsøgemaskiner og emnekataloger. Mange digitale medier har abonnementsordninger hvor man kan få daglige, ugentlige eller månedlige email om nyheder.
Det bedste sted at få et overblik over nyheder på internettet er:
www.searchenginewatch.com/links/news.html et godt overblik over nyhedssøgemaskiner, specialsøgemaskiner og medier med abonnement.
Generelle søgemaskiner som har nyhedssøgning:
Altavista Vælg fanebladet ”News” over søgefeltet. Har en snes hovedemner. Men ingen danske medier. En virkelig god nyhedssøgning!
Alltheweb. Vælg fanebladet ”News”. Kan afgrænse til 49 sprog. Mange danske aviser.
Google Meget stor, men få afgrænsningsmuligheder. Ingen danske aviser. Kategorier. Begrænset avanceret søgning. 4.000 nyhedskilder. Gemmer 1 måned.
Yahoo Meget avanceret søgninger med gode afgrænsningsmuligheder.
Søgemaskiner som kun søger på dagsaktuelle nyheder:
www.daypop.com bringer dagens nyheder fra 7.500 aviser, magasiner og weblog. Avanceret søgning med afgrænsning på nogle sprog (ikke dansk), lande (bl.a. Danmark) og 4 typer af kilder.
www.rocketnews.com eller www.rocketinfo.com søger aktuelle nyheder op til 5 dage gamle i over 6.000 internetkilder. Ringe avanceret søgning. Tilsyneladende ingen danske kilder.
www.moreover.com/news emnekatalog med knap 400 forskellige kategorier
newsseer.com er måske mest for deciderede nyhedsnarkomaner. Et eksempel på hvor populært det er at lave søgemaskiner som søger på nyheder….
Oversigter over aviser, tidsskrifter, magasiner, radio- og tv-stationer m.v.:
www.abyznewslinks.com Geografisk inddelt oversigt over samtlige lande
Her kan du bl.a. finde en af de mest berømte internetmedier, nemlig BBC.
www.journalismnet.com er et websted for journalister. Det indeholder udover nyheder også nogle nyttige links for udøvende journalister.
Der har været en del skriverier og fogedretssager i Danmark om søgemaskiner må linke til dybe links i nyhedsmedierne. De største dagblade (Politiken, Berlingeren og Jyllands-Posten) pusler med en elektronisk nyhedssøgetjeneste. Danske Dagblades Forening fik i juli 2002 nedlagt fogedforbud mod at søgemaskiner udsender nyhedsbreve med dybe links til artikler på de danske dagblades websider. I stedet planlægger de en fælles elektronisk nyhedssøgetjeneste, FAS. Journalistforbundet støtter foreningen og mener at nyhedstjenester krænker journalisternes ophavsret og snylter på dem.
Måske har det skræmt Google fra at søge i danske aviser, så den ikke kommer i karambolage med de danske dagblade. Derimod søger Alltheweb i flere danske aviser, bl.a. Jyllandsposten og nogle provinsaviser.
Konkurrencestyrelsen har dog betinget at konkurrenter tidligst 1. juli 2004 og senest 1. juli 2007 får adgang til databasen og at de tre aviser efter en periode skal levere elektroniske presseklip til konkurrenterne.
Og det var så nyhederne….

lørdag den 5. oktober 2002

Statistik på internettet (2)
Den 23. august 2002 skrev jeg om hvordan man kan søge statistik på internettet. Siden da er der kommet en vigtig søgemaskine:
seitti.funet.fi:5000/etusivu_en.html
Bag denne adresse - som vel nærmest er umulig at huske i hovedet - gemmer sig en søgemaskine som henviser til databaser med gratis offentlig statistik fra hele verden. Der er mange muligheder for at lave avancerede søgninger, kombinatoriske søgninger på lande og emner, fritekstsøgning. Og maskinen bruger Boolske operatorer (og, ikke og eller). Er man i tvivl om hvilke emneord man skal bruge i fritekstsøgningen, er der et emneopdelt stikordsregister, hvor man kan se hvilke ord man skal bruge. Ikke lige en søgemaskine til hurtige referencespørgsmål for bibliotekarer. Men bestemt en anbefalelsesværdig søgemaskine til folk der er ude efter mere detaljeret statistik. Og så er den lavet i Finland...

Det forkromede overblik: Searchenginewatch
Internettet har flere gode sider om internetsøgning. Og som bibliotekar, underviser eller bare almindeligt interesseret kan det ofte være vanskeligt at danne sig et overblik.
Men det er der heldigvis nogen som gør for os! Det bedste sted synes jeg er
www.searchenginewatch.com
Ved første blik forekommer webstedet noget uoverskueligt. Der er mange uforståelige hovedoverskrifter. Begynder man at navigere rundt, finder man hurtigt ud af at man allerede har været på de samme sider en gang før. Artiklerne er imidlertid dybtgående og forklarer ofte meget mere og bedre end søgemaskinernes egne vejledninger. Så det er tiden værd at opsøge denne side hvis man vil sætte sig grundigt ind i søgemaskinernes verden, sammenligne og forklare forskelle og ligheder mellem søgemaskinerne.
Her er en introduktion til de væsentligste steder på Searchenginewatch.
Hovedsiden er delt i tre lodrette kolonner hvoraf den midterste er den mest interessante. Den hedder Departments. Herunder er der især følgende der er gode:
Web searching tips: Under denne lidt kryptiske overskrift gemmer der sig dels nogle elementære søgetips som at bruge +, - og “” under Search engine math, dels nogle meget avancerede søgetips for de mere avancerede søgere, fx feltsøgning. Det sidste finder man under Powersearching for anyone.
I denne menu finder du under punktet Search engine reviews nogle uddybende artikler om søgemaskiner, søgetekning, portaler o.lign. (Ikke at forveksle med hovedsidens menu med nogenlunde samme navn).
Search engine listings er mange forskellige oversiger over søgemaskiner. Der er 9 undermenuer til dette punkt som strækker sig over de generelle søgemaskiner til mere specialiserede som fx nyhedssøgning og søgemaskiner for børn. (Bemærk at dette punkt også befinder sig i Web searching tips, search links…).
Det er også muligt at abonnere på deres månedlige nyhedsbrev som handler om de nyeste tiltag på søgemaskineområdet, Searchenginereport. Den kommer gerne i to dele

onsdag den 2. oktober 2002

Nyt liv i Wisenut?
Da Wisenut blev lanceret sidste år, profilerede den sig som en Google-dræber. Men siden løb den ind i talrige problemer med opdatering mv. Jeg syntes selv den så lovende ud i starten, men snart viste det sig at den ikke kunne leve op til sit formål. Formålet var ellers godt nok: Wisenut gør meget mere ved sorteringen end Google. Den prøver at vurdere såvel fundene som de der linker til ens fund. Ydermere udvælger den nogle specielt interessante fund til en WiseGuide. Alt sammen velment, men da det er maskiner der skal lave arbejdet, viste det sig ofte at være til ingen nytte.
Nu har Wisenut midlertid i følge ejeren LookSmart fået en saltvandsindsprøjtning. LookSmart lover at Wisenut vil blive opdateret hver måned og at den vil begynde at udvide sit nuværende bestand af 900 millioner dokumenter.
Jeg har ikke kunnet se nogen ændringer i Wisenut ud over at layout er ændret. Nu er det faktisk blevet mere Google-agtigt (suk). Men Wisenuts ide er god, så pøj-pøj. Kære Wisenut, vi holder øje med dig i fremtiden. Skuf os ikke!

tirsdag den 1. oktober 2002

Hvordan sorterer søgemaskiner?
En af de mest afgørende forskelle på om en søgemaskine er anvendelig eller ej er om den sorterer fundene godt; det nytter jo ikke noget at en søgemaskine kan finde 400 hits når de bedste først rangerer som nr. 357 på listen. Det er de færreste søgere som kigger mere end de 30-40 første fund igennem.
Alle søgemaskiner har hver deres egen måde at sortere deres fund. De fleste oplyser om hvilke kriterier de sorterer efter, men ikke hvor meget hvert enkelt kriterium vægter. Det er en ”fabrikshemmelighed”.
De ældste 1. generations søgemaskiner som Altavista og Hotbot sorterede (og sorterer stadig) efter principper som bibliotekarer kan nikke genkendende til: Optræder søgeordet i webadressen? i titlen på websiden? i teksten? (og i givet fald: hvor mange gange og hvor højt oppe) og forskellige andre kriterier. (Med et fagudtryk: Term relevancy ranking).
Problemet for denne form for sortering er to ting: Internettet fungerer ikke som et bibliotek, snarere som et journalistisk arkiv, og derudover påvirkes søgemaskinerne af kommercielle interesser og eventyrere som blot er interesserede i at gøre opmærksom på sig selv eller lege med nettet. De første søgemaskiners sorteringsprincipper var og er meget sårbare. På godt og ondt foregår den på webmasternes egne præmisser.
Det er godt nok så længe webmasterne er redelige, men ondt hvis webmasterne forsøger at misbruge denne sorteringsmåde. Bl.a. er der gået sport i at prøve at få ens side til at ”hitte” i søgemaskinerne. Så mange at de er nok til at finansiere sider som www.searchenginehell.com som har specialiseret sig i at få folks hjemmesider til at hitte.
Efter 1. generationssorteringen gik udviklingen gået i to retninger: Den ene gik i retning af at underdele fundene maskinelt i forskellige mapper. Et eksempel er den nu hedengangne Northernlight. Den anden gik i retning af at fravriste webmasterne eneretten; det var Google.
Mappeinddeling af fund er i princippet en god ide, men i praksis har den vist sig at være problematisk. Blandt de bedste er metasøgemaskinen Vivisimo. Den ligner Northernligt meget.
Googles sorteringsteknik blev opfundet af Sergey Brin og Lawrence Page på Stanford University. De brugte de nævnte principper, men tilføjede et ”popularitetsprincip”. Groft sagt består det i at sorteringen for det første kikker på hvor mange andre sider som linker til den fundne side og for det andet om det er særligt kompetente sider som linker til ens fund. Særligt højtrangerende sider kan fx være Yahoo! Derved vristede de sorteringen ud af webmasternes hænder. Dette for at undgå at ondsindede webmastere slår sig sammen og anbefaler hinanden. I praksis har Googles sorteringsteknik vist sig at fungere. I de fleste tilfælde er kvalitetssiderne øverst!
Endelig findes der så de maskiner som prøver at kombinere og udbygge de to retninger. Wisenut prøver at kombinere Googles principper med mappeinddeling. Det samme gælder Alltheweb. I praksis ser det nu også ud til at alle maskiner lærer af hinanden og i større eller mindre omfang prøver at samkøre de to retninger.
Teknikken til at sortere udvikler sig til stadighed. Sidst søgemaskinen Teoma. Udover de traditionelle tekstanalytiske metode og popularitet bruger firmaet som noget nyt hvad de selv kalder ”Subject-specific popularity”. Det går ud på at undersøge om de sider som linker til et fund nu også er om samme emne som det man er ude efter. (Se også weblog fra 4.9.2002)