onsdag den 30. juli 2003

Stavekontrol på internettet.
Hører du til dem som skriver på andre sprog end dansk? Og er du ikke sikker på stavemåden? Så er Spell Online en mulighed. Hvis du kan nøjes med engelsk, fransk, portugisisk, spansk og italiensk. Spell Online kan checke stavemåder i internetadresser og i tekster (tekst og html). Og det er såre enkelt: Man skriver blot teksten i et tekstfelt, indstiller på sprog og trykker på Spell Check Below. Så kommer teksten op igen, nu med drop-down-menuer med forslag till rigtige stavemåder på de ord som måtte være stavet forkert. Herefter er det bare med at afklikke, trykke på Apply Changes to Buffer og teksten er rettet igennem, lige til at kopiere over til rette sted. Som med alle den slags automatiske sprogbearbejdelser er der mange mangler (sammenlign indslaget om oversættelser 26.03.03). Spell Online er kort sagt ikke noget autoritativt instrument, men kan bruges i en snæver vending, bedre end ingenting.

tirsdag den 22. juli 2003

Feedster: et kik i xml-fremtiden?
Feedster er en søgemaskine som har specialiseret sig i at søge på weblogs og ”flygtigt” nyhedsstof (dvs. artikler som aviserne offentliggør online en dag eller to). Feedster påstår at de er helt opdaterede til dette minut. Og jeg har da såmænd fundet nærmest spritnye ting. Feedster minder på dette felt om Daypop (se 9.4.03).
Det er en nyhed for fans af weblogs. For alle andre er Feedster dog måske alligevel interessant fordi den har annonceret en avanceret søgning som kunne være en model for hvad søgemaskiner som fx Google, Alltheweb og Teoma burde have! Feedster er et af de første eksempler på hvad xml-fremtiden byder på. Altså det filformat som skal afløse html.
Xml har flere fordele frem for det nuværende html. Internetsøgning har før skrevet om mulighederne for at afgrænse søgninger ved at søge i bestemte områder, eller felter, af et dokument (se 4.11.02). Her fremgår at det i html højst er en håndfuld felter fx adressen, titlen og teksten. Det nye xml-format giver mange flere af sådanne afgrænsningsmuligheder.
Udover disse beskriver Feedsters vejledning en række søgesprogsmuligheder. Her et lille udpluk:
- Feedster skelner mellem små og store bogstaver. (Se fx indlægget i Internetsøgning 26.6.03). Dette virker dog tilsyneladende ikke altid!
- Der er både trunkerings- og maskeringstegn (*, ?).
- Operatoren NEAR kan indstilles til at søge inden for et selvvalgt afstand, fx NEAR[50] betyder at der højst må være 50 ord imellem. (Prøv fx rasmussen NEAR fogh)
- Intervalsøgning med > og < (velegnet til tal).
Og andre mindre brugbare afgrænsningsmuligheder. Interesserede kan kigge videre i vejledningen.
Det er muligt sortere efter relevans, dato eller ”blogrank”. Hvilke kriterier som ligger bag relevans og ”blogrank”, oplyser Feedster ikke.
Billedsøgningen er interessant da man fra en kalender i venstre side kan finde billeder som er offentliggjort på en bestemt dag. Jeg ved ikke rigtig hvad det skal bruges til: Der er fra få hundrede til flere tusinde billeder afhængig af hvilken dag man vælger. For sjovs skyld fandt jeg at på USA’s nationaldag 4. juli var der en række billeder og det emne. Det gjaldt ikke for 5. juni eller 1. maj.
En anden god ting er at der nederst i billedet er en nogenlunde enkel forklaring til hvordan man egentlig skal forstå søgeresultatet. Feedster forklarer hvordan du har søgt. Dette er meget lærerigt. Der er mange internetsøgere som uden at vide det laver en masse fejl når de søger. Her får man dem altså afsløret ved at Feedster forklarer hvordan søgemaskinen har opfattet ens søgning. Så kan man jo selv kontrollere om det så også var det man mente.
Det skal dog lige bemærkes at Feedster endnu ikke er færdigudviklet. Den giver nogle få muligheder for internetsøgere for at se hvad fremtidens søgemaskiner vil kunne. Muligheder som sandsynligvis også vil dukke op i Google, Alltheweb, Altavista, Teoma og alle de andre!
Ud over denne smagsprøve kan Feedster naturligvis også søge – det er jo faktisk dens primære formål. Weblogs er en broget landhandel. Hovedparten er uden interesse for særlig mange andre læsere end blogmasterens nære omgangskreds (måske endog en plage for samme?). En søgning på Poul Nyrup Rasmussen gav fx hovedsagelig små ligegyldige kommentarer til sammes weblog. Bl.a. en overvejelse om han er Danmarks ældste blogger.
I weblogs finder man altså holdninger snarere end information, nyheder snarere end gamle ting, korte artikler frem for dybereborende redegørelser. Mange weblogs henviser dog også til interessante artikler og kommenterer disse. Derudover byder Feedster så også på flygtige nyheder.
Man kan få kommentarer til aktuelle begivenheder. Jeg prøvede fx at søge på tour de france og tyler hamilton. Her fik jeg såvel weblogkommentarer som forskellige flygtige nyheder.
Bloggere kan registrere deres weblog til indeksering. Det gjorde jeg med Internetsøgning for ca. 2 måneder siden, men intet er indtil videre indekseret. Og et kontrolopslag viser at registreringen er sket.

torsdag den 10. juli 2003

Webringe
Webringe har eksisteret lige så længe som søgemaskinerne (1995), men lever en temmelig ubemærket tilværelse. På overfladen ligner ideen bag webringe ideen bag emnekataloger. Ideen er at webmasterne anbefaler hinandens sider, linker til hinanden. Tilhængere fremstiller webringe som byggende på en alternativ ideologi, en ikke-kommerciel, entusiastisk, etisk ren og mere menneskelig ideologi. Sandt er det at de peger på et ømt punkt i de kendte kommercielle emnekataloger som Yahoo. Her er det muligt at købe sig en plads i solen, og medarbejderne kan brænde mere eller mindre for det område som de skal finde links til.
Webringe er altså ikke-kommercielle. De bestyres af en såkaldt ringmaster som er uafhængig af økonomiske interesser. Han/hun sørger for at de etiske regler overholdes, undgår misbrug og bestemmer stilen. Nogle webringe har nyhedsbreve som man kan abonnere på for at holde sig orienteret om nye links og ændringer. Ofte holder de medvirkende sig i kontakt med hinanden via postlister o. lign.
Det bedste indtryk af denne foreteelse får man nok på Webring. Det indeholder et emnekatalog over 60.000 webringe med tilsammen 1 million sider og et emnekatalog over 3.000 fora (en slags grupper i stil med fx Usenet)..
Webringe synes først og fremmest at tiltrække entusiaster af enhver slags. Det kan være hundeejere, hobbyfolk, religiøse, folk med en bestemt sag, samlere … kun fantasien sætter grænser. Det er naturligvis umuligt at få et totalt overblik over dette område, men det er mit indtryk at webringe både kan være seriøse og kuriøse. Måske mest det sidste. Jeg fandt i hvert fald ikke nogle webringe som var henvendt til forskere, studerende eller andre professionelle researchere. For udenforstående er webringene til fornøjelse og fordybelse. Man surfer fra internetsted til internetsted og prøver at nyde, at lære noget, at udvide sin horisont eller forbavses over hvilke emner som optager andre mennesker overalt i verden. Oplevelser synes mere at være formålet end egentlig videnskabelig dokumentation. Enkelte webringe grænser dog til fanatisme efter min opfattelse.
Den største forskel mellem at bruge webringe og kvalitetsemnekataloger som fx Librarians Index to the Internet (LII) og Folkebibliotekernes Netguide (FNG) er nok netop den entusiastiske amatørisme på godt og ondt. FNG og LII har sorteret de mest kommercielle og useriøse internetsider fra som man finder i de kendte emnekataloger. Men man vil aldrig kunne finde de meget specielle sider som webringe har med. Altså de sider som især tiltrækker amatører (i bedste betydning) og entusiaster for et bestemt emne. De kan med fordel anbefales sådanne internetsurfere.
Hvis man vil prøve at finde danske webringe, kan man søge fra Jubii’s danske søgemaskine. Den har d.d. listet 13 webringe. Den internationale Yahoo har 700 resultater i sit emnekatalog (ikke web). Hvis man er interesseret i et bestemt emne, kan man prøve i en ordsøgemaskine (fx Alltheweb) med emneordet efterfulgt af ordet webring, fx bonsai webring. Det giver gode resultater.
Webmastere som ønsker at være ringmastere eller tilmelde sig en webring kan med fordel prøve på Ringlink. Her finder man såvel programmel til at lave webringe som et emnekatalog over allerede eksisterende webringe. Eller også Ringsurf. Erfarne ringmastere deler ud af deres erfaringer på World of Webrings. I Danmark er der flere samlingspunkter for ringmastere mv., fx Webring of Denmark (WOD). Kvaliteten er noget svingende. Men kik selv.

onsdag den 9. juli 2003

Simple afgrænsninger med søgesprog.
Sidste uge skrev Internetsøgning om at internetsøgere ikke anvender de avancerede søgemuligheder godt nok. Og når de gjorde, ja så ofte forkert! Måske manglede du så nogle tips til hvad man så gør? Her er et par flere tommelfingerregler som alle gælder når du bruger Alltheweb, Altavista, Google og Teoma.
Regel 1. Vær opfindsom, hvis du finder for meget med et ord. Mellemrum betyder at søgemaskinerne sætter kombinatorisk ”og” mellem ordene, brug gåseøjne ”” for at undgå det. Følg fx ideen i følgende søgning i Google:
jazz festival (Søgemaskinen søger på jazz og festival, hvilket giver over 1 million fund. Prøv gåseøjne):
”jazz festival” (Fundene reduceres til ½ million. Stadig for mange. Skriv hvor jazzfestivalen er):
”jazz festival” copenhagen (Nu under 10.000. Stadig mange stadigværk. Prøv med årstallet:
”jazz festival” copenhagen 2003 (Resultat: 4.000. Udeluk nu kommercielle sider):
”jazz festival” copenhagen 2003 -.com (Du er nået ned på 1.800 sider. Prøv med fx program):
”jazz festival” copenhagen 2003 -.com program (Resultatet er 352. Afklik eventuelt danske resultater: Voila: 180 resultater. Eller prøv at afgrænse til danske sider med .dk):
”jazz festival” copenhagen 2003 -.com .dk (Giver lidt over 200 resultater)
Med ganske få midler har du nu fået reduceret søgeresultatet fra et ubrugeligt stort antal til et overkommeligt antal resultater. Du kan endog få reduceret til for lidt ved at tilføje fx krystalgade. Ud over at man kun får 1 resultat, nærmer du dig også Googles grænse for hvor mange ord der kan være i en søgestreng. Prøv så eventuelt Alltheweb som accepterer mange flere ord.
Regel 2. Lav om på rækkefølgen af ordene i søgestrengen. Fx: Kig på den sidste søgestreng: Afspejler rækkefølgen af ordene din egen prioritering? Søgestrengen program copenhagen ”jazz festival” 2003 -.com giver en anden rækkefølge hvor ordet program prioriteres højere. Hvis du vil prioritere copenhagen højst, skal det stå først.
Regel 3. Brug flere søgemaskiner. Du kan fx først finde den rigtige søgestreng i Google. Kopier dernæst søgestrengen over i søgefelterne på andre søgemaskiner og gentag søgningen i disse. Som du opdage, giver det forskellige resultater. Hvilke der er de bedste, afhænger af hvad søgemaskinernes databaser nu tilfældigvis har indekseret. Ofte vil du opdage at både Alltheweb og Altavista har flere danske sider med end Google, mens Teoma ikke er så god til at finde danske sider.
Til slut: Husk at du kun behøver at bruge ”og”-kommandoen ved stopord, altså småord som søgemaskinen undlader at søge på (the, an, a, der, die, le, la osv, samt lave tal).
Se endvidere Internetsøgnings indslag om søgesprog (8.12.2002 og 2. januar 2003), samt eventuelt det lidt sværere med feltsøgning (4.11.2002).

torsdag den 3. juli 2003

Internetsøgeres adfærd.
Tre forskere i USA offentliggjorde en undersøgelse af 18.113 internetsøgeres adfærd ved 51.473 søgninger i søgemaskinen Excite.
Undersøgelsen er fra år 2000 og Excite eksisterer ikke mere. Men den afspejler meget godt de problemer som mange internetsøgere ubevidst støder på når de bruger søgemaskiner.
Nedenfor er nogle groft forenklede tommelfingerregler som kan udledes af undersøgelsen. De kan dels være til gavn for undervisere så de kan være mere opmærksom på hvor nybegyndere ofte går galt i byen. Dels være til gavn for nybegyndere så de er mere opmærksomme på hvorfor de ikke finder det de søger.
Tommelfingerregel 1. Antallet af opfølgende søgninger falder til det halve ved hver ny søgning. Dvs. at hvis 100 personer søgte på 1 ord, fortsatte kun 50 med 2 ord, 25 med 3 ord osv. Dette er meget dårlig søgestrategi. Det er at give op for hurtigt. Erfaring viser at der kommer alt for meget med søgning på kun 1 ord, og at bare 2 eller 3 flere ord kunne få et mere præcist resultat.
Tommelfingerregel 2. Hovedparten af søgerne bruger samme antal søgeord ved efterfølgende søgninger, men udskifter så bare et ord. Dette kan være fornuftigt nok, idet et forkert søgeord kan blokere for ellers gode resultater.
Tommelfingerregel 3. Når søgerne ændrer i antallet af søgeord (både i op- og nedadgående retning) gælder det samme som i tommelfingerregel 1: hvis 100 søgere bruger x antal søgeord, vil halvdelen af dem fortsætte med en efterfølgende søgning hvor de bruger x +/-1 antal søgeord. Dette kan være en fornuftig adfærd. Kun et meget lille antal bruger altså denne mulighed for at ”zoome” ind eller ud på et ønsket resultat. Et godt råd her er at bruge fantasien til at finde synonymer, bøje søgeordene, hele tiden finde på alternativer.
Tommelfingerregel 4. Kun halvdelen af internetsøgerne bladrer videre til næste side i søgningen (som regel viser søgemaskinerne 10 fund på hver side). Hvis 100 kiggede de første 10 resultater igennem, ville altså kun ca. 50 kigge de første 20 igennem, 25 de første 30 osv. Også dette er at give for hurtigt op. Ofte kan der selv i søgemaskiner som sorterer med de bedste fund øverst være nyttige fund i top 40.
Tommelfingerregel 5. Kun ca. ¼ af søgerne bruger søgesprog, dvs. AND/+, NOT/-, OR og ””. De oftest benyttede er Og (AND/+) med 20 %. Men hvad værre er: 1/3 af dem brugte dem forkert! Dette betyder at de må have fået et dårligere resultat end hvis de havde ladet være. Søgemaskinerne sætter nemlig som oftest automatisk AND/+ mellem ord, så det er bedst at lade være med at bruge OG. Hvis man bruger OG forkert, kan det imidlertid betyde et dårligere resultat. Fx kan søgestrengen voodoo and haiti i virkeligheden være en kombineret søgning på de tre ord voodoo, and og haiti. (Intentionen var en kombineret søgning på de to ord voodoo og haiti). Fordi søgemaskinen ikke bruger and som kommando, men fx +. Frasesøgning med ”” bruges af kun 6%, til gengæld bruges denne næsten altid korrekt. Se også denne weblogs indslag om søgesprog.
Undersøgelsen rummer også opgørelser over hvilke ord der søges meget på. Den bekræfter i øvrigt webloggens opgørelser over dette fra 9. maj 2003. Men her må interesserede selv kigge (se linket øverst).
Specielt søgesprog (boolske operatorer og frasesøgning) volder nybegyndere problemer. Men vigtig at forstå fordi det er en af de mest effektive metoder til at begrænse antallet af fund. Hvis man er usikker, kan det ofte betale sig at klikke ind på søgemaskinernes avancerede søgebilleder. Selv om også dette kan være svært da formuleringer her ofte er helt uforståelige.
Korte råd ud fra disse iagttagelser er:
- Prøv at fylde flere ord på søgestrengen når der kommer for mange fund.
- Kend søgemaskinens søgesprog. Forkert anvendelse er værre end ingen anvendelse af søgesprog.
- Udskift nogle af ordene
- Kig i hvert fald de første 30-40 fund igennem