søndag den 28. december 2003

Sprog og ordbøger på internettet.
Med den store mangfoldighed af internetsider på alskens sprog melder sig også problemet med at få disse oversat til et læseligt sprog. Hovedparten af alverdens internetsider er på engelsk. Og afspejler derfor også mest den vestlige verdens opfattelser. Men af og til kunne det jo være rart at se hvordan andre, ikke-vestlige landes webmastere udformer deres internetsider. Hvis ellers man kunne læse hvad der står!
Dette indslag handler ikke kun om hvordan man skaffer sig værktøjer til at oversætte andre sprog, men også om emnet: mindre sprog i verden. Den 26. marts 2003 behandlede Internetsøgning de store sprog. Har man brug for mindre sprog, ser situationen vanskelligere ud. Dansk er et af dem.
Indledningsvis: der er ingen rigtig gode ordbøger og oversættelsesmaskiner til små sprog kvit og frit på internettet. Her er man henvist til at købe cdrommer. Når det er sagt, så er der dog nogle interessante internetsteder for verdens sprog. Som oven i købet har informationer som det kan være vanskelligt at opdrive på et almindeligt folkebibliotek.
Et af sådanne steder er Your Dictionary. Hvis forventningerne ikke er at man skal kunne få oversat hele tekster, så er det et spændende sted at gå på opdagelse. Your Dictionary omhandler ca. 300 sprog verden rundt. Det er såvel generelle sproghistoriske oplysninger (sproghistorie o. lign.) som henvisninger til de ordbøger som trods alt findes. Slår man op på de danske, bliver man henvist til en snes steder. Ingen af dem er dog som fx Politikens ordbøger. Men hvis der findes en ordbog, så er dette et godt sted at starte.
Oversigten findes i venstre spalter, på rullegardinet under menuen Dictionaries. Her er nederst en henvisning til 280 more (under de store sprog). Det leder til en alfabetisk oversigt over sprogene. Hvis vi nu for en gangs skyld forlader det danske og i stedet prøver Zulu, så får man følgende muligheder (som er ganske karakterisk for alle opslag):
Under Profile er oplysninger om hvor det tales, af hvor mange, sproghistorisk set mv. Nedenunder får man en oversigt over ordbøger på internettet. Dette udvalg varierer meget efter hvilket sprog det er man har søgt på. Under Zulu er der ikke så meget: kun en medicinsk ordbog, en parlør og henvisninger til andre steder på nettet. Under dansk er der en del flere. Men man får dog fx at vide at god morgen, god dag og god aften hedder det samme: Sawubona, og klikker man på ordet får man det såmænd også læst op, så man kan høre hvordan det udtales.
Med lidt tålmodighed skulle det være muligt at finde ganske mange oplysninger om det ønskede sprog. Men som sagt: Den ultimative oversættelsesmaskine findes altså ikke til samtlige sprog.
Link:
Yourdictionary.com

søndag den 21. december 2003

Brug juleferien til at udvide dit musikkendskab.
Siden den 11. december i år eksisterer der skrappe regler for kopiering af musik i Danmark. Det er uhyre nemt at finde musik på internettet. Men hvad er lovligt at downloade og aflytte? Må man brænde det som man har downloadet? Lovlydige musikelskere kan hurtigt blive skræmt fra vid og sans over uforvarende at komme til at gøre noget ulovligt.
Det er derfor kærkomment at Amazon er ved at opbygge en meget stor MP3-musik emnekatalog. Her kan man da i det mindste være nogenlunde sikker på at det er lovligt at aflytte det som man har fundet. MP3-filerne er nemlig stillet til rådighed af musikerne selv. Med en emailadresse, et navn, rettigheder over musikken og en MP3-fil kan de lovende kunstnere gratis oploade til Amazon. Dette for at give ukendte kunstnere afgang til et udstillingsvindue sammen med mere kendte kunstnere.
Men at området er meget betændt, fremgår af at det næsten er umuligt at finde emnekatalogen fra Amazons hovedside. Brug derfor nedenstående link.
For at dæmpe begejstringen lidt: det er altså ikke de store musiknavne som findes her. Selv om man kan være heldig at finde specialindspilninger med kendte kunstnere som 50 Cent, Tom Waits og andre. Men det er altså heller ikke helt talentløse amatører eller ”garage-kunstnere”. Det er kort sagt god musik med ikke så kendte kunstnere.
Og der er nok at vælge imellem.
På emnekatalogens hovedside finder der 20 hovedkategorier, som både spænder over forskellige musikgenrer som opera, folk, rock, rap og new age og over målgrupper som børn, kristne og soundtracks. Under disse hovedkategorier er der hundredvis af underinddelinger som indeholder i tusindvis af musikfiler (nogle optræder dog i adskillige underkategorier). Under Rap & hip-hop har man således mulighed for at vælge mellem Gangsta, West Coast, East Coast, Underground, Experimental, West Coast, Old School og flere andre. De fleste af grupperne og musikerne kommer fra USA, men der er også ganske mange andre nationaliteter med, under rap kan man således under undermenuen International finde rapmusikere fra hele verden.
Emnekatalogen er grundigt inddelt i mange krydshenvisninger, med mulighed for at sortere kunstnerne efter popularitet, dato og meget andet. Flere af numrene har fået karakter i form af stjerner (1-5). Men lad være med at følge dem! Det er brugerne som ”stemmer”, og ofte dækker stjernerne over ganske få udtalelser, sjældent over 3. Til nød kan man læse hvad ”anmelderen” så har skrevet. Her et typisk eksempel, skrevet af en bruger fra Californien:
“Sounds like Yes and Genesis? Not like any Yes or Genesis I ever heard! I think it sounds like Kansas with imitation Gentle Giant vocal gimmickry. I was never very fond of Kansas, and most of the new prog does not impress me either. Stick with the classics and explore other new music that isn't so self-consciously "prog". Try Krakatoa, for example.”
Det blev kun til to stjerner…
Det eneste man behøver for at lytte til musikken er en MP3-afspiller på sin computer (det kan være Real Player, Windows Media Player eller andre afspillere som det er ganske gratis at få installeret på sin computer.
Link:
www.amazon.com/exec/obidos/tg/browse/-/512934/ref=br_lr_1/102-3501341-1466516

onsdag den 17. december 2003

Hvad byder fremtiden på (del 2)
At søgemaskiner som Google kan sende besked når en ønsket søgning har fundet nye hits er vist alment kendt. Men man kan også selv kan lave sådanne overvågninger. Sådanne overvågningstjenester er Change Detection (gratis), Watch That Page (norsk, gratis), Spy On It og Info Minder. Ideen med dette er at de overvåger de sider som man ønsker at følge med i. Og sender så en email når der sker ændringer på siderne. Change Detection highlighter de områder af siderne som ændres så du hurtigt kan se om ændringerne er interessante eller ej og henviser til sidetitlen og beskrivelsen. Spy On It og Info Minder tilbyder noget lignende, dog mod betaling.
I de almindelige søgemaskiner søger man normalt hovedsagelig efter tekst. De fleste kan også søge billeder. Men de hele foregår på internetsidernes egne præmisser. Der er ikke nogen som har kikket på billederne og lagt nogle emneord på dem. Disse problemer er tidligere nævnt i Internetsøgning og betyder at en søgning på elefant ikke altid giver et billede af en elefant, ligesom der kan være udmærkede billeder af elefanter som ikke bliver fundet. LTU Technologies og Corbis er eksempler på hvordan en fremtiden emneindekseret billedsøgning kan komme til at foregå: Firmaet har fundet nogle særligt gode billeder og lagt emneord ind som siger noget om hvad der rent faktisk vises på billedet. Altså en meget mere præcis billedsøgning. Og billeder er generelt også i en meget bedre kvalitet end hvad man kan finde på Google biblledsøgning. Bagdelen er selvfølgelig at der tager kolossal tid at lave noget sådant.
En udvikling må også forventes på databaseområdet. Altså dette med at man skal søge via databaser for at finde dokumenterne. Dette sætter søgemaskinerne helt ud af kraft: der er pt ikke nogen gode søgemaskiner som kan søge i databaser. (Se Internetsøgnings indslag om det usynlige internet). Det mest illustrative eksempel er avisernes artikelarkiver.
Længere ude i fremtiden ligger fildeling fra server til server. Forestil dig princippet bag Kazaa udbredt til alle filtyper. Altså dette med at dele musikfiler. Kun teknologien sætter endnu grænser for at folk kan udveksle dokumenter, privat fotos og hvad man nu ellers har liggende på sin computer til alverdens interesserede – uden at du behøver at kunne lave en webside. På firmaplan eksisterer sådanne løsninger faktisk allerede. Desværre kan man ikke se sådanne, da det naturligvis er et særdeles følsomt område.
Til slut: indirekte kan man allerede aflæse Googles begrænsninger. Søgemaskinen er som så mange andre stille og roligt gledet ud i at have flere og flere features. Ikke bare de 4 faneblade over søgefeltet, men også nyheder, , indkøb, telefonbøger, chat, weblogs og forskellige andre, faktisk i alt hele 17! Og flere er måske undervejs. Alt sammen et behjertet, men altså også noget udsigtsløst forsøg på at rette op på de nuværende søgemaskiners begrænsninger. Se også Ask Jeeves for den slags.
Links:
www.watchthatpage.com
www.changedetection.com
www.infominder.com
www.singingfish.com
corbis.ltutech.com
www.infotoday.com/MMSchools/nov03/dcon1103.shtml

mandag den 8. december 2003

Hvad byder fremtiden på? (Del 1)
Intersøgningen er i en fordøjelsesfase: Kendskabet til de mange landvindinger som søgemaskinerne gjorde fra Altavista til Google, er ved at blive almindeligt udbredt, såsom fx at søgemaskiner kræver kendskab til søgesprog, feltsøgning og andet. Men samtidig erfarer de fleste også begrænsningerne: alenlange fundlister, valg af den rigtige søgemaskine – hvad gør man hvis man ikke finder det rigtige osv. Så nogen begynder måske at tænke lidt på hvordan det vil komme til at se ud i fremtiden.
Internetsøgning vil i de kommende indslag prøve at give nogle bud på hvor udviklingen er på vej hen med udgangspunkt i de spæde forsøg på at tage det næste sprig fremad. De kendte søgestrategier med boolske operatorer, felter osv. vil formentlig også fortsætte i en overskuelig fremtid. Men det er nu ikke forfinelsen af disse som Internetsøgning vil beskæftige sig med. Derimod er det de små ledetråde som tænker i helt nye baner.
Det kræver et ganske grundigt teoretisk kendskab samt en temmelig stor erfaring for at finde resultater hurtigt. Dette kendskab får internetsøgeren gennem langvarig rutine og utallige søgninger på internettet. Men kunne dette ikke gøres maskinelt? Jeg tror at fremtidens søgemaskiner vil forsøge at gøre disse tanker ”maskinelle”. Dette er i hvert fald hvad man kan se på søgemaskiner som giver visuelle universer når man søger: Kartoo, Web Brain, In Xight, Antarctica og Vivisimo. Det første spæde forsøg var den nu hedengangne søgemaskine Northern Light. Denne søgemaskines principper er i dag videreført i metasøgemaskinen Vivisimo. Problemet var at den ikke maskinelt var i stand til at lave effektive underdelinger. Men ideen er der ikke noget i vejen med.
Principperne er blevet udviklet visuelt af andre søgemaskiner. Kartoo er beskrevet på Internetsøgning 12. august 2003. Den prøver via fællesnævnere i søgningen at skabe forbindelseslinjer mellem fundene i en søgning. Man kan hele tiden enten tilføje nye uddybende søgeord eller slette blindspor. Det kan sammenlignes lidt med at bladre i et leksikon med mange ”se-også-henvisninger”. Og man kan hurtigt komme til at fortabe sig ud af adskillige ligegyldige tangenter. Men bliver systemet forfinet, vil det klart blive en styrke i forhold til den blotte og bare page rank-sortering som vi i dag kender fra Google og andre gode ordsøgemaskiner.
Webbrain ligner mere en traditionel søgemaskine, men ligesom Kartoo opstiller den nogle inddelinger som man kan arbejde videre fra, her i form af linjer: man kan hele tiden ændre fokus, dvs. få et nyt søgeord ind i centrum for derefter at se udviklingslinjerne ud fra dette søgeord.
Begge søgemaskiner er gode til at sætte associationer i gang. Det kan være en fordel hvis ens søgning er mangetydig eller upræcis. Tag fx julemanden. Her giver Kartoo nogle gode associationer: christmas, historier, greeting official, santa claus. Men også nogle lidt uforståelige: hvor, stor og november. De første kan man uddybe yderligere, lige som man kan fjerne de uønskede. På denne måde ændrer ”universet” sig hele tiden, lige som der i kanterne hele tiden er nye ord at gå videre med eller udelukke. En helt anderledes måde at navigere rundt med.
Indtil videre er dette ikke særligt præcist. Det må vi erkende. Men konceptet i denne måde at søge på er helt anderledes end i fx Google. Og hvis de engang kommer til at fungere bedre: Klart mere kreative og givende.
Ud over disse to åbne søgemaskiner er der Inxight og Antarctica som er rettet mod virksomheder som ønsker at købe et søgesystem: Inxight er kun på tegnebrættet og har forsøgt at kombinere alle de forskellige muligheder på samme sted. Man kan se en demo af deres søgesystemer, hvis ellers man kan udholde den reklamestil som er almindelig i USA. Systemet er beregnet på firmaer, så måske vil det aldrig rigtigt blive en offentlig mulighed, men man kan så blot tage det som en oplevelse. Antarctica har bibliotekerne som primær potentielle brugere. (I Danmark ville sådan noget nok være lidt utænkeligt: bibliotekerne er både tunge og ressourcesvage aftagere af sådanne eksperimenterende systemer). Man skal lade sig registrere hvis man vil se deres demo.
(Fortsættes….)
www.kartoo.com
www.webbrain.com
www.inxight.com
www.antarctica.net
vivisimo.com

mandag den 1. december 2003

Feltsøgninger
Søgemaskinernes feltsøgninger har ændret sig en del siden 4. november 2002 hvor Internetsøgning sidst skrev om emnet. Derfor en opdatering:
Feltsøgning er et af de tre hovedprincipper bag søgemaskinernes avancerede søgninger. (De to andre er søgesprog og tekniske afgrænsninger). Forstår man dem er det let at ”oversætte” betydningen af de ofte forvirrende avancerede søgebilleder. Her lidt om feltsøgning.
Feltsøgninger går ud på at afgrænse sin søgning til de områder (felter) af en internetside som indikerer at der står meget vigtigt om det som man har søgt på. Dermed undgår man at søge på alt det ligegyldige på en internetside. Der er mange felter at søge i, her er tre meget anvendelige felter:
Topdomænet. Det tredje led i en internetadresse, topdomænet, er enten en landekode (fx .dk og .se), eller en dokumenttypeangivelse (fx .com, .edu, .gov, .org og .net). Topdomænet er altså godt hvis man ønsker at afgrænse sin søgning til et bestemt land eller en bestemt dokumenttype: kommercielle sider (.com), akademiske sider (.edu) eller regeringssider (.gov i USA). Hvis man fx skal lave en universitetsopgave om voodoo er det nyttigt kun at søge på .edu-sider.
Titlen. Fornuftige webmastere giver deres sider en titel som fortæller hvad siden indeholder. Den står øverst oppe i den mørkeblå streg. Er et søgeord det samme som en titel, er det et stærkt indicium på at siden er relevant.
Filtype. Denne form for feltsøgning er bl.a. beskrevet i Internetsøgning, den 28. august 2002.
Ud over disse tre findes der bl.a. host, image, link, anchor, related, text, object, language, sound, pictures, date…. De kan bruges til specialsøgninger på fx billeder, nyheder, multimedier, videoer, MP3-filer, audio, emnekataloger, grupper osv. Webmastere vil fx kunne bruge en link-søgning til at finde ud af hvor mange der linker til ens side.
Sådan feltsøger man i praksis.
Man søger i felter med koder, eller kommandoer. De varierer fra søgemaskine til søgemaskine, især Google skiller sig ud. De fleste søgemaskiner har valgt koderne domain:, title: og filetype: for de tre nævnte felter, men Google bruger koderne site:, intitle: og filetype.
Her er et eksempel på en søgning på dokumenter fra et universitet i USA om præsident Clintons undskyldning (i affæren med Lewinsky):
title:apology domain:edu ”bill clinton”
Eller hvis det var Google
intitle:apology site:edu “bill clinton”
Som det ses kan man altså godt kombinere feltsøgninger med søgesprog.
Feltsøgning er et af avancerede internetsøgeres allerbedste redskaber, men det kræver en del kendskab til internettets opbygning.
Uægte feltsøgning.
Søgemaskinernes feltkoder minder om bibliotekskatalogernes mulighed for at søge på fx forfatter, titel og emne. Men søgemaskiner har ikke tilnærmelsesvis de samme muligheder som fx bibliotekernes databaser til at søge med kommandoer. I søgemaskiner kan man imidlertid lave noget der ligner lidt. Vi kunne kalde det en ”uægte kommandosøgning”. Her nogle eksempler til inspiration.
Bestemte fænomener på internettet: Ofte kan det betale sig at søge på typer af internetsider som behandler ens emne ud fra en bestemt indfaldsvinkel. Det kan være webringe, nyhedsgrupper, weblogs, ordbøger, emnekataloger eller databaser. Skriv navnet på sådanne specialsider sammen med søgeordet således:
weblog bonsai
webring hunde
nyhedsgrupper bonsai
database slægtsforskning
dictionary bonsai
(bemærk at der er meget få danske ordbøger, hvorfor ordbog er et dårligt søgeord).
Obs: nogle er ikke særlig gode at bruge, fx noder, sangtekster
Overordnet ord kombineret med specifikt ord. Specifikke ord flertydige og optræder i sammenhænge som er forstyrrende for resultatet. Tag fx et søgeord som tvillingerne. Søgemaskinerne kan ikke finde ud af om du mener et stjernetegn (astrologi), et stjernebillede (astronomi) eller to mennesker. Klargøre det på følgende måder:
stjernetegn tvillingerne
stjernebillede tvillingerne
søskende tvillinger

Nogle gange må man prøve ad flere gange:
schäfer hunde
giver en del tyske sider, fordi ordet hunde er det samme på tysk og dansk. Her kan man så eventuelt afgrænse til danske sider
På samme måde kan princippet udnyttes til søgninger som:
city copenhagen
bjerg ”mount everest”
omregning tommer
omregning mile km
forkortelse adsl

Kun den ihærdige internetsøgers fantasi synes at sætte grænser. Jeg håber at disse eksempler har givet inspiration til at prøve at finde flere uægte kommandoer. Ideen er hermed i hvert fald givet videre.