Internetsøgning: februar 2003

onsdag den 26. februar 2003

Filtype-søgninger, opdateringsdato og andre specialiteter på udvalgte søgemaskiner
Som tidligere beskrevet på webloggen bygger søgemaskinernes avancerede søgninger fortrinsvis på to principper: Søgesprog (og, eller, ikke, trunkering, frasesøgning og et par flere) og feltsøgning (i afgrænsede dele af internetsiden). Se arkivet 8.12.2002 og 4.11.2002.
Inden for det seneste års tid har adskillige søgemaskiner dog forfinet deres avancerede søgninger for at kunne konkurrere indbyrdes (?). Nedenfor har jeg forsøgt at få et overblik over de muligheder som findes på 7 af de bedste søgemaskiner: Google, Alltheweb, Altavista, Teoma, Wisenut, MSN og Hotbot (Hotbot er nu mere en metasøgemaskine…).
Søge på bestemte filtyper (se også emner):
Doc (Word): Google, Hotbot
Javascript: Hotbot, MSN
MP3 (musik): Alltheweb, Hotbot
Pdf (acrobat): Alltheweb, Google, Hotbot, MSN
Ppt (power point): Google, Hotbot
Ps (Adobe postscripts): Google
Rtf (rich text): Google
Shockwave/Flash: Hotbot, MSN
SWF (Macromedia Flash): Alltheweb
VBscript: MSN
Xls (excel regneark): Google, Hotbot
Søge på bestemte emner (se også filtyper):
Billeder: Alltheweb (JPEG-, GIF-, BMP-filer), Altavista, Google, Hotbot, MSN
Musik/Audio: Alltheweb, Altavista (MP3, WAV, Windows Media), Hotbot, MSN,
Nyheder: Alltheweb, Altavista, Google
Videoer: Alltheweb (AVI-, AVI/divX-, MPEG-, Real-, Quick Time-filer), Altavista (samme, + Windows Media), Hotbot, MSN
Mappeinddelinger:
Relevant web Pages: Teoma
Refine – suggestions to narrow your search: Teoma
Resources (link-sider): Teoma
Wise-guide: Wisenut
Andre specialiteter:
Søge på lignende sider: Google
Henviser til emnekatalog: Google (dmoz/Open Directory)
Størrelse af dokumentet i bytes: Alltheweb
Lag (hoved-/underside): Alltheweb
Stavekontrol: Google, Teoma
Sortere fund efter søgning: Alltheweb (Rank-kommando)
Dato (opdatering): Alltheweb, Google, Hotbot, Teoma.
Bemærk at listen kan være ufuldstændig. Nogle søgemaskiner angiver hvilke filer de søger på, mens andre angiver filtypen. Og det ændrer sig hele tiden! Filtre er ikke medtaget her.

mandag den 24. februar 2003

Google Wildcard
Der er ikke mange søgemaskiner som kan trunkere. Dvs. dette med at anbringe et * eller et ? efter et ord (fx uderigsmin*), som så søger på alle endelser (i eksemplet udenrigsminister, udenrigsministeriet, udenrigsministersekretær, osv.) .
Google bruger også en * (asterisk), men ikke som et traditionelt trunkeringstegn (wild card). Google bruger det som en ord-maskering. En * (med mellemrum for og bag) kan man bruge som en erstatning for et ord man er usikker på. To * for to ord, osv.
Denne form for ordmaskering er meget mere primitiv end en ”rigtig” trunkering. Men den kan dog være anvendelig i følgende to tilfælde:
1. Google søger på maksimum 10 ord. Hvis du fx søger på et langt citat der overstiger 10 ord, kan du erstatte nogle af ordene med **.
2. Hvis du er usikker på et eller flere ord i et citat, en sangtekst el.lign. Når man søger efter sangtekster, er det normalt en dårlig ide at søge efter sangtitlen. Så får man nemlig tit bare nogle oversigter, men ikke sangteksten. Derfor kan det godt betale sig at søge på strofer i selve teksten. Det samme gælder for citater.
Her nogle eksempler:
Den der TV2-melodi med at brokke sig – var der ikke en linje om at ”ham der Ulrik/Ulrick Kold” godt ku’ trænge til en varm kop kaffe? Men var det nu Ulrick, Ulrich eller Ulrik? Prøv med søgningen:
”og ham der * kold”
Hedder det ”med lov skal land bygges” eller ”med lov skal man/mand land bygge”. Begge giver resultater, men hele teksten hvori den forekommer er svær at finde. Bedre er det at søge på fortsættelsen: ”Men ville/vilde enhver nøjes med sit eget”. Usikkerheden er altså på ordet ville eller vilde. En smart søgning ville derfor være:
”men * enhver nøjes med sit eget”.
Og husk at sætte det hele i anførselstegn, ellers sætter Google automatisk og mellem ordene...

tirsdag den 18. februar 2003

Google køber Pyra Labs - Blogger.
Normalt er der ikke erhvervsnyheder på denne weblog. Her dog en enkelt undtagelse idet den også har at gøre med den webside (www.blogger.com) hvor Internetsøgning-webloggen er oprettet. Google Inc. har den 17. februar købt Pyra Labs. Det er et lille hold af seks edb-udviklere. Med dette skridt er Google godt på vej til også at blive udgiver. Sidste efterår lancerede Google Inc. en nyhedsservice, og to år før købte firmaet Usenet (et arkiv for diskussionsgrupper på internettet).
Pyra Labs direktør, Even Williams, kalder opkøbet for et ”drømmescenarie” fordi han derved får adgang ikke bare til flere penge, men også til servere, båndbredde og knowhow. Blogger (oprettet 1999) er Pyra Labs flagskib.
Sådan lidt navlebeskuende kunne man som blogger-administrator måske forestille sig at opkøbet bliver en slags blåstempling af blogger-fænomenet. Måske!
På BBC News den 21. februar kommenterede teknologikonsulent Bill Thompson opkøbet således: ”Weblogs truer ikke journalistikken… Ofte er de det modsatte af journalistik: rygter uden indhold, fordomme, sladder maskeret som opinion… Det er generelt sådan at det er nødvendigt at bekræfte enhver oplysning på en weblog andetsteds”. Hvilket selvfølgeligt er rigtigt når man snakker om de seriøse medier. Thompsons karakteristik kunne såmænd også passe på mange etablerede medier…
Thompson forsøger at indkredse hvorfor Google opkøbte Pyra Labs: at Google blot ville hjælpe et firma i knibe, at Google vil bruge weblogs i dens nyhedsservice eller at det viser at Google er et foretagende uden respekt for dets brugeres privatliv.
Det er denne sidste teori som Thompson væver lidt videre på: Han påstår at Google ønsker at registrere så mange informationer som muligt om brugerne af søgemaskinen: komputerens ip-adresse, tid, browserens detaljer og hvad man søger efter. Google’s værkstøjslinje, som gratis kan tilføjes enhver browser, registrerer alle de websider som du har været inde på. Hvilket gør det muligt fx at snage i hvilken børnesygdom dine børn havde sidst, hvilke skilsmisseadvokat du har søgt efter, osv. På grund af dette foreslår Thompson at Google kommer under offentlig kontrol.
Noget af en anklage. Men nyheden stammer altså fra BBC.

lørdag den 15. februar 2003

En præcis feltsøgning udvandet? Om .edu
Topdomænet .edu bliver nu udvidet efter 1. april i år. Topdomænet er nu forbeholdt højere læreanstalter i USA med en studietid fra 4 år og opefter. Det omfatter ca. 7.500 websteder fordelt på ca. 6.000 læreanstalter. For internetsøgere er det en fordel at kunne afgrænse sine søgninger til .edu. Man har som regel kunnet regne med at fund herfra stammede fra veldokumenterede informationer fra kvalitetskontrollerede uddannelsesinstitutioner.
På internettet må kvalitetskrav ofte vige for kommercielle interesser. Der er gået prestige i at få sit domæne registreret som .edu. Alternativet er at få det registreret som .com. Det har før været tilfældet for den blomstrende underskov af alternative uddannelser af såvel høj som tvivlsom kvalitet.
Organisationen som tildeler .edu-topdomænet har besluttet at gøre det muligt for andre end de førnævnte at få tildelt topdomænet. Mange statsanerkendte uddannelsesinstitutioner ser det som en uheldig sammenblanding: fx bliver en skole med en seks måneders skønhedsuddannelse nu sidestillet med velrenommerede universiteter. De alternative og ofte dyre private uddannelser som fx kosmetologer ser det derimod som en anerkendelse af denne type uddannelser. En anerkendelse som de mener burde have fundet sted for lang tid siden.
Situationen kompliceres af at i internettets barndom var grænserne flydende så fx udenlandske skoler som London Business School fik tildelt topdomænet .edu.
Det er uvist om det er en fordel for uddannelsessøgende at de nu ikke ud fra topdomænet kan skelne mellem de to vidt forskellige former for uddannelse. Det bliver lige så interessant at se hvilken effekt det får for informationssøgning. Internettets størrelse skaber et stort behov for at kunne afgrænse meget præcist. Bliver den mulighed udvandet når de to typer af institutioner får samme topdomæne? Det er helt modsat hvad der er sket for .com: Det bliver opdelt i forskellige topdomæner som fortæller hvad type firma der er tale om, fx luftfart, advokater.

mandag den 10. februar 2003

Nemt nyt og overskueligt emnekatalog for aviser og magasiner
Tidligere på denne weblog (se 08.10.02) er omtalt hvordan man finder nyheder på internettet, heriblandt abyznewslinks som en god hovedindgang. Den har fået konkurrence fra
www.allyoucanread.com
Det er et emnekatalog med 27.000 nyhedsmagasiner og aviser fra 200 lande, logisk ordnet geografisk og efter 22 emner. På hovedsiden er en alfabetisk liste over landene (ellers kan man klikke på et verdens kort). Klikker man fx på Denmark, får man to oversigter: En over landsdækkende aviser og en liste over bynavne. Slutresultatet er meget omfattende, om end man skal kende sprogene i forvejen (ellers ville man jo heller ikke forstå hvad der stod i aviserne!).
Det er også muligt at kombinere emne- og landesøgning således at man får bestemte fagtidsskrifter fra et bestemt land. Det skal dog lige noteres at det mange tidsskrifter og aviser ikke tillader adgang til deres artikler, endsige artikelarkiver. Her er man henvist til de trykte udgaver.

onsdag den 5. februar 2003

Specialiserede emnekataloger
Internettet vokser til stadighed. Søgemaskinerne får stadig større og større indekser. Alt sammen fint nok, men det betyder også at man ved at bruge de generelle søgemaskiner som Google, Alltheweb og Altavista er nødsaget til enten at blive stadig dygtigere til at forfine sine søgninger eller bruge mere og mere tid på at gennemse de mange fund.
En anden måde at gå til nettet på er at anvende emnekataloger. Men udvælge dem med omhu. De generelle emnekataloger som Yahoo, Jubii og Sol er ofte ubrugelige hvis man er interesseret i informationer som går ud over dagligdags spørgsmål og hvis man vil gå mere i dybden med et emne.
Nedenfor nogle emnekataloger som har specialiseret sig i at udvælge kvalitetssider. De er nemme at manøvrere rundt i ved hjælp af gennemskuelige oversigter og emneordsregistre. De er gratis og forholdsvis rippet for de irriterende reklamer. Og så er det muligt at abonnere med nyhedsbreve om hvilke nye links der er kommet. Desuden er hvert link beskrevet i en kort tekst, så man hurtigt kan afgøre om man vil bruge tid på det.
Folkebibliotekernes netguide. (www.fng.dk) er de danske folkebibliotekers internetflagskib. Det vedligeholdes af bibliotekarer i hele Danmark med hver deres specialområde. Pt indeholder det ca. 4.300 links. Der er både mulighed for at søge fritekst, emne og titel.
Librarians’ index to the internet (www.lii.org) er de californiske bibliotekarers pendant til FNG. Den startede allerede i 1990 og er nu oppe på over 10.000 links.
Infomine (infomine.ucr.edu) er University of Californias emnekatalog over 40.000 akademiske llinks. Det startede i 1994 og vedligeholdes af bibliotekarer fra universitetet.
Ressource Discovery Network (rdn.ac.uk) er et samarbejde mellem mere end 60 forskellige højere læreanstalter, forskerorganisationer og British Library. Det fungerer lidt anderledes end de ovenstående. Men ved at bruge øjnene finder man hurtigt ud af hvordan. Emnekataloget er en slags hovedindgang til andre højkvalitetsemnekataloger som Social Science Information Gateway (SOSIG), Physical Sciences Information Gateway (PSIgate), Humanities Hub m.fl.
De ovennævnte emnekataloger er generelt orienterede. Derudover findes der en række gode emnekataloger som har specialiseret sig inden for bestemte fagområder. Som et eksempel kan jeg nævne ERIC. Det er et specialkatalog for pædagogik, opdragelse, uddannelse og undervisning. Det adskiller sig imidlertid fra mange andre meget akademiske specialemnekataloger ved at have en mere alment tilgængeligt del, Eric Digest. Det er folkene bag ERIC som laver let tilgængelige leksikon-agtige artikler om aktuelle temaer inden for området. Pt er det blevet til over 4.000 emner!
www.ericfacility.net/ericdigests/index/
Det er ordnet i numre, men har også en søgefunktion. Prøv fx på det aktuelle læringsbegreb situeret læring, eller på engelsk situated learning. Her fås en ca. 3-siders gennemgang af de væsentligste elementer i den. På denne måde kan emnekataloget også udfylde en funktion som et udvidet leksikon.

tirsdag den 4. februar 2003

Ny version af Teoma
Søgemaskinen Teoma er blevet opgraderet og forbedret. Den indeholder nu (ifølge egne oplysninger) 500 millioner adresser (mod Google’s og Allthewebs ca. 2 mia). Forbedringerne er små, men dog værd at notere: den har ligesom fx Google fået en stavekontrol. Skriver du fx ”bed roms” i søgefeltet, gør Teoma opmærksom på om ”did you mean ”bedrooms”. Den anden væsentlige forbedring er det avancerede søgebillede. Det ligner en reduceret udgave af Allthewebs avancerede søgebillede – den klart bedste avancerede søgning blandt de generelle søgemaskiner, bedre end Googles.
Se også gennemgang af Teoma på webloggen fra 28.10.2002:
Teoma – hvis du er til specialiserede søgninger
Et af de allerstørste problemer med store søgemaskiner som Google er når de ikke viser det du søger blandt de første 20-30 hits. Ud af måske 15.000. Heldigvis er Google god til at sortere og Wisenut og Alltheweb gode til at underinddele fundene. Med internettets vækst er det klart at det ikke holder.
Derfor kan det godt betale sig at holde øje med nye søgemaskiner som prøver at foregribe denne udvikling. En af dem er Teoma. For øjeblikket er den stadig en hel del mindre end Alltheweb og Google. Teoma oplyser ikke hvor stor den er, men en stikprøve med 5 spørgsmål i både Google og Teoma varierede fra 1:2 til 1:5, med et snit omkring 1:4. Dvs. Google er måske fire gange så stor som Teoma. Men kvantitet er ikke altid lig kvalitet, et hurtigt vue over de første sider i stikprøverne viste faktisk at Teoma havde lige så mange relevante hits som Google.
Teoma har nye ideer i sig: Den har forbedret Googles sorteringsprincip, dvs. princippet om at en side rangerer højt hvis der er mange andre sider som linker til den. Teoma undersøger maskinelt de sider som linker til en funden side og finder ud af om disse sider også indeholder samme emne. Dette kalder Teoma ”subject-specific popularity”. Groft sagt svarer det til at man i ”Vil du være millionær” får muligheden for at spørge enten publikum eller en ekspert på spørgsmålet. De fleste ville sikkert vælge eksperten (kvalitet) på trods af at publikum numerisk er flere (kvantitet).
Derudover er der to muligheder for afgrænsning: ”Refine” og ”Resources”.
Refine er en mulighed for at indsnævre sin søgning. Teoma er indrettet således at den kan kigge på emnekredse om dit søgeord. Jeg har ikke helt forstået hvad det går ud på. Men læs vejledningen.
Resources søger i websteder hvor amatører, entusiaster eller andre har lavet sider med mange link-henvisninger. Hvis du fx søger på biblioteker, angiver ”Resources” forskellige steder hvor der er lister med biblioteker.
Det er ikke altid det virker. Og sprog spiller en stor rolle her. Det virker klart bedre på engelske søgeord end på danske. Hvis du fx søger på ”den kolde krig” foreslår Teoma ikke nogen afgrænsninger, men fundene er dog eminent sorteret: Kvalitetssider fra Danmarks Radio, Leksikon.org, gymfag og andre figurer allerede på side 1. Hvis du derimod søger på engelsk på ”cold war” finder Teoma over 600.000 fund, hvoraf de første ser godt ud. Og denne gang får de afgrænsninerne: Refine giver bl.a. CNN, cold war history og cold war museum. Resources giver nogle linksamlinger om den kolde krig fra forskellige universiteter.
Til sammenligning giver Google mere end dobbelt så mange hits på ”cold war”, men unægtelig meget mere rodet og uoverskueligt end Teomas inddelinger. Google skelner fx ikke mellem tekst og linksamlinger.
Mit umiddelbare indtryk af forskellen på Teoma og Google er: Teoma er god til bredere emner hvor antallet af hits er meget stort (dvs. flere tusinder). Google er derimod bedst til søgninger hvor antallet af hits holder sig på nogle hundreder. Det skyldes måske at ved små søgninger kommer Googles størrelse mere til sin ret.
Også en anden af Googles gode sider, nemlig at man ved at trykke på Cached kan få highlighted søgeordene, har Teoma forbedret. Man trykker simpelthen på en knap i Teomas menulinje.
Hvad jeg savner hos Teoma er muligheden for at afgrænse på domæner, specielt topdomæner, at søge på websiders titler og flere andre avancerede søgemuligheder. Det håber jeg at Teoma får indbygget snart.
Jeg har for forsøgets skyld haft Teoma liggende som søgemaskine i browseren i august måned. Jeg synes at den virker overraskende god, trods sin størrelse. Her gælder ”hellere mindre men bedre”.

Sider