Internetsøgning: juni 2003

torsdag den 26. juni 2003

Store eller små bogstaver?
Som regel er det ligegyldigt om man skriver med små eller store bogstaver i søgemaskinernes søgefelter: søgemaskinerne skelner som hovedregel ikke. En sådan skelnen er ellers hensigtsmæssig når man vil udelukke uønskede fund; det helt oplagte eksempel er navne.
I Research Buzz 236 fra 19. juni 2003 gør Tara Calashain opmærksom på at man godt kan få Altavista til at skelne mellem små og store bogstaver. Hun har fundet ud af at ”” (altså anførselstegn, gåseøjne) om enkelte ord (ikke om sætning) får Altavista til at skelne mellem om ordet er skrevet med stort eller lille.
Inspireret af det har jeg undersøgt om det også gælder i to andre søgemaskiner, Alltheweb og Google.
Prøv fx med navnet Erik Høy. Her kommer der meget støj med fra norske sider, hvor ”høy” opfattes som tillægsordet ”høj” (ikke personnavnet). Her ville det være belejligt at søgemaskinen kunne skelne mellem små og store bogstaver så man kunne udelukke tillægsordet, idet det jo er personnavnet vi ønsker. Mulighederne for at søge på dette er:
1. Quick and Dirty: Erik Høy. Den dårligste måde. Alle søgemaskiner sætter automatisk boolsk ”og” mellem ordene. (Se webloggen om søgesprog 8.12.2002). Det gør ingen forskel om man skriver med stort eller lille i Altavista og Alltheweb. Google halverer Google antallet af fund hvis man skriver navnene med stort begyndelsesbogstav, men dog ikke i afgørende grad. Et kontrolcheck viser at Google som regel ikke skelner mellem små og store bogstaver. Fx giver Sønder Omme og sønder omme samme antal fund. Mig bekendt reagerer Google kun på store bogstaver i den engelske søgesprogskommando OR (eller).
2. Med anførselstegn om enkeltord: ”Erik” ”Høy”. Det virkede kun i Altavista, men der virkede den til gengæld også ganske glimrende: Hvis man skriver enkeltordene med stort begyndelsesbogstav, bliver antallet af fund reduceret til 1/6. Hverken Google eller Alltheweb skelnede mellem små og store bogstaver.
3. Som sætning: ”Erik Høy” Frasesøgning gav som forventet samme resultat i alle tre søgemaskiner. Og det var ligegyldigt om der var store eller små bogstaver i anførselstegnene.
De store fordele ved på flere ord synes jeg nu ikke Altavistas gåseøjne har. Ved de fleste personnavne søger man alligevel på to eller flere ord, og her giver frasesøgning et godt resultat selv om der ikke skelnes mellem små og store bogstaver.
Men der er indlysende fordele hvis man har et søgeord som samtidig kan betyde noget andet, fx Nino (kan både være vejrfænomenet og det spanske ord for dreng), Lærke (kan være pigenavn eller fugl) og Anders (drengenavn eller tysk: andet). Under alle omstændigheder er det altid godt med flere afgrænsningsmuligheder!

torsdag den 19. juni 2003

Emnekatalog til det usynlige internet: The Invisible Net.
Webloggen har før omtalt det besværlige usynlige internet. Et kort resume: Det usynlige internet rummer flere hundrede gange så mange dokumenter som det ”synlige”, dvs. det du kan finde ved at bruge søgemaskiner. Den enkleste, men stadig besværlige måde at finde disse usynlige ressourcer er at finde steder hvorfra du kan søge på det usynlige internet. (Se webloggen 28. august 2002 og 27. oktober 2002,).
Emnekataloget The Invisible Net er et sådant sted. Det består kun af ca. 1.000 steder. Men til gengæld er udvalget af Chris Sherman og Gary Price (fra Free Pint, Search Engine Watch, Resourceshelf m.m.). Og udvalgt efter bibliotekariske principper. De har bl.a. set på kvalitet, om det er gratis og om stederne har et godt ry.
Lad det være sagt med det samme: dette er ikke noget idealt katalog. Men det kan bruges til at få en fornemmelse af hvad det usynlige internet egentligt er for noget. Så betragt det mere som en slags sightseeing end som et søgekatalog. Hvis du ikke er interesseret i en sådan sightseeing, ja så stop læsningen her!
The Invisible Net er ret enkelt at bruge (men derfor ikke nødvendigvis ubesværet!). Men undlad at bruge søgefeltet! Forsiden består af 18 hovedkategorier. Klikker man på et af dem, får man en undermenu (dropdownmenu) som man kan vælge fra. Herefter får man så et varierende antal henvisninger til internetsteder hvorfra man kan søge på det usynlige internet. Der er korte beskrivelser af disse steder, oplysning om hvorfra på siden man kan søge samt et par henvisninger til lignende steder. Det er meget forskelligt hvor meget man finder under de forskellige emner. Under Science og Entertainment/Music er der ganske meget.
Under U.S. and World History er der kun to underkategorier: USA og World. Vælger man World, kommer der 11 forskellige søgemaskiner frem (tryk på related pages for at få en del flere!). Udvalget er fortrinsvist fra engelsksprogede lande. En af de fundne søgemaskiner er Picture Australia. Den kan bl.a. finde 2.681 billeder af Sydney Opera fra alle mulig og umulige vinkler. Fordelen er at der er nyttige oplysninger om billedet, bl.a. ophavet og hvor man kan bede om lov til at bruge. Det sker ikke ved billedsøgning på almindelige søgemaskiner.
Emnekataloget lider af kendte skavanker: Det kan være svært at skelne mellem synlige og usynlige resultater, udvalget dækker fortrinsvis USA og Canada og der er døde links (databaser har det med at gå ned ofte). Målgruppen er informationssøgere som er interesseret i mere dybdegående stof og som har en del tid og tålmodighed til rådighed. Fx studerende, journalister og entusiastiske amatører.
The Invisible Net ændrer ikke ved at søgninger på det usynlige internet stadig er til de små kvalitetssøgninger, og for internetsøgere udstyret med god tålmodighed. Synd, for det er på det usynlige internet at det meste af det dybtgående og mere kvalitetsprægede stof befinder sig.

torsdag den 12. juni 2003

Find citater på internettet.
Hvem sagde at der er noget råddent i Danmark? Og med hvad er det nu land skal bygges? Og hvad er nu den fulde tekst til Dybbøl Mølle maler helt ad helved til? Kort sagt: hvordan finder du oplysninger om citater på internettet?
Der er ikke et bestemt internetsted, men her er fire forskellige teknikker du kan bruge, alt efter hvilken type citat det er.
Første metode: søgemaskiner. Svarer til at skyde med spredehagl. Allerførste råd er at bruge citationstegn (””) om citatet: ”something is rotten in the state of denmark”, eller bare brudstykker fra citatet: ”something is rotten” denmark. Alle større søgemaskiner, Google, Alltheweb, Altavista og ez2www er gode til denne form for citatsøgning. Den store bagdel er at der enten er for meget overflødigt med – eller også finder man slet ikke noget.
Anden metode: Find en citatsøgemaskine. Fordelen ved disse er at de kun søger citater. Bagdelen er at den ultimative citatsøgemaskine ikke er opfundet! Nogle er endda specialiserede til fx kun at søge citater om bestemte emner eller citater fra bestemte professioner.
Gode oversigter finder man her: Folkebibliotekernes Netguide: klik i den alfabetiske emneordsliste øverst oppe under c og finder ordet citater. Her dukker pt. 6 forskellige citatsøgemaskiner op. Bedre er dog at søge i Librarians Index to the Internet. Her finder man lettest en oversigt over søgemaskiner ved at søge med ordet quotations i søgefeltet. Udvalget er 66 søgemaskiner. Fordelen ved at bruge disse to emnekataloger er at der er forklarende noter til hvad citatsøgemaskinerne søger i. Brug også FNG til de danske citatsøgemaskiner (de er små og få).
Tredje metode. Forudsætter at du nogenlunde ved hvem der er ophav til citatet. Kort går den ud på at finde fuldtekstbøger på internettet og derefter bruge søgefunktionen i Internet Explorer (Klik på Rediger og Søg, genvej: ctrl + B). Denne weblog har den 25.11.02 lavet en lille oversigt over sådanne virtuelle biblioteker. Et af dem er Digital Library som har næsten 20.000 bøger liggende til gratis afbenyttelse. Det er let at søge efter forfatter, titler, emner mm. Prøv fx under Shakespeare, William og klik på Hamlet. Indstil den på at vise hele teksten. Klik nu Rediger og Søg (eller ctrl + B), skriv fx rotten i søgefeltet, og teksten rykker nu ned til hvor dette ord forekommer.
Fjerde metode. Gælder meget kendte værker som Bibelen, Koranen o. lign. Disse har som oftest en eller anden side hvorfra man kan finde citater. Bibelen således The Bible Gateway . På denne adresse er mulighederne for at søge store, især I den avancerede søgning. Tilsvarende kan findes for Koranen og andre værker. Men også hvis man vil finde sangtekster til musikgrupper. Her kan man opsøge disse musikgruppers hjemmeside. (Se hvordan under adressesøgning i denne weblog, 14.10.02.)

fredag den 6. juni 2003

Emnekatalog for billedsøgning
Kun 2 måneder efter Internetsøgning opdaterede indslaget om billedsøgning (se 4.4.2003), blev jeg opmærksom på et helt ny emnekatalog om billedsøgning: Fagan Finder . Det er ikke et sted hvorfra man kan hente billeder, men det henviser til et halvt hundrede steder på internettet hvorfra man kan søge billeder.
Der er henvisninger til de generelle søgemaskiners billedsøgning, til grafik og clipart samt til specialiserede søgemaskiner eller steder med mange billeder, fx om kunst, historie og natur. Et afsnit er helliget hvordan man søger billeder samt andre relevante artikler om billeder på internettet. Den forklarer også lidt om de forskellige billedformater som findes.
Stedet er godt som udgangspunkt for en mere dybtgående billedsøgning, og er mere omfattende end noget andet sted, jeg har set.

tirsdag den 3. juni 2003

Alltheweb prøver med mappeinddelinger – igen! Og stavekontrol...
I sin spæde barndom havde søgemaskinen Alltheweb forsøgt sig med en maskinel opdeling af fund. Det er noget man også kender fra Northern Light og Teoma. Ideen er at når man får mange hits, ja så fremkommer søgemaskinen med nogle maskinelle underopdelinger af fundene, altså en slags forslag til at indsnævre søgningen. Sådanne underdelinger fungerer sjældent godt. En af de få undtagelser er Teoma.
Nu forsøger Alltheweb sig så igen med underdelinger. Det fremkommer efter søgningen nederst på siden (i modsætningen til ”den gamle”, som var over resulaterne). Der er tre forskellige slags: forslag til at indsnævre søgningen med ord (Clusters), angivelser af multimediefiler (billeder, video m.v.), og ved visse søgninger også forslag til Similar Queries (se eksemplet nedenfor). Dette sidste er ikke det samme som Google sætter på posterne (lignende sider)
Jeg afprøvede nogle forskellige søgeord (søgemaskiner, elefanter, religion, denmark og gardenia). Og resultatet var ikke særlig imponerende. For alle fire ord faktisk ret ubrugelige.
Bortset fra et tilfælde: Ved søgning på gardenia (det var blomsten jeg var ude efter), viste Clusters hoteller som bærer det navn (det var mange), men til gengæld anbefalede Similar Queries så Gardenia flower, gardenia seed og gardenia care. Ved klik på disse gav det faktisk brugbare resultater.
Søgningen på Denmark gav ud over de tre nævnte underdelinger for neden også to nyheder (over søgeresultaterne). Underdelingerne kunne kun bruges, hvis man er interesseret i rejser og myndigheder. Det så lovende ud for kortsøgning i Similar Queries, men et klik her fremkaldte blot en ret uoverskuelig ny søgning og nye, ikke særligt brugbare Clusters.
Konklusionen af dette må være at man da altid kan kigge efter forneden om der skulle være nogle brugbare muligheder for at indsnævre, men ikke stille alt for store forventninger.
Siden 28. maj har Alltheweb også stavekontrol. Lige som de fleste andre store søgemaskiner har. Prøv fx at søge på gardinia, så spørger Alltheweb øverst om man mente Sardinia! Ikke anvendeligt til gardenia. Men....

Google-specialiteter
Dette indslag er en opdatering af alle tidligere gennemgange på webloggen om Google. Der er sket ændringer i de sidste år. Derfor.
Søgesprog.
Og, ikke og eller: +, -, OR.
Når man skriver flere ord i søgefeltet sætter Google som bekendt ”og” mellem ordene. Mindre kendt er måske at rækkefølgen af ordene er vigtig: skriv de vigtigste søgeord først! ”Og”-kommandoen (som angives med +) er kun nødvendig foran søgeord som er stopord, dvs. småord (1-3 bogstavsord som er meget almindelige på engelsk, tysk, fransk og kinesisk).
Det er ligegyldigt om man skriver med store eller små bogstaver, undtagen i et tilfælde: ”Eller”-kommandoen skal med stort: OR.
Ordtrunkering og frasesøgning: * og ””.
Google kan ikke trunkere. Dvs. dette med at anbringe et * eller et ? efter et ord (fx uderigsmin*), som så søger på alle endelser (i eksemplet udenrigsminister, udenrigsministeriet, udenrigsministersekretær, osv.) . Google bruger * (asterisk), men ikke som et traditionelt trunkeringstegn (wild card). Google bruger det som en ord-maskering. En * (med mellemrum for og bag) kan man bruge som en erstatning for et ord man er usikker på. To * for to ord, osv. Denne form ordmaskering er mere primitiv end en ”rigtig” trunkering. Men den kan dog være anvendelig i følgende to tilfælde:
1. Google søger på maksimum 10 ord. Hvis du fx søger på et langt citat der overstiger 10 ord, kan du erstatte nogle af ordene med **.
2. Hvis du er usikker på et eller flere ord i et citat, en sangtekst el.lign. Når man søger efter sangtekster, er det normalt en dårlig ide at søge efter sangtitlen. Så får man nemlig tit bare nogle oversigter, men ikke sangteksten. Derfor kan det godt betale sig at søge på strofer i selve teksten. Det samme gælder for citater.
Feltsøgninger, kommandosøgninger.
Følgende feltsøgninger er mulig i Google:
Dato. Er datoen for opdatering af internetsiden. Den fortæller altså ikke noget om hvor nyt selve indholdet er. Kun i det avancerede søgebillede.
Link Denne funktion eftersporer hvilke sider som linker til en bestemt side. Den findes i det avancerede søgebillede. I det enkle søgebillede kan man søge med kommandoen link:, altså fx link: erikhoy.blogspot.com.
Related (lignende) søger internetsider som Google mener ligner den fundne post. Desværre er det ikke lykkedes mig at finde ud af hvilke kriterier Google her bruger, og det er efter min opfattelse en lidt spøjs søgefunktion som ikkes er særlig brugbar. I den enkle søgning bruger man kommandoen: related: Funktionen optræder også til sidst i hvert fund.
Site kan bruges til 2 ting: Den ene er at søge inden for et bestemt netsted. Den anden at afgrænse til domæner (.edu, .dk, .com o. lign.)
Sprog. Den avancerede søgning kan indstilles til 25 sprog.
Topdomæner. Hvert land har sit eget landedomænenavne, fx .dk for Danmark, .se for Sverige, .de for Tyskland osv.. Topdomænet .com er virksomheder som tjener penge, .edu er højere læreanstalter i USA, .gov er føderale- og statslige regeringer, .org er partier, nonprofitable foreninger og virksomheder. Topdomæner som ikke er landekoder kan du med fordel udnytte til at frasortere uvedkommende hits. Desværre dur de mest for sider fra USA. I den enkle søgning er kommandoen site: Fx site:edu. I den avancerede søgning at skrive edu i feltet domæner.
Titler er teksten øverst oppe i den blå linje på skærmen. Søger kun i titler, hvor webmasteren har valgt at kalde sin side det samme som dit søgeord. Et stærkt indicium på at her er noget meget relevant. I den enkel søgning er kommandoen allintitle:. I den avancerede søgning afklikkes ”i sidens titel” ud for Fremkomster.
Andre faciliteter
Cached
Viser siden som den så ud da Google’s robot hentede siden ned I databasen. Dette kan være nyttigt i de tilfælde hvor internetsiden i mellemtiden er blevet ændret, eller i værste fald helt fjernet. Med cache-funktionen kan finder man den ”originale” udgave. I den enkle søgning kan man søge efter alle cache-udgaver af en bestemt side med kommandoen cache:, altså fx: cache:erikhoy.blogspot.com. Funktionen ligger derudover også i hvert fund (næstnederst).
En sidegevinst er at ens søgeord bliver highlighted. Hvem kender ikke det at man gerne vil undersøge et hit, klikker på det og når siden toner frem tænker: Hvorfor f… kommer den frem”? Googles Cached-funktion gør det imidlertid nemmere. Klikker man på denne funktion (som ligger i nederste linje af hvert hit), får man en lille boks frem øverst oppe hvor der står med hvilke farver ens søgeord er highlighted. Prøv fx at søge på ”peace conference” hague 1899. Tryk på cached ved en given post. Så kommer dokumentet frem med en lille boks for oven hvor Google oplyser at frasen peace conference er overstreget med gult, hague med blåt og 1899 med grønt. Tilbage er så blot at rulle dokumentet hurtigt igennem og lægge mærke til hvor disse farver optræder.
Henvisninger til Open Directory
En af Googles store svagheder er hvis den ikke viser nogle brugbare hits på de første to-tre sider. Her har Google imidlertid givet en mulighed for at finde tilsvarede kategorier i emnekataloget Open Directory. Ovenikøbet hele to steder. Findes der en særlig kategori for ens søgeord angives den øverst oppe over alle fundene. Prøv fx voodoo; her henviser den til en kategori i Open Directory: Kategori: Society > Religion and Spirituality > African > Diasporic > Vodou, Vodun, Voodoo. Kan Google ikke finde en overordnet kategori I Open Directory, henviser den i stedet enkelte hits i Open Directory. Prøv fx med "peace conference" hague 1899. Her er ingen generelle kategorier øverst, men til gengæld angiver Google ved de enkelte hits flg.: Kategori: Society > History > By Time Period > Nineteenth Century > Wars and Conflicts.
Bemærk at det er muligt at krydskombinere alle disse muligheder.

Sider

torsdag den 26. juni 2003

torsdag den 19. juni 2003

torsdag den 12. juni 2003

fredag den 6. juni 2003

tirsdag den 3. juni 2003