tirsdag den 29. november 2011

Overblik over ændringer hos Google

Som tidligere nævnt har næsten samtlige Googles produkter gennemgået en revision. Og mange af dem er eller vil blive lukket ned. Det kan være svært at danne sig et samlet overblik. Jeg kan slet ikke følge med i revideringen af Google-Guide, så her et kort resume af hvad der ikke længere eksisterer, eller er planlagt til at blive nedlagt:

  • I marts lukkede Google Gears, og fra 1. december ophører supporten til den. Det har mest betydning for meget nørdede internetsøgere, så det er nok de færreste der begræder det.
  • Den 19. december lukker Google Bogmærkelister. Altså de hvor du kunne dele bogmærker med andre (lidt a la Delicious). Selve Google Bogmærker ser dog ud til at fortsætte.
  • Den 1. marts 2012 lukker Google Friend Connect. Det er den du kan se i denne weblogs højremenu. Dog vil den stadig eksistere for Blogger, så den vil altså ikke blive fjerne for Internetsøgnings vedkommende. For alle andre opfordrer Google i stedet at lave en Google+ side.
  • Search Timeline bliver fjernet (hvis den da ikke allerede er det). For historisk interesserede anbefaler Google at bruge Google Trends eller Google Insight.  
  • To danskere var aktivt involverede i Google Wave, og det blev lanceret under stort medieståhej. Men Waves slog aldrig rigtigt igennem. Personligt syntes jeg at det var alt for overlæsser med faciliteter, og jeg fandt aldrig ud af at bruge det rigtigt. Det var jeg åbenbart ikke alene om, så 31. januar 2012 lukker den delvist ned for så endeligt at lukke og slukke 30. april.
  • Knol var forskeres mulighed for enkelt at få deres dokumenter uploadet. Men det blev åbenbart ikke en succes, for 1. maj lukker den. Indtil da har forskerne mulighed for at trække deres dokumenter tilbage. Efter at have lavet nogle prøvesøgninger i den, må jeg sige at Knol nok mere var en god ide, end en god praktisk udførelse.
  • Google Health var en service som Google lavede for borgere i USA. Det fungerede lidt ligesom Sundhed.dk. 1. januar lukker den ned. Næppe noget som vil få betydning i Danmark.

En konklusion på dette kunne være at selv Google ikke er i stand til at hamle op med alle former for internetaktiviteter. Der er stadig områder hvor de enten ikke fandt et område der var værd at opdyrke, eller området allerede var/er dækket ind af firmaer som forbrugerne foretrækker. Mange af faciliteterne er så i stedet indarbejdet i Google+. Men det er en helt anden sag.

Det ser ud som om at Google har satset meget stort på at Google+ skal blive en succes. Dvs. samle mange aktiviteter på et sted. Personligt må jeg sige at jeg har en del udbytte fagligt af at bruge Google+. Der er personer som jeg har fundet til mit "følger"-netværk som giver ganske gode tips. Da det ikke bliver brugt af mine private bekendte, hælder jeg mere til Facebook.

onsdag den 16. november 2011

Google på koffein....

For over et år siden, august 2010, introducerede Google en helt ny form for webindeksering: Caffein (koffein). Formålet var at give helt dugfriske og opdaterede søgeresultater, og ikke blot for få sider, men for en altovervejende del af webben.

Normalt tænker du måske ikke over det, men når du søger på Google, søger du ikke på internettet, men i kopier af internetsider, lagret i kæmpecomputere. Disse kopier kan være mere eller mindre gamle. Faktisk helt op til flere uger, måske måneder gamle. Ydermere foregik indekseringen ved at Google tog store portioner ad gangen således at det gik en del tid fra siderne blev indekseret, til du kunne finde dem ved søgning i Google.

Caffein indekserer i modsætning hertil små portioner, men til gengæld hele tiden, og det skulle så gå meget stærkt for Google-brugere at finde meget opdaterede sider. Hvis du ikke rigtig forstår det, så er du ikke alene om det. I hvert fald har jeg meget svært ved at begribe dette og se det for mig. Googleblog skriver noget om hvad det er der sker:

Hvert sekund behandler Caffein hundredtusinder af sider. Dette svarer i papirsider til en stak der vokser med næsten 5 km i sekundet. Caffein fylder 100.000.000 GB, og samler hundredtusindvis GB ny information hver dag. Hvad der svarer til 625.000 af de største iPads. Hvis de blev lagt oven på hinanden, ville de række op i 64 km højde. Her er min fatteevne opbrugt, og tager blot til efterretning at: Det lyder af rigtig meget!

I november trykkede Google så yderligere på speederen ved at lade et kriterie for nyeste sider indgå i den generelle søgealgoritme. (Eller måske rettere: Skrue op for dette kriterie). Efter sigende skulle det få betydning for 35% af søgningerne hvad angår opdaterede sider. Dette er målrettet mod højaktuelle emner, regelmæssigt tilbagevendende begivenheder og langtidsholdbare "gamle" nyheder.

Jeg har ikke umiddelbart kunnet se nogen ændring i søgningerne. Det ville jo også kræve at jeg havde lavet nogen søgninger før opdateringen så jeg kunne sammenligne. Når jeg siger det, er det ikke helt rigtigt. Jeg har faktisk undret mig over at når jeg søgte på nærværende blog kort tid efter at have udgivet et nyt indlæg, så viste Google den nye version, med det nye indlæg. Men en svale gør ingen sommer, så jeg har ikke taget dette (og vil heller ikke tage det) som et bevis på at Caffein
virker. 

EDIT 12.33. Jeg har lige set at Google Inside Search har en længere oversigt over ændringer i søgealgoritmen. Jo, tingene går stærkt for tiden. Måske allerede mens jeg sidder og skriver dette.

Link
Googleblog.
Inside Search.
Search Engine Land.

onsdag den 9. november 2011

Svenske ebøger

Den 1. november fortalte jeg om det norske nationalbiblioteks digitalisering af norske bøger. En kollega har gjort mig opmærksom på at det svenske kongelige bibliotek, Kungliga Biblioteket, også henviser til elektronisk materiale.

Så jeg klikkede ind på Libris, og fandt et link til Nya fria e-resurser et pænt stykke nede. Herefter var det bare med at klikke på Se alla fria e-resurser. Denne viser at der er 127.000 poster. Ifølge oplysninger andetsteds på hjemmesiden er der 25.000 gratis bøger og tidsskrifter. Da jeg bladrede om på de sidste 10 sider i søgningen var de da også tomme.

Rent umiddelbart forekommer fremfindingen af disse materialer lidt kluntet og begravet i alt muligt andet. Muligvis kommer de dog frem på anden vis, fx hvis du søger på Libris (det der svarer til det danske bibliotek.dk). Det vil jeg lade andre om at forsøge sig med. I første omgang var min interesse at se hvor meget der er tale om, og hvad for materialer det er.

Hvad angår antal, er jeg mystificeret. Hvis du kigger på højremenuen angiver den forskellige afgrænsningsmuligheder (Avgränsa träffmäng). Her står der i Åtkomst og fritt online at der er ca. 127.800 materialer. Kigger du længere ned, står der bl.a. 102.200 bøger og 18.300 tidsskrifter. Hvilket igen peger på de ca. 127.000 materialer. Det samme gør sprogopgørelsen: Engelsk 70.600 og svensk 43.257.

Hvad angår type forlader jeg mig helt på nogle stikprøver. Det forekommer mig at det meste bøger fra offentlige institutioner, universiteter o. lign. Dvs. betænkninger, udredninger, bøger, rapporter o.lign.

Hvad angår alder, synes det som om at det er nye materialer. Der er enkelte fra 1800-tallet. Men ellers synes resten fortrinsvis at være materialer nyere end år 2000. Hvilket bekræfter formodningen om hvilken type det er. Denne type materiale eksisterer allerede elektronisk, så det har bare været med at gøre det tilgængeligt.

Som sagt, alt dette bygger på stikprøver og jeg har ikke umaget mig til at kontakte nogen i Sverige for at finde ud af om formodningerne er rigtige. Det har vi for så vidt også gjort i Danmark for fx betænkninger. Søger du fx på Betænkning 1506 i Bibliotek.dk finder du også den elektroniske udgave.

Nogen systematisk offentliggørelse af samtlige offentlige dokumenter ved jeg ikke om der er. Lige som jeg heller ikke kan gennemskue om svenskerne har andet med. Så vidt jeg kan ane, ser det ud til at svenskerne måske også har en hel del materialer fra universiteterne.

Er det mere eller mindre end i Danmark? Jeg kan ikke svare på det. Elektroniske materialer fra danske universiteter er nærmest ikke-eksisterende på Bibliotek.dk. Det er i stedet samlet på en portal Forskningsdatabasen. Her er bl.a. 10.000 Ph.D. afhandlinger. Mange findes selvfølgelig i trykt form. Deværre ligger mange af dem i et særligt filformat som ikke umiddelbart kan åbnes, men kræver download af specialprogrammer. Dette er en hæmsko hvis Bibliotek.dk skulle linke til dem.

Sammenligninger skal vi selvfølgelig være varsomme med. New York Public Library var et af de første biblioteker til at tilslutte sig Googles biblioteksprojekt. De har nu en omfattende digital samling af materialer i public domain. Googles andel i denne samling omfatter 32.000 materialer, bl.a. fordi grænsen her ikke ligger i 1870, men 1923. Hertil kommer så de øvrige samlinger hvoraf nye ebøger udgør 21.400.

mandag den 7. november 2011

Ebøger på internettet

Jeg har i de seneste måneder skrevet en del om danske bøger i Google Bogsøgning. Nogle spørger sig måske, findes der andet? Og jo. Det gør der. Problemet er at finde det. I rap rækkefølge kan jeg nævne følgende steder hvor der er større mængder, dvs. over 100:
  • Det Kongelige Biblioteks Kulturperler har et par tusind billeder af meget gamle værker, hovedsagelig skrevet med gotisk skrift og ofte på latin.
  • Det vist nok ældste inddateringsprojekt, Project Gutenberg, har omkring 100 danske titler med.
  • Det nyligt lancerede eReolen skulle nå op på 2.000 nyere titler (jeg kan nu kun se ca. 1450 pt).
  • Open Library har et for mig ukendt antal danske bøger med ud af deres 80.000. Mit bud er ca. 300. Men søgning viser 2.500. problemet er bare, at du ikke kan læse dem alle.
Derudover findes der en ganske betydelig mængde digitaliserede bøger som kan være meget svære at finde. Det skyldes at de ligger spredt på en masse ret ukendte websteder. Her et par eksempler:
  • Salmonsens Leksikon, 2. udgave. Det især for ældre læsere legendariske værk. Vi bruger det stadig på bibliotekerne.
  • Darwin Biblioteket på Aarhus Universitet.
  • Københavns Biblioteker har skannet Kraks vejvisere for København, Frederiksberg mv. med 5 års mellemrum i perioden 1770-1895. Jeg er pt ved at lave poster til dem så brugerne finder det via bibliotekskatalogen.
  • Jens Guld har lagt nogle titler ud: Brandes' Hovedstrømninger, en bog om småkoppernes historie, noget Kipling,  et par taler som Macaulay holdt i det engelske parlament i 1841/42 og et essay om tulipangalskaben i 1630'erne i Holland.

Men dette er blot nogle få eksempler ud af mange. Problemet med disse værker er at der ikke ud over Googles almindelige websøgning findes et sted hvor du kan finde dem.

Et forsøg på det, blev jeg gjort opmærksom på af en bibliotekar fra Odense: Internet Archive digitaliserer over 1.000 bøger om dagen og også har bøger med fra fx Google Bogsøgning, Open Library og Project Gutenberg. Pt har de omkring 2.9 mio. bøger, herunder de 1 mio fuldtekstbøger fra Google Bogsøgning.

Hvis vi kigger lidt i det udenlandske, så er følgende interesssante:
  • HathiTrust. (Hathi er hindi for elefant) blev dannet 2008 af 13 universiteter og omfatter nu over 50 forskningsbiblioteker i USA og Europa. Her er ca. 2 mio. fuldtekstbøger, bl.a. fra Google Bogsøgning og Internet Archive. Som Google Bogsøgning kører der søgsmål mod selskabet, ligesom det selv kører sager mod andre. Jeg har ikke umiddelbart noget bud på hvor mange danske bøger der er. Men der er nyere bøger end 1870.
  • Europeana har jeg tidligere omtalt. Det er ikke specielt et bogprojekt, men der kan være være fuldtekstbøger dér. Det satser dog fortrinsvis på video, foto, malerier, audio, kort, manuskripter og aviser.
  • Live Search Books eksisterede 2006-2008 og nåede at indskanne 750.000 bøger og 80 mio artikler. Nogle af dem indgår i den almindelige søgning. Andre er foræret tilbage til hvor de blev indskannet.
Igen, jeg ved ikke om det er en komplet oversigt. Men allerede nu aner vi savnet af et sted der samler alle disse mange, store og små, steder.Nogle vil måske savne fx World Digital Library, men jeg har ikke kunnet se noget dansk der.

tirsdag den 1. november 2011

Bokhylla

Den nye chef for den nyoprettede Digitaliseringsstyrelse er i Computerworld blevet citeret for at sige:
"Vi vil være meget optaget af, at det man beslutter, så også bliver ført ud i livet."
Måske er det ikke sådan ment, jeg vil jo nødig tillægge hende meninger. Men med kendskabet til bibliotekernes digitalisering af materialer, kunne det være en ændring i det nuværende forløb med at i Danmark snakker vi, og igangsætter marginal-projekter som fx Kulturperlerne.

I Norge snakker også. Og beslutter. Men i modsætning til i Danmark, er de også optaget af at føre beslutninger ud i livet. Norges nasjionalbibliotek har fra september lagt knap 50.000 fuldtekstbøger på en boghylde, Bokhylla. Det er bøger udgivet i sidste årti i de fire århundreder 1600, 1700, 1800 og 1900. Eller 10 mio. søgbare bogsider. Hermed har Norges nationalbibliotek taget skridtet fra udelukkende at satse på en bibliografisk database (i stil med Bibliotek.dk i Danmark) til at være et digitaliseret bibliotek. Med digitaliseret indhold.

Nasjonalbiblioteket har digitaliseret mere end 120.000 bøger ud af deres samling på 450.000 bøger. Men meningen er at alt skal digitaliseres. Og ikke nok med det. I alle andre lignende projekter er publicering hæmmet af 70-årsreglen. I Google Bogsøgning er mange nyere bøger ikke frit tilgængelige, men kan kun ses i udsnit, 20-40 sider osv. Bokhylla oplyser at ved udgangen af 2011 vil alle bøger, fag- og skønlitteratur og lærebøger, udgivet i Norge i 1990'erne (ca. 50.000 værker) være på internettet. Det baserer sig på en aftale mellem Nasjonalbiblioteket og Kopinor.

Jeg har slet ikke noget overblik over hvad type litteratur det er. Mine prøvesøgninger gav en del offentlige rapporter og også mange ældre titler. Men det kan være fordi jeg søgte forkert. Søgning, visning osv. ligner fuldstændig Google Bogsøgning. Se fx denne nyere bog om den hemmelige presse i Norge under 2. verdenskrig. I starten synes jeg kvaliteten var lidt dårllig. Men det kan du rette ved at ændre kvaliteten fra lav til høy. Praktisk, enkelt, selvinstruerende, godt.

 Den i teksten nævnte bog om den illegale presse.

Som i Københavns forsøg med henvisninger fra Bibliotek.kk.dk til Google Bogsøgnings fuldtekstbøger, vil den norske nationaldatabase henvise fra den bibliografiske database til fuldtekstbasen.

Jo. De er sørme i gang i Norge! Sådan! Til lykke Norge. Godt gået! Jeg er gul og blå af misundelse. Rød af skam i kinderne når jeg tænker på hvad der sker i Danmark. Og (bleg)hvid når jeg tænker på at intet tyder på at vi på samme vis vil rykke i Danmark. 

Link