onsdag den 23. februar 2011

Hvad findes i Google Books på dansk?

Selv om jeg ikke har noget præcist tal på hvad der findes af danske bøger i Google Bogsøgning, så er her et bud:
  • 2.500 Bøger i fuldtekst. Fortrinsvist skannede bøger fra universitetsbiblioteker i USA ældre end ca. 1870. Men der er også en betydelig mængde fra Bayerische Staatsbibliothek.
  • Bøger i uddrag. Fortrinsvis skannede bøger fra biblioteker i USA nyere end 1870.
  • Bøger i eksempelvisning. Fortrinsvis nyere bøger som i forvejen eksisterer elektronisk fra enkelte danske forlag. Hvor meget de viser afhænger typisk af forlaget. Bøger fra Forlaget Musculanum, vises typisk de første 40-50 sider, med enkelte udeladte sider.
Der findes også bøger fra før og hen i det 18. århundrede, som ikke er registreret i Dansk Bogfortegnelse (den danske nationalbibliografi), se fx denne bog om borgerkrigen i Nordamerika, som du kan finde på Bibliotek.dk. Problemet er, at hvis du bruger faciliteten med at søge videre på internettet, bliver du aldrig ledt frem til titlen i Google Books.

En anden bog befinder sig som mange øvrige bøger kun på Det Kongelige Bibliotek, og de fleste af dem kan ikke hjemlånes. Mange gamle bøger er trykt i fraktur (gotisk). Men der er også meget gamle bøger der kan læses fordi de er trykt med "almindelig" skrift, her fra 1851. Gamle skrifttyper er dog ikke længere et problem, idet Google Bogsøgning kan omskrive teksten til moderne skrifttyper.

Men eksempler på bøger som ganske almindelige internetbrugere nu har fået adgang til er ganske mange. Prøv selv. Norge hørte jo i perioden til Danmark, så mange bøger udgivet i Norge kan du sagtens læse, fx dette flerbindsværk. Lige som dette flerbindsværk.

Af fuldtekstbøgerne er omkring 500 monografier, dvs. etbindsværker. Derudover er der en del ældre tidskrifter, vel omkring 30 titler med et varierende antal bind. Resten er flerbindsværker.

Jeg er ved at være færdig med linkningen fra monografierne og tidsskrifterne i biblioteksbasen til Bogsøgning. Men foreløbig ligger posterne altså kun i Københavns Bibliotekers database. Her kan du kun se de poster som København har i forvejen (pt er det 158 titler). De udgør omkring 1/3 af linkene. Resten, altså 2/3 af linkene er foreløbig kun synlige for bibliotekarerne i Københavns kopi af basen. Jeg er endnu usikker på om det har national interesse, og oplysningerne skal overføres til DBC, hvor de så vil være synlige i Bibliotek.dk.

Med henvisningerne til tidsskriftårgange får vi pludselig mulighed for at artikelsøge i enkelnumre. Og derudover, alle bøger med gotisk skrift, eller andre læserfjendtlige typografier er nu også læsbare. I Bogsøgning er der nemlig en funktion så du kan se teksten i ganske almindelig nutidig typografi. Disse to meget funktionelle faciliteter tror jeg kun er toppen af isbjerget over de mange muligheder med digital tilgang til litteraturen.

Her er et eksempel fra Københavns Bibliotekers søgebase (feltsøgningen). Jovist findes Annaler for Nordisk Oldkyndighed i papirform 1836-1863, men mange af årgangene findes også i Google Bogsøgning. (Der kan i øvrigt være flere, jeg er ikke helt færdig). Til forskel fra papirudgaverne, så kan vi altid komme til de digitale udgaver. Vi kan søge i enkeltnumrene, og vi kan få eventuel gotisk tekst omskrevet til almindelig nutidig skrift. Det kan da ikke blive meget bedre!  Jeg skal dog skynde mig at sige, at dette eksempel langt fra er typisk for alle tidsskrifter i Google Bogsøgning. Men det illustrerer ganske godt potentialet.

Hvorfor ikke bare løse dette teknisk? Ja, det kan jeg jo sådan set heller ikke selv forstå at det ikke kan. Men efter 2-3 år hvor der har været afprøvet forskellige løsninger fra DBC og Google, så må jeg som menig bruger af systemerne konstatere at de ikke fungerer. Googles Bogsøgning fungerer ikke optimalt hvad angår søgning (se tidligere indslag her på blokken). Jeg skal undlade at forsøge at finde "skyldige". Det kan være DBC, det kan være Google. Lige meget for mig.

Link er en enkel omend tidskrævende løsning. Ålborg Universitet har peget på maskingenererede løsninger hvad angår bøger med ISBN-numre. Det er for mig at se også vejen frem. Men hvis manuelle løsninger skal til, så lad os ikke skræmme. Hvornår kommer nogen med en tilsvarende løsning for bøger uden ISBN-numre? Og hvornår giver de danske forlag os mulighed for at søge inde i bøgerne?

Jeg håber at mit noget kluntede, men velmente forsøg på at vise mulighederne i digitalisering vil blive brugt. Hvis brugerne begynder at kunne se "lyset", vil det måske endeligt få forlagene, forfatterne og biblioteksverdenen til at sænke paraderne. Og i stedet for de evindelige forbehold, forholdsregler og slet skjult kritik lade publikum få adgang til den danske litteraturskat som de selv så højt besynger, men knuger til sig og gemmer, så ingen kan få øje på den.

onsdag den 16. februar 2011

Mens vi venter på digitaliseringen ....

Som nævnt i tidligere indslag her på Internetsøgning, findes der flere tusinder digitaliserede danske bøger i Google Books. Men vi bliver bare ikke umiddelbart opmærksomme på dem når vi søger på biblioteksbaserne. Det prøver jeg nu at råde bod på.

Jeg er begyndt at lægge link fra Københavns Biblioteksbase til Google Books. Måske kan de gøre gavn i en større sammenhæng ved at blive eksporteret til Bibliotek.dk. I første omgang er der kun tale om fuldtekstmonografier. Men henvisninger til flerbindsværker, tidsskrifter og eksempelvisning ville også gavne rigtig meget. De sidste er bøger, og ofte er det ganske meget man ofte bliver præsenteret for.

Du kan finde ca. 1/3 af bøgerne ved at gå til Københavns Bibliotekers feltsøgning og i feltet kommandosøgning skrive: kk=googlebooks. Denne søgning vil udløse de pt ca. 80 titler som jeg har lagt henvisninger til og som findes i bogform i Københavns Biblioteker.


Der er andet end fuldtekstbøger i mine henvisninger. Kig fx på denne, Smag for etik. Der er pt en ventetid på 2-3 uger i København. Men hvis du kigger nøje efter, så er der en henvisning til Google Bogsøgning. Godt nok kun i begrænset omfang. Men hvis du begynder at bladre bogen igennem, vil du faktisk finde ud af, at den viser ganske meget af bogen. Måske lige præcis de sider, som låneren var ude efter.

Derudover er der over 100 titler som ikke findes i København, men som pt kan findes af bibliotekarerne i København på vores lokale kopi af Danbib. Jeg håber at disse data engang bliver eksporteret til Bibliotek.dk, så de bliver synlige dér.

Også andre udenlandske baser har danske bøger med, fx Project Gutenberg. Men der er forsvindende lidt i forhold til hvad Google Bogsøgning har med. Og kvaliteten er måske heller ikke helt så god.

Hvis ellers Google Bogsøgning havde fungeret bedre og optimalt, og hvis ellers sammenkøringen af Bibliotek.dk og Google Bogsøgning havde fungeret gnidningsløst, og hvis ellers digitaliseringen af den så højtpriste danske bogskat her i landet havde et omfang af betydning, så ville dette have været betydningsløst.
Linkningen er dog ganske lærerig, og giver et ganske godt indblik i hvad der findes.

En af de tanker jeg har fået er, at de ældre bøger ikke har emneord på. Af indlysende grunde. Men nu er det jo blevet ulige meget nemmere for emneordskatalogisatorer at sidde ved en skærm og kigge på bøgerne. Dette er hermed en opfordring til folk der tænker på samme måde som jeg gør!

torsdag den 10. februar 2011

Wordy: Dansk firma med international interesse

Google Oversæt er det bedste maskinelle bud på en online oversættelsestjeneste. Men de der har brugt den, kender også dens begrænsninger. Det er absolut ikke egnet til oversættelser i fx gymnasieopgaver, forretningsbreve, eller til at lave hjemmesider på et andet sprog. Præcisionen er ganske enkelt ikke god nok.
Hvis du skal have knivskarpe oversættelser, er der ingen vej uden om mere professionelle oversættere. Her er vi ude i noget med penge og noget ved ventetider.
Til det formål har en dansk webtjeneste oprettet Wordy.com. Ideen er at du kan oprette en konto på hjemmesiden, og indsende din engelsksprogede tekst. De vil så blive korrekturlæst inden for meget kort tid. Tjenesten er altså for de som skriver på engelsk uden at have det som hovedsprog.
Hvis man skal tro oplysningerne på hjemmesiden, har virksomheden 150 medarbejdere som retter. Og de kan rette omkring 400 ord på en halv time. De sidder overalt i verden, så der skulle være dækning døgnet rundt.
Hvis du er usikker på hvad det er, kan du få en prøve.
Link
Wordy.
ComeOn.