onsdag den 25. april 2012

Søgetips for digitaliserede bøger

For knap 10 år siden ville det være meget besværligt at søge tværgående emner i bøger. Hvis en forsker skulle undersøge et emne som: Hvad sagde "de gamle" om jøder? Så var den hårde metode at gennemlæse bøgerne, og fx lægge små postit-sedler ind ved citaterne. Anderledes i dag. Det er blevet uendeligt meget nemmere. Men der er stadig problemer. Herom skal dette indslag handle.

Fra bog til billede til tekst 

Bøger som ikke allerede findes digitalt, skal først digitaliseres. Lidt ligesom med negativ-fotoer. Teknikken er at man først affotograferer siderne, altså laver en billedfil. Herefter anvender man på denne billedfil en særlig teknologi, kaldet OCR (optical character recognition). Den omsætter billedets bogstaver til en tekstfil. Hvor godt dette går, afhænger af hvor god teknologien er i stand til at genkende bogstaver. Herefter er det så muligt at søge i tekstfilen. Men teknologien er ikke optimal: Sålænge det er "moderne" bogstaver, er fejlprocenten minimal. Men hvis fx teksten er utydelig eller bogstaverne er "mærkelige" (læs: gotiske) kan der være en endog meget betydelig fejlmargin.

For digitaliserede ældre bøger med gotisk skrift sker der mange fejl som fx at o og e bliver til c, j til i og æ til a. Specielt store bogstaver bliver ofte mistydet. Endvidere kan billederne være fra slidte bøger. Der sker også fejl som fx at r læses som i eller k som t. Hvilket skyldes at gotiske udgaver af disse bogstaver minder om hinanden.

Jeg har også på fornemmelsen (uden at kunne bekræfte dette), at Google Bogsøgning lige lader stavekontrollen komme indenom tekstfilerne. I hvert fald har jeg lagt mærke til at engelske, tyske og franske bøger er meget bedre end danske. Dette kan skyldes at stavekontrollen på dansk ikke er så god som på disse sprog. (Dette sidste er jeg til gengæld ret sikker på).

Men hvor stort er problemet? Og hvad kan vi gøre ved det? Ikke ret meget. Ud over hele tiden at prøve søgeteknisk at kompensere for de nævnte fejl og mangler. Kunsten er så: Hvordan gør vi det?

Dette går galt med gotiske bogstaver

Jeg prøvede at finde en slags "facitliste" til noget som Google Bogsøgning burde finde. I en bog jeg er i gang med at læse om jøder i Danmark siden middelalderen har jeg fundet en del henvisninger til bøger fra før 1871 som findes i Google Bogsøgning. Ideelt set burde Google Bogsøgning altså kunne finde disse citater. Men det gør Google Bogsøgning ikke. I hvert fald ikke hvis du søger på jøde og alle afledniniger heraf. Lad os se hvorfor.

"Facitlisten" er Christiern Pedersens skrifter 1851-52, bind 1 og bind 2. Her henviser den omtalte bog bl.a. til siderne 283, 291, 313, 316, 327 og 333. Der er to problemer som en "moderne" søgning på jøder ikke tager højde for.

1. Andre stavemåder, anden "retskrivning". Kigger du på billedudgaverne, finder du hurtigt ud af at Pedersen ikke stavede jøde med j, men med i. Altså iøde. Ikke desto mindre hjalp det ikke noget at søge på iøde og afledninger. Fejlen lå et andet sted:

2. Forkert transformering: ø oversættes til o. Teknologien havde ikke registreret ø, men oversatte ret konsekvent ø til o. Så, den korrekte søge er altså ordet iode og alle afledninger deraf (ioder, ioderne, osv)

Dette er ikke optimalt. Jeg skal gøre opmærksom på at det især er med gotisk skrift at du kan støde ind i sådanne problemer. Når blot vi er opmærksomme på dette, er digitaliserede bøger umådelig tidsbesparende. For når vi nu har erfaret dette, kan vi jo gå ombord i hvad danskere har skrevet om jøderne gennem tiderne. Mynster, Kierkegaard, Hans Tausen, Grundtvig. De er der allesammen. 

Men der er også andre godbidder at hente. Bl.a. kan du i Kongelige Rescripter, mv. fra 19. sept. 1793 (s. 631) læse  Refer. (til Hof- og Stads-Retten i Kjøbenhavn), ang. Forhold med Portugiis-Jødernes Eeds Aflæggelse i Rettergangs-Sager.

 Fremfor at skulle gennembladre tusindvis af sider af kongelige rescripter, kan en ganske enkel ordsøgning i den digitaliserede udgave lynhurtigt give mange gode fund.

Eller tag de nye arkæologiske fund som blev omtalt i Politiken fra 22.4.2012 om samaritanerne. Disse er allerede antydet i J. P. Mynsters Blandede skrifter, 2. afdeling, første bind, s. 33ff. Men vi kan også konstatere at han fejlagtigt tog Bibelens ord om Salomons tempel for pålydende. Mens arkæologiske fund snarere støttet den fortiede samaritanske tradition.

Digitalisering et kæmpeskridt fremad

Når det er sagt, så skylder jeg lige at sige at digitaliseringen er et kæmpeskridt fremad i forhold til de analoge bøger. Det er et meget potent materiale vi som læsere har fået i vores hænder. Og det giver menigmand som forsker mere frihed og muligheder  end vi havde tidligere. Derfor er der ingen grund til at holde sig tilbage pga de ovennævnte vanskeligheder.

Der er sprængstof i de gamle bøger. Historiens hjul drejer. Og vi drejer med. Dejligt at vi nu kan kigge i hjulsporene for ikke at glemme historien! Men alting er ikke lige nemt. Det kræver stadig et godt kendskab til mange ting at kunne søge. Måske heri har bibliotekarer stadig en berettigelse, såfremt vi bliver mere opmærksomme og dygtigere? Det gør vi kun ved at kende for- og bagdele ved den nutidige teknologi.

Ingen kommentarer: