tirsdag den 19. december 2006

Fremtidens bibliotek I: Fuldtekstbøger

Udseendemæssigt minder Google Books avancerede søgebillede en del om bibliotekernes bibliografiske databaser: Der er søgefelter for forfatter, titel, forlag, årstal o.lign. Men det er kun på overfladen de er ens. Og der er også vidt forskellige mekanismer som ligger bag. De to vigtigste er sorteringen af fundene og stavekontrollen.
Google Books sortering er hemmelig, men det er rimeligt at antage at den følger en tilpasset udgave af Page Rank. Stavekontrollen er også radikalt anderledes. Den følger Google’s erfaringsbaserede og maskinskabte, mens bibliotekernes følger menneskeligt skabte henvisninger som fx navneformer.
Det ses tydeligt når du fx søger på h c andersen og på den engelske udgave af hans navn, hans christian andersen. Mens h c andersen giver en søgning så giver søgningen på Hans christian andersen en helt anden. Faktisk skal du søge på begge former, eventuelt kombineret med OR.
I websøgningen ville dette med tiden maskinskabe en henvisning fra den ene navneform til den anden (”Mente du”), hvad den dog ikke gør i dag.
I Bibliotek.dk skal du kende den vedtagne navneform for at få et resultat. En søgning på hans christian andersen giver således ikke noget (med mindre basen på et eller andet tidspunkt laver en henvisning). Det er nemlig ikke den vedtagne navneform. Derfor skal du søge med navneformen h c andersen.
Google Books fungerer også med en mere sammensat søgning som Hans Christian Andersen: Kun en spillemand.H. C. Andersens 'Kun en spillemand' findes i fuldtekst på Google Books.
Forhåbentligt og formentligt vil Google kunne kompensere på de forskellige navneformer på længere sigt via stavekontrollen. Sværere vil det være for Bibliotek.dk, da det her skal foregå manuelt.
Sorteringen er anderledes fra Google og Bibliotek.dk. Især i Google er sorteringen vigtig fordi antallet af poster er så meget større end i Bibliotek.dk.
Den helt afgørende forskel på søgninger af denne type i Bibliotek.dk og Google er selvfølgelig at hos Google søger og får du bogen i et hug. Mens i Bibliotek.dk får du kun en henvisning, hvorefter du selv skal hente den på biblioteket, hvis den da ikke er udlånt og reserveret.
Hos Google må du så nøjes med at læse på en skærm, eller eventuelt selv udprinte bogen. Eller downloade på pdf.
Næste indslag vil beskæftige sig med søgning i dele af bøger/fuldtekstbøger.

EDIT: Jeg tillod mig at lave en lille test på om nogen overhovedet afprøver link. Og det var der i hvert fald en der gjorde, se kommentaren. 'Kun en spillemand'-linket viser som kommentaren peger på nogle af bagsiderne ved samlebånds-indskanning a la Google: Forbyttede sider, ulæselige sider osv. Forhåbentligt bliver de bedre til det. Der kan dog også fremhæves adskillige gode gengivelser, se fx de følgende eksempler fra resultatlisten, 'The Sand-hills of Jutland' og 'The ice maiden'. Sidstnævnte dog med en lille skønhedsfejl på side 19.
Nu er emnet for denne artikelrække ikke så meget kvaliteten. Indskanning vil formentlig i al fremtid fremvise lignende eksempler. Noget andet gælder nutidige bøger, som ikke behøver indskanning fordi de allerede eksisterer i elektronisk form.

1 kommentar:

Hans Jørn Nielsen sagde ...

Jeg har tidligere bemærket Googles mishandling af litterære klassikere i Google Book Search, men versionen af Kun en spillemand slår dog alt! Kan nogen fortælle mig hvad der i himlens navn foregår? Ganske vist er det en Beta version, men det her er jo totalt til grin. Siderne i en faksimile udgave er kastet op i en kaotisk orden, flere af siderne eksisterer i fragmenter eller er på anden måde ulæselige. "Keywords" er en parodi. Skal man le eller græse over dette maskinelle makværk? Må jeg henvise til versionen i KgB's Arkiv for dansk litteratur? Her har man ikke alene respekt for teksten, den kan faktisk læses, i forskellige versioner endda, bl.a. i en søgbar tekstversion.