onsdag den 26. januar 2011

Google Bogsøgning - en ommer

Overskriften på denne artikel skal forstås bogstaveligt, på to måder:

  • Hvis du vil være sikker på at du har fået alt med i en Google Bogsøgning, så bliver du faktisk nødt til at gentage din søgning om og og igen, også flere dage i træk.
  • Fordi du er nødt til at gøre det, kan man da vist godt tillade sig at spørge Google: Kunne I ikke have gjort dette bedre?

Nu til baggrunden for disse to påstande. Jeg har igennem flere år undret mig over at have fået endog meget vidt forskellige resultater frem i Google Bogsøgning. Jeg laver en del kurser rundt omkring og reklamerer varmt for Google Bogsøgning fordi det er den største samling digitaliserede bøger i hele verden. Det vil jeg stadg gøre, fordi det er et faktum. Men jeg har aldrig kunnet forberede mig særligt godt, da eksempler jeg har lavet blot en time i forvejen, ikke virker når de skal vises.
Det nedenstående skulle gerne afklare symptomerne. Grundene - dem kender jeg ikke. Men hvis jeg havde en direkte linje til Googles søgeeksperter, så er dette nok det mest brændende spørgsmål jeg kunne tænke mig at få svar på.
Når du søger et eller andet emne på dansk, får du gerne omkring 600 danske titler frem. Du skal ikke lade dig påvirke af statistiklinjen. Den viser ofte flere millioner hits. Men hvis du blader til enden af listen, vil du oftest ende op med maksimalt ca 600 hits.
Jeg har derfor lavet forskellige metoder til at checke hvor mange danske titler der er. For blot at nævne nogle få: Søgning på karakteristiske danske ord som forekommer i samtlige danske bøger men ikke i udenlandske er en metode (fx og det). En anden metode er at indstille den avancerede søgning til kun at søge danske ord og så søge på et karateristisk dansk ord, fx får, så. Hvorom alting er. Hver gang jeg har prøvet at lave en sådan opmålingssøgning og bagefter bladret frem til enden, får jeg ca. 600 titler frem.
Men det bemærkelsesværdige skulle vise sig i at det ikke er de samme 600 titler man får frem. Selv hvis du foretager den samme søgning med blot få minutter eller timers mellemrum. Og helt andre titler dagen efter!
Jeg besluttede mig derfor at prøve at afmærke de titler jeg fandt frem til ved de forskellige søgninger og "gemme" resultaterne fra gang til gang. Det kan du meget nemt gøre i Google Bogsøgning. Der er nemlig ved hvert fund en mulighed for at gemme dem i Mit Bibliotek. Jeg oprettede to boghylder: Eksempelvisning og hele danske bøger. De sidste to dage har jeg så igen og igen søgt lavet den samme søgning.
Og ikke nok med det. Det viser sig nemlig, at hvis du bruger Google egne variationer i venstremenuen...:

  • Skift sorteringen fra relevans til kronologisk.
  • Søge på uddrag, ebøger, gratis Google eBooks.
  • Og gør dette i den samme søgning flere gange

... så får du hver gang du gør det, nye og andre resultater frem! Dette var højst overraskende. Venstremenuen antyder jo at det er den samme søgning der nu blot bliver omorganiseret. Men det er ikke tilfældet. Hvis du bruger den, ryger nogle fund ud, mens nye kommer til!
Generelt er fundene for fuldtekstbøger (altså der hvor du får hele bogen at se) bøger fra 1800-tallet. De supplerer således ganske godt Det Kongelige Biblioteks digitalisering. De er nået op til lidt før 1700-tallet. Eksempelvisningerne er ganske nye bøger. Der er bøger helt op til 2009 og årtier tilbage.
Hvor mange drejer det sig om? Jeg startede ud med 550 for nogle dage siden. I går eftermiddag var jeg nået op på lidt over 1.000. Før jeg gik i seng omkring 1.500. Og da jeg i morges atter en gang gentog søgningerne, nåede tallene op på hhv 838 og 957, altså omkring 1.800 titler. Jeg har hele tiden kørt de samme kriterier for udvælgelsen. Hvornår dette slutter, ved jeg ikke. Men jeg regner da med at fortsætte forsøger nogle uger endnu, eller indtil der ikke kommer nyere poster til.
Hvad grunden kan være, kan jeg kun gisne om. Jeg tror ikke det er fordi der kommer nye danske titler på alt i mens jeg søger. Mod det taler nemlig at det antal fund Google opgiver har været konstant i månedvis. Desuden kan jeg se at bøger kommer til og ryger ud, alt efter hvilke kriterier du lægger ned over søgningen (se ovenfor).
Af gængse grunde kan jeg kun tænke på at sammenligne med hvad Google selv skiver om pdf-filer og meget lange filer: De søger ikke hele dokumentet igennem, da dette ville tage meget lang tid. Derudover har Google også mindst 40 kopier af sig selv stående rundt omkring i verden, og du ved aldrig hvilken kopi du søger i. Det kan skifte fra søgning til søgning. Og der kan muligvis være variationer i opdateringen af disse. Disse to sidste ting skriver jeg dog uden at vide særlig meget om det.
Jeg kunne virkelig godt tænke mig en rigtig god forklaring fra Google. Og uanset forklaringen så mener jeg ikke at det er optimalt hvad Google her leverer. Det er, som overskriften antyder, en ommer at brugerne skal gøre deres søgninger ommer og ommer igen for at få et fuldstændigt resultat. Det kan accepteres i den almindelige netsøgning. Men for bogsøgning er det ikke optimalt.
Det ændrer ikke ved at Google Bogsøgning stadig er det bedste bud hvis du vil finde danske digitaliserede bøger. Intet kan indtil videre komme op på sådanne størrelser. Det er så bare ærgerligt at søgeredskabet er så mangelfuldt som her antydet.
OPDATERING kl. 15, onsdag. Jeg lavede en kontrolsøgning på dansk sprog, eksempelvisning/fuldtekst og søgeordene 0g det. Det er den søgning som jeg gennem flere år har brugt til at se hvor mange danske bøger der er i Google Books. For umiddelbart ville jeg jo tro at det ville give alle bøger: Hvilken bog på dansk indeholder ikke ordene og og det?
Resultatet af søgningen (når man bladrer til slutningen) var 420 bøger. Og jeg fandt ca. 20 nye titler i forhold til min tidligere afmærkninger. Men, samtidig er antallet af titler i mine to Boghylder i Google Bogsøgning nu på hhv. 1.390 og 990. Altså ialt 2.380 titler. Jeg har løseligt prøvet at kigge disse resultater igennem, og jeg kan ikke se hvad der skulle gøre at 5/6 af disse skulle udelukkes.
Gør jeg noget galt her? Eller er det bare ikke godt nok? Jeg spørger mig selv: Når jeg nu har fundet langt over 2.000 danske titler og ordene og og det forekommer i disse bøger, hvordan kan det så være, at når jeg søger efter dem, så får jeg under 500 frem? Og hvordan kan det være at jeg finder flere/andre hver gang jeg gør det, mens atter andre pludselig ikke er med i den selvsamme søgning?
Der er muligvis en fejlkilde derved at der ved nogle poster forekommer sidetal, af en eller anden grund som jeg ikke umiddelbart kan gennemskue. Fx optræder Breve til og fra Hans Christian Ørsted flere steder, selv om der kun er tale om et to-bindsværk. Men er det nok til at forklare de 2.000 ekstra poster? Det tror jeg ikke. Jeg vil senere arbejde videre med det.

1 kommentar:

Janus Andersen sagde ...

Problemet med, at søgeresultatet skifter, alt efter om man sorterer efter relevans eller kronologi, gælder også i Googles Blogsearch, så vidt jeg husker. Men grunden har jeg heller aldrig kunnet gennemskue.