onsdag den 20. februar 2013

Om at arkivere internettet

Der kommer hvert sekund nye data på internettet. Samtidig forsvinder gamle. I et helt ukendt omfang. Noget vil måske ikke blive savnet af eftertiden og havner i historiens glemsel. Hvad type det så end måtte være, er det uigenkaldeligt tabt.

At opbevare internettet, er som at fange vandmænd med de bare hænder (hvis der stadig er nogen der kan huske hvordan det er/var?). I den før-digitale periode var det et spørgsmål om fysiske, stabile materialer som bøger, dokumentarkiver osv. Men hjemmesider er flygtige. Mange ændrer sig fra dag til dag.

"Who needs yesterday's papers" sang Rolling Stones i 1967. Men det er nu ikke kun af nostalgiske grunde. Der kan være værdifuld information, eller som her med Københavns Bibliotekers hjemmeside anno 1997 som kan være interessant af design-mæssige årsager. Her snuppet fra Wayback Machine.

Det er der selvfølgelig nogen som har tænkt over. Og der er udarbejdet lange rapporter om hvad man vil gøre ved problemet. Det bedste overblik i Danmark får man ved at følge med på hjemmesiden Digital Opbevaring.

Så hvordan løser man opgaven med at forhindre at værdifuldt materiale forsvinder for altid? Og kan man overhovedet vurdere hvad eftertiden vil interessere sig for? I det følgende noget om disse og andre spørgsmål. Og om hvordan nogle allerede forsøger at besvare dem.

Lagerplads

Ingen tvivl om at digitalisering sparer plads set i forhold til papir. Du kan have store biblioteker og samlinger på en ganske almindelig tablet eller en ekstern harddisk. Dette helt ulig internettets spæde barndom, hvor det var et problem at finde lagerplads til gamle sider. Hvem husker i dag disketterne med plads til 1.5 MB? Nu får man nemt 32 GB på et USB-stick. Og eksterne harddisk med TB fås til få tusinde kroner. Endelig kan man lægge dokumenter, fotoer mv. op i "clouds".

Lagerplads er vokset kolossalt og blevet meget billigere, for clouds vedkommende nærmest gratis. Men der er i hvert fald to væsentlige spørgsmål:
  • 1. At det går meget stærkt. Vil USB-lagring om 5 år blive udfaset som disketterne blev det for 5 år siden og fremtidens computere ikke have stik til dem, ligesom ingen computere i dag har et diskettedrev? 
  • 2. At ingen kender holdbarheden af fx cdrommer eller USB-stick. Så en kopiering med års mellemrum er en klog ting.

Fremfinding af materialerne

Hjemmesider kommer og forsvinder uden at arkiverne finder dem. Der er ikke som for trykte materialer afleveringspligt. Og selv hvis websideindehavere egentlig gerne ville gøre noget lignende, er der ingen steder de kan henvende sig. Det er altså op til arkiverne selv at opspore materialet. I vidt omfang.

Gamle programmer

Som bekendt skifter versionerne af de forskellige (hjælpe)programmer hele tiden. Og ikke sjældent sker der det at de nye versioner ikke kan læse de gamle materialer. Vi kan måske oven i løbet havne i en situation der kan sammenlignes med bibliotekernes lp-samlinger. De kræver som bekendt pladeafspillere. Enhver der elsker gamle online-computerspil vil nikke til at hver gang Windows kommer med et nyt styresystem, skal spillet tilpasset, rettes og opdateres.

På samme måde kan folk der beskæftiger sig med at opbevare digitalt materiale komme grueligt galt af sted når de forsøger at downloade dele af internettet med opbevaring for øje. Der findes en hollandsk side, Atlas of Digital Damages, som beskæftiger sig med dette problem og giver eksempler på hvad man skal passe på og på hvad der sker når noget går galt, og hvorfor.

Ophavsret

Ophavsretten kan være meget kompliceret og skifter fra land til land. I England er det fx overladt til 6 biblioteker som British Library som har ret til at opbevare materialerne. Men gør de det? I USA er det Library of Congress, herhjemme Statsbiblioteket og Det Kongelige Bibliotek. Politikkerne må konstant justeres i forhold til udviklingen. Sidstnævnte opbevarer .dk-domænet. Men mange danske hjemmesider benytter sig af ikke bare .com og .org, men også fx .nu, .tv, .as.

Offentliggørelse

Selv om der altså er muligheder for opbevaring, betyder det ikke at det er offentligt tilgængeligt. Man kan fx ikke umiddelbart få adgang til Det Kongelige Biblioteks samling af gamle internetsider. Ophavsretsproblematikken er endnu under diskussion og kun ganske få lovtiltag er sket. Dette er givet et område hvor der vil ske ændringer, forhåbentligt, så det ikke er så kompliceret at de fleste i dag opgiver på forhånd.

Nedenfor er nogle eksempler på websteder som arbejder med at opbevare internettet.

Europeana

Europeana er ikke kun et sted hvor man opbevarer internetsider, men et opbevaringssted for kulturel arv generelt. Så måske hører den ikke lige hjemme under dette emne. Men den er EU's bud på et digitalt museum er Europeana. Papirmaskinen EU har naturligvis også udsendt adskillige rapporter, henstillinger, handlingsplaner osv.

Internet Archive

Archive.org er mest kendt som Wayback Machine. Den er et meget ambitiøst projekt om at være en slags museum, eller arkiv for alt hvad der igennem tiderne har været publiceret på internettet. Ved årsskiftet passerede de 240 mia. url'er fra tiden efter 1996. Altså link. Det betyder at fx vil kunne finde nu nedlagte hjemmesider om præsidentvalget i USA.

Internet Archive er dog ikke en søgemaskine til at søge i gamle udgaver. Men de har en beta-version af en søgemaskine til internettet som det var engang. Den er ikke perfekt, jævnfør ovennævnte punkt med vanskeligheder med forskellige programmer. Du vil ofte komme ud for at du ikke kan se de gamle sider fordi Internet Archive ikke har været omhyggelige med den digitale opbevaring.

Som alle andre står Internet Archive over for enten at skulle downloade og opbevare siderne perfekt - med det resultat at det vil være minimalt hvad de kan udrette. Eller at masseopbevare og så bare håbe at i hvert fald størstedelen er reddet for eftertiden. Og ikke "lost in translation".

Afhængig af at distributører frivilligt stiller materialet til rådighed. Men hvad angår hjemmesider, så har webstedet mere ført den politik at de bare gør det uden tilladelse, og så håber på at går den, så går den. Hidtil er der da heller ingen der har ført store retssager mod arkivet. Tværtimod.

Internet Archive er andet end websider. Deres årsrapport for 2012 fortæller at de alene i 2012 indekserede
  • 50 mia. websider (altså nu ialt 264 mia).
  • 1 mio timer tv.
  • 370.000 audio/musik (Ialt 112.585 live-koncerter og 1.517.063 audioer)
  • 100.000 videoer. (Ialt ligger der 1.147.980 film)
Det er ikke småting, og vist nok den største arkivsamling på internettet. Nu skal man ikke forvente at finde de helt store bands' koncerter. Et hurtigt skim gennem listen over bands vil vise at der ikke er mange kendte imellem. Selv ynder Archive at fremhæve Greatful Dead, men man skal være mere end musikentusiast for at lave en liste over 10 bands. På den anden side er der altså her nogen 'smal' musik som måske ellers ville være forsvundet for altid.

Der ligger også et bibliotek, Open Library. Med 1 mio. ebøger fortrinsvis fra det 20. århundrede. Også her vil du finde at det ikke de mest kendte biblioteker som fx dem fra Google Bogsøgning. De fleste er fra USA, men det er mere specialbiblioteker. Der er et imponerende antal, men der er helt ned til små skolebiblioteker, og meget få større.

Generelt er Internet Archive for de mere specielt interesserede. Naturligt nok da den er afhængig af leverandørerne. Og det er fortrinsvis folk der ikke kan få deres ting udgivet alligevel. Lidt lige som forne tiders videosamlinger på bibliotekerne. Det var ikke Blockbuster-film, men marginalfilm de for det meste bestod af. Wayback Machine er stadig omdrejningspunktet. Det er det der gør siden unik.


Link
The Economist: History Flushed. April 2012.
Internet Archive Blog.
Search Engine Land.

Ingen kommentarer: