onsdag den 27. januar 2010

Spiegel og Google

Det tyske ugemagasin Der Spiegel har Google som tema i nummeret fra 11. januar 2010. Især hvordan internetgiganten muligvis vil komme til at udvikle sig i den nærmeste fremtid. Er Google ved at udvikle sig til en slags Big Brother?
Magasinet er forundret over at Google er ved at udvikle en teknik som gør det muligt at identificere billeder allerede før de er taget! Hvis du før du tager et billede i din mobiltelefon fanger et motiv, vil Google gennemgå hele sin enorme billedarkiv og tilføje forklaringer. I Spiegels eksempel fx stjernebilleder. Hvis du fokuserer dit mobiltelefonkamera på stjernehimlen, vil Google genkende stjernebillederne og tilføje tekst på hvilket stjernebillede eller himmelfænomen du har fokuseret på.
Et andet nyt fænomen er Googles mobiltelefon Nexus One. Her behøver du ikke skrive dine emails. Du snakker bare ind i telefonen, og den omsætter din tale til tekst.
Spiegel beskæftiger sig også med om Google ved mere om os end nogen statsmagt nogensinde har gjort. Og måske endog ved mere om dig end du selv gør! Eller som Eric Schmidt (i min oversættelse af CNBC-interview i december sidste år) sagde det:
Hvis der er noget, som du ikke ønsker at nogen skal vide at du laver, skulle du måske slet ikke foretage dig det.
Dette kan naturligvis kun Google gøre. Kun en informationsmængde som er så helt uforståelig stor som Googles, vil kunne sætte menneskeheden i stand til at gøre noget sådant. Hvilken anden søgemaskine er i stand til dagligt at håndtere 3 milliarder forespørgsler? Jeg vil overlade det til læserne at afgøre om dette er skræmmende eller ej. Jeg mener. Vi har atombomber, men ingen siger jo at vi skal bruge dem. Er Google nået samme dilemma?
Inden konspirationsteorierne for alvor begynder at flyde, vil jeg dog lige påpege at Google ikke på nogen måde er blot i nærheden af at overtage dine data. De er stadig din "ejendom". Men tilbage står spørgsmålet om det tidspunkt hvor Google bliver i stand til det, om Google så også overhovedet vil spørge dig om lov. Foreløbig behandler Google dog de private data som en stor klump ubearbejdet rådata - algoritmer, tal, matematiske formler og lignende - som ikke kommer i nærheden af at opløse dine rettigheder som privatperson.
Hvis vi omvendt kigger på et fænomen som Facebook  hvor privathedsgrænsen nærmest er ophævet og sikkerheden meget mindre end på Google, så tyder det på at en meget stor del af verdens befolkning enten ikke tænker ret meget på sikkerheden, eller hvis de gør, at de ikke anser det for at være et særligt stort problem. Grænserne flytter sig, med andre ord. Og selv bibliotekerne med Bibliotek.dk i spidsen må indrette sig på at brugerne forlanger en "personalisering" af deres brug af hjemmesiden.
Et andet mere alvorligt spørgsmål er så om Google med eller uden eget vidende kan deltage i grænseoverskridende spionering. For år tilbage gjorde Yahoo dette i Kina, og led et ganske alvorligt prestigetab da de udleverede en kinesisk systemkritisk journalist. Siden har der ikke været lignende sager, og søgemaskinerne gør hvad de kan for at undgå gentagelser, fordi følgerne kan blive katastrofal faneflugt fra dem.
Noget andet er imidlertid om søgemaskiner som Google kan infiltreres udefra (eller indefra af egne ansatte). Med sit store antal ansatte bliver det sværere og sværere at sikkerhedstjekke dem. Aktuelt er der mistanke om at en ansat i Googles hovedkvarter i Beijing har spioneret, eller hjulpet hackere. I december sidste år blev en række større firmaer i USA angrebet af hackere. Muligvis fra Shanghai. Og mistanken er at vedkommende havde kontakter i nogle af firmaerne selv, herunder også Google. Selv afviser Google det som rygter og spekulationer. Og der er heller ikke bund i anklagerne. Men det betyder ikke at man skal se bort fra muligheden.
Samfundet (hvem det så er er) bør altid være på mærkerne med store datalagre. Og specielt når disse indsamles af private firmaer som fx Google. man bør dog også tænke på at stater også indsamler dta om dens indbyggere. Tænk blot på de omfattende Stasi-arkiver i det forhenværende DDR, så at staten skulle garantere borgernes tryghed, er ikke noget absolut.
Paradoksalt nok kan mængden i sig selv blive et problem for de som vil misbruge data. Det bliver simpelt hen alt for uoverskueligt, og tager for lang tid.
Link
Spiegelindgang til Google-temaer.

tirsdag den 12. januar 2010

Page Rank revisited

Page Rank var for over 10 år siden nøglen til Googles store succes. Altså konceptet med at lave et enkelt søgefelt, og så lade en sindrig matematisk algoritme beregne hvilke fund der skulle placeres øverst. Enig eller uenig i dette koncept - ingen kan benægte at brugerne valgte Google frem for andre søgemaskiner.
Selve algoritmen bag har altid været en dyb hemmelighed bortset fra det papir som de to grundlæggere Page og Brin udsendte fra Stanford Universitet for mere end et årti siden. Brugerne må stille os tilfreds med at hvis algoritmen var offentligt kendt, ville der sikkert være nogen som var smarte nok til at manipulere med den.
Der er ikke skrevet så meget om det. Men i oktober/november sidste år skete der igen en større ændring.
Google prøver officielt at se sorteringen af brugernes synspunkt. Men brugernes behov er meget forskellige og hvordan Google definerer det, kan være et noget kildent spørgsmål.
Hvis du er webmaster, ligger der også noget adfærdsregulering i algoritmen. Hvis du tilstræber at blive rangeret højt på sorteringslisten. Hvis du mener at du har en for lav prioritering, kunne du måske tænke lidt i hvorfor.
Det første er om din  hjemmeside er opdateret. Det ser nemlig ud som om at justeringen har nedprioriteret sider der ikke er blevet opdateret i lang tid. Og det er altså ikke nok at trykke på opdateringsknappen. Google er i stand til at spore om der også reelt er sket større ændringer på din side. Gør du det 3-4 gange om året, skulle du være godt med.
Det er også en god ide at lave tags til sin hjemmeside. De kan indsættes i hjemmesidens titelfelt, i metabeskrivelsen og metaemneordene, overskrifter og lignende steder. Men med måde. Hvis du overdriver, risikerer du at Google opfatter det som spam, og i værste fald bliver du helt smidt ud af søgemaskinen.
Linkstruktur er et tredje must. Og den skal være så flad som mulig.

fredag den 8. januar 2010

Googles resultatopgørelser

Jeg får en gang imellem spørgsmål om ulogiske resultattal i Googles fundopgørelser. Sidste år var der en forbavset bruger som undrede sig over at hun med en OR-søgning fik færre resultater end med en hvert af de søgeord hun havde brugt. Det er ulogisk: En OR-søgning vil jo uvægerligt altid være større end resultatet fra hvert af de enkelte søgeord.
Fx skulle en søgning på diabetes OR sukkersyge, gerne give et større resultat end blot at søge på diabetes. Faktisk skulle antallet af fund gerne være noget imellem summen af resultaterne af hver af søgningerne på diabetes og sukkersyge.
Og i dag var der så en bruger som undrede sig over at have brugt nogle afgrænsninger i Googles nye funktion, Valgmuligheder. Her havde han afgrænset fra Alle år til Seneste år og Seneste uge. Her skulle man jo så forvente at det ville give færre hits. Men i stedet viste resultatopgørelsen at der var flere hits.
Der er sikkert flere eksempler. Jeg er selv stødt ind i nogle, og prøvede derfor en gang at finde ud af om fundopgørelserne nu også er pålidelige. Og det er de ikke! Faktisk har jeg fundet unøjagtigheder på flere hundrede gange det som står i den blå statistiklinje over resultaterne. Jo flere resultater, jo større unøjagtighed.
Prøv selv. Det du skal gøre er at prøve at finde allersidste side i søgningerne. De vil ofte vise nogle gange anderledes tal end dem i statistiklinjen. Her har jeg fx tilsyneladende fundet over 36.000 fund


Det lyder jo af voldsomt meget. Men vær ikke bange for at efterprøve søgninger der giver op til 50.000 fund. Ofte vil det nemlig vise sig, at der kun er 50-80 sider med fund. Prøv nu at bladre frem til sidste side. I dette tilfælde burde det jo logisk set være side 3600. Men se nu:

Keine hexerei. Jeg behøvede kun at bladre frem til side 49! Altså omkring 490 fund! Langt fra de over 36.000. Jeg har endnu ikke nogle eksempler på at dette lille trick ikke skulle afsløre de miserable resultatopgørelser. Den dag det sker, falder min forklaring naturligvis sammen. Forklaringen finder du formentligt allersidst i søgningen. Her skriver Google nemlig at:
For at vise dig de mest relevante resultater, har vi udeladt nogle af de resultater, der i meget høj grad ligner de 483, der allerede er vist. Hvis du vil, kan du gentage søgningen, så de resultater, der er udeladt, kommer med.
Hvad det så er for resultater, kan man kun gisne om. Men det er sikkert udmærket at der er filtreret meget fra. Så kan man så undre sig over at Googles resultatopgørelser er så unøjagtige. En årsag kan være at det også kræver maskinkraft at give meget nøjagtige opgørelser. Og vi vil jo allesammen gerne have at det tager under et splitsekund at få vist resultaterne.

onsdag den 6. januar 2010

Google Translitteration

En stor del af jordens befolkning bruger ikke den samme type keyboard som du sidder ved lige nu. Som bygger det latinske alfabet. Og da tekst er en helt essentiel del af internettet, er translitteration vigtig. Translitteration betyder ifølge Politikens fremmedordbog
"gengivelse af et alfabets bogstaver med de tilsvarende bogstaver i et andet alfabet".
Tænk blot på russisk, thai eller græsk.
Google har derfor lanceret en service hvor du kan indtaste latinske ord for at få en translitteration til en række andre alfabeter: Arabisk, bengal, græsk, gujarati, hindi, kannada, malay, marathi, nepalesisk, persisk, punjabi, russisk, sanskrit, serbisk, tamil, telugu og urdu. Foreløbig i Google Labs. Jeg er ikke særlig velbevandret i nogen af sprogene, så jeg er ikke i stand til at vurdere kvaliteten af Translitterate.
Det er altså som sådan ikke en oversættelse af et ord, men en gengivelse af, hvordan et bestemt ord bliver stavet med disse andre bogstaver.
Link
Googleblog.
Google Transliterate.