Store data, store spørsmål

Blir informasjon sammenkoblet på rett måte, kan man får større oversikt over den enkelte enn den enkelte selv har.

Big Data er ikke bare enorme mengder data. Det er også teknologi som muliggjør lagring og analyser av dem, og viljen til å gjøre det. Er vi informert, hvis vi ikke forstår hva som kan ligge i massiv informasjon, eller hva sammenstilling av slik informasjon kan innebære?

Vi visper alle opp en hale av digital informasjon bak oss hver dag, hele dagen. Enten vi tvitrer, drar kortet, bruker mobilen eller noen av dens apper eller søker frem noe på nettet. Denne halen er som sporene man kan sette i størknende sement: ikke alltid helt detaljerte, men hvert skritt er med. Og de forsvinner ikke alltid uten videre.

På mange måter gir dette store muligheter. Forskning og teknologisk utvikling gjør det mulig å finne ut av ting som før var skjult. Sykdomsutbredelse? En Big Data-tilnærming kan analysere søk som tillater oss å følge smittespredningen nesten i realtime. Trafikkork og ulykker? Igjen kan tolkning av store mengder relevant informasjon gi folk tips om hvor de kan komme frem både raskere og sikrere, eller sørge for bedre forskningsbaserte beslutninger ved nye utbygginger. I forskningssammenhenger kan god utnyttelse av Big Data bidra til å gi oss innsikter som ellers er nesten umulige å oppnå. Det er ikke vanskelig å tenke seg at samfunnsvitenskapen kan suppleres av denne type empiri og tolkningsverktøy på fruktbare måter.

Med en grov overforenkling kan man si at en tradisjonell fremgangsmåte for utforskning av komplekse fenomener kan bestå i å danne seg en hypotese eller to, og hente inn en tilstrekkelig mengde data for å støtte eller velte hypotesene. Med Big Data starter man delvis i den andre enden, med data - ufattelig store mengder data - og lar maskinene fortelle oss hvilke sammenhenger eller korrelasjoner som går igjen og preger materialet. Mønstrene viser seg bare hvis man, ved hjelp av matematiske logaritmer, sorterer mer informasjon enn et menneske er i stand til å tolke direkte. Big Data-guruen Sandy Pentland ved Massachusetts Institute of Technology går så langt som til å si at det først er nå vi kan begynne å se på detaljene i sosial interaksjon - ikke hva folk mener, men hva de gjør.

De nasjonale forskningsetiske komiteene arrangerte nylig et seminar i samarbeid med Teknologirådet og Det Norske Videnskaps-Akademi, der man presenterte noen av de mulighetene for forskning på menneskelig aktivitet som Big Data kan gi. Men som det også kom frem på møtet, kan dette også tjene til overvåking, maktutøvelse eller undergraving av den enkeltes autonomi på måter vi ikke uten videre burde føle oss komfortable med. Virkelig utfordrende blir det gjerne hvis data fra flere kilder sammenstilles. Det har vært eksempler på at selv noen av de proffeste selskapene har undervurdert hvor lett det kan være å finne tilbake til enkeltindivider hvis man kobler data.

Blir store mengder informasjon lagret, sammenkoblet, og prosessert på rett måte, kan resultatet være at man på noen måter kan ha større oversikt over den enkelte enn den enkelte selv har. Viljen til å jobbe med denne informasjonen (for det koster jo tross alt en viss innsats) kan komme av så mangt. En fellesnevner er ofte at det ikke er fortid man er interessert i, men framtid: Med nok data kan man med overraskende høy grad av sannsynlighet forutsi (eller påvirke) hva folk vil foreta seg, eller hva som vil skje med dem, enten det dreier seg om kjøpemønstre, kriminalitet, eller sosial tilhørighet og vaner.

Den amerikanske juristen Paul Ohm er blant dem som understreker hvilke etiske utfordringer vi står overfor med framveksten av Big Data. Han advarer mot aggregeringen av det han kaller en «database of ruin»: en sammenkobling, i en massiv database, av informasjon som allerede finnes spredt blant forskjellige selskaper. Sammenkobling kan gjøre at informasjon kan spores tilbake til enkeltindivider, selv om kildene hver for seg fremstår som forsvarlige ut fra et personvernperspektiv. Ohm går for langt når han sier at vi burde slutte å bruke ordet «anonymisering», fordi vi fra nå av aldri kan være sikre på hvilke data som kan tilbakeføres til enkeltindivider, hvis man bare utfører de rette koblingene med andre data som fins dere ute. Men selv om dette utgjør en dramatisering de fleste vil være uenig i, peker Ohm med denne påstanden på noe som kan være en reell utfordring i noen sammenhenger, nå som alle bidrar så aktivt til dataøkningen hver dag.

Er vi informert, hvis de fleste av oss ikke forstår hva som kan ligge i massiv informasjon, eller hva sammenstilling av slik informasjon kan innebære? Mye forskning og teknologi også tidligere har vært uforståelig for de fleste av oss på detaljplanet. Det vesentlige er ikke teknisk ekspertise hos hver av oss, men at vi har nok forståelse til å se risikoene og mulighetene på en noenlunde realistisk måte. Bevissthet om og respekt for de normer vi lever og handler gjennom vil være vesentlig, for å unngå ukritisk, unødig, eller risikabel lagring og bruk.