– Data er alle kjennetegnene til en enhet – en person, et sted eller en ting. For et bilde er dette for eksempel opphavsperson, størrelse, dato det ble tatt. Dataene bidrar til å karakterisere noe og hjelper oss med å identifisere hva det er, sier SUJOs dataanalytiker Diana Guerroero.
Vi mennesker setter merkelapper på alt. Ved å gi ting egenskaper klassifiserer vi dem for å kunne kommunisere effektivt. Data identifiserer ting, .
Datavisualisering gjør at du raskt finner poenget:
Har du noen tips til nybegynnere innen datajournalistikk?
– Mange er opptatt av å lære seg verktøyene. De går på nettet og begynner å lære seg for eksempel regneark. Forsvinner ned i detaljene om bruk av programvaren.
Hovedmålet bør være å lære de viktigste aspektene for å forstå data.
– Først da vil folk forstå hvordan de kan bruke verktøyet effektivt. Ved å forstå datasettet kan du finne svarene du håper å finne, mener Diana.
Kolonner viktig for organisering
- Å forstå et datasett innebærer å studere hva hver rad – såkalt post – representerer, og deretter studere attributtene – kolonnene. Du må se kolonne for kolonne for å forstå hva vi vet om hver av postene. En tydelige kolonnetitler kan bidra til denne forståelsen.
- Finn ut om dataene er oppsummert. Dette er ofte tilfelle med datasett fra nasjonale statistikkbyråer. Data som er aggregert på land-nivå er kanskje ikke nyttig for den lokale journalisten som leter etter data om mindre regioner.
Se også etter duplikater i dataene. Sjekk om celler er tomme. Det er viktig å forstå hva en tom celle betyr i sammenheng med et datasett.
Når det gjelder duplikater, bør du fokusere på hva som identifiserer hver oppføring på en unik måte. Hvis det ikke er noe som gjør posten unik, er det kanskje en kombinasjon av attributter som gjør den unik.
For eksempel: To personer kan ha samme fornavn og etternavn, men har ulik fødselsdag. Da kan det hjelpe å opprette en ny egenskap som er en kombinasjon av disse.
Utforsk datasettet
Datasett har lag, og du kan eksponere informasjon når du skreller vekk disse lagene.
– Vi sier ofte at du må bore deg ned i et datasett for å få innsikt. Du må leke med variablene – attributtene – og bruke dem til å se på dataene fra forskjellige vinkler, mener Diana.
Lag en kan være en oversikt med to variabler i en pivottabell. Etter hvert som du legger til flere variabler, fjerner du lag og eksponerer det neste.
Utforsk datasettet der hver variabel tilbyr noe unikt. Denne øvelsen kan føre deg til et nytt delsett. Dette kan du bruke for å skrelle vekk informasjon og utvikle hypoteser for funnene dine.
– Å ha kunnskap om dataene innebærer å forstå konteksten dataene eksisterer i, forteller Diana.
Å kjenne konteksten hjelper deg med å tolke resultatene når du analyserer dataene
Tidlig i karrieren din jobbet du som dataanalytiker i hjemlandet Colombia før du begynte å jobbe hos Hasbro i Montreal i Canada. Hva var det med disse erfaringene som vekket interessen din for data?
– Etter at jeg var ferdig på universitetet jobbet jeg med prosjekter for å flytte data mellom programvare. Jeg var bindeleddet mellom brukerne og programvareutviklerne. Da måtte jeg forstå hvordan brukerne ønsket å bruke databasene vi migrerte. Erfaringen hjalp meg med å forstå beste praksis for strukturering av data og egenskaper i en database. Brukernes ønsker lå noen ganger langt utenfor det som var mulig for utviklerne å lage. Det var en interessant utfordring å balansere disse interessene.
Senere jobbet jeg som dataanalytiker hos Hasbro i Montreal. Da var interessen for data allerede etablert. Hasbro er et veldig kreativt selskap. Det er en bærebjelke i kulturen der.
Jeg lærte at man ikke trenger være kunstner eller grafisk designer for å være kreativ. Å analysere data krever et høyt nivå av kreativitet.
Det handler om problemløsning for å finne svar. Svarene er disse gullklumpene av informasjon som finnes i datasettet.
Du presser rett og slett hver eneste dråpe informasjon ut av databladet, og det krever mye kreativitet for å gjøre det effektivt.
Hva er historien?
Hvordan kan folk uten databakgrunn bli bedre til å trekke ut historier fra datasett?
– En dyktig norsk journalist sa en gang til meg: «I alle datasett finnes det historier å fortelle». Og jeg er enig med ham.
Men historiefortelling er komplisert.
En student viste meg dataene sine, og fortalte at hun slet med å se historien i tallene. Hun hadde fem datasett som var fem små tabeller med fem rader og fire kolonner. I sum 20 datapunkter i hvert datasett.
Hver tabell var en kategori innenfor et større infrastrukturtema.
Det første vi gjorde var å sette sammen datasettene til ett datasett. Til slutt kunne vi se dataene i én visning, på én skjerm.
Vi oppdaget at dataene inneholdt kategorier og underkategorier, og hver av disse hadde tids- og pengeattributter. Snart kunne vi se hvilke infrastrukturprosjekter som kostet mest og minst over tid.
Det var bare å leke litt med to attributter – tid og penger – så var hun i stand til å oppdage avvikene i dataene. Så kunne hun som journalist formulere en hypotese rundt avviket: Hvilke elementer førte til avviket.
Lærdommen er:
- Når du har kategorier må du sammenligne disse.
- Hvis dataene inneholder et tidselement, må du se på trenden.
- Hvis du har datoer, må du se på varigheten.
Linjediagram er velegnet til å vise tendens over tid:
Datavisualisering er en del av dataanalyseprosessen. Hvilken rolle spiller visualisering når du arbeider med data?
– Ett bruksområde er journalister og andre innholdsskapere som visualiserer data for å gi dybde til historiene sine. Et annet bruksområde er for eksempel forskere, økonomer og dataanalytikere som bruker visualiseringer for å forstå dataene bedre.
Uansett må du visualisere dataene for å få innsikt i dem. Ofte er det først når du visualiserer dataene at du kan se en trend eller et avvik og virkelig sammenligne dataene, avslutter Diana.
Denne saken er skrevet av Everviz og er også publisert på engelsk