Industrial building beside a water basin at sunset, with warm light reflecting on the water and surrounding landscape.

Hva er datakvalitet?

Svært ofte, når vi snakker eller skriver om datakvalitet i vår bransje, ser diskusjonen ut til å være overfladisk og mangler dybde. Det er betydelig rom for misforståelser, noe som gjør hele diskusjonen utdatert. Denne artikkelen skal bidra til å systematisere argumentene i kvalitetsdebatten og gi den mer dybde.

De fem dimensjonene av kvalitet

Vi starter med et overordnet kvalitetsrammeverk for å sette argumentene inn i riktig sammenheng. I følge David Garmin (1984) er det fem hovedtilnærminger til kvalitet.

Transcendent tilnærming

I følge den transcendente tilnærmingen er kvalitet definert som en medfødt fortreffelighet som er absolutt og universell. “Høykvalitetsdata må være perfekt og feilfri”. Et generelt problem er at det faktisk er ganske vanskelig å si hvordan “perfekte data” ser ut og hvordan man oppnår det. Imidlertid er denne tilnærmingen ganske vanlig i forskning. Validitet som et «transcendent mål» fører for eksempel svært ofte til problemer med å finne en god avveining mellom intern og ekstern validitet.

Produktbasert tilnærming

Den produktbaserte tilnærmingen ser på kvalitet som et resultat av de riktige egenskapene til produktet – i vårt tilfelle data. “Høykvalitetsdata har nøye utvalgte respondenter i utvalget, som skriver mye i åpne tekstfelt.” Her er datakvaliteten ganske håndgripelig og kan måles nøyaktig. Denne forståelsen av kvalitet er imidlertid veldig formalistisk og derfor for overfladisk.

Brukerbasert tilnærming

Den brukerbaserte tilnærmingen tar utgangspunkt i at ulike brukere kan ha ulike ønsker og krav. Her er den høyeste datakvaliteten det som best tilfredsstiller disse behovene. Derfor er datakvalitet svært individuell og subjektiv: høy kvalitet for en bruker kan være gjennomsnittlig eller dårlig datakvalitet for en annen.

Produksjonsbasert tilnærming

Den produksjonsbaserte definisjonen fokuserer på prosessen med å produsere data, – eller i forskningsterminologi: de fokuserer på metodikk. “Gode data samles inn i samsvar med vitenskapelige standarder og beste praksis i vår bransje.” Selv om denne tilnærmingen gjør data svært sammenlignbare, passer de noen ganger ikke til forskerens oppgave.

Verdibasert tilnærming

Sist, men ikke minst, er det en verdibasert tilnærming, som ser på kvalitet som en positiv avkastning på investeringen (eller mer spesifikt: Return On Insight). Her har data høy kvalitet dersom kostnadene ved innsamling er minimale mens nytten av å bruke den er maksimal. Ved første øyekast virker denne tilnærmingen legitim, men den har også sine ulemper. Denne tilnærmingen forteller ikke mye om dataegenskapene i seg selv, men mer om informasjonsbehovet til brukeren.

De fem dimensjonene av datakvalitet: iboende kvalitet, metode og prosess, innsiktsverdi, dataegenskaper og brukerkrav.

Konkurrerende syn på kvalitet

Alle disse tilnærmingene fører veldig ofte til konkurrerende syn på kvalitet. Datainnsamlere fokuserer for eksempel gjerne på metode og dataformater, mens oppdragsgivere i større grad er opptatt av sine egne behov og verdien av innsikten (Return on Insight). Og selv innenfor bedrifter kan det være ulike perspektiver. Medlemmer av salgs- eller markedsavdelingen kan se kundenes perspektiver som overordnet, mens prosjektledere ser kvalitet som veldefinerte spesifikasjoner og prosesser. Å være bevisst på disse ulike synspunktene kan bidra til å forbedre kommunikasjonen om kvalitet, og følgelig forbedre kvaliteten i seg selv.

Men selv om du har alle på samme side, kan du ha problemer med å finne den rette tilnærmingen. La oss ta observasjonsdata som et eksempel. Denne metoden kan være det beste valget for å svare på forskningsspørsmålene dine, men du kan også støte på problemet med komplekse dataformater, manglende verdier eller store avvik. Dette kan igjen påvirke avkastningen av innsikten og kreve at man velger en annen tilnærming.

For å holde det kort, er det ikke lett å si hva datakvalitet faktisk er. Alle hevder å ha det, men ser man nærmere etter, faller argumentene ofte fra hverandre. Å bare etterlyse et mer helhetlig perspektiv vil trolig være naivt, siden de ulike tilnærmingene i utgangspunktet står i spenning til hverandre. Det betyr ikke at datakvalitet bare er en illusjon eller vilkårlig, men det minner oss om at datakvalitet krever litt innsats og ikke faller på plass av seg selv. Datakvalitet starter uansett med god kommunikasjon av hva som forventes.

Folk som diskuterer

Nå har vi utforsket et teoretisk rammeverk for å kategorisere argumenter knyttet til datakvalitet, og forsøkt å gi en grunnleggende forståelse av de ulike perspektivene i denne diskusjonen. Med dette bredere perspektivet vil vi nå fordype oss i de praktiske aspektene ved datakvalitet, med fokus på hva som er mest relevant og hvordan vi kan oppnå det

Den empiriske tilnærmingen

På 1990-tallet gjennomførte Richard Wang og Diane Strong en interessant studie. I det første trinnet ba de databrukere om å liste opp alle attributter de tenker på når de tenker på datakvalitet. I det andre trinnet ble disse egenskapene rangert etter viktighet. En faktoranalyse reduserte de opprinnelige 179 egenskapene til et mindre sett med dimensjoner for datakvalitet, fordelt på fire hovedkategorier.

Indre datakvalitet

Indre datakvalitet inkluderer “nøyaktighet” og “objektivitet”, noe som betyr at dataene må være korrekte og uten partiskhet. Selv om disse to dimensjonene ser ut til å være ganske selvforklarende, er ikke “Troverdighet” og “Omdømme” like åpenbare. Det er ganske interessant at begrepene ikke handler om dataene i seg selv. I stedet refererer de til datakilden, enten respondentene eller feltarbeiderleverandøren: Respondentene må være ekte og autentiske, mens feltarbeideleverandøren skal være pålitelig og seriøs.

Kontekstuell datakvalitet

Kontekstuell datakvalitet betyr at enkelte aspekter ved datakvalitet kun kan vurderes i lys av den tilsvarende oppgaven. Siden denne konteksten kan variere mye, er det ikke alltid lett å oppnå en høy kontekstuell datakvalitet. De fleste kontekstuelle dimensjonene (verdiøkende, relevans, aktualitet, fullstendighet, passende datamengde) krever grundig planlegging før du setter opp og gjennomfører studien. Det er derimot svært vanskelig å forbedre kontekstavhengig datakvalitet etter at dataene er samlet inn (for eksempel ved å sende påminnelser for å øke fullstendigheten).

Representasjonsdatakvalitet

Representativ datakvalitet refererer til måten data er formatert på (konsis og konsistent) og i hvilken grad du kan inferere mening fra det (tolkbarhet og enkel forståelse). Bare forestill deg datavalideringsrutinene for en nettbasert undersøkelse. Når du for eksempel spør etter respondentenes alder, vil du sørge for at alle (konsekvent) skriver inn alderen i hele år (konsist) eller til og med innenfor aldersgruppene du er spesielt interessert i (lett å forstå). Respondenten vil uansett bli hindret i å sende inn feilaktige eller ekstreme verdier (tolkbarhet).

Tilgjengelighetsdatakvalitet

De to dimensjonene innenfor denne kategorien kan motvirkes, og krever derfor en god balanse. Tilgjengelighet handler om hvor enkelt og uanstrengt data kan hentes frem, mens tilgangssikkerhet handler om hvordan tilgangen kan begrenses og kontrolleres. Disse aspektene har fått økende oppmerksomhet de siste årene – for eksempel online dashboard eller datavarehus.

Mot utmerket datakvalitet

Som vi ser, avhenger “indre datakvalitet” først og fremst av å velge riktig datakilde, “kontekstavhengig datakvalitet” av grundig planlegging av studien, “representativ datakvalitet” av å samle inn data på riktig måte, og “tilgjengelighetsdatakvalitet” av å rapportere data korrekt. Mer generelt gjelder det at vi i hvert trinn av forskningsprosessen står overfor ulike oppgaver og utfordringer som må håndteres for å oppnå best mulig resultat.

I den første delen diskuterte vi hvordan ulike perspektiver på datakvalitet av og til kan konkurrere mot hverandre. Selv om det fortsatt er viktig å ivareta kravene til alle interessenter, er det kanskje enda viktigere at hvert ledd i verdikjeden bidrar til den samlede kvaliteten når data samles inn og behandles. Ettersom forskning har blitt en kompleks prosess med delt ansvar, må vi sørge for at kvalitetsstandardene opprettholdes gjennom hele prosessen.

Relaterte sider

Les mer om datakvalitet hos Norstat

Datakvalitet med Norstat-panelet

Å finne de riktige deltakerne til din unike studie er avgjørende for å oppnå relevante og nyttige data. Basert på vårt omfattende nettverk av respondenter i Europa, sørger vi for at du får tilgang til forbrukerne du leter etter.

Se våre paneler

Panelkvalitet

I jakten på pålitelige data som underbygger avgjørende beslutningstaking, kan ikke viktigheten av et panel av høy kvalitet overvurderes. Men hva er det egentlig som definerer panelkvalitet, og hvordan opprettholder vi den?

Les mer

Forbedre datakvaliteten med algoritmer

Innsikt bør styre handlingene våre ved å gi dem en struktur. Og innsikt følger strukturen til de underliggende dataene. Per definisjon er strukturer stabile og tåler forstyrrelser. Data har lang levetid, og derfor bør kvaliteten betraktes som en ressurs som fortsetter å lønne seg i fremtiden.

Les mer