Hva er datakvalitet?

Svært ofte, når vi snakker eller skriver om datakvalitet i vår bransje, ser diskusjonen ut til å være overfladisk og mangler dybde. Det er betydelig rom for misforståelser, noe som gjør hele diskusjonen utdatert. Dette innlegget skal bidra til å klassifisere argumenter i kvalitetsdiskusjonen og bringe mer dybde inn i den.

De fem dimensjonene av kvalitet

La oss starte med et generelt rammeverk av kvalitet for å lokalisere argumenter i deres semantiske felt. I følge David Garmin (1984) er det fem hovedtilnærminger til kvalitet.

Transcendent tilnærming

I følge den transcendente tilnærmingen er kvalitet definert som en medfødt fortreffelighet som er absolutt og universell. “Høykvalitetsdata må være perfekt og feilfri”. Et generelt problem er at det faktisk er ganske vanskelig å si hvordan “perfekte data” ser ut og hvordan man oppnår det. Imidlertid er denne tilnærmingen ganske vanlig i forskning. Validitet som et «transcendent mål» fører for eksempel svært ofte til problemer med å finne en god avveining mellom intern og ekstern validitet.

Produktbasert tilnærming

Den produktbaserte tilnærmingen ser på kvalitet som et resultat av de riktige ingrediensene og egenskapene til produktet – i vårt tilfelle data. “Høykvalitetsdata har nøye utvalgt respondenter i utvalget, som skriver mye ord i åpne tekstfelt.” Her er datakvaliteten ganske håndgripelig og kan måles nøyaktig. Denne forståelsen av kvalitet er imidlertid veldig formalistisk og derfor for overfladisk.

Brukerbasert tilnærming

Den brukerbaserte tilnærmingen tar utgangspunkt i at ulike brukere kan ha ulike ønsker og krav. Her er den høyeste datakvaliteten det som best tilfredsstiller disse behovene. Derfor er datakvalitet svært individuell og subjektiv: høy kvalitet for en bruker kan være gjennomsnittlig eller dårlig datakvalitet for en annen.

Produksjonsbasert tilnærming

Den produksjonsbaserte definisjonen fokuserer på prosessen med å produsere data, – eller i forskningsterminologi: de fokuserer på metodikk. “Gode data samles inn i samsvar med vitenskapelige standarder og beste praksis i vår bransje.” Selv om denne tilnærmingen gjør data svært sammenlignbare, passer de noen ganger ikke til forskerens oppgave.

Verdibasert tilnærming

Sist, men ikke minst, er det en verdibasert tilnærming, som ser på kvalitet som en positiv avkastning på investeringen (eller mer spesifikt: Return On Insight). Her har data høy kvalitet dersom kostnadene ved innsamling er minimale mens nytten av å bruke den er maksimal. Ved første øyekast virker denne tilnærmingen legitim, men den har også sine ulemper. Denne tilnærmingen forteller ikke mye om dataegenskapene i seg selv, men mer om informasjonsbehovet til brukeren.

De fem dimensjonene ved datakvalitet: Medfødt fortreffelighet, metodikk og prosess, avkastning på innsikt. dataegenskaper og brukerkrav

Konkurrerende syn på kvalitet

Alle disse tilnærmingene fører veldig ofte til konkurrerende syn på kvalitet. Datainnsamlere kan for eksempel ta hensyn til metodikk og dataformater, mens forskningskjøpere heller fokuserer på deres individuelle behov og Return on Insight. Og selv innenfor bedrifter kan det være ulike perspektiver. Medlemmer av salgs- eller markedsavdelingen kan se kundenes perspektiver som overordnet, mens prosjektledere ser kvalitet som veldefinerte spesifikasjoner og prosesser. Å være bevisst på disse ulike synspunktene kan bidra til å forbedre kommunikasjonen om kvalitet, og følgelig forbedre kvaliteten i seg selv.

Men selv om du har alle på samme side, kan du ha problemer med å finne den rette tilnærmingen. La oss ta observasjonsdata som et eksempel. Denne metoden kan være det beste valget for å svare på forskningsspørsmålene dine, men du kan også støte på problemet med komplekse dataformater, manglende verdier eller uteliggere. Dette kan igjen ha innvirkning på avkastningen på innsikt og kreve en annen tilnærming.

For å holde det kort, er det ikke lett å si hva datakvalitet faktisk er. Alle hevder å ha det, men en nærmere titt avslører at de tilsvarende argumentene veldig ofte faller fra hverandre. Sannsynligvis ville det være naivt å bare etterlyse et mer helhetlig perspektiv, ettersom de ulike tilnærmingene er i en medfødt spenning. Det betyr ikke at datakvalitet bare er en illusjon eller vilkårlig, men det minner oss om at datakvalitet krever litt innsats og ikke faller på plass av seg selv. Datakvalitet starter uansett med god kommunikasjon av hva som forventes.

Folk som diskuterer

I forrige avsnitt utforsket vi et teoretisk rammeverk for å kategorisere argumenter knyttet til datakvalitet, og ga en grunnleggende forståelse av de ulike perspektivene i denne diskusjonen. Med dette bredere perspektivet vil vi nå fordype oss i de praktiske aspektene ved datakvalitet, med fokus på hva som er mest relevant og hvordan vi kan oppnå det

Den empiriske tilnærmingen

Richard Wang og Diane Strong utførte et veldig interessant stykke forskning på 1990-tallet. I det første trinnet ba de dataforbrukere om å liste opp alle attributter de tenker på når de tenker på datakvalitet. I det andre trinnet ble disse attributtene rangert etter viktighet. En faktoranalyse konsoliderte de første 179 attributtene til et mindre sett med datakvalitetsdimensjoner i fire hovedkategorier.

Indre datakvalitet

Indre datakvalitet inkluderer “nøyaktighet” og “objektivitet”, noe som betyr at dataene må være korrekte og uten partiskhet. Selv om disse to dimensjonene ser ut til å være ganske selvforklarende, er ikke “Troverdighet” og “Omdømme” så åpenbare. Det er ganske interessant at de ikke handler om selve dataene, men de refererer til datakilden, enten respondentene eller feltarbeidsleverandøren: Respondentene må være ekte og autentiske, mens feltarbeidsleverandøren skal være pålitelig og seriøs.

Kontekstuell datakvalitet

Kontekstuell datakvalitet betyr at enkelte aspekter ved datakvalitet kun kan vurderes i lys av den tilsvarende oppgaven. Siden denne konteksten kan variere mye, er det ikke alltid lett å oppnå en høy kontekstuell datakvalitet. De fleste kontekstuelle dimensjonene (verdiøkende, relevans, aktualitet, fullstendighet, passende datamengde) krever grundig planlegging før du setter opp og gjennomfører forskningen. Motsatt er det veldig vanskelig å forbedre kontekstuell datakvalitet når de først er samlet inn (f.eks. påminnelser om å forbedre fullstendigheten).

Representasjonsdatakvalitet

Representativ datakvalitet refererer til måten data er formatert på (konsis og konsistent) og i hvilken grad du kan utlede mening fra det (tolkbarhet og enkel forståelse). Bare forestill deg datavalideringsrutinene for en nettbasert undersøkelse. Når du for eksempel spør etter respondentenes alder, vil du sørge for at alle (konsekvent) skriver inn alderen i hele år (konsist) eller til og med innenfor aldersgruppene du er spesielt interessert i (lett å forstå). Respondenten vil uansett bli hindret i å sende inn feilaktige eller ekstreme verdier (tolkbarhet).

Tilgjengelighetsdatakvalitet

De to dimensjonene innenfor denne kategorien kan motvirkes, og krever derfor en god balanse. Tilgjengelighet handler om hvor enkelt og uanstrengt data kan hentes frem, mens Access Security handler om hvordan tilgangen kan begrenses og kontrolleres. Disse aspektene har fått økende oppmerksomhet de siste årene – for eksempel online dashboard eller datavarehus.

Mot utmerket datakvalitet

Som du kan se, avhenger “Intrinsic Data Quality” hovedsakelig av å velge riktig datakilde, “Contextual Data Quality” på å planlegge studien grundig, “Representational Data Quality” på å samle inn dataene på riktig måte og “Accessibility Data Quality” på rapportere dataene riktig. Eller mer generelt, på hvert trinn i forskningsprosessen må vi forholde oss til ulike oppgaver og utfordringer for å oppnå best mulig resultat.

I den første delen diskuterte vi hvordan ulike perspektiver på datakvalitet noen ganger kan konkurrere. Selv om det fortsatt er gyldig at kravene til alle interessenter må ivaretas i utgangspunktet, er det muligens enda viktigere at alle koblinger i verdikjeden bidrar til den generelle kvaliteten ved innsamling og behandling av data. Ettersom forskning har blitt en kompleks prosess med delt ansvar, må vi sørge for at kvalitetsstandarder oppfylles gjennom hele prosessen.

Relaterte sider

Les mer om datakvalitet med data fra Norstat

Datakvalitet med Norstat-panelet

Å finne de riktige deltakerne til din unike studie er avgjørende for å oppnå relevante og nyttige data. Basert på vårt omfattende nettverk av respondenter i Europa, sørger vi for at du får tilgang til forbrukerne du leter etter.

Se våre paneler

Panelkvalitet

I jakten på pålitelige data som underbygger avgjørende beslutningstaking, kan ikke viktigheten av et panel av høy kvalitet overvurderes. Men hva er det egentlig som definerer panelkvalitet, og hvordan opprettholder vi den?

Les mer

Forbedre datakvaliteten med algoritmer

Innsikt bør lede handlingene våre ved å gi dem en struktur. Og innsikt følger strukturen til de underliggende dataene. Per definisjon er strukturer stabile og tåler forstyrrelser. Data har lang levetid, og derfor bør kvaliteten betraktes som en ressurs som fortsetter å lønne seg i fremtiden.

Les mer