Hvad er datakvalitet?

Meget ofte, når vi taler eller skriver om datakvalitet i vores branche, synes diskussionen at være overfladisk og mangle dybde. Der er masser af plads til misforståelser, som gør diskussionen som helhed overflødig. Dette indlæg skal hjælpe med at klassificere argumenter i kvalitetsdiskussionen og bringe mere dybde ind i den.

De fem dimensioner af kvalitet

Lad os starte med en generel kvalitetsramme for at lokalisere argumenter i deres semantiske felt. Ifølge David Garmin (1984) er der fem primære tilgange til kvalitet.

Transcendent tilgang

Ifølge den transcendente tilgang defineres kvalitet som en medfødt fortræffelighed, der er absolut og universel. “Data af høj kvalitet skal være perfekte og fejlfri”. Et generelt problem er, at det faktisk er ret svært at sige, hvordan “perfekte data” ser ud, og hvordan man opnår dem. Denne tilgang er dog ret almindelig inden for forskning. Validitet som et “transcendent mål” fører for eksempel meget ofte til problemer med at finde en god afvejning mellem intern og ekstern validitet.

Produktbaseret tilgang

Den produktbaserede tilgang ser kvalitet som et resultat af de rigtige ingredienser og egenskaber ved produktet – i vores tilfælde data. “Data af høj kvalitet har omhyggeligt udvalgte respondenter i stikprøven, som skriver en masse ord i åbne tekstfelter.” Her er datakvaliteten ret håndgribelig og kan måles præcist. Men denne forståelse af kvalitet er meget formalistisk og derfor for overfladisk.

Brugerbaseret tilgang

Den brugerbaserede tilgang tager udgangspunkt i, at forskellige brugere kan have forskellige ønsker og krav. Her er den højeste datakvalitet det, der bedst opfylder disse behov. Derfor er datakvalitet meget individuel og subjektiv: høj kvalitet for én bruger kan være gennemsnitlig eller dårlig datakvalitet for en anden.

Produktionsbaseret tilgang

Den produktionsbaserede definition fokuserer på processen med at producere data, – eller i forskningsterminologi: de fokuserer på metodologi. “Gode data indsamles i overensstemmelse med de videnskabelige standarder og den bedste praksis i vores branche”. Selvom denne tilgang gør data meget sammenlignelige, passer den nogle gange ikke til forskerens aktuelle opgave.

Værdibaseret tilgang

Sidst, men ikke mindst, er der en værdibaseret tilgang, der ser kvalitet som et positivt afkast af investeringen (eller mere specifikt: Return On Insight). Her har data en høj kvalitet, hvis omkostningerne ved at indsamle dem er minimale, mens fordelen ved at bruge dem er maksimal. Ved første øjekast virker denne tilgang legitim, men den har også sine ulemper. Denne tilgang fortæller ikke så meget om selve dataegenskaberne, men mere om brugerens informationsbehov.

De fem dimensioner af datakvalitet: Medfødt ekspertise, metodologi og proces, afkast af indsigt, dataegenskaber og brugerkrav.

Konkurrerende syn på kvalitet

Alle disse tilgange fører meget ofte til konkurrerende syn på kvalitet. Dataindsamlere kan f.eks. være opmærksomme på metodologi og dataformater, mens forskningskøbere snarere fokuserer på deres individuelle behov og Return on Insight. Og selv inden for virksomheder kan der være forskellige perspektiver. Medlemmer af salgs- eller marketingafdelingen ser måske kundernes perspektiv som det vigtigste, mens projektledere ser kvalitet som veldefinerede specifikationer og processer. At være opmærksom på disse forskellige synspunkter kan være med til at forbedre kommunikationen om kvalitet og dermed forbedre selve kvaliteten.

Men selv om alle er enige, kan det være svært at finde den rigtige tilgang. Lad os tage observationsdata som et eksempel. Denne metode kan være det bedste valg til at besvare dine forskningsspørgsmål, men du kan også løbe ind i problemet med komplekse dataformater, manglende værdier eller outliers. Det kan igen have indflydelse på afkastet af indsigten og kræve en anden tilgang.

For at gøre det kort, så er det ikke nemt at sige, hvad datakvalitet egentlig er. Alle hævder at have det, men et nærmere kig afslører, at de tilsvarende argumenter meget ofte falder fra hinanden. Det ville nok være naivt blot at efterlyse et mere holistisk perspektiv, da de forskellige tilgange står i et indbygget spændingsforhold. Det betyder ikke, at datakvalitet bare er en illusion eller vilkårlig, men det minder os om, at datakvalitet kræver en vis indsats og ikke falder på plads af sig selv. Under alle omstændigheder starter datakvalitet med god kommunikation af, hvad der forventes.

Folk, der diskuterer

I det foregående afsnit udforskede vi en teoretisk ramme for kategorisering af argumenter relateret til datakvalitet, hvilket giver en grundlæggende forståelse af de forskellige perspektiver i denne diskussion. Med dette bredere perspektiv vil vi nu dykke ned i de praktiske aspekter af datakvalitet med fokus på, hvad der er mest relevant, og hvordan vi kan opnå det.

Den empiriske tilgang

Richard Wang og Diane Strong udførte et meget interessant stykke forskning i 1990’erne. I det første trin bad de dataforbrugerne om at liste alle de egenskaber, de kom i tanke om, når de tænkte på datakvalitet. I det andet trin blev disse egenskaber rangeret efter vigtighed. En faktoranalyse konsoliderede de oprindelige 179 attributter til et mindre sæt af datakvalitetsdimensioner i fire hovedkategorier.

Iboende datakvalitet

Intrinsisk datakvalitet omfatter “nøjagtighed” og “objektivitet”, hvilket betyder, at dataene skal være korrekte og uden partiskhed. Mens disse to dimensioner synes at være ret selvforklarende, er “troværdighed” og “omdømme” ikke så indlysende. Det er ret interessant, at de ikke handler om selve dataene, men henviser til datakilden, enten respondenterne eller udbyderen af feltarbejdet: respondenterne skal være ægte og autentiske, mens udbyderen af feltarbejdet skal være troværdig og seriøs.

Kontekstuel datakvalitet

Kontekstuel datakvalitet betyder, at nogle aspekter af datakvalitet kun kan vurderes i lyset af den pågældende opgave. Da denne kontekst kan variere meget, er det ikke altid let at opnå en høj kontekstuel datakvalitet. De fleste af de kontekstuelle dimensioner (merværdi, relevans, aktualitet, fuldstændighed, passende mængde data) kræver grundig planlægning, før forskningen sættes i gang og gennemføres. Omvendt er det virkelig svært at forbedre kvaliteten af kontekstuelle data, når de først er blevet indsamlet (f.eks. påmindelser om at forbedre fuldstændigheden).

Repræsentation af datakvalitet

Repræsentationel datakvalitet refererer til den måde, data er formateret på (kortfattet og konsistent), og i hvilken grad du kan udlede mening af dem (fortolkbarhed og let forståelse). Forestil dig blot datavalideringsrutinerne for en onlineundersøgelse. Når du f.eks. spørger om respondenternes alder, skal du sørge for, at alle (konsekvent) indtaster alderen i hele år (kortfattet) eller endda inden for de aldersgrupper, du er særligt interesseret i (letforståeligt). Under alle omstændigheder vil respondenten blive forhindret i at indsende fejlagtige eller ekstreme værdier (fortolkelighed).

Tilgængelighed Datakvalitet

De to dimensioner inden for denne kategori kan være modsatrettede og kræver derfor en god balance. Tilgængelighed handler om, hvor let og ubesværet data kan hentes, mens adgangssikkerhed handler om, hvordan adgangen kan begrænses og kontrolleres. Disse aspekter har fået stigende opmærksomhed i de senere år – f.eks. online dashboards eller data warehouses.

På vej mod fremragende datakvalitet

Som du kan se, afhænger “Intrinsic Data Quality” primært af at vælge den rigtige datakilde, “Contextual Data Quality” af at planlægge undersøgelsen grundigt, “Representational Data Quality” af at indsamle data på den rigtige måde og “Accessibility Data Quality” af at rapportere data korrekt. Eller mere generelt: På hvert trin i forskningsprocessen er vi nødt til at håndtere forskellige opgaver og udfordringer for at opnå det bedst mulige resultat.

I det første afsnit diskuterede vi, hvordan forskellige perspektiver på datakvalitet nogle gange kan konkurrere. Selvom det stadig gælder, at alle interessenters krav skal imødekommes i første omgang, er det måske endnu vigtigere, at alle led i værdikæden bidrager til den overordnede kvalitet, når data indsamles og behandles. Da forskning er blevet en kompleks proces med opdelte ansvarsområder, er vi nødt til at sikre, at kvalitetsstandarderne overholdes gennem hele processen.

Relaterede sider

Læs mere om datakvalitet med data fra Norstat

Datakvalitet med Norstat-panelet

At finde de rigtige deltagere til dit studie er afgørende for at opnå relevante og brugbare data. Baseret på vores omfattende netværk af respondenter i Europa sørger vi for, at du får adgang til de forbrugere, du leder efter.

Se vores paneler

Panelets kvalitet

I jagten på pålidelige data, der understøtter vigtige beslutninger, kan betydningen af et panel af høj kvalitet ikke overvurderes. Men hvad definerer egentlig panelkvalitet, og hvordan opretholder vi den?

Læs mere her

Forbedring af datakvalitet med algoritmer

Indsigt bør lede vores handlinger ved at give dem en struktur. Og indsigter følger strukturen i de underliggende data. Per definition er strukturer stabile og kan modstå forstyrrelser. Data har en lang levetid, og derfor bør deres kvalitet betragtes som et aktiv, der bliver ved med at betale sig i fremtiden.

Læs mere her