I det foregående afsnit udforskede vi en teoretisk ramme for kategorisering af argumenter relateret til datakvalitet, hvilket giver en grundlæggende forståelse af de forskellige perspektiver i denne diskussion. Med dette bredere perspektiv vil vi nu dykke ned i de praktiske aspekter af datakvalitet med fokus på, hvad der er mest relevant, og hvordan vi kan opnå det.
Den empiriske tilgang
Richard Wang og Diane Strong udførte et meget interessant stykke forskning i 1990’erne. I det første trin bad de dataforbrugerne om at liste alle de egenskaber, de kom i tanke om, når de tænkte på datakvalitet. I det andet trin blev disse egenskaber rangeret efter vigtighed. En faktoranalyse konsoliderede de oprindelige 179 attributter til et mindre sæt af datakvalitetsdimensioner i fire hovedkategorier.
Iboende datakvalitet
Intrinsisk datakvalitet omfatter “nøjagtighed” og “objektivitet”, hvilket betyder, at dataene skal være korrekte og uden partiskhed. Mens disse to dimensioner synes at være ret selvforklarende, er “troværdighed” og “omdømme” ikke så indlysende. Det er ret interessant, at de ikke handler om selve dataene, men henviser til datakilden, enten respondenterne eller udbyderen af feltarbejdet: respondenterne skal være ægte og autentiske, mens udbyderen af feltarbejdet skal være troværdig og seriøs.
Kontekstuel datakvalitet
Kontekstuel datakvalitet betyder, at nogle aspekter af datakvalitet kun kan vurderes i lyset af den pågældende opgave. Da denne kontekst kan variere meget, er det ikke altid let at opnå en høj kontekstuel datakvalitet. De fleste af de kontekstuelle dimensioner (merværdi, relevans, aktualitet, fuldstændighed, passende mængde data) kræver grundig planlægning, før forskningen sættes i gang og gennemføres. Omvendt er det virkelig svært at forbedre kvaliteten af kontekstuelle data, når de først er blevet indsamlet (f.eks. påmindelser om at forbedre fuldstændigheden).
Repræsentation af datakvalitet
Repræsentationel datakvalitet refererer til den måde, data er formateret på (kortfattet og konsistent), og i hvilken grad du kan udlede mening af dem (fortolkbarhed og let forståelse). Forestil dig blot datavalideringsrutinerne for en onlineundersøgelse. Når du f.eks. spørger om respondenternes alder, skal du sørge for, at alle (konsekvent) indtaster alderen i hele år (kortfattet) eller endda inden for de aldersgrupper, du er særligt interesseret i (letforståeligt). Under alle omstændigheder vil respondenten blive forhindret i at indsende fejlagtige eller ekstreme værdier (fortolkelighed).
Tilgængelighed Datakvalitet
De to dimensioner inden for denne kategori kan være modsatrettede og kræver derfor en god balance. Tilgængelighed handler om, hvor let og ubesværet data kan hentes, mens adgangssikkerhed handler om, hvordan adgangen kan begrænses og kontrolleres. Disse aspekter har fået stigende opmærksomhed i de senere år – f.eks. online dashboards eller data warehouses.