I forrige avsnitt utforsket vi et teoretisk rammeverk for å kategorisere argumenter knyttet til datakvalitet, og ga en grunnleggende forståelse av de ulike perspektivene i denne diskusjonen. Med dette bredere perspektivet vil vi nå fordype oss i de praktiske aspektene ved datakvalitet, med fokus på hva som er mest relevant og hvordan vi kan oppnå det
Den empiriske tilnærmingen
Richard Wang og Diane Strong utførte et veldig interessant stykke forskning på 1990-tallet. I det første trinnet ba de dataforbrukere om å liste opp alle attributter de tenker på når de tenker på datakvalitet. I det andre trinnet ble disse attributtene rangert etter viktighet. En faktoranalyse konsoliderte de første 179 attributtene til et mindre sett med datakvalitetsdimensjoner i fire hovedkategorier.
Indre datakvalitet
Indre datakvalitet inkluderer “nøyaktighet” og “objektivitet”, noe som betyr at dataene må være korrekte og uten partiskhet. Selv om disse to dimensjonene ser ut til å være ganske selvforklarende, er ikke “Troverdighet” og “Omdømme” så åpenbare. Det er ganske interessant at de ikke handler om selve dataene, men de refererer til datakilden, enten respondentene eller feltarbeidsleverandøren: Respondentene må være ekte og autentiske, mens feltarbeidsleverandøren skal være pålitelig og seriøs.
Kontekstuell datakvalitet
Kontekstuell datakvalitet betyr at enkelte aspekter ved datakvalitet kun kan vurderes i lys av den tilsvarende oppgaven. Siden denne konteksten kan variere mye, er det ikke alltid lett å oppnå en høy kontekstuell datakvalitet. De fleste kontekstuelle dimensjonene (verdiøkende, relevans, aktualitet, fullstendighet, passende datamengde) krever grundig planlegging før du setter opp og gjennomfører forskningen. Motsatt er det veldig vanskelig å forbedre kontekstuell datakvalitet når de først er samlet inn (f.eks. påminnelser om å forbedre fullstendigheten).
Representasjonsdatakvalitet
Representativ datakvalitet refererer til måten data er formatert på (konsis og konsistent) og i hvilken grad du kan utlede mening fra det (tolkbarhet og enkel forståelse). Bare forestill deg datavalideringsrutinene for en nettbasert undersøkelse. Når du for eksempel spør etter respondentenes alder, vil du sørge for at alle (konsekvent) skriver inn alderen i hele år (konsist) eller til og med innenfor aldersgruppene du er spesielt interessert i (lett å forstå). Respondenten vil uansett bli hindret i å sende inn feilaktige eller ekstreme verdier (tolkbarhet).
Tilgjengelighetsdatakvalitet
De to dimensjonene innenfor denne kategorien kan motvirkes, og krever derfor en god balanse. Tilgjengelighet handler om hvor enkelt og uanstrengt data kan hentes frem, mens Access Security handler om hvordan tilgangen kan begrenses og kontrolleres. Disse aspektene har fått økende oppmerksomhet de siste årene – for eksempel online dashboard eller datavarehus.