
Nå har vi utforsket et teoretisk rammeverk for å kategorisere argumenter knyttet til datakvalitet, og forsøkt å gi en grunnleggende forståelse av de ulike perspektivene i denne diskusjonen. Med dette bredere perspektivet vil vi nå fordype oss i de praktiske aspektene ved datakvalitet, med fokus på hva som er mest relevant og hvordan vi kan oppnå det
Den empiriske tilnærmingen
På 1990-tallet gjennomførte Richard Wang og Diane Strong en interessant studie. I det første trinnet ba de databrukere om å liste opp alle attributter de tenker på når de tenker på datakvalitet. I det andre trinnet ble disse egenskapene rangert etter viktighet. En faktoranalyse reduserte de opprinnelige 179 egenskapene til et mindre sett med dimensjoner for datakvalitet, fordelt på fire hovedkategorier.
Indre datakvalitet
Indre datakvalitet inkluderer “nøyaktighet” og “objektivitet”, noe som betyr at dataene må være korrekte og uten partiskhet. Selv om disse to dimensjonene ser ut til å være ganske selvforklarende, er ikke “Troverdighet” og “Omdømme” like åpenbare. Det er ganske interessant at begrepene ikke handler om dataene i seg selv. I stedet refererer de til datakilden, enten respondentene eller feltarbeiderleverandøren: Respondentene må være ekte og autentiske, mens feltarbeideleverandøren skal være pålitelig og seriøs.
Kontekstuell datakvalitet
Kontekstuell datakvalitet betyr at enkelte aspekter ved datakvalitet kun kan vurderes i lys av den tilsvarende oppgaven. Siden denne konteksten kan variere mye, er det ikke alltid lett å oppnå en høy kontekstuell datakvalitet. De fleste kontekstuelle dimensjonene (verdiøkende, relevans, aktualitet, fullstendighet, passende datamengde) krever grundig planlegging før du setter opp og gjennomfører studien. Det er derimot svært vanskelig å forbedre kontekstavhengig datakvalitet etter at dataene er samlet inn (for eksempel ved å sende påminnelser for å øke fullstendigheten).
Representasjonsdatakvalitet
Representativ datakvalitet refererer til måten data er formatert på (konsis og konsistent) og i hvilken grad du kan inferere mening fra det (tolkbarhet og enkel forståelse). Bare forestill deg datavalideringsrutinene for en nettbasert undersøkelse. Når du for eksempel spør etter respondentenes alder, vil du sørge for at alle (konsekvent) skriver inn alderen i hele år (konsist) eller til og med innenfor aldersgruppene du er spesielt interessert i (lett å forstå). Respondenten vil uansett bli hindret i å sende inn feilaktige eller ekstreme verdier (tolkbarhet).
Tilgjengelighetsdatakvalitet
De to dimensjonene innenfor denne kategorien kan motvirkes, og krever derfor en god balanse. Tilgjengelighet handler om hvor enkelt og uanstrengt data kan hentes frem, mens tilgangssikkerhet handler om hvordan tilgangen kan begrenses og kontrolleres. Disse aspektene har fått økende oppmerksomhet de siste årene – for eksempel online dashboard eller datavarehus.