I föregående avsnitt undersökte vi ett teoretiskt ramverk för att kategorisera argument relaterade till datakvalitet, vilket ger en grundläggande förståelse för de olika perspektiven i denna diskussion. Med detta bredare perspektiv kommer vi nu att fördjupa oss i de praktiska aspekterna av datakvalitet, med fokus på vad som är mest relevant och hur vi kan uppnå det
Det empiriska tillvägagångssättet
Richard Wang och Diane Strong genomförde ett mycket intressant forskningsarbete på 1990-talet. I det första steget bad de datakonsumenterna att lista alla attribut som de kommer att tänka på när de tänker på datakvalitet. I det andra steget rangordnades dessa attribut efter betydelse. En faktoranalys konsoliderade de ursprungliga 179 attributen till en mindre uppsättning datakvalitetsdimensioner i fyra huvudkategorier.
Inre datakvalitet
Inre datakvalitet omfattar “noggrannhet” och “objektivitet”, vilket innebär att uppgifterna måste vara korrekta och opartiska. Medan dessa två dimensioner verkar vara ganska självförklarande, är “Trovärdighet” och “Rykte” inte lika uppenbara. Det är ganska intressant att de inte handlar om själva uppgifterna utan om källan till uppgifterna, antingen respondenterna eller den som utför fältarbetet: respondenterna måste vara verkliga och autentiska, medan den som utför fältarbetet måste vara pålitlig och seriös.
Kontextuell datakvalitet
Kontextuell datakvalitet innebär att vissa aspekter av datakvalitet endast kan bedömas mot bakgrund av den aktuella uppgiften. Eftersom denna kontext kan variera mycket är det inte alltid lätt att uppnå en hög kontextuell datakvalitet. De flesta av de kontextuella dimensionerna (mervärde, relevans, aktualitet, fullständighet, lämplig mängd data) kräver noggrann planering innan forskningen sätts igång och genomförs. Omvänt är det mycket svårt att förbättra kvaliteten på kontextuella data när de väl har samlats in (t.ex. påminnelser om att förbättra fullständigheten).
Representativ datakvalitet
Kvalitet på representativa data avser hur data är formaterade (kortfattade och konsekventa) och i vilken grad du kan härleda mening från dem (tolkningsbarhet och lättförståelighet). Tänk dig bara datavalideringsrutinerna för en onlineundersökning. När du till exempel frågar efter respondenternas ålder bör du se till att alla (konsekvent) anger åldern i hela år (kortfattat) eller till och med inom de åldersgrupper som du är särskilt intresserad av (lättförståeligt). I vilket fall som helst kommer respondenten att hindras från att lämna felaktiga eller extrema värden (tolkningsbarhet).
Tillgänglighet Datakvalitet
De två dimensionerna inom denna kategori kan vara motsatta och kräver därför en bra balans. Tillgänglighet handlar om hur enkelt och smidigt data kan hämtas, medan åtkomstsäkerhet handlar om hur åtkomsten kan begränsas och kontrolleras. Dessa aspekter har fått allt större uppmärksamhet under de senaste åren – t.ex. online dashboards eller data warehouses.