In het vorige hoofdstuk verkenden we een theoretisch kader voor het categoriseren van argumenten met betrekking tot datakwaliteit, waardoor we een fundamenteel begrip kregen van de verschillende perspectieven in deze discussie. Met dit bredere perspectief zullen we ons nu verdiepen in de praktische aspecten van datakwaliteit, waarbij we ons richten op wat het meest relevant is en hoe we dat kunnen bereiken
De empirische benadering
Richard Wang en Diane Strong voerden in de jaren 1990 een zeer interessant onderzoek uit. In de eerste stap vroegen ze dataconsumenten om alle kenmerken op te sommen die in hen opkomen als ze aan datakwaliteit denken. In de tweede stap werden deze eigenschappen gerangschikt op belangrijkheid. Een analyse van de factoren bracht de oorspronkelijke 179 kenmerken samen tot een kleinere reeks dimensies van datakwaliteit in vier hoofdcategorieën.
Intrinsieke datakwaliteit
Intrinsieke Kwaliteit van data omvat “Nauwkeurigheid” en “Objectiviteit”, wat betekent dat de data correct en zonder partijdigheid moeten zijn. Terwijl deze twee dimensies vrij vanzelfsprekend lijken, zijn “Geloofwaardigheid” en “Reputatie” niet zo voor de hand liggend. Het is interessant dat ze niet over de data zelf gaan, maar over de bron van de data, de respondenten of de veldwerkaanbieder: respondenten moeten echt en authentiek zijn, terwijl de veldwerkaanbieder betrouwbaar en serieus moet zijn.
Contextuele datakwaliteit
Contextuele datakwaliteit betekent dat sommige aspecten van datakwaliteit alleen kunnen worden beoordeeld in het licht van de betreffende taak. Aangezien deze context erg kan variëren, is het niet altijd eenvoudig om een hoge contextuele datakwaliteit te bereiken. De meeste contextuele dimensies (Toegevoegde waarde, Relevantie, Tijdigheid, Volledigheid, Passende hoeveelheid data) vereisen een grondige planning voordat het onderzoek wordt opgezet en uitgevoerd. Omgekeerd is het heel moeilijk om de kwaliteit van contextuele data te verbeteren als ze eenmaal zijn verzameld (bijv. herinneringen om de volledigheid te verbeteren).
Representatieve datakwaliteit
Representatieve datakwaliteit heeft betrekking op de manier waarop data is geformatteerd (beknopt en consistent) en de mate waarin je er betekenis aan kunt ontlenen (interpreteerbaarheid en begrijpelijkheid). Stel je gewoon de datavalidatieroutines voor een online enquête voor. Als je bijvoorbeeld vraagt naar de leeftijd van de respondenten, zorg er dan voor dat iedereen (consequent) de leeftijd in hele jaren invult (beknopt) of zelfs binnen de leeftijdsgroepen waarin je bijzonder geïnteresseerd bent (begrijpelijkheid). In elk geval wordt het de respondent onmogelijk gemaakt om foutieve of extreme waarden in te dienen (interpreteerbaarheid).
Toegankelijkheid datakwaliteit
De twee dimensies binnen deze categorie kunnen tegengesteld zijn en vereisen daarom een goede balans. Toegankelijkheid gaat over hoe gemakkelijk en moeiteloos data kan worden opgevraagd, terwijl Toegangsbeveiliging gaat over hoe de toegang kan worden beperkt en gecontroleerd. Deze aspecten hebben de afgelopen jaren steeds meer aandacht gekregen – bijvoorbeeld online dashboards of datawarehouses.