Wat is datakwaliteit?

Als we praten of schrijven over datakwaliteit in onze branche, lijkt de discussie vaak oppervlakkig en zonder diepgang. Er is veel ruimte voor misverstanden waardoor de discussie achterhaald is. Dit artikel moet helpen om de argumenten in de kwaliteitsdiscussie te classificeren en er meer diepgang in te brengen.

De vijf dimensies van kwaliteit

Laten we beginnen met een algemeen kwaliteitskader om argumenten te lokaliseren in hun semantische veld. Volgens David Garmin (1984) zijn er vijf belangrijke benaderingen van kwaliteit.

bovenzinnelijke benadering

Volgens de bovenzinnelijke benadering wordt kwaliteit gedefinieerd als een aangeboren uitmuntendheid die absoluut en universeel is. “data van hoge kwaliteit moeten perfect en foutloos zijn”. Een algemeen probleem is dat het eigenlijk vrij moeilijk is om te zeggen hoe “perfecte data” eruit ziet en hoe je dat kunt bereiken. Deze aanpak is echter vrij gebruikelijk in onderzoek. Geldigheid als een “transcendent doel” leidt bijvoorbeeld heel vaak tot het probleem van het vinden van een goede afweging tussen interne en externe geldigheid.

Productgerichte aanpak

De productgebaseerde benadering ziet kwaliteit als het resultaat van de juiste ingrediënten en eigenschappen van het product, in ons geval data. “datavan hoge kwaliteit hebben zorgvuldig geselecteerde respondenten in de steekproef, die veel woorden in open tekstvelden schrijven.” De kwaliteit van de data is hier heel tastbaar en kan nauwkeurig worden gemeten. Dit begrip van kwaliteit is echter erg formalistisch en daarom te oppervlakkig.

Op gebruikers gebaseerde aanpak

De gebruikersgebaseerde benadering gaat ervan uit dat verschillende gebruikers verschillende wensen en eisen kunnen hebben. Hier voldoet de hoogste datakwaliteit het best aan deze behoeften. Daarom is datakwaliteit zeer individueel en subjectief: hoge kwaliteit voor de ene gebruiker kan gemiddelde of slechte datakwaliteit zijn voor een andere gebruiker.

Op productie gebaseerde aanpak

De op productie gebaseerde definitie richt zich op het proces van het produceren van data, – of in onderzoeksterminologie: ze richten zich op methodologie. “Goede data word verzameld volgens de wetenschappelijke normen en de beste praktijken van onze industrie”. Hoewel deze aanpak data zeer vergelijkbaar maakt, past hij soms niet bij de taak van de onderzoeker.

Op waarde gebaseerde benadering

Last but not least is er een op waarde gebaseerde benadering, die kwaliteit ziet als een positief rendement op investering (of specifieker: Return On Insight). Hier hebben data een hoge kwaliteit als de kosten om ze te verzamelen minimaal zijn terwijl het voordeel van het gebruik maximaal is. Op het eerste gezicht lijkt deze aanpak legitiem, maar het heeft ook nadelen. Deze aanpak zegt niet veel over de data seigenschappen zelf, maar meer over de informatiebehoeften van de gebruiker.

De vijf dimensies van datakwaliteit: aangeboren uitmuntendheid, methodologie & proces, rendement op inzicht. data-eigenschappen en gebruikerseisen

Concurrerende opvattingen over kwaliteit

Al deze benaderingen leiden vaak tot concurrerende visies op kwaliteit. Dataverzamelaars kunnen bijvoorbeeld aandacht besteden aan methodologie en dataformaten, terwijl kopers van onderzoek zich eerder richten op hun individuele behoeften en het rendement op inzicht. En zelfs binnen bedrijven kunnen er verschillende perspectieven zijn. Leden van de verkoop- of marketingafdeling zien het perspectief van de klant misschien als het allerbelangrijkste, terwijl projectmanagers kwaliteit zien als goed gedefinieerde specificaties en processen. Als je je bewust bent van deze verschillende visies, kan dat helpen om de communicatie over kwaliteit te verbeteren en dus ook de kwaliteit zelf.

Maar zelfs als iedereen op dezelfde golflengte zit, kan het moeilijk zijn om de juiste aanpak te vinden. Laten we observatiedata als voorbeeld nemen. Deze methode kan de beste keuze zijn om je onderzoeksvragen te beantwoorden, maar je kunt ook tegen het probleem van complexe data indelingen, ontbrekende waarden of uitschieters aanlopen. Ook dit kan invloed hebben op het rendement van inzicht en vraagt om een andere aanpak.

Om het kort te houden, het is niet eenvoudig om te zeggen wat datakwaliteit eigenlijk is. Iedereen beweert het te hebben, maar bij nadere beschouwing blijkt dat de bijbehorende argumenten heel vaak uit elkaar vallen. Het zou waarschijnlijk naïef zijn om alleen maar op te roepen tot een meer holistisch perspectief, aangezien de verschillende benaderingen in een natuurlijke spanning staan. Het betekent niet dat datakwaliteit slechts een illusie of willekeur is, maar het herinnert ons eraan dat datakwaliteit enige inspanning vereist en niet vanzelf op zijn plaats valt. In ieder geval begint datakwaliteit met goede communicatie over wat er wordt verwacht.

Mensen discussiëren

In het vorige hoofdstuk verkenden we een theoretisch kader voor het categoriseren van argumenten met betrekking tot datakwaliteit, waardoor we een fundamenteel begrip kregen van de verschillende perspectieven in deze discussie. Met dit bredere perspectief zullen we ons nu verdiepen in de praktische aspecten van datakwaliteit, waarbij we ons richten op wat het meest relevant is en hoe we dat kunnen bereiken

De empirische benadering

Richard Wang en Diane Strong voerden in de jaren 1990 een zeer interessant onderzoek uit. In de eerste stap vroegen ze dataconsumenten om alle kenmerken op te sommen die in hen opkomen als ze aan datakwaliteit denken. In de tweede stap werden deze eigenschappen gerangschikt op belangrijkheid. Een analyse van de factoren bracht de oorspronkelijke 179 kenmerken samen tot een kleinere reeks dimensies van datakwaliteit in vier hoofdcategorieën.

Intrinsieke datakwaliteit

Intrinsieke Kwaliteit van data omvat “Nauwkeurigheid” en “Objectiviteit”, wat betekent dat de data correct en zonder partijdigheid moeten zijn. Terwijl deze twee dimensies vrij vanzelfsprekend lijken, zijn “Geloofwaardigheid” en “Reputatie” niet zo voor de hand liggend. Het is interessant dat ze niet over de data zelf gaan, maar over de bron van de data, de respondenten of de veldwerkaanbieder: respondenten moeten echt en authentiek zijn, terwijl de veldwerkaanbieder betrouwbaar en serieus moet zijn.

Contextuele datakwaliteit

Contextuele datakwaliteit betekent dat sommige aspecten van datakwaliteit alleen kunnen worden beoordeeld in het licht van de betreffende taak. Aangezien deze context erg kan variëren, is het niet altijd eenvoudig om een hoge contextuele datakwaliteit te bereiken. De meeste contextuele dimensies (Toegevoegde waarde, Relevantie, Tijdigheid, Volledigheid, Passende hoeveelheid data) vereisen een grondige planning voordat het onderzoek wordt opgezet en uitgevoerd. Omgekeerd is het heel moeilijk om de kwaliteit van contextuele data te verbeteren als ze eenmaal zijn verzameld (bijv. herinneringen om de volledigheid te verbeteren).

Representatieve datakwaliteit

Representatieve datakwaliteit heeft betrekking op de manier waarop data is geformatteerd (beknopt en consistent) en de mate waarin je er betekenis aan kunt ontlenen (interpreteerbaarheid en begrijpelijkheid). Stel je gewoon de datavalidatieroutines voor een online enquête voor. Als je bijvoorbeeld vraagt naar de leeftijd van de respondenten, zorg er dan voor dat iedereen (consequent) de leeftijd in hele jaren invult (beknopt) of zelfs binnen de leeftijdsgroepen waarin je bijzonder geïnteresseerd bent (begrijpelijkheid). In elk geval wordt het de respondent onmogelijk gemaakt om foutieve of extreme waarden in te dienen (interpreteerbaarheid).

Toegankelijkheid datakwaliteit

De twee dimensies binnen deze categorie kunnen tegengesteld zijn en vereisen daarom een goede balans. Toegankelijkheid gaat over hoe gemakkelijk en moeiteloos data kan worden opgevraagd, terwijl Toegangsbeveiliging gaat over hoe de toegang kan worden beperkt en gecontroleerd. Deze aspecten hebben de afgelopen jaren steeds meer aandacht gekregen – bijvoorbeeld online dashboards of datawarehouses.

Naar een uitstekende datakwaliteit

Zoals je kunt zien, hangt “Intrinsieke Datakwaliteit” vooral af van het selecteren van de juiste databron, “Contextuele Datakwaliteit” van het grondig plannen van het onderzoek, “Representatieve Datakwaliteit” van het op de juiste manier verzamelen van de data en “Toegankelijkheid Datakwaliteit” van het correct rapporteren van de data. Of, meer in het algemeen, in elke fase van het onderzoeksproces moeten we omgaan met verschillende taken en uitdagingen om het best mogelijke resultaat te bereiken.

In de eerste paragraaf hebben we besproken hoe verschillende perspectieven op datakwaliteit soms met elkaar kunnen concurreren. Hoewel het nog steeds waar is dat er in de eerste plaats moet worden voldaan aan de eisen van alle belanghebbenden, is het mogelijk nog belangrijker dat elke schakel in de waardeketen bijdraagt aan de algehele kwaliteit bij het verzamelen en verwerken van de data. Omdat onderzoek een complex proces is geworden met verdeelde verantwoordelijkheden, moeten we ervoor zorgen dat tijdens het hele proces aan de kwaliteitsnormen wordt voldaan.

Gerelateerde pagina’s

Lees meer over datakwaliteit met data van Norstat

Datakwaliteit met het Norstat-panel

Het vinden van de juiste deelnemers voor jouw unieke onderzoek is cruciaal om relevante en bruikbare data te verkrijgen. Op basis van ons uitgebreide netwerk van respondenten in Europa zorgen we ervoor dat je toegang krijgt tot de consumenten die je zoekt.

Bekijk onze panels

Panelkwaliteit

In de zoektocht naar betrouwbare data die cruciale besluitvorming onderbouwen, kan het belang van een kwalitatief hoogstaand panel niet genoeg worden benadrukt. Maar wat is precies de kwaliteit van een panel en hoe houden we die in stand?

Meer lezen

Datakwaliteit verbeteren met algoritmen

Inzicht moet onze acties leiden door ze een structuur te geven. En inzichten volgen de structuur van de onderliggende data. Structuren zijn per definitie stabiel en bestand tegen verstoringen. Data heeft een lange levensduur en daarom moet de kwaliteit ervan worden beschouwd als een aanwinst dat zich in de toekomst blijft terugbetalen.

Meer lezen